L'enrichissement du vocabulaire : suite 3 de la mise en ligne

 

 

D. Pourquoi la fréquence ?

 

 

1. Du French Word Book au Vocabulaire orthographique de base

 

 

Hommage soit donc ici rendu à ces étrangers, seulement préoccupés d'un meilleur apprentissage de notre langue, qui ont discuté avec passion et parfois avec véhémence de l'utilité de la fréquence, et de la nécessité de la tempérer par la notion de disponibilité, près de trente années avant que cette notion ne fasse sa réapparition chez nous au sein de l'équipe du Français Fondamental ! Et stupéfaction de constater que nous avons alors repris à zéro des discussions et des disputes qui avaient déjà été menées à bien, mais dont nous n'avions pas eu (ou voulu avoir) connaissance... Faut-il vraiment en tirer la conclusion que l'influence du français ne perdurera que par l'effort de ceux dont il n'est pas la langue mère ? On ajoutera que le premier acquis des recherches dont nous avons brossé à grands traits les développements, devrait évidemment être d'avoir tordu le cou aux idées reçues, et à tout le moins d'empêcher de dire n'importe quoi. Nous prendrons comme exemple significatif cette opinion de l'écrivain Jean-Pierre Chabrol, telle qu'on a pu la lire dans Le Monde(1) : "Racine écrivait avec mille mots ; le peuple, à son époque, parlait avec vingt-cinq mille [...]. Racine, mille mots pour plaire au roi, aussi beaux et utiles que l'épée d'un académicien [...]. Qui nous rendra les vingt-quatre mille mots de nos pères ?". De tels propos sont littéralement confondants, mais encore faut-il procéder à un solide examen critique et à une rectification, fondés l'un et l'autre sur des preuves irréfutables.

C'est précisément à ce difficile exercice que s'est livré ‘sans grande illusion’, dans le même media, un spécialiste français de la lexicologie, Charles Muller(2). Dénonçant le caractère "hautement invraisemblable" des vingt-quatre mille mots "prêtés au peuple de l'époque classique", Muller assène quelques vérités sur les pièces de Racine ou de Corneille(3). Mais tout cela, pourra-t-on dire, n'a que très peu d'importance. Dès lors, quel est le réel intérêt d'exhumer des études aujourd'hui totalement oubliées ? Il est, selon nous, de deux ordres : le travail pédagogique à partir de la fréquence, et la promotion de la francophonie.

On comprendra aisément que nous partagions le point de vue de C. Gruaz, lorsqu'il écrit que "la fréquence [...] devrait être une préoccupation permanente pour le maître [...]. Le maître pourra avantageusement privilégier les mots les plus fréquents afin d’assurer l’acquisition du noyau central de la langue"(4). Car les listes de fréquence permettent de cerner "le centre fonctionnel du vocabulaire". Mais on précisera aussitôt, avec N. Catach, que les listes de fréquence "sont une référence, non un objectif". Travailler à partir d’elles n’est que "l’instauration d’une attitude nouvelle, à la fois plus prudente et plus ouverte, en matière d’enseignement du vocabulaire, et en général du français"(5).

Il ne s’agit donc que d’un point de départ. Ici, nous proposerons, comme outils à la fois commodes et fiables, l’Échelle Dubois-Buyse et le Vocabulaire Orthographique de Base(6). À l'intérieur de supports textuels sur lesquels nous aurons à revenir, on n'étudiera en profondeur que des mots qui figurent dans ces répertoires, et en priorité ceux dont le rendement lexical (formes obtenues par dérivation et composition) est élevé. Naturellement, on pourra tout aussi bien se servir des extraits de listes qu’on trouvera en Annexe(7).

Mais le deuxième usage des listes de fréquence lexicale nous paraît être, nous l’avons signalé en introduction, la promotion de la francophonie. Certes, affirmant cela, nous ne faisons pas œuvre originale : c’était, on se le rappelle, l’un des objectifs de ceux qui participèrent à l’élaboration du Français Fondamental(8). Et cet objectif, en dépit des attaques outrancières ou grossières qu'il a subies, demeure plus que jamais indispensable. Dans une Europe dite des Douze - récemment devenue des Quinze -, au sein des instances de laquelle onze langues, pour le moins, sont parlées(9), l’enjeu se situe - au-delà de l’égalité linguistique pour les documents officiels - entre deux d’entre elles, le français et l’anglais. On pourrait à nouveau reprendre les travaux de G. Gougenheim et de ses collaborateurs : ils n’ont pas vieilli. Car le but des concepteurs du FF, comme l'indiquait l'article du Monde cité supra(10), était de « préparer une langue française de base, assimilable rapidement par les populations les moins perméables à notre culture ». Travailler inlassablement sur le noyau dur de la langue revient ainsi à donner au français toute sa place dans le monde contemporain, à le promouvoir comme langue internationale, à lutter contre la suprématie de l'anglo-américain, pour ne pas dire l'usage exclusif du tout-anglais. Pour résister efficacement au mono-culturalisme mondial, aux couleurs américaines(11), cette tâche apparemment obscure vaut largement plus, selon nous, que tous les sommets de la francophonie réunis.

 

2. Arroser le sable

 

Le travail pédagogique à partir de la notion de fréquence lexicale est aussi, naturellement, l'objectif des chercheurs s'efforçant de remédier à la pagaille présidant à la constitution des ouvrages scolaires : partir de l'acquisition d'un vocabulaire véritablement fondamental, puisque très utilisé, et bâtir sur ce socle. Dès 1930 en effet, Henmon pouvait écrire : "Our textbooks are a veritable tower of Babel"(12). Et on rappellera qu'il s'appuyait, entre autres travaux, sur l'étude de D. A. Prescott(13), lequel constatait : "Cela n'a aucune valeur de remplir un manuel de mots qu'on emploie rarement dans la conversation ou la littérature. On devrait tâcher systématiquement d'enseigner avant tout les mots les plus usités. Ceux-ci sont les plus utiles à l'enfant, parce qu'ils sont les plus fréquemment employés pour acquérir et communiquer ses expériences à d'autres"(14). C'est pourquoi nous allons passer brièvement en revue deux autres travaux, qui ont également le souci de ne pas arroser le sable, selon l'heureuse expression des Instructions officielles.

 

a). C. Johnson, une échelle de difficulté des textes

 

C. L. Johnson(15) estime qu'on ne peut se satisfaire des partitions effectuées par les libraires en textes élémentaires, moyens et supérieurs, formulées davantage "pour séduire le client imprudent", que selon de réels critères pédagogiques. Il propose donc, pour sa part, une échelle de difficulté des textes, prenant essentiellement appui sur le paramètre 'difficulté du vocabulaire', selon lui inversement proportionnel à la fréquence(16), qu'il combine, en une formule savante, avec le range(17). Ainsi obtient-il une liste de 1 695 mots fréquents, dont il se sert pour évaluer le degré de difficulté de 37 ouvrages très utilisés aux États-Unis, dans les classes de français. Dans l’échelle ainsi dressée, nous allons du Bourgeois Gentilhomme (indice 51, soit 51 mots hors liste de fréquence sur 1000 recensés) à Tartarin sur les Alpes (indice 157)(18).

 

b). J. Haygood, une approche de la lisibilité

 

L'étude de James Haygood(19), à la vérité plus importante, retiendra davantage notre attention, quand bien même elle ne date pas d'hier (1937). Comme le montre son sous-titre, elle ne s'adresse pas directement à nous, pas davantage que les relevés d'Henmon ou de Vander Beke. Elle se propose en effet d'établir un vocabulaire rationnel pour améliorer le rendement de l'enseignement des langues étrangères. Car Haygood essaie de répondre à une question "si souvent posée : comment s'explique la mauvaise situation de l'enseignement des langues vivantes aux États-Unis ?"(20) Citant un auteur français, il estime qu'on dirait "que la seule ambition [des auteurs de manuels] est de bourrer leurs livres du plus grand nombre de mots possible, notés au hasard de leur inspiration"(21). Il entreprend donc d'établir un vocabulaire ‘standardisé’, ou fondamental, pour arriver le plus vite possible à "s'exprimer de façon adéquate dans une langue nouvelle"(22). Mais, dans l'esprit d'Haygood, comme dans le nôtre, il ne s'agit là que d'un outil de travail, d'un point de départ, d'une base qui, fortement maîtrisée, autorise tous les approfondissements possibles et souhaitables. Pour résoudre le problème posé, Haygood s'efforce de déterminer l'étendue d'un vocabulaire fondamental, et de choisir les mots qui doivent le constituer(23). La réponse à la deuxième question ne fait évidemment pas de problème : notre auteur en appelle à la liste de fréquence établie par Vander Beke. Pour répondre, en revanche, à la première question, Haygood teste plusieurs hypothèses ‘grandeur nature’, à partir de cinq romans français(24), et en scindant la liste de Vander Beke en ‘tranches’ de 500 mots(25). Comme on pouvait s'y attendre, la première tranche est la plus intéressante, ou la plus productive (autour de 20 % des mots), alors que le rendement obtenu chute considérablement dès la seconde :

 

 

2e tranche 501 à 1 000 6, 19 %
3e tranche 1 001 à 1 500 3, 54 %
4e tranche 1 501 à 2 000 2, 12 %
Total
501 à 2 000 11, 85 %

 

Haygood en conclut que 2 069 mots suffisent pour lire et comprendre des œuvres littéraires de moyenne difficulté, voire même 1 500 plus quelques gallicismes de base(26). Mais, s'agissant de l'optique qui nous concerne, un resserrement beaucoup plus drastique nous paraît s'imposer ; les ‘69 mots’ et la première tranche de 500 mots donnent un rendement moyen de près de 78 %(27), ce qui paraît très suffisant pour un vocabulaire de base. Un autre intérêt de la liste Haygood est de regrouper les 2 000 premiers mots de Vander Beke selon 28 catégories, ou centres d'intérêt(28), ce qui préfigure le travail accompli dans le Vocabulaire Orthographique de Base, à vrai dire effectué à partir d'une tout autre base, celle d'Aristizabal(29). Ce remarquable travail, pris dans un autre sens, peut, comme celui de Prescott, préfigurer les travaux concernant la lisibilité, et fournir d'utiles indications sur le degré de difficulté d'un texte(30).

 

3. Usages des listes

 

a). Le problème des mots-outils

 

Parler de fréquence lexicale, nous l'avons vu, c'est d'abord citer les travaux pionniers d'Henmon et de Vander Beke, références obligées en la matière, alors que, paradoxalement, il s'agit de recherches qu'on ne connaît que de seconde main(31). L'étude de V.A.C. Henmon, popularisée en France à partir des travaux concernant le ‘français élémentaire’ et le Vocabulaire orthographique de base(32), est la première à avoir attiré l'attention sur l'importance capitale d'un nombre très restreint de mots dans l'économie d'une langue. Cette liste de mots-outils (on voudra bien la trouver page suivante), dont l'initiative de la constitution revient d'ailleurs à Vander Beke(33), se situe à l'écart des violentes polémiques sur ce qu'on nomme le vocabulaire de base. Elle constitue une référence dont on ne peut guère se passer ; elle comprend en effet les mots de relation sans lesquels le discours ne fonctionne pas, car ils assurent la cohérence de la communication (lieu, temps, liens logiques) : "Il y a grand intérêt à faire maîtriser de bonne heure [ces] mots-outils,... le plus souvent des monosyllabes et dont beaucoup sont des homonymes redoutables"(34). À faire maîtriser, cela signifie qu'il convient d' "entraîner l'enfant à faire fonctionner les mots et les tournures qui en sont indissociables". Ajoutons qu’au nombre de ces termes très fréquents, donc fondamentaux à connaître, figurent beaucoup de verbes dits irréguliers, dont les paradigmes les plus usuels se doivent d’être maîtrisés.

 

 

La liste d'Henmon

 

 

Mots Fréquences   Mots Fréquences
             
1 le, la, l' 27 749   36 leur, leurs (pron. et adj.)
1 032
2 de, du, des 21 948   37 en (pro.) 1 023
3 à, au, aux 8 581   38 comme 1 017
4 être (v.) 8 242   39 si (if & so)
1 016
5 et 7 628   40 homme    960
6 un, une (art. + num.)
7 381   41 y    949
7 je, me, moi 6 021   42 même    844
8 avoir 5 488   43 aller    843
9 il, ils
5 459   44 voir    823
10 que (conj.)
5 129   45 grand    813
11 ce, cet, cette, ces
4 800   46 ou    773
12 ne... pas
4 195   47 pouvoir (v.)
   762
13 son, sa, ses (adj.)
3 552   48 sans    711
14 se 3 467   49 deux    702
15 elle, elles
3 182   50 tu, te, toi
   698
16 qui
3 037   51 autre
   695
17 dans
2 664   52 petit
   686
18 en (prép.)
2 505   53 vouloir
   601
19 tout
2 442   54 donner
   577
20 pas (adv.)
2 226   55 savoir
  561
21 vous
2 061   56 celui, celle
   547
22 faire
1 818   57 quand
   547
23 mon, ma, mes
1 789   58 votre, vos
  522
24 plus (adv.)
1 734   59 venir
   503
25 dire
1 664   60 bon
   483
26 nous
1 619   61 prendre
   481
27 on
1 540   62 femme
   477
28 lui (pron.)
1 501   63 jour
   476
29 mais
1 474   64 quelque
   470
30 par
1 474   65 notre, nos
   464
31 sur (prép.)
1 377   66 enfant
   453
32 avec
1 351   67
   453
33 pour
1 279   (68)
 (là)  (445)
34 que (pron. + relat.)
1 216    (69)  (aussi)  (423)
35 bien
1 104   (70)
 (chose)  (423)

 

 

Il va de soi qu'on entend par ‘liste’, non la recherche complète rassemblant 3 901 mots(35) dont la connaissance exhaustive relève aujourd'hui de l'anecdote historique, si l'on en croit son auteur lui-même, mais les tout premiers, jusqu'à la fréquence absolue 450 incluse(36). Il est d’ailleurs intéressant de la confronter aux vocables les plus fréquents de F. Mitterrand(37), recueillis à partir d’un corpus oral (de 305 124 mots). Malgré cette différence, pour ne pas parler des trois quarts de siècle de distance, tous les mots-outils d’Henmon se retrouvent, souvent dans le même ordre, au début de l’index hiérarchique dressé par D. Labbé (à l’exception des adjectifs numéraux, qui abondent dans les discours de l’ancien Président ; de tu, te, toi ; de petit ; de votre, et de enfant).

Ces travaux ont été repris sous d'autres formes, en particulier par des chercheurs belges préparant des thèses sous la direction du professeur R. Buyse. Il s'agissait alors, toujours en partant de corpus écrits, mais essentiellement par des enfants, de rechercher les mots les plus fréquents, les graphies les plus erronées, bref de déterminer expérimentalement l'évolution de la maîtrise orthographique(38). Deux ouvrages ont popularisé chez nous les recherches belges : l’Échelle Dubois-Buyse, comme le Vocabulaire orthographique de base(39), sont issus de travaux effectués à Louvain. Ces recherches, dont la base demeure l’index d’Aristizabal(40), ont recensé les erreurs orthographiques présentes dans l’index, en fonction de l’âge des scripteurs. Les noms de F. Dubois, de J. Lambert et d’A. Pirenne peuvent être cités parmi les élèves de Buyse. Dubois, en particulier, a retenu 3 725 mots de l’enquête d’Aristizabal, dressant ainsi une échelle subdivisée en 43 échelons, laquelle permet de mesurer aisément l’acquis en orthographe d’une classe (ou d’un élève) donnée. Le V. O. B. est une base de près de 9 000 mots, établie par synthèse de différentes listes(41), au nombre desquels figurent, naturellement, les 3 725 mots de Dubois. Cette base se trouve répartie en 59 centres d’études(42), et nous paraît constituer un solide instrument de travail pour le maître.

Il va sans dire que les mots-outils d'Henmon ne constituent pas forcément une liste canonique intangible. La coupure établie par Henmon à la fréquence 450 pourrait être sans inconvénient déplacée, dans l'un ou l'autre sens. Ce n'est que par souci de vérité historique que nous avons donné ci-dessus la vraie liste, tirée de l'ouvrage même du professeur de l'Université du Wisconsin. P. Lafon, par exemple, a établi récemment un inventaire de 333 "formes fonctionnelles" (formes fléchies les plus fréquemment rencontrées dans sa recherche, auxquelles il adjoint quelques mots-outils), qu'il oppose aux formes lexicales. Il déclare lui-même ce glossaire "arbitraire et peu satisfaisant, mais opératoire"(43). La différence d'avec la liste d'Henmon réside d'une part dans le degré de lemmatisation(44), mais aussi dans les corpus analysés(45). Ce qui entraîne que vingt et un mots-outils d'Henmon ne figurent pas chez Lafon, tandis que cent vingt formes du glossaire dressé par ce dernier sont absents des ‘69 mots’.

 

* Comment ces mots-outils peuvent-ils arriver dans la classe ?

 

  - par les productions des enfants (entretiens, textes ‘libres’, lettres aux correspondants, comptes-rendus...).

  - par les phrases des manuels en usage.

 

* Possibilités :

 


. grouper ces mots et syntagmes sur un tableau dit didactique.
. les inscrire ou les faire inscrire en vrac.
. les disposer de telle sorte que les enfants prennent intuitivement conscience ("approche globale") des différentes catégories.
. les faire classer selon des critères que les enfants se donneraient et qui évolueraient, d'année en année, avec leur connaissance de la langue.

 

* Formules qui reviennent souvent (et qu'il serait judicieux de présenter aux apprenants, dès la fin du Cycle des apprentissages premiers, et en début de C.P.) :

 

 
c'est.... qui, je suis, il est,      
il faut, il vaut,
j'ai, il a,          
je fais, je vais,
il fait, nous faisons, en faisant          
il va, je viens, il vient,           
je veux, il veut, je peux, il peut.

 

* Formes verbales les plus usitées, avec lesquelles l'élève doit être familiarisé(46) :

 


1. être (est était sont été étaient fut êtes serait) je suis/tu es tu es/il est il était/ils étaient il est/ils sont c'est/c'était.
2. avoir (a ai avait ont avons avez as eut) il a/il avait/il aura ils ont/ils sont il est/il a/il va.
3. faire (fait faisait fais faites fera ferait fit font) je fais/je vais ils font/ils vont tu fais/vous faites il fait/il sait.
4. dire (dit dis dites disait dirait disais dirai disent) on dit/on dirait/on disait.       
5. vouloir (veut veux voulez voulu[e] voudrais voulait veulent) je veux/je peux il voulait/il pouvait.
6. aller (va allons allez allait vais allé[e] vont ira) je vais/je fais elles vont/elles font ils ont/ils sont/ils vont.
7. voir (vu voit voyez voyait verrons voyons voyais) il voit/il va. 
8. pouvoir (peut pu pouvait peuvent pourrai peux pourra pouvons) je peux/je veux il peut/il veut il pouvait/il voulait il pouvait/il pourrait.

 

* Autres " mots grammaticaux " (cycle III) :

 


là - aussi - ça - cela - peu - encore - puis - depuis - rien - après - non - toujours - sous - dessous - dessus - jamais - très - alors - moins - car - chez - dès - oui - pourquoi.

 

* Autres verbes d'importance :

 


trouver - mettre - devoir - répondre - passer - falloir - regarder - parler - croire - demander - aimer - appeler - laisser - entendre - arriver - rester - recevoir - porter - connaître - penser - tenir - rendre - partir.

 

 

b). Le vocabulaire d'un auteur

 

Si l'on désigne l'ensemble des mots de la langue par le substantif lexique, on nommera vocabulaire la partie du lexique effectivement utilisée par tel ou tel auteur, ou encore sa propre objectivation du lexique. Les listes de fréquence, constituées à partir de multiples extraits de genres et d'auteurs différents, peuvent donc être considérées comme une image moyenne, ou neutre, de l'écrit ; mettre en regard les vocabulaires de tel ou tel auteur est sans doute un moyen d'apprendre beaucoup sur sa spécificité profonde et son style(47).

On sait que les structuralistes se sont essayés, avec souvent de réels bonheurs - qu'on songe aux études de Charles Mauron(48) - à cette tâche, mais sans l'aide des moyens qui sont mis aujourd'hui à notre disposition, soit qu'ils ne les connussent point, soit qu'ils les négligeassent.

Pierre Guiraud est assurément le premier à avoir conçu l'idée de la confrontation que nous indiquons, et on trouvera quelques résultats de ses patientes recherches dans un opuscule multi-graphié qui est malheureusement très difficile d’accès, et qui comporte de nombreuses erreurs, nous voulons parler de l'Index du vocabulaire de Symbolisme(49). Guiraud parle de mots-thèmes et de mots-clés d'un auteur. L'index hiérarchique des œuvres (d'une œuvre) d'un auteur étant dressé (les mots-outils, nommés pro-clitiques ou encore mots de structure par Guiraud, étant écartés du comptage), les mots-thèmes, ceux qui sont le plus utilisés par l'auteur, apparaissent au début (puisqu'ils ont la plus haute fréquence absolue). On peut alors comparer le rang de chaque élément de cet index, à celui qu'il occupe dans une liste de fréquence choisie comme référence(50). On constate que certains mots occupent des places voisines dans l'un et l'autre index ; d'autres, au contraire, ‘anormales’, selon le mot de Guiraud.

Prenons un exemple : dans l'ouvrage d'Apollinaire, Alcools, automne occupe la 75e place ; chez Vander Beke en revanche, ce mot arrive à la 2 675e place. Il s'agit d'un des mots-clés (ceux qui ont la plus forte fréquence relative) d'Apollinaire, dont on peut calculer l'indice(51). Cet indice est de 51 pour automne, de 41 pour flamme, etc. Automne et flamme sont donc les deux premiers mots-clés d'Alcools.

Si l'on esquisse le même type d'étude au sujet des substantifs (en se limitant aux vingt premiers) dans les Fleurs du Mal, de Baudelaire, toujours en référence à la liste de Vander Beke, on constate que les dix premiers mots-thèmes sont : cœur, œil (yeux), ciel (cieux), âme, soleil, mort, amour, beauté, soir, ange. Cependant que les dix premiers mots-clés sont : ange (indice : 49), parfum, beauté, douleur, ciel (cieux), soleil, cœur, âme, amour, mort (indice : 14)(52).

De nombreuses autres directions de travaux pourraient être ici mentionnées, dont il va sans dire qu’elles dépassent de loin le cadre strict de l’école élémentaire. Toutes témoigneraient de l’originalité de cette perspective, et de sa fécondité(53). Car si le langage peut aussi être l’objet d’une étude quantitative, alors il n’est plus une entité inaccessible à la plupart, mais un outil au service de tous.

Nous pouvons maintenant, nous appuyant sur ce qui vient d'être rapporté, nous essayer à une esquisse de la pédagogie du vocabulaire.

 

Notes

(1) Exprimée au sein d'un article par ailleurs sensé (série Hypothèses d'écoles, titre "Gentils enfants de Port de Bouc"), dans le n° du 10 janvier 1980.
(2) N° du 16 juillet 1980, p. 14.
(3) En particulier, ce fait que la pièce la plus directement écrite "pour plaire au roi", Esther, est aussi la plus riche au point de vue lexical.
(4) "Fréquence et Pédagogie de l'orthographe", in BREF (Larousse, n° 22, mai 1980), p. 42. Claude Gruaz s'exprime, il est vrai, sur l’apprentissage orthographique. C’est aussi ce que pense Anne Delgado ("Les Listes de fréquence, leur utilité, leur exploitation", in Liaisons-Heso n° 14, 1986, p. 77), lorsqu’elle écrit que le travail sur les listes permet la mise en place de situations d’apprentissage dans le cadre d’une pédagogie de l’inférence (nous parlerions plus volontiers d’une démarche inductive). Les listes ne sont pour elle que des "supports visuels indispensables à la résolution de problèmes de langue".
(5) Les listes orthographiques de base du français (LOB), Nathan, 1984, p. 3.
(6) Ters (F.), Mayer (G.), Reichenbach (D.), Vocabulaire orthographique de base, OCDL, 4e éd. 1977, 299 p.
Ters (F.), Mayer (G.), Reichenbach (D.), L'échelle Dubois-Buyse d'orthographe usuelle française, OCDL, 5e éd. 1977, 93 p. Cf. aussi infra, 3. a). Le problème des mots-outils.
(7) Annexes 2 et 3, en particulier.
(8) Cf. fichier précédent, paragraphe 5, "La notion de fréquence : oppositions et critiques".
(9) C'est ainsi que, pour la seule année 1994, le budget communautaire consacré aux traductions s'est élevé à l'équivalent de 5 milliards de francs français ! Pour douze langues, en effet, les combinaisons s'élèvent à 72 ; alors que pour deux langues de travail, il n'y aurait plus que deux traductions nécessaires, anglaise et française.
(10) Livraison du 1er novembre 1951, p. 5.
(11) D'après Le Monde du 6 décembre 1995, p. 3.
(12) Henmon (V.A.C.), "The Vocabulary Problem in the Modern Foreign Languages", Monatshefte für deutschen Unterricht, volume XXII, février 1930, n° 2, p. 35.
(13) Cf. fichier précédent, paragraphe B (4), "D. Prescott".
(14) Prescott (D.A.), "Le vocabulaire des enfants et des manuels de lecture", Archives de Psychologie, tome XXI, 1929, n° 83-84, p. 226.
(15) Johnson (Carl L.), "Vocabulary Difficulty and Textbook Selection", Modern Language Journal, n° 5, 1927, pp. 290-297.
(16) Ibid., p. 291 : "The assumption was made that the students will know best those words which occur most frequently".
(17) Établie à partir d'une recherche effectuée dans une vingtaine de textes choisis à cet effet. La formule est :

 cljohn

S : le range. F : fréquence Henmon. 50 : les mots relevés l'ont été par groupes de cinquante. On se souvient que le range, ou répartition, est le nombre de tranches de textes dans lesquelles le mot a été rencontré. Pour Vander Beke, le range prime la fréquence. Un mot rencontré dix fois chez un même auteur est moins important, à ses yeux, qu’un mot rencontré une fois chez cinq auteurs différents
(18) En passant par La Mare au Diable (65), L'Abbé Constantin (76), Le Malade imaginaire (84), Le Cid (96), Les Misérables (102), Pêcheur d'Islande (117) et Tartarin de Tarascon (137). Cette échelle, on le soulignera, oblitère totalement la notion de difficulté syntaxique d’un texte. La difficulté, qui apparaît lorsque le décalage est trop important entre ce que demande la tâche et les possibilités du sujet, ne renvoie pas au seul registre lexical.
(19) Haygood (James D.), Le vocabulaire fondamental du français (Étude pratique sur l'enseignement des langues vivantes), Droz, Paris, 1937, 170 p.
(20) Ibid., pp. 55-56. Chez nous, les rapports des professeurs P. Bertaux (au ministre C. Beullac), parlant de "désastre de l’enseignement des langues" et R. Girard (Lyon II, mars 1983) ne disent guère autre chose. Rien de nouveau sous le soleil !
(21) Georges Royer, « Pour un enseignement plus méthodique et plus scientifique des langues modernes », in Les langues modernes, avril 1931. Cité p. 9. On retrouve par là les conclusions de J. Fotos (cf. fichier précédent, paragraphe B,  (3), "J. Fotos".
(22) Selon l'expression de G. Fritche, citée p. 6.
(23) Haygood (James D.), ouvr. cit., pp. 5 et 16.
(24) En ne retenant qu'une page sur huit. Les cinq ouvrages sont : Les Oberlé, La Mare au Diable, Mon cher Tommy, Le Tour du Monde, Choix de contes (Daudet).
(25) Outre les ‘69 mots’, non comptés par Vander Beke, comme on l'a vu antérieurement, et qui regroupent en moyenne, dans son étude, 57.74 % des occurrences : le pourcentage allant de 54, 29 % (Le Tour du monde) à 62, 12 % (La Mare au Diable). On notera que, curieusement, le rendement des ‘69 mots’ est très supérieur à celui qu'Henmon avait constaté dans son corpus (soit 45, 16 %).
(26) Id., p. 50. Haygood fournit cette liste dans les pages 128 sq. de son ouvrage. Rappelons aussi que Vander Beke a retenu 6 067 mots différents. Le regroupement effectué à partir d’une base de mots très fréquents permet à Haygood d'échapper à la critique de F. Baker concernant les "the series system", c'est-à-dire les champs lexicaux qui se veulent exhaustifs (art. cit., p. 371).
(27) Il oscille très exactement entre 75, 27 % (dans les Contes), et 82, 53 % (pour La Mare au Diable).
(28) Ex. : 1. Le temps ; 6. Vie et mort ; 13. Agriculture ; 19. Déplacements ; 26. Qualités et défauts ; 28. Mots grammaticaux. On ajoutera ici que dans son Vocabulaire fondamental du français, R. Dottrens établit la grande pertinence du travail d'Haygood : "sa liste fondamentale est le strict minimum de mots que doit connaître un élève" (Dottrens (R.) et Massarenti (L.), Vocabulaire fondamental du français, Cahiers de pédagogie expérimentale et de psychologie de l'enfant n° 4, 1946, Delachaux et Niestlé, réédition 1963, p. 11).
(29) Cf. infra, &. 3, a," Le problème des mots-outils".
(30) Mais la base de Juilland, prise en compte par N. Catach pour l'établissement de ses L.O.B. (Bibliogr., [20]), est sans doute plus opératoire que celle de Vander Beke. Notons en passant, comme chez Henmon, une charge féroce contre l'enseignement grammatical qui, loin d'aider à la lecture, "agit plutôt comme un facteur d'inhibition et une entrave, que comme une aide à la compréhension directe par la lecture ; car [il] tend à attirer l'attention du lecteur sur la structure des mots et de phrases, plutôt que sur le sens qui y est contenu" (ouvr. cit., p. 59).
(31) Cf. par exemple Préface du Dictionnaire des Fréquences (Imbs (P.), et all., Dictionnaire des fréquences, C.N.R.S.-I.N.A.L.F, Nancy, 1984, 32 microfiches, ouvr. cit.) : "Rappelons pour mémoire le travail (introuvable) de V.A.C. Henmon, ... paru - en très peu d'exemplaires - en 1924" (p. XIX, note 3).       
G. Gougenheim fait une remarque analogue au début de L’Élaboration du Français fondamental (p. 32, note 2) : "Le French Word Book de Henmon a paru à petit nombre, sous forme ronéotypée. Nous n'avons pas réussi à nous en procurer un exemplaire".
(32) F. Ters et al., cf. note 6.
(33) Pour épargner le temps et la peine de ses collaborateurs, il décida d'ôter de sa recherche les items qui, chez Henmon, atteignaient ou dépassaient la fréquence absolue 450.
(34) "La réforme de l'enseignement du français vue par ceux qui l'enseignent", l'Enseignement public, février 1971, p. 98. Cf. aussi infra "D. Propositions" [fichier suivant, non encore en ligne].
(35) Henmon a arrêté son index hiérarchique à la fréquence 5.
(36) C'est Vander Beke lui-même qui a décidé de cette limite : "In order to lessen the labor of collaborators, it has been decided to omit from the count the first 69 items of the Henmon list, that is, items found 450 times or oftener in the material checked for that list" (Vander Beke (George E.), French Word Book, The Macmillan Compagny, New-York, 1929, p. 4). Vander Beke s'est trompé en parlant de 69 items et, de plus, il en a oublié deux. Cette erreur s'est perpétuée jusqu'à nous, et on parle couramment, aujourd'hui, des ‘69 mots d'Henmon’.
(37) Cf. D. Labbé, (Labbé, Dominique, Le vocabulaire de François Mitterrand, Paris, Presses de la Fondation nationale des sciences politiques, 1990, 326 p.), p. 20.
(38) L'ouvrage d'El Wakil [El Wakil (A.), L'orthographe d'usage, Genève, 1969, 386 p.] donne un excellent résumé de ces recherches, sur lesquelles, au vrai, il s'appuie pour son propre travail. Il convient aussi d'ajouter, pour être un peu plus complet, la synthèse due à R. Dottrens [Dottrens (R.) et Massarenti (L.), Vocabulaire fondamental du français, Cahiers de pédagogie expérimentale et de psychologie de l'enfant n° 4, 1946, Delachaux et Niestlé, réédition 1963, 68 p.].
(39) Ters (F.), Mayer (G.), Reichenbach (D.), Vocabulaire orthographique de base, OCDL, 4e éd. 1977, 299 p. - Ters (F.), Mayer (G.), Reichenbach (D.), L'échelle Dubois-Buyse d'orthographe usuelle française, OCDL, 5e éd. 1977, 93 p.
(40) Construit en 1938 à partir de correspondances d’adultes et de rédactions d’élèves. Cet ensemble constitue un corpus de 460 727 mots, dont 12 038 différents. Aristizabal a arrêté sa liste à la fréquence 10, ne retenant ainsi que 4 329 mots (cf. Gougenheim (G.), Rivenc (P.), Michéa (R.) et Sauvageot (A.), L'élaboration du français fondamental (Ier degré), Didier, 2e édition 1967, pp. 51-52).
(41) Dont le détail figure in Ters (F.), Mayer (G.), Reichenbach (D.), Vocabulaire orthographique de base, ouvr. cit., pp. 5-8.
(42) Pour l’exploitation du texte "Feux en Méditerranée" (cf. infra, p. 165 sq.), nous nous sommes par exemple appuyé sur le centre d’études 24.
(43) Lafon (P.), Dépouillements et statistiques en lexicométrie, Champion, 1984, p. 18.
(44) Pour ne prendre qu'un exemple, Lafon donne vingt-sept formes fléchies pour le seul verbe avoir. En tout état de cause, à partir des 67 mots d’Henmon, on peut constituer une base de 591 formes fonctionnelles. Et on signalera que le TLF fournit une liste de 318 "mots grammaticaux de très grande fréquence" (ouvr. cit., Int. XXV).
(45) Celui de Lafon est établi à partir d'un ensemble d'écrits révolutionnaires, comme le Journal du Père Duchesne, d'Hébert...
(46) Cf. aussi fichier précédent, note 9.
(47) "Un style est un écart qui se définit quantitativement par rapport à une norme", selon P. Guiraud (Problèmes et méthodes de la statistique linguistique, P.U.F., 1960, p. 19).
(48) Ainsi de : Des Métaphores obsédantes au mythe personnel : introduction à la psychocritique, Paris, J. Corti, 1963, 380 p.
(49) Guiraud (P.), Index du vocabulaire du Symbolisme, Klincksiek, 1953 [Brochure multigraphiée, non paginée. Comprend trois parties : Apollinaire, Valéry, Mallarmé].
(50) P. Guiraud utilise celle de Vander Beke. Cf. aussi Fichier L'enrichissement du vocabulaire : fréquence lexicale_1, paragraphe 2, Aide de l'informatique, b). 'Préparer' un texte.
(51) Ainsi défini par Guiraud : "l'écart absolu des rangs divisé par la racine carrée du rang dans la liste de Vander Beke".
(52) On peut ajouter une remarque, à propos des Mots de Sartre, dont une page nous a servi de support et d’exemple (???cf. supra, pp. 23 sq.). Le mot mort apparaît 75 fois dans cet ouvrage (qui comprend 59 837 entrées), soit 1, 25  fois pour mille mots. Dans le corpus de référence de l’Inalf ???, il figure 64 418 fois (pour près de 115 millions d’entrées), soit 0, 56 fois pour mille mots. Mort est sans doute un des mots-clés de l’ouvrage de Sartre, puisque sa fréquence est deux fois supérieure à celle constatée dans le corpus de référence. Cette intuition est confirmée si l’on prend en compte toutes les occurrences "flexions" de mort (mort, morts, morte, mortes) : le rapport est identique, soit 1, 64 pour mille, contre 0, 72 pour mille.
(53) Cf. par exemple les études concernant l'environnement d'un mot donné, ou encore l'apparition de thèmes : M. Collignon a ainsi dressé le vocabulaire de la mer dans Le Grand Meaulnes. Il faudrait aussi citer à nouveau le travail de D. Labbé sur le Vocabulaire de François Mitterrand, de même que celui de L. Hantrais sur le Vocabulaire de Georges Brassens [Hantrais (Linda), Le vocabulaire de Georges Brassens, Ed. Klincksieck, 1976, 256 p.]. Enfin, au sujet de ce dernier auteur, on pourra lire avec fruit la pénétrante étude de D. Coste, ‘Les écarts de Pénélope’ (in Le Français aujourd'hui, n° 11, octobre 1970).

 

(© Emprunté à SH,  L'enrichissement du vocabulaire, CRDP de Grenoble, 1997, pp. 57-70)

 

 

 


 

 

 

Les vocables les plus fréquents de F. Mitterrand

 

Ce paragraphe ne faisait pas partie de l'ouvrage publié en 1997. Je l'ai ajouté, pour montrer la fécondité de la liste Henmon, pourtant "ancienne", également établie à partir d'un corpus qu'on pourrait considérer comme obsolète : en gros, les invariants du langage, qu'il soit oral ou écrit...

 

Mots Fréquences   Mots Fréquences
             
1 le (art.) 29 599   36 cent (dét.)
1 200
2 de (prép.) 20 964   37 sur 1 176
3 être (v.)
10 995   38 bien (adv.)
1 165
4 je 8 902   39 ils 1 132
5 avoir (v.)
7 713   40 en (pro.)
1 043
6 à 7 228   41 mille (dét.)
   957
7 que (conj.)
5 547   42 vouloir (v.)
   918
8 un (art.)
5 530   43 mon    869
9 et
5 516   44 son (dét.)
   868
10 ce (pron.)
5 260   45 avec    842
11 il
4 976   46 neuf (dét.)
   821
12 ne 4 665   47 aller
   786
13 qui
4 075   48 ou    777
14 pas (adv.)
4 042   49 devoir (v.)
   747
15 ce (dét.)
2 723   50 quatre
   745
16 en (prép.)
2 683   51 pays
   742
17 on
2 587   52 comme
   733
18 que (pron.)
2 326   53 si (conj.)
   729
19 pour
2 257   54 notre
   710
20 dans
2 187   55 celui
   692
21 se
2 131   56 savoir (v.)
   672
22 le (pron.)
2 076   57 vingt
   666
23 nous
2 047   58 très
   627
24 mais
1 973   59 penser
   610
25 dire (v.)
1 945   60
   609
26 vous
1 907   61 grand (adj.)
   602
27 y
1 745   62 même (adv.)
   575
28 faire
1 668   63 aussi
   566
29 cela
1 633   64 leur (dét.)
   563
30 pouvoir (v.)
1 491   65 deux
   560
31 par
1 297   66 tout (adv.)
   528
32 plus
1 288   67 gouvernement
   523
33 falloir
1 286        
34 tout (dét.)
1 238        
35 France
1 219        

 Tableau extrait de D. Labbé, Le vocabulaire de François Mitterrand, Presses de la Fondation nationale des sciences politiques, 1990, p. 20.
Naturellement nombre de différences constatées s'expliquent aisément par le degré de lemmatisation des deux corpus (Henmon-Mitterrand). D. Labbé indique qu'il a suivi "au plus près la norme dite 'de Charles Muller' ". Mais aussi par ce fait que le discours (oral) d'un homme politique, fait pour convaincre, a une portée moins générale que celui d'un corpus écrit purement "littéraire".
L'auteur indique qu'il a pris appui sur 68 interventions télévisées du président de la République, prononcées entre juillet 1981 et mars 1988, ayant occupé une quarantaine d'heures d'antenne. Le dépouillement a produit 305 124 mots.
À titre de comparaison, Labbé indique que les allocutions du président De Gaulle, de mai 1958 à décembre 1965 occupent un corpus de 62 471 mots ; que Les Misérables, de Victor Hugo, s'étendent sur 640 000 mots ; que tout le théâtre de Corneille produit 532 800 mots ; et que les douze tragédies de Racine constituent un corpus de 158 899 mots...

 

 

(© Emprunté à SH,  L'enrichissement du vocabulaire, CRDP de Grenoble, 1997, pp. 32-55)

 


 

Texte soumis aux droits d'auteur - Réservé à un usage privé ou éducatif.

 

 

 

Accéder à la suite de ce texte