mercredi 22 septembre 2010

Les Misérables !

À force de parler des misérables qui nous gouvernent, j'ai senti le besoin de m'abstraire un instant de cette misérable réalité pour répondre à une question que je me posais depuis longtemps : quel est le mot le plus écrit par Hugo dans les Misérables ?


Or maintenant que j'ai les outils pour le calculer, il me fallait quand même procéder au traitement préalable du fichier de l'œuvre, ce qui exigeait ... un certain temps, comme disait Fernand Raynaud...

Pour ce faire, j'ai donc utilisé les fichiers disponibles sur le projet Gutenberg, mais avant de voir le détail, la seule idée quantitative que j'avais était la suivante :
... le plus long roman en langue française, Les Misérables, compte près d'un demi-million de mots (c’est sa taille ou son « étendue », notée N) et son vocabulaire (noté V) comporte moins de 12 000 vocables.
Passons maintenant au décompte des mots pour chacun des cinq Tomes :


Sans tenir compte des titres des tomes, parties & chapitres, et en enlevant les chiffres, j'obtiens donc un total de 554 678 mots pour 27 870 vocables, soit un rapport de 19,90, qu’on arrondira à 20 : en moyenne, c’est comme si Hugo avait utilisé 20 fois chacun de ces 27 870 vocables pour composer son chef-d’œuvre !

Devinette : vous prenez un sac de 27 870 mots que vous utilisez 20 fois chacun, et vous en sortez quoi ? Les Misérables ! Simple, non...

Ainsi, j'ai des données sensiblement différentes, surtout au niveau des vocables : moins de 12 000 vs. 27 870, ça fait quand même une sacrée différence et la lemmatisation n'explique pas tout. D'autant que je compte plus de 12 000 hapax (qui n'apparaissent qu'une seule fois) dans le corpus !

Peu importe ! Mon but n'est pas de jouer au scientifique, pas plus que de garantir à 100% l'exactitude d'une analyse statistique consistant uniquement à répondre à cette question simple : quel est le mot le plus écrit par Hugo dans les Misérables ?

Et bien, ce mot, je vous en fais la surprise, c'est : HOMME !!!

Magnifique, non ?

Le substantif le plus fréquent des Misérables, avec 1 494 occurrences, c'est HOMME (le pluriel n'arrive qu'en 13e position avec 458 occurrences), l'homme qui est vraiment au cœur des préoccupations de Hugo :
Tant qu’il existera, par le fait des lois et des mœurs, une damnation sociale créant artificiellement, en pleine civilisation, des enfers, et compliquant d’une fatalité humaine la destinée qui est divine ; tant que les trois problèmes du siècle, la dégradation de l’homme par le prolétariat, la déchéance de la femme par la faim, l’atrophie de l’enfant par la nuit, ne seront pas résolus ; tant que, dans de certaines régions, l’asphyxie sociale sera possible ; en d’autres termes, et à un point de vue plus étendu encore, tant qu’il y aura sur la terre ignorance et misère, des livres de la nature de celui-ci pourront ne pas être inutiles.
Victor Hugo, Hauteville-House, 1er janvier 1862

Comme disait Albert Glatigny :
Analyser les Misérables, je n'y songe pas. Une fois que d'eux on a dit : C'est beau ! on n'a pas assez dit encore. Il est des œuvres qu'il est impossible de raconter, tant elles nous dépassent…
Voici donc en avant-première (j'imagine), le nuage sémantique des Misérables, soit les 100 noms communs plus fréquents des quelque 554 mille mots de l'œuvre :


Les noms des personnages ne sont pas inclus dans le nuage, même si là encore, j'ai eu la surprise de constater que le plus cité n'est pas Jean Valjean (1 113 occurrences), mais Marius (1 357 fois) ; Cosette arrive en troisième position avec 1 015 occurrences, et Gavroche n'apparaît que 310 fois.

L'autre surprise que m'a réservée l'analyse statistique, c'est de constater que deux des "environnements linguistiques" davantage représentés parmi ces 100 noms plus fréquents reflètent :

1) l'intériorisation, autour du corps et de l'âme :

TÊTE
YEUX
MAIN
CÔTÉ
VOIX
ÂME
BRAS
ESPRIT
PIEDS
CŒUR
MAINS
REGARD
VISAGE
PENSÉE
IDÉE
FACE
ŒIL
PIED
CHEVEUX

2) l'extériorisation, autour du lieu de vie et du milieu ambiant :

RUE
PORTE
PARIS
MAISON
BARRICADE
CHAMBRE
MUR
JARDIN
LIT
PLACE
TABLE
VILLE
COIN
COUVENT
SALLE
ÉGOUT
BOIS
PIERRE
FRANCE

Deux "environnements linguistiques" qui s'équilibrent d'ailleurs parfaitement, avec 19 occurrences chacun, or obtenir un tel résultat sur plus d'un demi-million de mots en puisant uniquement dans les 100 plus fréquents, c'est quand même pas ordinaire !

On voit là, vraiment, tout le génie de Hugo, l'un de mes auteurs phare, dont je peux me vanter d'avoir sur les étagères de ma bibliothèque pratiquement toute l'œuvre : romanesque, poétique, théâtrale, épistolaire, etc. (même si la partie que je connais le moins est justement sa correspondance et autres discours, outre l'œuvre graphique), dont cinq éditions différentes des Misérables, 2 en français et 3 en italien, l'une étant magnifiquement illustrée par Renato Guttuso.


Voici donc la liste des 100 premiers substantifs du corpus des Misérables, avec entre parenthèses le nombre d'occurrences :

1. HOMME (1494)
2. BIEN (1104)
3. RUE (942)
4. MONSIEUR (744)
5. PÈRE (708)
6. CHOSE (660)
7. TEMPS (606)
8. PORTE (602)
9. JOUR (536)
10. TÊTE (527)
11. MOMENT (487)
12. ENFANT (480)
13. HOMMES (458)
14. YEUX (444)
15. MAIN (441)
16. CÔTÉ (436)
17. COUP (432)
18. VOIX (424)
19. SAINT (421)
20. VIE (409)
21. PARIS (402)
22. DIEU (402)
23. FEMME (396)
24. HEURE (385)
25. ANS (377)
26. MÈRE (358)
27. FILLE (350)
28. MORT (332)
29. MAISON (329)
30. HEURES (313)
31. TERRE (312)
32. ÉVÊQUE (312)
33. NOM (308)
34. FRANCS (308)
35. PERSONNE (303)
36. ÂME (302)
37. BRAS (294)
38. MONDE (287)
39. MOT (285)
40. BARRICADE (283)
41. OMBRE (271)
42. CHAMBRE (267)
43. JEUNE (257)
44. ESPRIT (244)
45. MUR (240)
46. MADAME (239)
47. PIEDS (237)
48. JARDIN (237)
49. LUMIÈRE (228)
50. ENFANTS (228)
51. CHOSES (228)
52. MAL (219)
53. JOURS (218)
54. MATIN (215)
55. EFFET (212)
56. EAU (212)
57. LIT (210)
58. FORCE (206)
59. CŒUR (206)
60. PLACE (202)
61. TABLE (200)
62. PAUVRE (196)
63. GENS (196)
64. AMOUR (196)
65. VILLE (192)
66. MAINS (192)
67. CIEL (190)
68. REGARD (184)
69. PEUPLE (183)
70. FILLES (181)
71. SILENCE (176)
72. VISAGE (175)
73. MAIRE (174)
74. GARDE (174)
75. BRUIT (174)
76. FEU (173)
77. PENSÉE (170)
78. IDÉE (166)
79. FRANCE (166)
80. AUJOURD'HUI (162)
81. RÉVOLUTION (159)
82. POLICE (158)
83. MOIS (158)
84. COIN (156)
85. ARGENT (156)
86. JOIE (155)
87. SOLEIL (154)
88. FACE (153)
89. COUVENT (153)
90. ŒIL (152)
91. SALLE (152)
92. FEMMES (152)
93. ÉGOUT (152)
94. ESPÈCE (146)
95. BOIS (146)
96. PIED (144)
97. ROI (141)
98. PIERRE (141)
99. GUERRE (140)
100. CHEVEUX (140)

J'ai testé la même chose sur une version italienne trouvée sur le Web, et même en vous faisant grâce des détails, vu quelques écarts significatifs qui peuvent s'expliquer de différentes manières (notamment par le "coefficient de foisonnement"), le mot le plus écrit par Hugo dans I Miserabili ne change pas : UOMO !


L'HOMME au cœur de cette gigantesque épopée, dont Hugo confiait à Lamartine :
Dans ma pensée, les Misérables ne sont autre chose qu'un livre ayant la fraternité pour base et le progrès pour cime.
Dans le corpus, "fraternité" est cité à 17 reprises, et "progrès" 95 fois.

Sur ce point, je vous conseille d'ailleurs de lire la thèse (1985) de Deborah Mae Blythe, intitulée « Victor Hugo, visionnaire : le mythe du progrès dans les Misérables ».

En conclusion, j'espère que ce billet vous aura donné envie de lire - ou relire - Victor Hugo, et en particulier les Misérables, dont voici un résumé pour celles et ceux qui souhaitent approfondir, le corpus sur lequel j'ai travaillé, et l'intégralité de l'œuvre librement téléchargeable :
  1. Tome I
  2. Tome II
  3. Tome III
  4. Tome IV
  5. Tome V
Bonne lecture !

* * *

Et pour les aficionados du spectacle, je viens de découvrir que le 3 octobre prochain aura lieu à Londres une production exceptionnelle pour fêter le 25e anniversaire de la création des Misérables, version comédie musicale signée Boublil et Schönberg :



Lire la critique de Michel-Édouard Leclerc.


Partager sur Facebook

P.S. En découvrant le nuage sémantique des Misérables, j'ai été frappé par la prépondérance de l'HOMME au centre du nuage, et, surtout, cela m'a rappelé une autre œuvre, que j'ai signée il y a 10 ans déjà, intitulée An 2000, un diptyque réunissant 140 sonnets dont voici le nuage sémantique (calculé sur 35 757 occurrences, soit 15 fois moins que pour le roman de Hugo) :


Revoici le nuage des Misérables, graphiquement semblable pour vous permettre de mieux visualiser les deux ensemble :


En outre, en comparant les listes respectives des 100 premiers noms plus fréquents, 43 sont communs aux deux, soit ... 43% !

1. ÂME
2. AMOUR
3. ARGENT
4. BRAS
5. CIEL
6. CŒUR
7. DIEU
8. EAU
9. ENFANT
10. ESPRIT
11. FEMME
12. FEU
13. FORCE
14. GENS
15. HOMME
16. HOMMES
17. JOUR
18. JOURS
19. LUMIÈRE
20. MAIN
21. MAINS
22. MAISON
23. MÈRE
24. MONDE
25. MORT
26. MOTS
27. NOM
28. ŒIL
29. OMBRE
30. PÈRE
31. PERSONNE
32. PIERRE
33. PORTE
34. REGARD
35. SILENCE
36. SOLEIL
37. TEMPS
38. TERRE
39. TÊTE
40. VIE
41. VILLE
42. VOIX
43. YEUX

, , , , , ,

3 commentaires:

Anonyme a dit…

4 mots : IM-PRE-SSIO-NNANT

Pour vous faire sursauter, ;-)
Chapeau bas monsieur!

Szarah a dit…

On connaissait Hugo comme modèle incontournable question structure du texte, vous venez de préciser son humanisme au niveau du contenu : merci à vous !

[PS hors-sujet : sous IE, l'image de validation anti-spam n'apparaît pas.]

KBC a dit…

Great post, thanks! I appreciate your careful documentation of the pre-processing steps. (Désolé, je suis nul en langue française écrite !)