Des statistiques d’accès à Wikipedia (pour l’ensemble des langues) sont parues il y a maintenant un peu plus d’un mois.
Malheureusement, ces statistiques, pour véraces qu’elles soient, manquent d’une information pourtant facile à obtenir, tout du moins en faisant quelques hypothèses : Wikipédia est-elle plus lue qu’elle n’est écrite ? Une seule manière de le vérifier.
Ainsi, on m’a toujours dit que la croissance de Wikipédia était exponentielle. Supposons que c’est bien le cas.
Si tel est le cas, et si je sais dériver une exponentielle, son taux de croissance est égal, à un facteur multiplicateur près, à sa taille. Supposons aussi que ce facteur ne change pas d’une langue à une autre.
Supposons enfin que le nombre d’éditions par article est statistiquement équivalent d’une langue à une autre.
Sont accessibles quelques données, pour chaque langue de Wikipédia :
- le nombre de locuteurs (primaires, ceux dont la langue en question est la langue maternelle ; et secondaires, qui l’ont acquise ultérieurement) ;
- le nombre d’éditeurs (plus de 5 éditions) par million de locuteurs
- le nombre de visites par heure
- le nombre d’articles en tout
Comment savoir si une version linguistique est « très écrite » : c’est simple, elle a un taux de croissance important. Oui, mais comment savoir si elle a un taux de croissance important : non moins simple, elle a un nombre d’articles (4) important. Ce taux de croissance est absolu (nombre d’articles ou d’éditions par unité de temps), et fait totale abstraction du nombre d’éditeurs.
Comment savoir si une version linguistique est « très lue » : c’est simple, elle a un nombre de visites important. Oui, mais comment savoir si elle a un nombre de visites important : pas plus compliqué, son nombre de visites par heure (3) sera important. Là encore, ce nombre de visites est absolu, et ne tient aucun compte du nombre de locuteurs : on ne me fera jamais croire que le nombre total de visites de la version en tahitien, en cheyenne, ou en avar atteindra celui de la version anglaise.
Comment alors mettre ces deux informations sur un semblant de pied d’égalité ? Quel sera le coefficient k tel que k * (3) / (4) aura un sens pratique ? Il nous faut mettre les deux données en rapport avec le nombre d’éditeurs pour la première, et le nombre de locuteurs pour la seconde. Fastoche, on a déjà tout ça. Plus surprenant, on a même mieux : on a déjà k.
[ (3) / nombre de locuteurs ] représente le nombre de consultations de Wikipédia par locuteur et par heure. [ (4) / nombre d’éditeurs ], en revanche, est fonction du taux de croissance par éditeur.
[ (3) / nombre de locuteurs ] / [ (4) / nombre d’éditeurs ] peut se simplifier de la sorte : [ (3) / (4) ] * [ nombre d’éditeurs / nombre de locuteurs]. Et comme vous l’avez déjà remarqué, vu que je viens de vous le dire, on a déjà le coefficient [ nombre d’éditeurs / nombre de locuteurs ] : c’est tout simplement (2).
Ce nombre représente, d’une certaine manière, la probabilité pour une personne parlant une langue donnée, de lire Wikipédia plutôt que de l’écrire. Si on cherchait vraiment à l’exprimer directement depuis les statistiques données, son unité serait la visite éditeur par heure par article et par locuteur. Mais avec les hypothèses que l’on a faites, l’unité est plutôt (à un coefficient près) la visite par édition. C’est magique, non ? 🙂
On tombe sur des résultats potentiellement intéressants. Ils sont cependant à pondérer en fonction de la facilité d’accès à internet, d’autres indicateurs sociaux (le taux de chômage et le niveau d’éducation jouent), et peut-être même de la durée des nuits : quand le soleil est absent de vos jours, vous avez tendance à rester chez vous, et quand vous restez chez vous, vous avez tendance à passer du temps sur Wikipédia.
J’ai décidé pour d’obscures raisons statistiques (« on ne peut raisonner statistiquement que sur de grands nombres » : le comportement d’individus isolés n’est pas aussi facile à prévoir que celui d’un groupe d’individus) que les langues avec moins de 30 éditeurs ne pouvaient entrer dans mon analyse (soit (1) * (2), tout simplement divisé par un million). Je ne les place dans le tableau ci-dessous que dans le seul intérêt de la curiosité, les langues en question seront grisées.
Langue | Nombre de locuteurs (1) |
Éditeurs par million de locuteurs (2) |
visites/heure (3) | nombre d’articles (4) |
visites/ art./h (2) * (3) |
(2) * (3) / (4) |
---|---|---|---|---|---|---|
Volapük | 10 | 200000 | 1322 | 118854 | 0,011 | 2220 |
Cornique | 245 | 4082 | 296 | 2069 | 0,143 | 583 |
Cheyenne | 712 | 1404 | 22 | 76 | 0,289 | 406 |
Mannois | 2000 | 2353 | 493 | 3834 | 0,129 | 302 |
Frison oriental | 2000 | 2000 | 274 | 2097 | 0,130 | 261 |
Aragonais | 10000 | 1800 | 1901 | 25539 | 0,074 | 133 |
Inupiak | 2000 | 476 | 58 | 358 | 0,162 | 77,1 |
Anglais | 1500000000 | 25 | 9423506 | 3628406 | 2,597 | 64,9 |
Japonais | 132000000 | 29 | 1594864 | 752373 | 2,120 | 61,4 |
Nauruan | 6000 | 167 | 112 | 350 | 0,320 | 53,44 |
Allemand | 185000000 | 38 | 1374153 | 1241312 | 1,107 | 42,1 |
Bas-sorabe | 14000 | 143 | 246 | 984 | 0,25 | 35,8 |
Mirandais | 15000 | 200 | 194 | 1088 | 0,178 | 35,7 |
Finnois | 6000000 | 104 | 86846 | 268462 | 0,323 | 35,6 |
Hébreu | 10000000 | 68 | 57570 | 118991 | 0,483 | 32,9 |
Italien | 70000000 | 41 | 601130 | 805753 | 0,746 | 30,6 |
Frison septentrional | 10000 | 200 | 169 | 1179 | 0,143 | 28,7 |
Tchèque | 12000000 | 58 | 95640 | 193889 | 0,493 | 28,6 |
Suédois | 10000000 | 91 | 120386 | 394747 | 0,305 | 27,7 |
Norvégien | 5000000 | 130 | 61430 | 300319 | 0,205 | 26,6 |
Polonais | 43000000 | 38 | 552443 | 800410 | 0,690 | 26,2 |
Français | 200000000 | 25 | 867376 | 1097559 | 0,790 | 19,8 |
Russe | 278000000 | 16 | 869949 | 708498 | 1,228 | 19,6 |
Néerlandais | 27000000 | 55 | 234087 | 684105 | 0,342 | 18,8 |
Cherokee | 18000 | 56 | 106 | 332 | 0,319 | 17,9 |
Espagnol | 500000000 | 8 | 1429304 | 756206 | 1,890 | 15,1 |
Danois | 6000000 | 50 | 40366 | 148421 | 0,272 | 13,6 |
Romanche | 35000 | 143 | 300 | 3211 | 0,093 | 13,4 |
Estonien | 1000000 | 88 | 12355 | 83468 | 0,148 | 13,03 |
Hongrois | 15000000 | 42 | 58615 | 189456 | 0,309 | 12,99 |
Islandais | 320000 | 131 | 3104 | 31428 | 0,099 | 12,94 |
Same du Nord | 20000 | 100 | 384 | 3198 | 0,120 | 12,0 |
Espéranto | 1000000 | 93 | 17979 | 144780 | 0,124 | 11,9 |
Haut-sorabe | 40000 | 150 | 502 | 6535 | 0,077 | 11,5 |
Slovène | 2000000 | 74 | 17202 | 113933 | 0,151 | 11,2 |
Silésien | 56000 | 71 | 305 | 2212 | 0,138 | 9,79 |
Groenlandais | 50000 | 60 | 185 | 1149 | 0,161 | 9,66 |
Inuktitut | 30000 | 33 | 103 | 361 | 0,285 | 9,42 |
Féroïen | 70000 | 71 | 626 | 4766 | 0,131 | 9,33 |
Breton | 250000 | 100 | 3208 | 37367 | 0,086 | 8,59 |
Sanskrit | 50000 | 120 | 332 | 4696 | 0,071 | 8,48 |
Gaélique d’Écosse | 70000 | 86 | 780 | 8384 | 0,093 | 8,00 |
Letton | 2000000 | 43 | 6158 | 34117 | 0,180 | 7,76 |
Abkhaze | 125000 | 16 | 350 | 728 | 0,480 | 7,69 |
Croate | 6000000 | 27 | 24944 | 100630 | 0,248 | 6,69 |
Latgalien | 150000 | 40 | 77 | 487 | 0,158 | 6,32 |
Catalan | 9000000 | 55 | 36906 | 339620 | 0,109 | 5,98 |
Grec | 15000000 | 16 | 22600 | 61797 | 0,366 | 5,85 |
Lituanien | 4000000 | 35 | 21605 | 132476 | 0,163 | 5,71 |
Turc | 70000000 | 7 | 128458 | 168006 | 0,765 | 5,35 |
Exception faite de microlangages, l’anglais, premier par le nombre d’articles, le nombre de visites,et le nombre de visites par article et par heure, l’est, ô surprise, aussi par la proportion de lecteurs.
Le japonais, tout comme au compteur de visites, le suit à la trace.
Le français, en revanche, est loin derrière, se faisant même dépasser allègrement par l’allemand (malgré son taux de croissance plus grand si l’on en croit son nombre d’articles et un nombre de locuteurs légèrement plus faible), le finnois, l’hébreu, l’italien, le tchèque, le suédois et le polonais.
L’Union européenne lit dans l’ensemble beaucoup Wikipédia. Si l’on peut oublier le français, l’anglais, et l’espagnol dans le compte, vu que ces langues n’y sont pas en majeure partie parlées (et elles sont cependant dans le top 26 toutes langues confondues), on peut noter que toutes les langues nationales de membres de l’union européenne sont dans le top 100 toutes langues confondues.
À l’inverse, une absence remarquable de ce top 25 (top 50 si l’on compte les langues peu actives sur Wikipédia), malgré un nombre de locuteurs important et un nombre d’éditeurs faible, est celle des langues chinoises (baihua – utilisé entre autres pour le mandarin -, wu, cantonais, gan, hakka, min – et ses variantes). zhwiki (baihua) arrive 108ème du classement, zh-yuewiki (cantonais) 162ème, zh-min-nanwiki (minnan) 217ème… Il y a fort à parier que la concurrence de Baidu Baike a joué dans cette dégringolade.
Preuve enfin qu’il s’agit d’un vaste branlouillage de nouille sans le moindre intérêt (avis personnel), Wikipédia en simple english n’arrive que 205ème. À croire qu’en fait cette version linguistique n’est lue que par ses éditeurs. Ce qui ne m’étonnerait pas, ce boxon étant tout simplement inutilisable, un peu comme une fantaisie de Queneau mais sans l’intérêt poétique.
Leave a Reply