Statistiques de Wikipedia

Des statistiques d’accès à Wikipedia (pour l’ensemble des langues) sont parues il y a maintenant un peu plus d’un mois.
Malheureusement, ces statistiques, pour véraces qu’elles soient, manquent d’une information pourtant facile à obtenir, tout du moins en faisant quelques hypothèses : Wikipédia est-elle plus lue qu’elle n’est écrite ? Une seule manière de le vérifier.

Ainsi, on m’a toujours dit que la croissance de Wikipédia était exponentielle. Supposons que c’est bien le cas.
Si tel est le cas, et si je sais dériver une exponentielle, son taux de croissance est égal, à un facteur multiplicateur près, à sa taille. Supposons aussi que ce facteur ne change pas d’une langue à une autre.
Supposons enfin que le nombre d’éditions par article est statistiquement équivalent d’une langue à une autre.

Sont accessibles quelques données, pour chaque langue de Wikipédia :

  1. le nombre de locuteurs (primaires, ceux dont la langue en question est la langue maternelle ; et secondaires, qui l’ont acquise ultérieurement) ;
  2. le nombre d’éditeurs (plus de 5 éditions) par million de locuteurs
  3. le nombre de visites par heure
  4. le nombre d’articles en tout

Comment savoir si une version linguistique est « très écrite » : c’est simple, elle a un taux de croissance important. Oui, mais comment savoir si elle a un taux de croissance important : non moins simple, elle a un nombre d’articles (4) important. Ce taux de croissance est absolu (nombre d’articles ou d’éditions par unité de temps), et fait totale abstraction du nombre d’éditeurs.

Comment savoir si une version linguistique est « très lue » : c’est simple, elle a un nombre de visites important. Oui, mais comment savoir si elle a un nombre de visites important : pas plus compliqué, son nombre de visites par heure (3) sera important. Là encore, ce nombre de visites est absolu, et ne tient aucun compte du nombre de locuteurs : on ne me fera jamais croire que le nombre total de visites de la version en tahitien, en cheyenne, ou en avar atteindra celui de la version anglaise.

Comment alors mettre ces deux informations sur un semblant de pied d’égalité ? Quel sera le coefficient k tel que k * (3) / (4) aura un sens pratique ? Il nous faut mettre les deux données en rapport avec le nombre d’éditeurs pour la première, et le nombre de locuteurs pour la seconde. Fastoche, on a déjà tout ça. Plus surprenant, on a même mieux : on a déjà k.

[ (3) / nombre de locuteurs ] représente le nombre de consultations de Wikipédia par locuteur et par heure. [ (4) / nombre d’éditeurs ], en revanche, est fonction du taux de croissance par éditeur.
[ (3) / nombre de locuteurs ] / [ (4) / nombre d’éditeurs ] peut se simplifier de la sorte : [ (3) / (4) ] * [ nombre d’éditeurs / nombre de locuteurs]. Et comme vous l’avez déjà remarqué, vu que je viens de vous le dire, on a déjà le coefficient [ nombre d’éditeurs / nombre de locuteurs ] : c’est tout simplement (2).

Ce nombre représente, d’une certaine manière, la probabilité pour une personne parlant une langue donnée, de lire Wikipédia plutôt que de l’écrire. Si on cherchait vraiment à l’exprimer directement depuis les statistiques données, son unité serait la visite éditeur par heure par article et par locuteur. Mais avec les hypothèses que l’on a faites, l’unité est plutôt (à un coefficient près) la visite par édition. C’est magique, non ? 🙂

On tombe sur des résultats potentiellement intéressants. Ils sont cependant à pondérer en fonction de la facilité d’accès à internet, d’autres indicateurs sociaux (le taux de chômage et le niveau d’éducation jouent), et peut-être même de la durée des nuits : quand le soleil est absent de vos jours, vous avez tendance à rester chez vous, et quand vous restez chez vous, vous avez tendance à passer du temps sur Wikipédia.

J’ai décidé pour d’obscures raisons statistiques (« on ne peut raisonner statistiquement que sur de grands nombres » : le comportement d’individus isolés n’est pas aussi facile à prévoir que celui d’un groupe d’individus) que les langues avec moins de 30 éditeurs ne pouvaient entrer dans mon analyse (soit (1) * (2), tout simplement divisé par un million). Je ne les place dans le tableau ci-dessous que dans le seul intérêt de la curiosité, les langues en question seront grisées.

Langue Nombre de
locuteurs (1)
Éditeurs par million
de locuteurs (2)
visites/heure (3) nombre
d’articles (4)
visites/
art./h
(2) * (3)
(2) * (3) / (4)
Volapük 10 200000 1322 118854 0,011 2220
Cornique 245 4082 296 2069 0,143 583
Cheyenne 712 1404 22 76 0,289 406
Mannois 2000 2353 493 3834 0,129 302
Frison oriental 2000 2000 274 2097 0,130 261
Aragonais 10000 1800 1901 25539 0,074 133
Inupiak 2000 476 58 358 0,162 77,1
Anglais 1500000000 25 9423506 3628406 2,597 64,9
Japonais 132000000 29 1594864 752373 2,120 61,4
Nauruan 6000 167 112 350 0,320 53,44
Allemand 185000000 38 1374153 1241312 1,107 42,1
Bas-sorabe 14000 143 246 984 0,25 35,8
Mirandais 15000 200 194 1088 0,178 35,7
Finnois 6000000 104 86846 268462 0,323 35,6
Hébreu 10000000 68 57570 118991 0,483 32,9
Italien 70000000 41 601130 805753 0,746 30,6
Frison septentrional 10000 200 169 1179 0,143 28,7
Tchèque 12000000 58 95640 193889 0,493 28,6
Suédois 10000000 91 120386 394747 0,305 27,7
Norvégien 5000000 130 61430 300319 0,205 26,6
Polonais 43000000 38 552443 800410 0,690 26,2
Français 200000000 25 867376 1097559 0,790 19,8
Russe 278000000 16 869949 708498 1,228 19,6
Néerlandais 27000000 55 234087 684105 0,342 18,8
Cherokee 18000 56 106 332 0,319 17,9
Espagnol 500000000 8 1429304 756206 1,890 15,1
Danois 6000000 50 40366 148421 0,272 13,6
Romanche 35000 143 300 3211 0,093 13,4
Estonien 1000000 88 12355 83468 0,148 13,03
Hongrois 15000000 42 58615 189456 0,309 12,99
Islandais 320000 131 3104 31428 0,099 12,94
Same du Nord 20000 100 384 3198 0,120 12,0
Espéranto 1000000 93 17979 144780 0,124 11,9
Haut-sorabe 40000 150 502 6535 0,077 11,5
Slovène 2000000 74 17202 113933 0,151 11,2
Silésien 56000 71 305 2212 0,138 9,79
Groenlandais 50000 60 185 1149 0,161 9,66
Inuktitut 30000 33 103 361 0,285 9,42
Féroïen 70000 71 626 4766 0,131 9,33
Breton 250000 100 3208 37367 0,086 8,59
Sanskrit 50000 120 332 4696 0,071 8,48
Gaélique d’Écosse 70000 86 780 8384 0,093 8,00
Letton 2000000 43 6158 34117 0,180 7,76
Abkhaze 125000 16 350 728 0,480 7,69
Croate 6000000 27 24944 100630 0,248 6,69
Latgalien 150000 40 77 487 0,158 6,32
Catalan 9000000 55 36906 339620 0,109 5,98
Grec 15000000 16 22600 61797 0,366 5,85
Lituanien 4000000 35 21605 132476 0,163 5,71
Turc 70000000 7 128458 168006 0,765 5,35

Exception faite de microlangages, l’anglais, premier par le nombre d’articles, le nombre de visites,et le nombre de visites par article et par heure, l’est, ô surprise, aussi par la proportion de lecteurs.

Le japonais, tout comme au compteur de visites, le suit à la trace.

Le français, en revanche, est loin derrière, se faisant même dépasser allègrement par l’allemand (malgré son taux de croissance plus grand si l’on en croit son nombre d’articles et un nombre de locuteurs légèrement plus faible), le finnois, l’hébreu, l’italien, le tchèque, le suédois et le polonais.

L’Union européenne lit dans l’ensemble beaucoup Wikipédia. Si l’on peut oublier le français, l’anglais, et l’espagnol dans le compte, vu que ces langues n’y sont pas en majeure partie parlées (et elles sont cependant dans le top 26 toutes langues confondues), on peut noter que toutes les langues nationales de membres de l’union européenne sont dans le top 100 toutes langues confondues.

À l’inverse, une absence remarquable de ce top 25 (top 50 si l’on compte les langues peu actives sur Wikipédia), malgré un nombre de locuteurs important et un nombre d’éditeurs faible, est celle des langues chinoises (baihua – utilisé entre autres pour le mandarin -, wu, cantonais, gan, hakka, min – et ses variantes). zhwiki (baihua) arrive 108ème du classement, zh-yuewiki (cantonais) 162ème, zh-min-nanwiki (minnan) 217ème… Il y a fort à parier que la concurrence de Baidu Baike a joué dans cette dégringolade.

Preuve enfin qu’il s’agit d’un vaste branlouillage de nouille sans le moindre intérêt (avis personnel), Wikipédia en simple english n’arrive que 205ème. À croire qu’en fait cette version linguistique n’est lue que par ses éditeurs. Ce qui ne m’étonnerait pas, ce boxon étant tout simplement inutilisable, un peu comme une fantaisie de Queneau mais sans l’intérêt poétique.

Leave a Reply

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre lang="" line="" escaped="" cssfile="">