Statistiques de Wikipedia

Des statistiques d’accès à Wikipedia (pour l’ensemble des langues) sont parues il y a maintenant un peu plus d’un mois.
Malheureusement, ces statistiques, pour véraces qu’elles soient, manquent d’une information pourtant facile à obtenir, tout du moins en faisant quelques hypothèses : Wikipédia est-elle plus lue qu’elle n’est écrite ? Une seule manière de le vérifier.

Ainsi, on m’a toujours dit que la croissance de Wikipédia était exponentielle. Supposons que c’est bien le cas.
Si tel est le cas, et si je sais dériver une exponentielle, son taux de croissance est égal, à un facteur multiplicateur près, à sa taille. Supposons aussi que ce facteur ne change pas d’une langue à une autre.
Supposons enfin que le nombre d’éditions par article est statistiquement équivalent d’une langue à une autre.

Sont accessibles quelques données, pour chaque langue de Wikipédia :

le nombre de locuteurs (primaires, ceux dont la langue en question est la langue maternelle ; et secondaires, qui l’ont acquise ultérieurement) ;
le nombre d’éditeurs (plus de 5 éditions) par million de locuteurs
le nombre de visites par heure
le nombre d’articles en tout

Comment savoir si une version linguistique est « très écrite » : c’est simple, elle a un taux de croissance important. Oui, mais comment savoir si elle a un taux de croissance important : non moins simple, elle a un nombre d’articles (4) important. Ce taux de croissance est absolu (nombre d’articles ou d’éditions par unité de temps), et fait totale abstraction du nombre d’éditeurs.

Comment savoir si une version linguistique est « très lue » : c’est simple, elle a un nombre de visites important. Oui, mais comment savoir si elle a un nombre de visites important : pas plus compliqué, son nombre de visites par heure (3) sera important. Là encore, ce nombre de visites est absolu, et ne tient aucun compte du nombre de locuteurs : on ne me fera jamais croire que le nombre total de visites de la version en tahitien, en cheyenne, ou en avar atteindra celui de la version anglaise.

Comment alors mettre ces deux informations sur un semblant de pied d’égalité ? Quel sera le coefficient k tel que k * (3) / (4) aura un sens pratique ? Il nous faut mettre les deux données en rapport avec le nombre d’éditeurs pour la première, et le nombre de locuteurs pour la seconde. Fastoche, on a déjà tout ça. Plus surprenant, on a même mieux : on a déjà k.

[ (3) / nombre de locuteurs ] représente le nombre de consultations de Wikipédia par locuteur et par heure. [ (4) / nombre d’éditeurs ], en revanche, est fonction du taux de croissance par éditeur.
[ (3) / nombre de locuteurs ] / [ (4) / nombre d’éditeurs ] peut se simplifier de la sorte : [ (3) / (4) ] * [ nombre d’éditeurs / nombre de locuteurs]. Et comme vous l’avez déjà remarqué, vu que je viens de vous le dire, on a déjà le coefficient [ nombre d’éditeurs / nombre de locuteurs ] : c’est tout simplement (2).

Ce nombre représente, d’une certaine manière, la probabilité pour une personne parlant une langue donnée, de lire Wikipédia plutôt que de l’écrire. Si on cherchait vraiment à l’exprimer directement depuis les statistiques données, son unité serait la visite éditeur par heure par article et par locuteur. Mais avec les hypothèses que l’on a faites, l’unité est plutôt (à un coefficient près) la visite par édition. C’est magique, non ? 🙂

On tombe sur des résultats potentiellement intéressants. Ils sont cependant à pondérer en fonction de la facilité d’accès à internet, d’autres indicateurs sociaux (le taux de chômage et le niveau d’éducation jouent), et peut-être même de la durée des nuits : quand le soleil est absent de vos jours, vous avez tendance à rester chez vous, et quand vous restez chez vous, vous avez tendance à passer du temps sur Wikipédia.

J’ai décidé pour d’obscures raisons statistiques (« on ne peut raisonner statistiquement que sur de grands nombres » : le comportement d’individus isolés n’est pas aussi facile à prévoir que celui d’un groupe d’individus) que les langues avec moins de 30 éditeurs ne pouvaient entrer dans mon analyse (soit (1) * (2), tout simplement divisé par un million). Je ne les place dans le tableau ci-dessous que dans le seul intérêt de la curiosité, les langues en question seront grisées.

Langue	Nombre de locuteurs (1)	Éditeurs par million de locuteurs (2)	visites/heure (3)	nombre d’articles (4)	visites/ art./h (2) * (3)	(2) * (3) / (4)
Volapük	10	200000	1322	118854	0,011	2220
Cornique	245	4082	296	2069	0,143	583
Cheyenne	712	1404	22	76	0,289	406
Mannois	2000	2353	493	3834	0,129	302
Frison oriental	2000	2000	274	2097	0,130	261
Aragonais	10000	1800	1901	25539	0,074	133
Inupiak	2000	476	58	358	0,162	77,1
Anglais	1500000000	25	9423506	3628406	2,597	64,9
Japonais	132000000	29	1594864	752373	2,120	61,4
Nauruan	6000	167	112	350	0,320	53,44
Allemand	185000000	38	1374153	1241312	1,107	42,1
Bas-sorabe	14000	143	246	984	0,25	35,8
Mirandais	15000	200	194	1088	0,178	35,7
Finnois	6000000	104	86846	268462	0,323	35,6
Hébreu	10000000	68	57570	118991	0,483	32,9
Italien	70000000	41	601130	805753	0,746	30,6
Frison septentrional	10000	200	169	1179	0,143	28,7
Tchèque	12000000	58	95640	193889	0,493	28,6
Suédois	10000000	91	120386	394747	0,305	27,7
Norvégien	5000000	130	61430	300319	0,205	26,6
Polonais	43000000	38	552443	800410	0,690	26,2
Français	200000000	25	867376	1097559	0,790	19,8
Russe	278000000	16	869949	708498	1,228	19,6
Néerlandais	27000000	55	234087	684105	0,342	18,8
Cherokee	18000	56	106	332	0,319	17,9
Espagnol	500000000	8	1429304	756206	1,890	15,1
Danois	6000000	50	40366	148421	0,272	13,6
Romanche	35000	143	300	3211	0,093	13,4
Estonien	1000000	88	12355	83468	0,148	13,03
Hongrois	15000000	42	58615	189456	0,309	12,99
Islandais	320000	131	3104	31428	0,099	12,94
Same du Nord	20000	100	384	3198	0,120	12,0
Espéranto	1000000	93	17979	144780	0,124	11,9
Haut-sorabe	40000	150	502	6535	0,077	11,5
Slovène	2000000	74	17202	113933	0,151	11,2
Silésien	56000	71	305	2212	0,138	9,79
Groenlandais	50000	60	185	1149	0,161	9,66
Inuktitut	30000	33	103	361	0,285	9,42
Féroïen	70000	71	626	4766	0,131	9,33
Breton	250000	100	3208	37367	0,086	8,59
Sanskrit	50000	120	332	4696	0,071	8,48
Gaélique d’Écosse	70000	86	780	8384	0,093	8,00
Letton	2000000	43	6158	34117	0,180	7,76
Abkhaze	125000	16	350	728	0,480	7,69
Croate	6000000	27	24944	100630	0,248	6,69
Latgalien	150000	40	77	487	0,158	6,32
Catalan	9000000	55	36906	339620	0,109	5,98
Grec	15000000	16	22600	61797	0,366	5,85
Lituanien	4000000	35	21605	132476	0,163	5,71
Turc	70000000	7	128458	168006	0,765	5,35

Exception faite de microlangages, l’anglais, premier par le nombre d’articles, le nombre de visites,et le nombre de visites par article et par heure, l’est, ô surprise, aussi par la proportion de lecteurs.

Le japonais, tout comme au compteur de visites, le suit à la trace.

Le français, en revanche, est loin derrière, se faisant même dépasser allègrement par l’allemand (malgré son taux de croissance plus grand si l’on en croit son nombre d’articles et un nombre de locuteurs légèrement plus faible), le finnois, l’hébreu, l’italien, le tchèque, le suédois et le polonais.

L’Union européenne lit dans l’ensemble beaucoup Wikipédia. Si l’on peut oublier le français, l’anglais, et l’espagnol dans le compte, vu que ces langues n’y sont pas en majeure partie parlées (et elles sont cependant dans le top 26 toutes langues confondues), on peut noter que toutes les langues nationales de membres de l’union européenne sont dans le top 100 toutes langues confondues.

À l’inverse, une absence remarquable de ce top 25 (top 50 si l’on compte les langues peu actives sur Wikipédia), malgré un nombre de locuteurs important et un nombre d’éditeurs faible, est celle des langues chinoises (baihua – utilisé entre autres pour le mandarin -, wu, cantonais, gan, hakka, min – et ses variantes). zhwiki (baihua) arrive 108^ème du classement, zh-yuewiki (cantonais) 162^ème, zh-min-nanwiki (minnan) 217^ème… Il y a fort à parier que la concurrence de Baidu Baike a joué dans cette dégringolade.

Preuve enfin qu’il s’agit d’un vaste branlouillage de nouille sans le moindre intérêt (avis personnel), Wikipédia en simple english n’arrive que 205^ème. À croire qu’en fait cette version linguistique n’est lue que par ses éditeurs. Ce qui ne m’étonnerait pas, ce boxon étant tout simplement inutilisable, un peu comme une fantaisie de Queneau mais sans l’intérêt poétique.

Blog du Titre

Catégories

Archives

Statistiques de Wikipedia

Leave a Reply Cancel reply

Recent Posts

Liens

Meta