Lors du colloque Homeland Connections: E-Diasporas Atlas / A century of transnationalism clôturant le projet de recherche TIC et Migration, plusieurs points concernant la constitution et la visualisation de corpus de sites web en ligne ont été évoqués, plaçant la réplicabilité des corpus au centre des interrogations. Ce thème a été judicieusement traité à la fois au niveau du crawl constituant le corpus de sites Web, mais également au niveau des questions de recherche inhérentes à chaque chercheur. Les propos échangés ici concernent l’analyse de réseaux de diaspora en ligne: toutefois, les commentaires et considérations méthodologiques dépassent cette application pour s’appliquer à un ensemble de thèmes de recherche ayant recours à des cartographies du Web.
« Différents crawlers sur un même corpus produisent-ils des résultats différents ? »
Mathieu Jacomy (Médialab Sciences-po) livre une expérimentation qu’il a réalisé avec Erik Borra (Digital Methods Initiative, l’Université d’Amsterdam) visant à savoir si différents crawlers sur un même corpus produisent des résultats similaires. Les trois crawlers testés étaient le navicrawler de Webtlas, l’issuecrawler de la Digital Methods Initiative et le crawler de Linkfluence. Les sites étaient également au nombre de trois: un site statique, un site dynamique et un site “entre les deux”.
Différentes itérations du crawl ont été lancées, à plusieurs temps d’intervalle, d’un jour à deux semaines. Les 54 crawls réalisés ont mis en avant un fait important: différents crawlers ne produiront pas les mêmes résultats avec les réglages par défaut; à l’inverse, des crawlers configurés en fonction de la nature des sites du corpus produisent des résultats similaires. Mathieu et Erik se sont en effet rendu compte que les crawls obtenus sont encore plus différents entre les différentes itérations d’un même crawler non configuré qu’entre des crawlers différents: pour le dire autrement, un crawler non configuré fournit des résultats encore plus différents avec lui-même qu’avec un autre crawler. Ces différences proviennent des caractéristiques des sites crawlés: par exemple, un corpus possédant beaucoup de portails devra régler son crawler (distance et profondeur) afin de dépasser cette “barrière”.
Cette petite expérience sur les caractéristiques des différents crawlers met en avant la nécessité pour le chercheur d’adapter les fonctionnalités de son crawler aux sites constituant son corpus, réduisant ainsi les risques de biaiser les résultats;
« Différents chercheurs avec une même méthode produisent-ils différents corpus ? »
La question de la replicabilité à également été abordée par Anat Ben David (Bar-Ilan University) et Priya Kumar (University of London), sous l’angle cette fois de l’influence de la question de recherche sur le corpus. Les deux chercheuses ont en effet travaillé chacune de leur côté sur la diaspora palestinienne en ligne: apprenant l’existence l’une de l’autre à la fin de leurs travaux respectifs, elles ont ainsi pu comparer leur corpus respectifs -non sans l’appréhension de voir son travail invalidé, comme le revèle Anat Ben David.
Les deux corpus présentent un nombre conséquent d’URL communes, ce qui constitue un moyen de vérifier la validité des corpus, dans les deux cas réalisés par exploration manuelle. Toutefois, chaque corpus tend à privilégier des catégories d’acteurs en particulier au sein des corpus, du fait de la spécificité des questions de recherche : Anat Ben David s’est ainsi intéressé à l’émergence d’une sphère Web palestinienne, et plus précisément à la géographie de cette diaspora ayant pour spécificité d’être sans Etat de référence. En parallèle, Priya Kumar, s’est davantage concentré sur les types d’activités en ligne des membres de cette diaspora.
On retrouve alors la spécificité des questions de recherche dans les variables choisies pour analyser les corpus: en premier celles d’Anat Ben David:
Les catégories de Priya Kumar:
Cette adaptation du corpus en fonction des questions de recherche du chercheur se retrouve également dans le découpage des acteurs constituant le corpus, d’abord Anat Ben David:
Les catégorisations d’acteurs de Priya Kumar:
L’adaptation des corpus en fonction des questions de recherche respectives aux chercheurs tend à rendre difficile une comparaison entre les différents corpus de sites web de diaspora. L’événement e-diaspora a en effet été accompagné de la sortie d’un atlas papier regroupant tous les corpus de sites des différentes diaporas, invitant presque intuitivement à les comparer. Toutefois, les critères de sélection des sites Web des corpus peuvent changer fortement entre chercheurs: le chercheur Emmanuel Ma Mung Kuang (CNRS) a par exemple restreint son corpus au sites web par et pour des Chinois d’outre-mer, excluant ainsi les sites officiels, les sites en Chine ou Taïwan, les sites pour les Chinois d’outre-mer mais pas réalisés par eux, et les sites sinophones; une autre manière de sélectionner les sites peut être de choisir un nombre de liens pointant vers le site, désignant son importance et permettant ainsi de sélectionner les sites constituant le corpus (par exemple, exclure tous les sites qui ont moins de cinq liens entrants). Ces deux modalités de constitution du corpus diffèrent entre les chercheurs, rendant ainsi difficile une comparaison entre les différentes diasporas en ligne. On notera toutefois que des critères communs ont été mis en avant dans l’atlas, par “régional components”, “activism”, “incipient diapora”.
Dans tous les cas, les cartes de sites web se basent, à l’instar des cartes géographiques (comme j’ai tenté de le démontrer dans cet article), sur un principe d’exclusion d’éléments dans un souci de réalisation, de visibilité et d’analyse. Comme l’a rappelé Franck Ghitalla (qui modérait ce panel et qui a développé ce point ici) la carte ne représente pas la réalité, mais le découpage qu’un chercheur effectue dans un matériau afin de réaliser son travail d’analyse, même si, paradoxalement, la carte tend à suggérer une exhaustivité du phénomène représenté.

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 United States License.

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 United States License.