Archives pour la catégorie construire les données

La collaboration par les données : compte-rendu d’un rapport d’Alexandre Léchenet

Le « Data Journalisme » n’est plus qu’une expression à la mode : une petite décennie nous sépare l’article original d’Holovaty, A Fundamental Way Newspaper Need To Change, publié initialement en septembre 2006. Depuis lors, le terme a fédéré une importante communauté professionnelle, structurée par des projets emblématiques, des associations, des espaces d’échanges, des ressources éducatives, et, même, un manuel de référence (le Data Journalisme Handbook). Le mouvement ayant atteint une forme de maturité, il devient tentant d’en rédiger l’histoire…

Le rapport d’Alexandre Léchenet, Global Database Investigations: The role of the computer-assisted reporter s’inscrit dans la perspective d’une évaluation rétrospective : que s’est-il passé pendant ces dix dernières années ? Le parcours de Léchenet résume parfaitement le processus d’institutionnalisation du mouvement : il participe initialement à l’aventure OWNI, avant de rejoindre des titres de référence de la presse française, le Monde puis, depuis peu, Libération.

Pour autant, le rapport ne se présente pas comme un témoignage. Léchenet propose une analyse élaborée et distancée d’un phénomène auquel il a directement participé, en tentant de cerner l’influence de facteurs jusqu’ici relativement ignorés, telles que la mondialisation de l’enquête journalistique. Depuis les années 1990, il devient en effet difficile de se restreindre au seul espace national. L’harmonisation des législations (sous l’effet d’organisations supra-nationales, comme l’Union Européenne ou l’OMC), l’émergence d’une société de l’information globalisée (avec l’avènement des nouveaux médias) et la dérégulation des échanges : tous ces processus conjoints concourent à saisir l’actualité par-delà les frontières. Or, les rédactions restent fortement localisées : l’immense majorité des journaux revendiquent un attachement à un territoire précis. Il n’en a pas toujours été ainsi. On assiste ainsi à l’émergence d’un journalisme francophone international au cours du XIXe siècle, grâce à l’absence de toute restriction liée à la propriété intellectuelle (les articles de presse appartenaient de facto dans un domaine public vivant).

Les outils numériques permettent de satisfaire ces besoins préexistants. Ils ne facilitent pas seulement le stockage et l’indexation de vastes volumes de données, mais autorisent des collaborations intensives à distance. Les trois case studies présentées par Léchenet s’inscrivent toutes dans cette configuration : le traitement de vastes problématiques transnationales est rendu possible par la création et l’utilisation de grandes bases de données collaboratives.

Farmsubsidy prend forme dès 2005 (soit avant même l’apparition du terme « data journalisme »). Le projet s’apparente initialement à une collecte informelle d’informations sur le financement de la Politique Agricole Commune. Les bénéficiaires de ce plan européen très coûteux (50 milliards d’euros par an) restent en effet inconnus. Néanmoins, plusieurs pays européens (comme le Danemark) avaient mis en place des procédures d’accès à l’information (on parle aussi de Wobbing, dans le jargon datajournalistique). Graduellement, le projet prend de l’ampleur. Il s’intitule aujourd’hui « Data Harvest » et a diversifié ses activités de récolte de données bien au-delà

Farmsubsidy reste cependant une forme de collaboration relativement lâche, qui se limite à la mise en commun d’informations obtenus au quatre coins de l’Union Européenne. Les Offshore Leaks se caractérisent par une intégration beaucoup plus poussée. Un consortium d’une centaine de journalistes issu de 47 pays est créé, quinze journalistes se consacrant exclusivement au « nettoyage » des données. La divulgation des révélations fait l’objet d’une coordination internationale, afin d’en renforcer l’impact.

Le troisième projet, les Migrant files, se constitue avec le soutien d’organisations internationales. Les informations recueillies sont fréquemment utilisées par Amnesty International ou l’Office de l’immigration : « c’était la base données la plus complète disponible sur le sujet » (p. 24).

Le rapport de Léchenet explique ainsi le développement du data journalisme par les usages plutôt que par les idées : le data journalisme émerge presque spontanément dans le cadre de communautés de pratiques. Le travail sur la donnée constitue le terrain commun propice au rapprochement des rédactions et à la convergence des métiers et des expertises. L’élaboration de représentations collectives de ce que serait ou devrait être le data journalisme découle de ces expériences collaboratives, qui n’avaient initialement qu’un objectif très précis (par exemple recueillir des données sur la PAC).

Léchenet met également l’accent sur aspect du data journalisme que l’on tend à occulter : le classement documentaire. La donnée n’apparaît pas seulement la matière première d’une analyse statistique, visant à dégager corrélations et causations : elle constitue un objet éditorial qui doit être identifié, « nettoyé » et classé. La description des Offshore Leaks rend compte de la difficile construction d’un ordre documentaire, depuis l’extraction du texte (par OCR) jusqu’à la catégorisation des noms et des mouvements financiers concernés.

Enfin, le rapport s’interroge sur le développement d’une culture collaborative au sein du champ journalistique. Léchenet se fait l’écho d’une remarque ironique d’Emily Bell : « il n’y a rien que les journalistes n’aiment plus qu’apprendre à coder, si ce n’est collaborer les uns avec les autres… ». Les journaux restent en effet des entreprises en concurrences, les unes avec les autres : peut-on surmonter durablement l’état de méfiance instinctive entre tous les acteurs ?

L’utilisation croissante des outils open source et l’implication d’acteurs situés hors du champ journalistique (des associations au hacker solitaire) semble encourager ce nouvel état d’esprit : « La culture collaborative n’est pas inhérente à l’activité journalistique. Mais les techniques du computer-assisted reporting supposent souvent la collaboration des journalistes, soit avec les lecteurs, soit avec d’autres journalistiques et les repères culturels sont en train de changer. » (p. 25).

Séminaire n°2 : le parcours de la donnée, de l’informatique à l’information

Pour sa deuxième séance de travail, le séminaire Jourdain a reçu Patrick Gallinari et Jean-Gabriel Ganascia, chercheurs au Lip 6, laboratoire d’informatique de l’UPMC (Université Pierre et Marie Curie, Paris 6). Était également présent Philippe Onillon, directeur adjoint de la rédaction Europe-Afrique à l’AFP en charge de la veille sur les nouvelles pratiques d’information.

L’objectif de cette rencontre interdisciplinaire consistait à préciser les modalités techniques qui transforment en donnée une information recueillie et distribuée par des outils informatiques.

Patrick Gallinari et Jean-Gabriel Ganascia ont explicité les spécificités du département « données » de leur laboratoire. L’apprentissage consiste à créer des systèmes qui peuvent « apprendre » à partir des données du monde (la « fouille de données » est par exemple une technique d’apprentissage). Le développement d’algorithmes spécifiques permet de traiter des données de différentes sortes (sémantiques, textuelles, vidéos etc.).

Nom
Création
Type de logiciel
Licence
Éditeur
Utilisations notables
Fonction
Datawrangler2011Application web?StanfordNettoyage des données
Google Refine2010Application webLibreGoogleNettoyage des données
Google Fusion Tables2009Application web?GoogleNettoyage de petits jeux de données
Impure2010Application web?BestarioRecueil, traitement et visualisation
Tableau Public?Application webLibreTableau SoftwareLa NacionRecueil, traitement et visualisation
Excel1985Application bureauPropriétaireMicrosoftTout-le-monde…Traitement simple
R1993Code spécifiqueLibreCommunauté open sourcePro PublicaTout type de traitement
Ruby1995Code spécifiqueLibreCommunauté open sourceGregor Aisch, Chicago TribuneTout type de traitement
Python1991Code spécifiqueLibreCommunauté open sourceGregor AischTout type de traitement
SPSS1968Code spécifiquePropriétaireIBMProPublica, Seattle TimesTout type de traitement
Num.Py1995Bibliothèque PythonLibreCommunauté open sourceChicago TribuneTout type de traitement
NitroPDF2005Application bureauPropriétaireNitroLa NacionConversion des PDF
Panda2008Bibliothèque PythonLibreCommunauté open sourceTout type de traitement

Un jeu de données Jourdain :
Les principaux outils de traitement informatiques des données

A l’issue de la rencontre il s’avère que nous aurions pu intituler cette séance « Le parcours de la donnée : de l’information à l’information » ou encore « De l’information à la donnée, de la donnée à l’information ».

En effet, ce séminaire commun a été l’occasion de saisir des modalités d’appropriation très différenciées des termes : pour les informaticiens, l’ « information » est envisagée comme le matériau premier, le plus « brut ». Ils parlent ainsi d’ « information sale » qui demande à être « nettoyée ». Les « données », elles, sont considérées comme des « agrégats d’informations », stockées dans des dispositifs. En ce sens, les « données » sont déjà des connaissances, obtenues à partir des « informations » rendues « propres » puis mises en forme dans des « bases de données ».

Pour Patrick Gallinari, « quand on prend des données il y a plein d’informations dedans ». Il faut alors procéder à un « nettoyage pour garder l’information de base, pour trouver ce qui intéresse ». A partir du code, « on enlève un peu de cambouis, on nettoie avec des outils automatiques. »

Chaîne de production des données telle que modélisée par Datapublica

Chaîne de production des données telle que modélisée par Datapublica

Patrick Gallinari et Jean-Gabriel Ganascia ont par ailleurs exposé quelques exemples de « chantiers » sur lesquels interviennent les chercheurs du Lip6. Alcatel souhaitait ainsi développer des outils de recommandation à partir des discours sociaux et des habitudes d’usage. Pour cela, ils ont besoin des méta-données, c’est-à-dire des « informations » qui décrivent les programmes. Concrètement, il s’agit d’obtenir un retour d’usages lors de la production d’un objet.

Un autre projet sur la télécommande consiste à enregistrer tous les usages pour chercher les corrélations entre programmes, contextes et usages. Ce qui permet de tracer un parcours du visionnage à partir de la construction d’ « outils d’apprentissage ». Les chercheurs partent d’une « profusion d’informations », il s’agit ensuite de leur « donner un sens » pour « arriver à un degré d’abstraction élevé ».

On retrouve l’autre pan du chiasme dans le discours de Philippe Onillon. Pour lui, « c’est la donnée qui produit du journalisme », et donc, sous-entendu, de l’information. Ainsi, « avant le traitement [de l'information], il faut la donnée, il faut la bâtir ». « Au départ, il y a un événement, quand on recherche l’illustration, on cherche une donnée précise pour illustrer le fait. »