Archives de l’auteur : Pierre-Carl Langlais

La collaboration par les données : compte-rendu d’un rapport d’Alexandre Léchenet

Le « Data Journalisme » n’est plus qu’une expression à la mode : une petite décennie nous sépare l’article original d’Holovaty, A Fundamental Way Newspaper Need To Change, publié initialement en septembre 2006. Depuis lors, le terme a fédéré une importante communauté professionnelle, structurée par des projets emblématiques, des associations, des espaces d’échanges, des ressources éducatives, et, même, un manuel de référence (le Data Journalisme Handbook). Le mouvement ayant atteint une forme de maturité, il devient tentant d’en rédiger l’histoire…

Le rapport d’Alexandre Léchenet, Global Database Investigations: The role of the computer-assisted reporter s’inscrit dans la perspective d’une évaluation rétrospective : que s’est-il passé pendant ces dix dernières années ? Le parcours de Léchenet résume parfaitement le processus d’institutionnalisation du mouvement : il participe initialement à l’aventure OWNI, avant de rejoindre des titres de référence de la presse française, le Monde puis, depuis peu, Libération.

Pour autant, le rapport ne se présente pas comme un témoignage. Léchenet propose une analyse élaborée et distancée d’un phénomène auquel il a directement participé, en tentant de cerner l’influence de facteurs jusqu’ici relativement ignorés, telles que la mondialisation de l’enquête journalistique. Depuis les années 1990, il devient en effet difficile de se restreindre au seul espace national. L’harmonisation des législations (sous l’effet d’organisations supra-nationales, comme l’Union Européenne ou l’OMC), l’émergence d’une société de l’information globalisée (avec l’avènement des nouveaux médias) et la dérégulation des échanges : tous ces processus conjoints concourent à saisir l’actualité par-delà les frontières. Or, les rédactions restent fortement localisées : l’immense majorité des journaux revendiquent un attachement à un territoire précis. Il n’en a pas toujours été ainsi. On assiste ainsi à l’émergence d’un journalisme francophone international au cours du XIXe siècle, grâce à l’absence de toute restriction liée à la propriété intellectuelle (les articles de presse appartenaient de facto dans un domaine public vivant).

Les outils numériques permettent de satisfaire ces besoins préexistants. Ils ne facilitent pas seulement le stockage et l’indexation de vastes volumes de données, mais autorisent des collaborations intensives à distance. Les trois case studies présentées par Léchenet s’inscrivent toutes dans cette configuration : le traitement de vastes problématiques transnationales est rendu possible par la création et l’utilisation de grandes bases de données collaboratives.

Farmsubsidy prend forme dès 2005 (soit avant même l’apparition du terme « data journalisme »). Le projet s’apparente initialement à une collecte informelle d’informations sur le financement de la Politique Agricole Commune. Les bénéficiaires de ce plan européen très coûteux (50 milliards d’euros par an) restent en effet inconnus. Néanmoins, plusieurs pays européens (comme le Danemark) avaient mis en place des procédures d’accès à l’information (on parle aussi de Wobbing, dans le jargon datajournalistique). Graduellement, le projet prend de l’ampleur. Il s’intitule aujourd’hui « Data Harvest » et a diversifié ses activités de récolte de données bien au-delà

Farmsubsidy reste cependant une forme de collaboration relativement lâche, qui se limite à la mise en commun d’informations obtenus au quatre coins de l’Union Européenne. Les Offshore Leaks se caractérisent par une intégration beaucoup plus poussée. Un consortium d’une centaine de journalistes issu de 47 pays est créé, quinze journalistes se consacrant exclusivement au « nettoyage » des données. La divulgation des révélations fait l’objet d’une coordination internationale, afin d’en renforcer l’impact.

Le troisième projet, les Migrant files, se constitue avec le soutien d’organisations internationales. Les informations recueillies sont fréquemment utilisées par Amnesty International ou l’Office de l’immigration : « c’était la base données la plus complète disponible sur le sujet » (p. 24).

Le rapport de Léchenet explique ainsi le développement du data journalisme par les usages plutôt que par les idées : le data journalisme émerge presque spontanément dans le cadre de communautés de pratiques. Le travail sur la donnée constitue le terrain commun propice au rapprochement des rédactions et à la convergence des métiers et des expertises. L’élaboration de représentations collectives de ce que serait ou devrait être le data journalisme découle de ces expériences collaboratives, qui n’avaient initialement qu’un objectif très précis (par exemple recueillir des données sur la PAC).

Léchenet met également l’accent sur aspect du data journalisme que l’on tend à occulter : le classement documentaire. La donnée n’apparaît pas seulement la matière première d’une analyse statistique, visant à dégager corrélations et causations : elle constitue un objet éditorial qui doit être identifié, « nettoyé » et classé. La description des Offshore Leaks rend compte de la difficile construction d’un ordre documentaire, depuis l’extraction du texte (par OCR) jusqu’à la catégorisation des noms et des mouvements financiers concernés.

Enfin, le rapport s’interroge sur le développement d’une culture collaborative au sein du champ journalistique. Léchenet se fait l’écho d’une remarque ironique d’Emily Bell : « il n’y a rien que les journalistes n’aiment plus qu’apprendre à coder, si ce n’est collaborer les uns avec les autres… ». Les journaux restent en effet des entreprises en concurrences, les unes avec les autres : peut-on surmonter durablement l’état de méfiance instinctive entre tous les acteurs ?

L’utilisation croissante des outils open source et l’implication d’acteurs situés hors du champ journalistique (des associations au hacker solitaire) semble encourager ce nouvel état d’esprit : « La culture collaborative n’est pas inhérente à l’activité journalistique. Mais les techniques du computer-assisted reporting supposent souvent la collaboration des journalistes, soit avec les lecteurs, soit avec d’autres journalistiques et les repères culturels sont en train de changer. » (p. 25).

Journée d’étude Jourdain : pour une approche interdisciplinaire du journalisme de données

La séance du matin illustre la diversité et la complémentarité des approches disciplinaires autour du journalisme de données. Des conditions de production technique des bases de données aux enjeux économiques et éthiques des données personelles, en passant par l’analyse des discours et des jeux d’acteurs, les points d’ancrages sont nombreux.

L’introduction d’Adeline Wrona appelle ainsi au développement d’une approche interdisciplinaire du journalisme de données.

L’intervention de Fabrice Rochelandet porte sur les enjeux politiques, économiques et éthiques des données personnelles.

Cet intervention a suscité un débat intense sur les problématiques de la prédiction journalistique et de la valeur sociale de la vie privée.

Olivier Trédan a développé un cas d’espèce : les effets des discours du journalisme de données sur les politiques publiques locales.

S’en est suivi un second débat, portant sur les conditions de fabrication des données et les mécanismes mis en œuvre pour garantir leur confidentialité.

La séance du matin de la journée d’étude s’est conclue sur la présentation de l’approche informatique du travail sur les données. Membre du laboratoire d’informatique de Paris-6 (Lip6), Alaa Abi Haidar retrace les différentes étapes de la construction d’une base de données, depuis le nettoyage du corpus jusqu’à l’élaboration de requêtes sophistiquées.

Cette présentation s’est prolongée dans un échange sur les effets des méthodes et des algorithmes utilisés.

Vous pouvez retrouver l’intégralité des enregistrements de la journée d’étude jourdain sur la chaîne YouTube
Projet Jourdain

Les datajournalistes français

Les jeux de données du projet jourdain ont à plusieurs reprises évoqué cette difficulté : il n’existe pas de critère définitif pour identifier un « datajournaliste ».

Cette activité n’est pas forcément plus floue que celle de journaliste au sens large. Néanmoins, depuis près d’un siècle, les journalistes disposent de lieux et de formes de reconnaissances structurés : associations syndicales, cartes de presse, cursus universitaires… Ces instances normalisatrices ne constituent pas tout le journalisme mais elles permettent de circonscrire objectivement une population professionnalisée.

Il n’existe rien de comparable pour le datajournalisme en France. Quelques formations commencent à être dispensées, mais elles ne sont pas sanctifiées par un diplôme spécifique. A fortiori, les quelques datajournalistes revendiqués se sont formés seuls ou en associant plusieurs formations a priori distinctes (parfois un cursus de développeur et un cursus de journaliste).

En l’absence d’intermédiaires institués, les datajournalistes se croisent et échangent leur savoir-faire par le biais d’interfaces plus ou moins formalisées. Ces interfaces peuvent prendre la forme d’une organisation professionnelle, d’une association bénévole, d’une série de conférences ou même d’un manuel collaboratif.

Une distinction souvent employée en sociologie du journalisme permet de classer a minima ces différents lieux de rencontre et d’échanges : la distinction entre structures « locales » et structures « cosmopolite ». Les premières s’apparentent à un projet ou à une entreprise fédérant plusieurs métiers, par-delà les différences de formations. La conception du journal Le Monde nécessite ainsi de nombreux de profils distincts qui sont amenés à cohabiter quotidiennement. Les secondes constituent plutôt des organisations de niveau supérieur, s’attachant à renforcer la cohésion d’un groupe ou d’un sous-groupe professionnel : c’est le cas des syndicats de journalisme.

La dynamique définitionnelle du datajournalisme à la française dépend des interrelations entre ces deux types de structures. Les structures locales permettent d’importer des compétences issues d’autres champ professionnels (notamment auprès des développeurs). Les structures cosmopolite contribueraient éventuellement à stabiliser la doctrine émergente du datajournalisme.

Les structures locales

Tous les grands titres de la presse française relèvent potentiellement de cette catégorie.

Le datajournalisme n’est que l’une des manifestations d’une mutation plus générale : les rapports entre les journalistes et les développeurs sont de plus en plus étroits. La numérisation de l’activité journalistique favorise les collaborations durables et les échanges de savoir-faire. On assiste ainsi à l’émergence de figures hybrides. Des journalistes se forment à des outils de programmation de plus en plus poussés. Des développeurs s’initient aux usages propres à l’écriture de l’actualité.

Ces multiples croisements favorisent des modes de productions journalistiques demeurés jusqu’alors marginaux, à défaut d’être complètement inédits. La BBC commence à faire du « datajournalisme » dès 1999, soit sept ans avant que le terme ne soit formalisé par Adrian Holovaty.

En France, ce renouvellement se matérialise avec l’arrivée de nouveaux acteurs. La vogue des pure player entre 2006 et 2009 (Rue89, Backchich, Streetpress, OWNI…) crée les conditions nécessaires à une véritable symbiose entre les différentes professions impliquées dans la chaîne de production de l’information en ligne. Le datajournalisme n’est ainsi que l’une des multiples tentative de résolution d’un questionnement plus global sur l’avenir de la profession journalistique.

Jusqu’en 2012, l’introduction du datajournalisme a été essentiellement portée par un seul acteur : le site OWNi.

En trois ans, ce nouveau média souhaitant « augmenter » le journalisme parvient à renouveler certains référents professionnels à défaut de définir un modèle économique pérenne. Un taux élevé de turnover garantit la formation d’une trentaine de journalistes dont six portent le titre de datajournaliste. Ce réseau purement local, essaime dans le monde médiatique français et assure la perpétuation de l’esprit d’OWNI. Plusieurs acteurs historiques sont touchés par cette dissémination : Le Monde, Télérama, France 2.

Certains anciens d’OWNI profitent de l’expérience acquise pour participer à la création de nouvelles structures locales. Nicolas Kayser-Bril lance Journalism++ avec l’appoint de plusieurs développeurs, dont un autre ex-OWNI, Pierre Romera. Marie Coussin rejoint une agence d’infographie, AskMedia. Dans les deux cas, le positionnement de l’organisation se situe délibérément aux marges du journalisme. Journalism++ se rapproche du monde associatif. Askmedia se réfère apparemment au modèle des agences de communication ou de consulting.

Le jeu de données ci-dessous répertorie la quasi-totalité des datajournalistes français (en l’absence de toute organisation structurée, des lacunes sont toujours possibles). Sur les 16 profils recensés, 9 sont passés par OWNI.

Nom
Employeur
Membre d’OWNI
Statut
Paul-Antoine ChevalierAskmediaNonStatisticien
Mathilde BoireauAskmediaNonDatajournaliste
Marie CoussinAskmediaOuiDatajournaliste
Julien GoetzIndépendantOuiDatajournaliste
Nicolas PatteIndépendantOuiDatajournaliste
Sylvain LapoixIndépendantOuiDatajournaliste
Jean-Marc ManachIndépendantOuiDatajournaliste
Jean AbbiateciIndépendantnonDatajournaliste
Gurvan KristanadjajaIndépendantNonDatajournaliste
Nicolas Kayser-BrilJournalism ++OuiDatajournaliste
Pierre RomeraJournalism ++OuiDéveloppeur
Alexandre LéchenetLe MondeOuiDatajournaliste
Samuel LaurentLe MondeNonJounaliste multimédia
Rémi VincentRéunion des musées nationauxOuiDatajournaliste
Florent MauvinThe Pixel HuntNonJournaliste multimédia

Une modélisation en réseau des liens professionnels entre ces datajournalistes souligne, encore davantage, le rôle structurant d’OWNI. La notion de lien professionnel renvoie ici au fait d’avoir effectivement collaboré en tant que datajournaliste au sein de la même organisation, au même moment. Ainsi bien que Nicolas Kayser-Bril et Sylvain Lapoix soient tout deux passés par OWNI, aucun lien professionnel n’est représenté ici : Kayser-Bril a en effet quitté l’organisation quelques mois avant l’arrivée de Lapoix.

Il est possible de changer l’orientation du réseau en cliquant sur l’un des datajournalistes. La partie la plus touffue correspond aux liens entre les anciens d’OWNI. Toutes les autres affiliations paraissent subsidiaires par contraste avec ce gros nœud central. Askmedia, Le Monde ou Journalism++ ne figurent que des modélisations périphériques.

Trois datajournalistes se situent complètement hors du réseau. Cet isolement paraît confirmer l’une de nos premières suppositions : en l’absence de tout cursus universitaire dédié le datajournalisme est souvent le produit d’une formation en autodidacte.

Légende

Askmedia

Journalism++

Le Monde

Réunion des musées nationaux

Streetpress

Regards sur le numérique

journaliste indépendant

Les structures cosmopolites

À ce jour, il n’existe aucune structure cosmopolite française expressément dédié au datajournalisme. Ce rôle est, par défaut, dévolu à des organisations internationales, que ce soit directement ou via leur « succursale » française.

Le réseau Hacks/Hackers joue ainsi un rôle de premier plan. Créé l’année dernière, il organise des réunion en moyenne deux à trois fois par trimestre, sur des thèmes spécifiquement datajournalistiques telles que la récupération automatisée des données en ligne (ou scraping) ou la data-visualisation. Journaliste au Monde et ancien d’OWNI, Alexandre Lechenet est l’un des principaux animateur de ce réseau en formation.

Bien que la section parisienne de Hacks/Hackers se focalise sur le datajournalisme, son audience s’étend bien au-delà du petit cercle de datajournalistes ou d’aspirants datajournalistes. Plus de 400 personnes ont fréquenté l’une de ses manifestations et disposent d’un statut de membre au sens large. Parmi elles, on compte beaucoup de professionnels du numériques ou de militants de l’Open Data. Le réseau apparaît ainsi surtout comme un lieu d’initiation aux nouvelles pratiques d’analyse et de mises en formes statistiques.

L’Open Knowledge Foundation est encore plus éloignée des milieux du journalisme. Ce mouvement international créé par un universitaire anglo-allemand à Cambridge en 2004, vise à la « libération » du savoir sous toutes ses formes : scientifique, économique, utilitaire… Le journalisme de données est l’un des enjeux de cette libération. Cette activité porte la promesse d’une vulgarisation et d’une diffusion accrue des ressources issus de l’ouverture des données publiques et institutionnelles, par le biais de formalisations appropriées à un lectorat généraliste.

En 2012, l’Open Knowledge Foundation a coordonné l’édition d’un manuel collaboratif en ligne, le Data Journalism Handbook (pour plus d’information, on peut se référer à notre précédente analyse consacrée à ce manuel). Sa traduction française vient de paraître. Elle ne se contente pas de transcrire l’original en anglais, mais ajoute un contenu spécifique rédigé par des « experts » francophones du datajournalisme.

On retrouve logiquement quelques uns des 15 datajournalistes français identifiés : Kayser-Bril, Marie Coussin, Alexandre Lechenet… Et aussi, quelques intervenants plus occasionnels, tels que Fanny Hardy du Dauphiné Libéré.

Nom
Section
Employeur
Version originelle
Marie CoussinLe VéritomètreAskmediaNon
Yann GuéganCréation d'applis à Rue89Rue89Non
Fanny HardyCrowdsourcing : l'accès à la TNT dans le Sud-est de la FranceLe Dauphiné LibéréNon
Karen BastienLe desing d'informations au service du datajournalismeWeDoDataNon
Regards CitoyensComment Regards citoyens a créé NosDéputés.frRegards CitoyensNon
Jean AbbiateciUne pige de « scraping olympique »IndépendantNon
Nicolas Kayser-BrilCrowdsourcing du prix de l'eauJournalism ++Oui
Alexandre LéchenetAspirer les données d’AmeliLe MondeNon

Le datajournalisme au futur antérieur ?

Cette cartographie rapide du datajournalisme en France met nettement en évidence la tendance dispersive de cette activité. Paradoxalement, le datajournalisme ne parvient à solidifier son modèle économique et à se populariser qu’en s’émancipant du journalisme stricto sensu.

À l’exception d’Alexandre Lechenet, peu de datajournalistes ont fait le choix de s’affilier durablement avec un acteur historique de la presse française. Les emplois ne durent souvent que le temps d’un projet. La participation à la création d’une nouvelle organisation, généralement sise aux marges, voire au-delà, du journalisme apparaît comme une issue plus fréquente. Après la disparition d’OWNI, le maillage des structures locales paraît ainsi trop divers et éclaté pour porter une acception unique du datajournalisme.

Par contraste avec la plupart des « idéologies professionnelles », le datajournalisme diffuse plus facilement ses pratiques et ses usages en dehors de la profession à laquelle il prétend s’adresser. Cette ouverture pourrait s’avérer problématique. À trop se confondre avec les initiatives entrepreneuriales et associatives en faveur de l’accessibilité des données institutionnelles, le datajournalisme risque de perdre sa spécificité définitionnelle pour n’être plus que l’une des implications d’un mouvement social.

Un journalisme sacrifié ?

Alexis Chailloux a soutenu en octobre 2012 un mémoire intitulé Data-Hari : le journalisme sacrifié sur l’autel des données.

Ce travail est structuré autour de la problématique suivante : « comment les promesses du data-journalisme s’articulent avec les repères et imaginaires du journalisme professionnel ?». L’enjeu est d’importance : la destinée du datajournalisme dépend grandement de sa capacité à intégrer (ou à bousculer) dans les représentations existantes du journalisme.

Afin de saisir au mieux cette articulation symbolique, Alexis Chailloux met en œuvre trois méthodologies croisées : l’analyse de discours, la sémiologie graphique et linguistique des contenus produits et des entretiens semi-directifs de datajournalistes, ou de journalistes qui se positionnent (en bien, en mal…) par rapport à cette pratique émergente.

Au terme de son étude, Chailloux en vient à relativiser la proximité, souvent revendiquée du datajournalisme et du journalisme d’investigation :

Le projet politique du data-journalisme propose en effet un idéal de « journalisme de réseau » où la collaboration prend le pas sur le « cloisonnement des rédactions. Le journaliste devient chef de projet, une figure parmi d’autres de la production de l’information, dont l’autorité est contestée par des internautes experts. Finalement, si le journalisme n’est pas « sacrifié sur l’autel de la donnée », il est fragilisé par ce projet politique. Ce dernier se rapproche plus des imaginaires d’internet — transparence, libre circulation de l’information, horizontalité — que des imaginaires du journalisme professionnel.

Ce qui l’emporterait au sein de la constellation sémantique du data-journalisme, ce ne serait ni la « data » (que les datajournalistes confirmés ne prennent jamais pour argent comptant), ni le journalisme, mais un tiers terme : la culture « libriste » issue des premiers grands projets collaboratifs de l’informatique. Le data-journaliste lorgnerait bien davantage vers les communautés hackers décrites par Fred Turner que vers les mythes traditionnels de la presse écrite.

Séminaire n°4 : les enjeux démocratiques du datajournalisme

A l’occasion de cette quatrième séance, le séminaire Jourdain a reçu deux intervenants : Benjamin Gans, ingénieur Recherche et Développement et responsable Communication et Marketing chez Data Publica, société spécialisée dans le développement de « jeux de données » et Fabrice Rochelandet, économiste à l’université Paris III Sorbonne Nouvelle dont les travaux portent notamment sur « l’économie des données personnelles ».

L’objectif de cette rencontre consistait à explorer et questionner les enjeux démocratiques soulevés par le « datajournalisme » : quelle représentation du rôle des journalistes en démocratie se dessine derrière la promotion des « données » ? Comment s’exprime, à travers un imaginaire du journalisme, une réflexion sur la représentation politique ?

Les données personnelles en question

Fabrice Rochelandet est intervenu dans un premier temps. Auteur d’un ouvrage intitulé « Économie des données personnelles et de la vie privée », il étudie ce qu’il nomme le « fétichisme de la donnée ».

Il a rappelé que la liberté d’informer est à penser en lien avec la liberté des données personnelles. Il propose d’envisager, dans la longue durée, le travail de la presse (et du numérique) comme travail des données personnelles.

Il a donné pour exemple la peopolisation en soulignant qu’il ne s’agit nullement d’un phénomène récent mais bien plus d’une « vieille question » qui remonte à l’invention de la photographie de presse et qui a pu s’incarner aussi, ensuite, dans la pratique d’investigation consistant à aller chercher des « données » dans les poubelles par exemple.

Poussant plus loin la démarche, il propose d’analyser l’implication des données dans la « peopolisation de la vie ordinaire », les données sont alors envisagées comme « traces laissées derrière soi ». Elles peuvent être mobilisées comme outils dans le cadre d’étude des comportements individuels dans le sens où elles peuvent permettre de comprendre des comportements paradoxaux. Ce qui implique aussi de poser la question de la distinction entre ce qu’on dévoile de soi (données ex-ante) et ce qui est dévoilé par les autres (opérateurs – publicité ciblée) (données ex-post).

Investigation des données personnelles dans le monde par les programmes de surveillance américain (NSA)

Cette démarche met en lumière le rôle des données (et du médiatique) dans la construction des catégories désignant les personnalités comme people / publiques / politiques, dont les frontières sont loin d’être étanches.

Rochelandet pose la question de la construction de l’identité numérique. A son sens, celle-ci a à voir avec un processus de « décloisonnement des espaces sociaux de l’individu », phénomène qui conduit à la perte du monopole de la connaissance de soi et à une « illusion de contrôle ». Il propose, pour qualifier ce phénomène, la notion de « vie privée informationnelle » qui repose aussi la question de la distinction entre secret/privé et des frontières de l’intimité.

Système de récupération des données personnelles par le projet PRISM

Système de récupération des données personnelles par le projet PRISM

Son intervention s’est achevée sur une réflexion autour du flou entourant la définition de ce que sont les « données publiques » avec l’ambivalence du terme public qui peut désigner à la fois ce qui est rendu public comme ce qui est connu de tous car publié. Ainsi, les médias ne cessent d’en redéfinir les frontières.

Un exemple d’intermédiaire : Data Publica

Benjamin Gans est intervenu dans un second temps pour présenter l’agence Data Publica.
L’origine de celle-ci remonte à 2010, elle s’inscrivait alors dans le cadre d’un projet de recherche financé par le Ministère de l’Économie et données publiques en 2010. Il s’agissait de procéder au référencement des données publiques à partir des différents fichiers rendus disponibles par l’administration publique (2500 fichiers alors pour plus de 15 000 aujourd’hui). Elle avait alors pour concurrent direct le site datagouv.fr.

Au départ, l’équipe envisageait l’agence comme un « data-store » dans lequel les éditeurs privés seraient venus piocher. Comme le projet tel quel n’a pas fonctionné, un service de données « sur mesure » a été mis en place. Data Publica est alors partie du postulat que « les sociétés ont besoin de données » mais n’ont pas connaissance de ce qui existe en Open Data.

Le credo de datapublica : les entreprises ont besoin de données

Le credo de datapublica : les entreprises ont besoin de données

Aussi, eux proposent une automatisation de l’extraction pour les éditeurs qui produisent et publient des données (« qui font de l’Open Data sans le savoir »), développent des tableaux de bord à leur attention et mettent en place des outils de visualisation « à partager » (cartes, courbes, histogrammes, tableaux…). Leurs clients sont notamment des cabinets de conseil, il donne l’exemple de la réalisation d’un tableau de bord des zones d’emploi en France ou d’une carte du patrimoine immobilier de l’Etat.

En parallèle leur visée a aussi été, dans un « moment expérimental » de l’agence, de montrer que les données « ont de la valeur » en produisant des articles et en faisant connaître, à travers le travail des datajournalistes, la manière dont la donnée peut être « mise en scène ». Ils se placent ainsi en position de double intermédiaire : entre l’État et le citoyen, entre les journalistes et leurs lecteurs (médiateur de la médiation journalistique).

Une datavisualisation du réseau RATP reprise ensuite par la presse française.

Une datavisualisation du réseau RATP reprise ensuite par la presse française.

Concernant l’exposé de la méthode employée dans une démarche datajournalistique, Benjamin Gans expose qu’il existe des données disponibles, à nettoyer et à manipuler pour « faire sortir l’information ». Il souligne qu’il s’agit d’un « travail d’équipe » (développeur, journaliste, informaticien, statisticien) : « Il est possible d’en faire seul mais souvent les journalistes n’ont pas la maîtrise parfaite des outils. »

A ses yeux, il existe deux cas de figure majeurs impliquant une démarche de ce type : soit un fichier inédit à interpréter, soit la fouille de fichiers très volumineux. Ce qui implique aussi de faire la différence entre « Data » et « Big Data » : cette seconde dénomination désigne des volumes d’information exponentiels et incommensurables, qui ne peuvent être seulement traités par l’humain. A celui-ci revient toutefois de résoudre la question de comment on les gère et comment on les utilise. En effet, il rappelle que « Big Data » est évolutif et pose à ce titre des problèmes de stockage.

Plus largement, il parle du phénomène de l’Open data comme d’une « révolution » pour les données. Avec le basculement de données dans le domaine public, on est face à un gisement à exploiter, qui repose question de la transparence. En écho aux propos de Fabrice Rochelandet, il explique qu’à leur niveau on retrouve la déclinaison privé/public sous la forme business/État.

Les autres tournants identifiés par lui sont notamment OWNI, les productions d’Alexandre Léchenet pour lemonde.fr), et l’entreprise collective de Wikileaks. C’est à ce moment là, dit-il, qu’on redécouvert la possibilité de l’investigation avec les chiffres.

Benjamin Gans a clôturé son intervention en revenant sur le contenu de son activité d’enseignement au CELSA. Il a détaillé ce qu’il apprend aux étudiants et qu’il voit comme des prérequis à toute bonne activité datajournalistique : la manipulation de la donnée via Excel et les outils de visualisation (Google Charts, Many Eyes, Datawraper etc.). Ceux-ci permettent une visualisation très simple et « ça c’est du datajournalisme ». Mais, il ne s’agit pas non plus d’être uniquement dans la visualisation : la contextualisation est nécessaire en plus de la dimension esthétique et du « storytelling par l’image ».

Nom
Création
Type de logiciel
Éditeur
Type de visualisation
Utilisation
VIDI?Application webJefferson InstituteGraphiques
Many Eyes2007Application webIBMGraphiques
Infovis2008Bibliothèque javascriptCommunauté open sourceGraphiques animés
Gephi2008Application bureauCommunauté open sourceRéseaux sociaux
R1993Code spécifiqueCommunauté open sourceGraphiques
Highcharts2009Application WebHighcharts solution ASGraphiques animésOWNI
Google Maps2004Application WebGoogleCartographieOWNI, AFP, Rue89…
Kartograph2011Framework Python et JavascriptGregor AischCartographieJournalism++

Sélection des outils de visualisation par le projet jourdain

Il apprend également aux étudiants à identifier des « sources de données », à acquérir des réflexes en la matière — aller consulter opendataparis en est un exemple, à réfléchir sur nouveaux modes de lecture. Il souligne à ce propos l’aspect plus interactif des productions « data » et tisse un lien entre mobilité et nouvelles lectures, par la dimension tactile des nouveaux supports « on va pouvoir entrer dans la donnée », dans les différentes strates, avec, en prime, un effet ludique.

Séminaire n°2 : le parcours de la donnée, de l’informatique à l’information

Pour sa deuxième séance de travail, le séminaire Jourdain a reçu Patrick Gallinari et Jean-Gabriel Ganascia, chercheurs au Lip 6, laboratoire d’informatique de l’UPMC (Université Pierre et Marie Curie, Paris 6). Était également présent Philippe Onillon, directeur adjoint de la rédaction Europe-Afrique à l’AFP en charge de la veille sur les nouvelles pratiques d’information.

L’objectif de cette rencontre interdisciplinaire consistait à préciser les modalités techniques qui transforment en donnée une information recueillie et distribuée par des outils informatiques.

Patrick Gallinari et Jean-Gabriel Ganascia ont explicité les spécificités du département « données » de leur laboratoire. L’apprentissage consiste à créer des systèmes qui peuvent « apprendre » à partir des données du monde (la « fouille de données » est par exemple une technique d’apprentissage). Le développement d’algorithmes spécifiques permet de traiter des données de différentes sortes (sémantiques, textuelles, vidéos etc.).

Nom
Création
Type de logiciel
Licence
Éditeur
Utilisations notables
Fonction
Datawrangler2011Application web?StanfordNettoyage des données
Google Refine2010Application webLibreGoogleNettoyage des données
Google Fusion Tables2009Application web?GoogleNettoyage de petits jeux de données
Impure2010Application web?BestarioRecueil, traitement et visualisation
Tableau Public?Application webLibreTableau SoftwareLa NacionRecueil, traitement et visualisation
Excel1985Application bureauPropriétaireMicrosoftTout-le-monde…Traitement simple
R1993Code spécifiqueLibreCommunauté open sourcePro PublicaTout type de traitement
Ruby1995Code spécifiqueLibreCommunauté open sourceGregor Aisch, Chicago TribuneTout type de traitement
Python1991Code spécifiqueLibreCommunauté open sourceGregor AischTout type de traitement
SPSS1968Code spécifiquePropriétaireIBMProPublica, Seattle TimesTout type de traitement
Num.Py1995Bibliothèque PythonLibreCommunauté open sourceChicago TribuneTout type de traitement
NitroPDF2005Application bureauPropriétaireNitroLa NacionConversion des PDF
Panda2008Bibliothèque PythonLibreCommunauté open sourceTout type de traitement

Un jeu de données Jourdain :
Les principaux outils de traitement informatiques des données

A l’issue de la rencontre il s’avère que nous aurions pu intituler cette séance « Le parcours de la donnée : de l’information à l’information » ou encore « De l’information à la donnée, de la donnée à l’information ».

En effet, ce séminaire commun a été l’occasion de saisir des modalités d’appropriation très différenciées des termes : pour les informaticiens, l’ « information » est envisagée comme le matériau premier, le plus « brut ». Ils parlent ainsi d’ « information sale » qui demande à être « nettoyée ». Les « données », elles, sont considérées comme des « agrégats d’informations », stockées dans des dispositifs. En ce sens, les « données » sont déjà des connaissances, obtenues à partir des « informations » rendues « propres » puis mises en forme dans des « bases de données ».

Pour Patrick Gallinari, « quand on prend des données il y a plein d’informations dedans ». Il faut alors procéder à un « nettoyage pour garder l’information de base, pour trouver ce qui intéresse ». A partir du code, « on enlève un peu de cambouis, on nettoie avec des outils automatiques. »

Chaîne de production des données telle que modélisée par Datapublica

Chaîne de production des données telle que modélisée par Datapublica

Patrick Gallinari et Jean-Gabriel Ganascia ont par ailleurs exposé quelques exemples de « chantiers » sur lesquels interviennent les chercheurs du Lip6. Alcatel souhaitait ainsi développer des outils de recommandation à partir des discours sociaux et des habitudes d’usage. Pour cela, ils ont besoin des méta-données, c’est-à-dire des « informations » qui décrivent les programmes. Concrètement, il s’agit d’obtenir un retour d’usages lors de la production d’un objet.

Un autre projet sur la télécommande consiste à enregistrer tous les usages pour chercher les corrélations entre programmes, contextes et usages. Ce qui permet de tracer un parcours du visionnage à partir de la construction d’ « outils d’apprentissage ». Les chercheurs partent d’une « profusion d’informations », il s’agit ensuite de leur « donner un sens » pour « arriver à un degré d’abstraction élevé ».

On retrouve l’autre pan du chiasme dans le discours de Philippe Onillon. Pour lui, « c’est la donnée qui produit du journalisme », et donc, sous-entendu, de l’information. Ainsi, « avant le traitement [de l'information], il faut la donnée, il faut la bâtir ». « Au départ, il y a un événement, quand on recherche l’illustration, on cherche une donnée précise pour illustrer le fait. »

 

Séminaire n°3 : Approches sémiotiques du « journalisme de données »

Le troisième séminaire jourdain s’ouvre là où le second s’était arrêté. Ce dernier était consacré aux processus de construction des données informatiques.

Au terme de ce travail de recueillement et d’explicitation, on dispose d’un ensemble de significations à exposer : corrélations, causalités, similitudes, affinités. Comment les mettre en scène ? Comment les donner à voir sans exiger du public la mise en œuvre de procédures statistiques élaborées ? En recourant à des visualisations (ou « dataviz » pour reprendre une terminologie assez circulante aujourd’hui).

Anne Beyaert-Geslin est professeur en sémiotique à l’université de Bordeaux III et directrice du CeRes (Centre de Recherches sémiotiques de Limoges). Pour ce séminaire dédiée à la visualisation des données, elle est revenue sur un projet ANR auquel elle a participé entre 2008-2010 : Idivis (Images et dispositifs de visualisation scientifique). Indivis interrogeait les modalités de visualisation de données à partir d’une question liminaire simple : qu’est-ce qu’une image scientifique ?

Définir l’image scientifique

L’image scientifique vise à faire connaître ce dont elle est la représentation. À ce titre, elle est prédictive, didactique et dynamique car elle permet aux scientifiques de mettre à l’épreuve la réflexion sur l’agencement de données. L’image est modifiable, déclinable et améliorable. Elle ne prétend pas proposer une représentation définitive et éternellement fixée.

Système solaire représenté par Andreas Cellarius dans Harmonica Macroscomica (1660). Le recours à l’allégorie contribue à rendre l’image plus familière.

L’image scientifique vise un référent qui est hors du visible, soit qu’il se trouve hors de portée soit qu’il est dissimulé par une autre couche ou enveloppe (ainsi en est-il des images de l’intérieur du corps humain). Dès lors s’impose la nécessité d’un visuel traduisant cet aspect « hors du visible ». L’image va créer le référent permettant cette lecture en même temps qu’elle façonne l’objet.

Comme l’objet qu’elle représente n’est pas visible, l’image scientifique est envisagée comme prothèse à deux titres :

  • pragmatique en ce que son enjeu est de dépasser l’obstacle entre exposition/obstruction et accessibilité/inaccessibilité
  • cognitive car il s’agit, pour assurer ce dépassement, de choisir un mode de visualisation qui renvoie à quelque chose de familier, qui compose un raccourci aisé à assimilé.

Bayaert-Geslin souligne que ce nous jugeons réaliste renvoie à une accoutumance à certains systèmes de représentation. Il existe de fait une dynamique de familiarisation et d’inculcation : les images que nous contemplons le plus souvent nous paraissent plus ordinaires et, donc, plus vraisemblable. D’où l’importance de l’iconisation : la stabilisation dans une forme familière assurera en retour la reconnaissance et l’impression de réalisme.

Le choix du modèle de visualisation par l’image s’effectue ainsi à partir de modèles familiers, dans une gamme de modes en usage. La visualisation est un dispositif pragmatique et cognitif qui vise à donner à comprendre.

Donner à voir et à croire

Au critère de familiarité s’ajoute un critère esthétique. Entre deux hypothèses, la préférence va toujours à la plus esthétique, en fonction de deux critères : symétrie et simplicité. Il s’agit, là encore, d’assurer l’effet réaliste, de faire croire, la beauté est envisagée comme force de conviction. La belle symétrie de la structure en double hélice de l’ADN a ainsi beaucoup contribué à sa rapide diffusion.

Un exemple de circulation de l’image scientifique : reproduction de la structure classique de l’ADN avec des briques légo

En effet, il s’agit avec l’image scientifique de construire le donner à lire d’une évidence. Est évident ce qui paraît immédiatement visible et saisissable. Comment se construit cet effet d’évidence ?

  • Par le traitement différent des formes et des couleurs. Si la forme est intrinsèque à l’objet, la couleur, elle, est autonome et va être utilisée pour cela en tant que discriminant signifiant (notamment en cartographie).
  • Par la standardisation du cadrage des photographies scientifiques : les marques de subjectivité sont effacées pour créer un effet d’impersonnalité, considéré comme critère d’appréciation de valeur.
    Choix du point d’ancrage ou à quoi « accrocher » l’image? : lorsque l’échelle humaine n’est pas envisageable, on choisit souvent l’échelon national, autre forme du familier.

Construire des images formelles

Les images formelles cherchent à rendre visibles des objets situés hors du visible. On retrouve un peu cette préoccupation dans le journalisme de donnée : il s’agit là aussi de mettre à jour une signification cachée, voire volontairement dissimulée, au terme d’un travail d’investigation.

Cette injonction devient tout particulièrement prégnante lorsque les quantités de données recueillies sont incommensurables en termes quantitatifs : comment leur rendre une présence sensible?

Si les données sont situées en deçà de l’information, il s’agit de leur construire une présence sensible (correspond au plan de l’expression de la sémiosis). La visualisation passe alors par une opération de réduction sémiotique. Dans son Anthropologie structurale Lévi-Strauss souligne que : « toute représentation passe par une réduction ». Il s’agit d’une conversion vers le sensible : elle suppose la commensurabilité des données pour assurer la compréhension. De même, le journaliste cherche, autant que possible, à ramener son sujet à une dimension humaine, en recourant notamment à la comparaison à des objets ou attitudes du quotidien.

La forme du diagramme est commune à l’imagerie scientifique traditionnelle et à la visualisation de données. Elle intervient comme réponse privilégiée à cette injonction de réduction.

Le diagramme scientifique est ici radicalement distinct de l’image artistique. IL n’admet aucune ambiguïté. Sa signification ne peut pas être indéfiniment distendue, ni servir de point de départ à des réceptions sociales élaborées (le scandale esthétique, par exemple). Pour Peirce, la dimension iconique du diagramme ne vise qu’à résoudre les problèmes cognitifs. Le diagramme est une conception explicative a posteriori, une pré-forme. Comme pour les stéréotypes de l’écriture journalistique, la structure élémentaire étant déjà connue et maîtrisée, on pourra mettre plus aisément l’accent sur le nouveau, sur le fait scientifique informel que l’on cherche à domestiquer.

Cette forme de visualisation possède, en somme, un caractère performatif. Elle est dotée d’une opérativité symbolique qui donne vie à un concept ou une représentation située par-delà la compréhension humaine immédiate.

Conclusion

Anne Beyaert-Geslin revient sur la dimension processuelle : collecte-visualisation – utilisation. Au long du processus de construction de visualisation(s) se pose toujours la question du « à quoi cela va servir ? ». Il ya une protension de l’ensemble vers le projet.

La visualisation s’adresse toujours à un certain public. Elle s’inscrit dans une pratique et dans une politique éditoriale. Il s’agit d’un principe interactif qui dynamise le système. On quitte avec elle la sémiotique du texte pour aller vers une sémiotique des pratiques, en envisageant une chaîne de la processualité, une traçabilité.

Cartographier le Data Journalism Handbook

cover DJHMouvement émergent, le datajournalisme possède déjà sa vulgate. Le Data Journalism Handbook a vocation a décrire et instituer toute une série de « bonnes pratiques » en recueillant les témoignages et conseils de 71 auteurs.

Pour quiconque s’intéresse au datajournalisme, cette expérience éditoriale a valeur de raccourci. Elle fige un champ social jusqu’alors indistinct autour d’une communauté spécifique (la communauté écrivante). Sans dissiper complètement le flou de la notion datajournalisme, elle en explicite à tout le moins les principales implications.

Le Data Journalism Handbook constitue donc un détour assez commode. Tout-le-monde peut se réclamer du titre de datajournaliste ou de journaliste de données : il n’existe pas encore de brevets de professionnalisation, comparable à la carte de presse, qui permettrait de séparer les « purs » des « impurs ». Toute étude sociologique de ce genre de déclaration d’intention se heurte inévitablement à des incohérences.

Inversement, la participation à l’écriture du livre a valeur d’engagement. Elle signale en soi une acceptation du label « datajournalisme » et une volonté de s’inscrire dans son mouvement de promotion. Étudier la communauté écrivant du Data Journalism Handbook revient à étudier un corpus auto-représentatif : par le simple geste de l’auctorialité et de l’accréditation collective, les auteurs se qualifient comme « exemplaires ». Ils établissent un référent désormais inévitable. On peut le contester, mais on ne saurait l’éviter.

Recueillir des données sur les datajournalistes

Le Data Journalism Handbook nous dit peu de choses sur ses auteurs. Deux sections fournissent des indices assez maigres. L’introduction évoque brièvement le processus de rédaction de l’ouvrage : tout est parti d’un atelier étalé sur deux jours à l’occasion du Mozilla Festival de novembre 2011. Une liste spécifie l’identité de 71 contributeurs et leurs principales affiliations.

Tout ceci ne donne qu’une image imprécise de cette communauté écrivante. Afin d’y remédier, j’ai mis en place une compilation de données biographiques essentiellement recueillies sur des sites personnels, lorsqu’ils existaient ou sur le réseau social professionnel LinkedIn. Pourquoi Linkedin et pas Facebook ? Il y a une part de ruse dans ce choix. Comme toute interface professionnelle, LinkedIn suscite de fortes contraintes techniques (les données sont très cadrées) et sociales (il est toujours possible de mentir à un employeur potentiel, mais cela reste peu probable).

Vu la relative faiblesse de l’échantillon concerné, cela reste un projet de small data : je me suis contenté de reporter les données une à une sans mettre en place un procédé de recueil automatique. Cette appréciation qualitative permet également de combler les éventuels trous et/ou d’opérer certaines déducations (la nationalité n’est pas toujours explicitée sur les fiches LinkedIn mais l’affiliation nationale reste assez aisée à cerner).

Au terme de ce travail de recueil, l’on aboutit au tableau suivant.

Prénom
Nationalité
Statut
Formation
Affiliation(s)
Gregor AischAllemagneDéveloppeurUniversität Magdeburg (Computer Visualistics)Die Zeit, Open Knowledge Foundation
Brigitte AlfterDanemarkJournalisteDanish School of JournalismJournalismfund.eu / Wobbing.eu (co-fondatrice)
Caelainn BarrRoyaume-UniJournalisteCity College JournalismBBC / Financial Times / The Guardian / Al-Jazeera / Citywire
Mariana BerruezoArgentineEntrepreneurUniversitad de Buenos AiresHacks/hackers (Buenos Aires)
Michael BlastlandRoyaume-UniJournaliste / Essayiste?BBC
Mariano BlejmanArgentineDéveloppeurUniversidad Nacional de CuyoHacks/Hackers (Buenos Aires)
John BonesNorvègeJournalisteNorges teknisk-naturvitenskapelige universitet (NTNU)Verdens Gang
Marianne BouchartFrance/Royaume-UniJournalisteESJ Lille / City University LondonBloomberg News
Paul BradshawRoyaume-UniConsultantBirmingham City UniversityDataDrivenJournalism.net, City University London, Brimingham City University
Wendy CarlisleAustralieJournalisteUniversity of New South WalesAustralian Broadcasting Corporation
Sarah CohenUSAUniversitaireUniversity of MinnesotaUniversity of North Carolina Press, Duke University
Alastair DantRoyaume-UniDéveloppeurUniversity of LondonThe Guardian
Helen DarbishireRoyaume-Uni / EspagneMilitant associatifUniversity of Durham (Philosophy of science)Access Info Europe
Chase DavisUSAJournalisteCenter for Investigative reporting
Lisa EvansRoyaume-UniDéveloppeurUniversity of Leeds (Physiotherapy)Open Knowledge Foundation / The Guardian
Duncan GeereSuèdeJournalisteGöteborgs universitetConde Nast / Pocket-lint / Shiny Media / Wired UK
Bella HurrellRoyaume-UniJournalisteThe University of Manchester (American Studies), University of Leeds (Journalism)BBC
John KeefeUSAJournalisteUniversity of Wisconsin-MadisonWNYC
Scott KleinUSAJournalisteClark UniversityThe Nation / Pro Publica / DocumentCloud
Andrew LeimdorferRoyaume-UniJournaliste?BBC
Friedrich LindenbergAllemagneDéveloppeur?Spiegel Online, Open Knowledge Foundation
Mike LinksvayerUSADéveloppeurUniversity of Illinois (Economics)Creative Commons (vice-président), Wikipedia
Mirko LorenzAllemagneUniversitaire / JournalisteUniversität zu Köln (Histoire)Deutsche Welle, Journalism++
Esa MäkinenFinlandeJournaliste?Helsingen Sanomat, OKFN
Pedro MarkunBrésilJournalisteUniversidade do Vale do Rio dos SinosTransparência Hacker, Hacks Hackers
Lorenz MatzatAllemagneJournalisteUniversität BremenZeit / Open Data City
Claire MillerRoyaume-UniJournalisteLambeth CollegeWalesOnline
Oluseun OnigbindeNigériaMilitant associatifUniversity of LondonBudgIT
Djordje PadejskiSerbieJournaliste / UniversitaireStanford UniversityStanford University
Jane ParkUSAProject ManagerUniversity of CaliforniaCreative Commons / Peer2Peer University
Cheryl PhillipsUSAJournalisteGeorgetown University / Seattle UniversityThe Seattle Times
Aron PilhoferUSAJournalisteUniversity of Minnesota-Twin CitiesThe New York Times / Hacks/Hackers / DocumentCloud / Center for Public Integrity
Lulu PinneyRoyaume-UniDesignerUniversity of CambridgeBBC News Online
Paul RaduRoumanieUniversitaire / Journaliste / EntrepreneurStanford UniversityRomanian Center for Investigative Journalism / World Economic Forum / Organised Crime and Corruption Reporting Project
Martin RosenbaumRoyaume-UniJournaliste?BBC News
Amanda RossiBrésilMilitant associatif?Friends of Januária
Martin SarsaleArgentineDéveloppeurCPELHacks/Hackers (Buenos Aires)
Fabriozio ScrolliniRoyaume-UniUniversitaireVictoria University of Wellington / Universidad Católica del UruguayLondon School of Economics and Political Science
Sarah SlobinUSADesignerNew York UniversityNew York Times / Fortune / Wall Street Journal
Sergio SorinArgentineDirecteur des ressources humainesFacultad Latinoamericana de Ciencia SocialesLa Nación / Hacks/Hackers (Buenos Aires)
Brian SudaUSA / IcelandDéveloppeurUniversity of Saint-Louis / University of Edinburgh(optional.is)
Jeremy ThorpUSADéveloppeur / DesignerVancouver Film SchoolThe Office for Creative Research / The New York Times
Andy TowArgentineUniversitaire?Hacks/Hackers (Buenos Aires)
Sascha VenohrAllemagneJournaliste?Die Zeit
Jerry VermanenPays-BasJournalisteLeiden UniversityNU.nl / Sanoma Media Netherlands
Farida VisRoyaume-UniUniversitaireManchester Metropolitan UniversityUniversity of Leicester / Open Data Manchester
Pete WardenUSADéveloppeur / StatisticienUniversity of ManchesterO'Reilly Media / OpenHeatMap / Jetpac
Chrys WuÉtats-UnisJournaliste?Knight News Challenge / Los Angeles Times / New York Times / WNYC
Brian BoyerUSAJournaliste / DéveloppeurUniversity of Illinois (Computer Science), Northwestern University (Journalism)Chicago Tribune
Stephen DoigUSAJournaliste / UniversitaireDarthmouth College (Bachelor of art)Miami Herald / Walter Cronkite School of Journalism
Nicolas Kayser-BrilFranceJournalisteScience po Lille / University of East AngliaOWNI / Journalism ++
Cynthia O'MurchuRoyaume-UniJournaliste?Financial Times, Centre for Investigative Journalism
Angélica Peralta RamosArgentineJournalisteUniversidad de Buenos AiresLa Nacion
Simon RogersRoyaume-UniJournalisteCity UniversityThe Guardian
David AndertonRoyaume-UniManagerUniversity of London (Oriental and African Studies)Financial Times / Apple / European Investment Bank / Flashbay Ltd.
Tim Berners-LeeRoyaume-UniDéveloppeurUniversity of Oxford (physique)Cern, W3C
Tom FriesUSAEntrepreneurUniversity of Virginia / Georgetown University (MBA)Bertelsmann Stiftung / The Arctic Institute
Alex HowardUSAJournalisteCoby CollegeForbes / Huffington Post / O'Reilly Media
Isao MatsunamiJaponJournaliste?Tokyo Shimbun
Philip MeyerUSAUniversitaireKansas State University (technical journalism), University of North Carolina (thesis in political science)Miami Herald / University of North Carolina
Chris TaggartRoyaume-UniEntrepreneur?OpenCorporates
César VianaBrésilUniversitaire?University of Goiás
David BanisarRoyaume-UniMilitant associatif / UniversitaireColumbus School fo LawArticle 19
Heather BrookeÉtats-Unis / Royaume-UniJournalisteUniversity of Washington / University of WarwickJournalist and FOI Campaigner, The Guardian
Rich GordonÉtats-UnisUniversitaireUniversity of Pennsylvania (History)Northwestern University
Francis IrvingRoyaume-UniEntrepreneurOxford University (mathématiques)Scraperwiki
Anthony ReubenRoyaume-UniJournalisteThe Queen's College OxfordBBC News
Jack GillumUSAJournalisteColumbia University (Journalism)USA Today / Arizona Daily Star / Associated Press
Alexandre LéchenetFranceJournalisteParis-VIIIOWNI / Le Monde, Hacks Hackers
Geoff McGheeUSAUniversitaireColumbia Graduate School of JournalismLe Monde / New-York Times / Stanford University
Jonathan StrayUSAJournaliste / EntrepreneurThe University Hong KongColumbia School of Journalism / CNN / Associated Press / The Overview Project
Liliana BounegruPays-Bas / RoumanieUniversitaireMaastricht School of Communication / University of AmsterdamEuropean Journalism Centre
Lucy ChambersRoyaume-UniCommunity ManagerCambridgeOKFN
Jonathan GrayRoyaume-UniUniversitaireCambridge / Open University / University of LondonOKFN
James BallRoyaume-UniJournaliste?Wikileaks / Bureau for Investigative Journalism / The Guardian
Mark Lee HunterUSA / FranceJournaliste / UniversitaireInstitut Français de PresseINSEAD
Luk Van WassenhoveBelgiqueUniversitaire?INSEAD

 

Par rapport à mon premier fichier, j’ai effectué plusieurs uniformisations, notamment en substituant les intitulés de poste les plus spécifiques par des appellations plus génériques. Certains contributeurs privilégient des titulature à la limite du néologisme, ce qui n’autorise pas vraiment les comparaisons et rapprochements : Data Artist, Information Architect, Thinking Designer

Une représentation internationale en trompe-l’œil

Le Datajournalism Handbook insiste sur sa portée universelle. Dans son introduction, l’ouvrage se met en scène comme une impulsion initiale qui s’est répandue dans le monde entier (« spilled over into an international, collaborative effort »). L’affiliation nationale est en grande partie refoulée : ce qui importe c’est la qualité du contributeur (« dozens of data journalism’s leading advocates and best practitioners. »).

Force est pourtant de constater que la géographie des contributeurs n’est pas neutre. La carte ci-dessous, réalisée avec Google Fusion Tables, est assez évocatrice. De larges pans de la planète sont plongés dans le rouge : Afrique, Asie, Europe de l’est, Russie… Comme pour toute activité de pointe, le sous-développement économique reste un facteur déterminant, mais ce n’est pas le seul. Si il explique la sous-représentation de l’Afrique et du Moyen-Orient, il ne justifie pas l’absence du Canada ou de l’extrême-orient.

Pour comprendre les ressorts de cette cartographie, il est nécessaire de revenir sur la nature du projet éditorial. Bien qu’il se présente en partie comme tel, le Data Journalism Handbook n’est pas une création spontanée. Il s’agit de l’émanation directe de deux associations, l’Open Knowledge Foundation et l’European Journalism Center et d’une liste de diffusion, Data-Driven Journalism. La nature de ces institutions a, en quelque sorte, balisé par avance la composition de la communauté écrivante. Elles sont largement ancrées en Europe de l’ouest. Les non-européens viennent surtout s’ajouter par surcroît, à l’exception notable des américains.

L’OFKN a ainsi publié une carte de ses principales émanations locales. Il convient de noter qu’elles ne sont pas toutes au même niveau d’organisation. Il existe une sorte de hiérarchie spontanée allant du chapter (association très structurée) à l’ambassadeur (simple présence) en passant par l’initiative (groupe en voie de structuration). Tous les chapters sont en Europe.

Cette géographie induite n’est pas entièrement décalquée. C’est que la thématique du datajournalisme est plus ou moins porteuse d’un pays à l’autre. Lieu de naissance de la notion et des premières expériences estampillés comme tel, les États-Unis sont bien représentés.

Le processus de rédaction reflète ces dynamiques nationales complexes et parfois aléatoires. La participation significative de l’Argentine découle d’un mail envoyé par la bonne personne au bon moment. Membre de la délégation de Hacks/Hackers à Buenos Aires, Angelica Peralta Ramos se manifeste dès le 6 novembre 2011 pour participer à l’écriture de l’ouvrage. Par elle transiteront la quasi-totalité des collaborateurs argentins.

Géographie réelle et imaginaire

La représentation nationale suggérée par le Data Journalism Handbook reproduit-elle avec une certaine acuité la diffusion du datajournalisme ?

Là n’est peut-être pas l’essentiel. En raison de son statut de vulgate, l’ouvrage modifie fatalement les phénomènes qu’il prétend observé. Il confère une légitimité internationale à des projets et des initiatives relativement marginaux. La géographie imaginaire qu’il dessine contribue fatalement à altérer une hypothétique géographie réelle du datajournalisme.

Vers une vulgate data-visuelle ? Le cas d’Highcharts

Le développement d’outils informatiques simplifiés et mieux adaptés aux besoins spécifiques de la médiation journalistique a joué un rôle crucial dans l’avènement et la légitimation du datajournalisme. Depuis une dizaine d’années, il est possible de gérer des grands jeux de données ou de créer des applications en ligne inventives sans être un programmeur confirmé. Des applications comme Google Fusion Tables ou des langages intuitifs comme JQuery entraînent une certaine démocratisation des compétences. Ces nouveaux supports rendent possible l’avènement de profils ambidextres, situés à mi-chemin entre l’univers professionnel du journalisme et celui de l’informatique. Dans une section du Data Journalism Handbook, Chase Davis évoque l’implication croissante des reporters dans le travail de programmation « ce qui libère les développeurs pour des projets plus difficiles ».

Nom
Création
Type de logiciel
Éditeur
Type de visualisation
Utilisation
VIDI?Application webJefferson InstituteGraphiques
Many Eyes2007Application webIBMGraphiques
Infovis2008Bibliothèque javascriptCommunauté open sourceGraphiques animés
Gephi2008Application bureauCommunauté open sourceRéseaux sociaux
R1993Code spécifiqueCommunauté open sourceGraphiques
Highcharts2009Application WebHighcharts solution ASGraphiques animésOWNI
Google Maps2004Application WebGoogleCartographieOWNI, AFP, Rue89…
Kartograph2011Framework Python et JavascriptGregor AischCartographieJournalism++

Une telle démocratisation a cependant son revers. En proposant du prêt-à-publier, les outils « intermédiaires » suscitent de puissants effets de rection.

Highcharts constitue un bon exemple de cette tendance à l’uniformisation. Il s’agit d’une « bibliothèque » javascript. La métaphore de la bibliothèque est ici à prendre au sens propre. Highcharts propose un jeu de fonctions prédéfinies, qui fonctionnent un peu comme des « livres » : ils forment une totalité achevée à laquelle il suffit de faire référence pour en convoquer le savoir. En témoigne cette élégante présentation interactive, dite bubble :

Elle est générée avec un code très bref :

code Highcharts

Aucune indication supplémentaire n’est nécessaire. C’est que l’essentiel se passe ailleurs : dans des fichiers pré-remplis, beaucoup plus bavards. En voici une illustration évocatrice. Il s’agit d’un extrait du fichier Highcharts.js qui gère les interactions fondamentales de toutes les visualisations Highcharts :

Code Highcharts Java

En somme le data-journaliste qui manipule la visualisation n’a pas grand chose à faire : il insère ses données, fait appel à la mise en forme de la bibliothèque highcharts et le tour est joué… Inversement, la marge laissée à la personnalisation est assez étroite. Il est possible de modifier en profondeur la bibliothèque, mais comprendre de quoi il en ressort demande un investissement temporel déraisonnable. Il est plus confortable de laisser les choses telles qu’elles sont.

Cette incitation à la facilité entraîne une uniformisation sémiotique assez peu surprenante. Les mises en forme de Highcharts se retrouvent telles quelles dans plusieurs articles de datajournalisme. En témoigne le camembert-type :

On le retrouve quasiment inchangé dans une application d’OWNI sur le chômage des jeunes (aujourd’hui disparue : l’archive hébergée sur Wayback Machine en donne une très vague idée…).

Utilisation du camembert Highcharts dans le cadre d'un sondage sur le chômage des jeunes.

Utilisation du camembert Highcharts dans le cadre d’un sondage sur le chômage des jeunes.

Le même phénomène se répète pour Gazette.fr. Cela concerne cette fois le graphique standard :

Il se retrouve, identique, dans une modélisation des salaires dans la fonction publique :

HC Gazette

Les modélisations d’Highcharts sont également utilisées de manière plus furtive. Le Monde.fr propose une sorte de collage datavisuel en accolant un camembert sophistiqué élaboré avec Jit (au centre) et un petit camembert plus basique d’Highcharts (en haut à gauche).

Les 500 membres de la galaxie Ayrault-Hollande (Le Monde.fr)

Il est intéressant de noter que les codes pré-remplis ne diffèrent pas tant que cela des outils classiques de bureautique. Sur le papier, ils autorisent des manipulation très poussées, qu’on ne pourrait jamais réaliser sur Excel. Cependant, l’impératif d’une facilité d’usage et les contraintes médiatiques d’une conception accélérée encouragent clairement le copier-coller. La maîtrise du code ne constitue pas à elle seule une garantie d’originalité et d’indépendance.