Archives quotidiennes :

Séminaire n°4 : les enjeux démocratiques du datajournalisme

A l’occasion de cette quatrième séance, le séminaire Jourdain a reçu deux intervenants : Benjamin Gans, ingénieur Recherche et Développement et responsable Communication et Marketing chez Data Publica, société spécialisée dans le développement de « jeux de données » et Fabrice Rochelandet, économiste à l’université Paris III Sorbonne Nouvelle dont les travaux portent notamment sur « l’économie des données personnelles ».

L’objectif de cette rencontre consistait à explorer et questionner les enjeux démocratiques soulevés par le « datajournalisme » : quelle représentation du rôle des journalistes en démocratie se dessine derrière la promotion des « données » ? Comment s’exprime, à travers un imaginaire du journalisme, une réflexion sur la représentation politique ?

Les données personnelles en question

Fabrice Rochelandet est intervenu dans un premier temps. Auteur d’un ouvrage intitulé « Économie des données personnelles et de la vie privée », il étudie ce qu’il nomme le « fétichisme de la donnée ».

Il a rappelé que la liberté d’informer est à penser en lien avec la liberté des données personnelles. Il propose d’envisager, dans la longue durée, le travail de la presse (et du numérique) comme travail des données personnelles.

Il a donné pour exemple la peopolisation en soulignant qu’il ne s’agit nullement d’un phénomène récent mais bien plus d’une « vieille question » qui remonte à l’invention de la photographie de presse et qui a pu s’incarner aussi, ensuite, dans la pratique d’investigation consistant à aller chercher des « données » dans les poubelles par exemple.

Poussant plus loin la démarche, il propose d’analyser l’implication des données dans la « peopolisation de la vie ordinaire », les données sont alors envisagées comme « traces laissées derrière soi ». Elles peuvent être mobilisées comme outils dans le cadre d’étude des comportements individuels dans le sens où elles peuvent permettre de comprendre des comportements paradoxaux. Ce qui implique aussi de poser la question de la distinction entre ce qu’on dévoile de soi (données ex-ante) et ce qui est dévoilé par les autres (opérateurs – publicité ciblée) (données ex-post).

Investigation des données personnelles dans le monde par les programmes de surveillance américain (NSA)

Cette démarche met en lumière le rôle des données (et du médiatique) dans la construction des catégories désignant les personnalités comme people / publiques / politiques, dont les frontières sont loin d’être étanches.

Rochelandet pose la question de la construction de l’identité numérique. A son sens, celle-ci a à voir avec un processus de « décloisonnement des espaces sociaux de l’individu », phénomène qui conduit à la perte du monopole de la connaissance de soi et à une « illusion de contrôle ». Il propose, pour qualifier ce phénomène, la notion de « vie privée informationnelle » qui repose aussi la question de la distinction entre secret/privé et des frontières de l’intimité.

Système de récupération des données personnelles par le projet PRISM

Système de récupération des données personnelles par le projet PRISM

Son intervention s’est achevée sur une réflexion autour du flou entourant la définition de ce que sont les « données publiques » avec l’ambivalence du terme public qui peut désigner à la fois ce qui est rendu public comme ce qui est connu de tous car publié. Ainsi, les médias ne cessent d’en redéfinir les frontières.

Un exemple d’intermédiaire : Data Publica

Benjamin Gans est intervenu dans un second temps pour présenter l’agence Data Publica.
L’origine de celle-ci remonte à 2010, elle s’inscrivait alors dans le cadre d’un projet de recherche financé par le Ministère de l’Économie et données publiques en 2010. Il s’agissait de procéder au référencement des données publiques à partir des différents fichiers rendus disponibles par l’administration publique (2500 fichiers alors pour plus de 15 000 aujourd’hui). Elle avait alors pour concurrent direct le site datagouv.fr.

Au départ, l’équipe envisageait l’agence comme un « data-store » dans lequel les éditeurs privés seraient venus piocher. Comme le projet tel quel n’a pas fonctionné, un service de données « sur mesure » a été mis en place. Data Publica est alors partie du postulat que « les sociétés ont besoin de données » mais n’ont pas connaissance de ce qui existe en Open Data.

Le credo de datapublica : les entreprises ont besoin de données

Le credo de datapublica : les entreprises ont besoin de données

Aussi, eux proposent une automatisation de l’extraction pour les éditeurs qui produisent et publient des données (« qui font de l’Open Data sans le savoir »), développent des tableaux de bord à leur attention et mettent en place des outils de visualisation « à partager » (cartes, courbes, histogrammes, tableaux…). Leurs clients sont notamment des cabinets de conseil, il donne l’exemple de la réalisation d’un tableau de bord des zones d’emploi en France ou d’une carte du patrimoine immobilier de l’Etat.

En parallèle leur visée a aussi été, dans un « moment expérimental » de l’agence, de montrer que les données « ont de la valeur » en produisant des articles et en faisant connaître, à travers le travail des datajournalistes, la manière dont la donnée peut être « mise en scène ». Ils se placent ainsi en position de double intermédiaire : entre l’État et le citoyen, entre les journalistes et leurs lecteurs (médiateur de la médiation journalistique).

Une datavisualisation du réseau RATP reprise ensuite par la presse française.

Une datavisualisation du réseau RATP reprise ensuite par la presse française.

Concernant l’exposé de la méthode employée dans une démarche datajournalistique, Benjamin Gans expose qu’il existe des données disponibles, à nettoyer et à manipuler pour « faire sortir l’information ». Il souligne qu’il s’agit d’un « travail d’équipe » (développeur, journaliste, informaticien, statisticien) : « Il est possible d’en faire seul mais souvent les journalistes n’ont pas la maîtrise parfaite des outils. »

A ses yeux, il existe deux cas de figure majeurs impliquant une démarche de ce type : soit un fichier inédit à interpréter, soit la fouille de fichiers très volumineux. Ce qui implique aussi de faire la différence entre « Data » et « Big Data » : cette seconde dénomination désigne des volumes d’information exponentiels et incommensurables, qui ne peuvent être seulement traités par l’humain. A celui-ci revient toutefois de résoudre la question de comment on les gère et comment on les utilise. En effet, il rappelle que « Big Data » est évolutif et pose à ce titre des problèmes de stockage.

Plus largement, il parle du phénomène de l’Open data comme d’une « révolution » pour les données. Avec le basculement de données dans le domaine public, on est face à un gisement à exploiter, qui repose question de la transparence. En écho aux propos de Fabrice Rochelandet, il explique qu’à leur niveau on retrouve la déclinaison privé/public sous la forme business/État.

Les autres tournants identifiés par lui sont notamment OWNI, les productions d’Alexandre Léchenet pour lemonde.fr), et l’entreprise collective de Wikileaks. C’est à ce moment là, dit-il, qu’on redécouvert la possibilité de l’investigation avec les chiffres.

Benjamin Gans a clôturé son intervention en revenant sur le contenu de son activité d’enseignement au CELSA. Il a détaillé ce qu’il apprend aux étudiants et qu’il voit comme des prérequis à toute bonne activité datajournalistique : la manipulation de la donnée via Excel et les outils de visualisation (Google Charts, Many Eyes, Datawraper etc.). Ceux-ci permettent une visualisation très simple et « ça c’est du datajournalisme ». Mais, il ne s’agit pas non plus d’être uniquement dans la visualisation : la contextualisation est nécessaire en plus de la dimension esthétique et du « storytelling par l’image ».

Nom
Création
Type de logiciel
Éditeur
Type de visualisation
Utilisation
VIDI?Application webJefferson InstituteGraphiques
Many Eyes2007Application webIBMGraphiques
Infovis2008Bibliothèque javascriptCommunauté open sourceGraphiques animés
Gephi2008Application bureauCommunauté open sourceRéseaux sociaux
R1993Code spécifiqueCommunauté open sourceGraphiques
Highcharts2009Application WebHighcharts solution ASGraphiques animésOWNI
Google Maps2004Application WebGoogleCartographieOWNI, AFP, Rue89…
Kartograph2011Framework Python et JavascriptGregor AischCartographieJournalism++

Sélection des outils de visualisation par le projet jourdain

Il apprend également aux étudiants à identifier des « sources de données », à acquérir des réflexes en la matière — aller consulter opendataparis en est un exemple, à réfléchir sur nouveaux modes de lecture. Il souligne à ce propos l’aspect plus interactif des productions « data » et tisse un lien entre mobilité et nouvelles lectures, par la dimension tactile des nouveaux supports « on va pouvoir entrer dans la donnée », dans les différentes strates, avec, en prime, un effet ludique.

Séminaire n°2 : le parcours de la donnée, de l’informatique à l’information

Pour sa deuxième séance de travail, le séminaire Jourdain a reçu Patrick Gallinari et Jean-Gabriel Ganascia, chercheurs au Lip 6, laboratoire d’informatique de l’UPMC (Université Pierre et Marie Curie, Paris 6). Était également présent Philippe Onillon, directeur adjoint de la rédaction Europe-Afrique à l’AFP en charge de la veille sur les nouvelles pratiques d’information.

L’objectif de cette rencontre interdisciplinaire consistait à préciser les modalités techniques qui transforment en donnée une information recueillie et distribuée par des outils informatiques.

Patrick Gallinari et Jean-Gabriel Ganascia ont explicité les spécificités du département « données » de leur laboratoire. L’apprentissage consiste à créer des systèmes qui peuvent « apprendre » à partir des données du monde (la « fouille de données » est par exemple une technique d’apprentissage). Le développement d’algorithmes spécifiques permet de traiter des données de différentes sortes (sémantiques, textuelles, vidéos etc.).

Nom
Création
Type de logiciel
Licence
Éditeur
Utilisations notables
Fonction
Datawrangler2011Application web?StanfordNettoyage des données
Google Refine2010Application webLibreGoogleNettoyage des données
Google Fusion Tables2009Application web?GoogleNettoyage de petits jeux de données
Impure2010Application web?BestarioRecueil, traitement et visualisation
Tableau Public?Application webLibreTableau SoftwareLa NacionRecueil, traitement et visualisation
Excel1985Application bureauPropriétaireMicrosoftTout-le-monde…Traitement simple
R1993Code spécifiqueLibreCommunauté open sourcePro PublicaTout type de traitement
Ruby1995Code spécifiqueLibreCommunauté open sourceGregor Aisch, Chicago TribuneTout type de traitement
Python1991Code spécifiqueLibreCommunauté open sourceGregor AischTout type de traitement
SPSS1968Code spécifiquePropriétaireIBMProPublica, Seattle TimesTout type de traitement
Num.Py1995Bibliothèque PythonLibreCommunauté open sourceChicago TribuneTout type de traitement
NitroPDF2005Application bureauPropriétaireNitroLa NacionConversion des PDF
Panda2008Bibliothèque PythonLibreCommunauté open sourceTout type de traitement

Un jeu de données Jourdain :
Les principaux outils de traitement informatiques des données

A l’issue de la rencontre il s’avère que nous aurions pu intituler cette séance « Le parcours de la donnée : de l’information à l’information » ou encore « De l’information à la donnée, de la donnée à l’information ».

En effet, ce séminaire commun a été l’occasion de saisir des modalités d’appropriation très différenciées des termes : pour les informaticiens, l’ « information » est envisagée comme le matériau premier, le plus « brut ». Ils parlent ainsi d’ « information sale » qui demande à être « nettoyée ». Les « données », elles, sont considérées comme des « agrégats d’informations », stockées dans des dispositifs. En ce sens, les « données » sont déjà des connaissances, obtenues à partir des « informations » rendues « propres » puis mises en forme dans des « bases de données ».

Pour Patrick Gallinari, « quand on prend des données il y a plein d’informations dedans ». Il faut alors procéder à un « nettoyage pour garder l’information de base, pour trouver ce qui intéresse ». A partir du code, « on enlève un peu de cambouis, on nettoie avec des outils automatiques. »

Chaîne de production des données telle que modélisée par Datapublica

Chaîne de production des données telle que modélisée par Datapublica

Patrick Gallinari et Jean-Gabriel Ganascia ont par ailleurs exposé quelques exemples de « chantiers » sur lesquels interviennent les chercheurs du Lip6. Alcatel souhaitait ainsi développer des outils de recommandation à partir des discours sociaux et des habitudes d’usage. Pour cela, ils ont besoin des méta-données, c’est-à-dire des « informations » qui décrivent les programmes. Concrètement, il s’agit d’obtenir un retour d’usages lors de la production d’un objet.

Un autre projet sur la télécommande consiste à enregistrer tous les usages pour chercher les corrélations entre programmes, contextes et usages. Ce qui permet de tracer un parcours du visionnage à partir de la construction d’ « outils d’apprentissage ». Les chercheurs partent d’une « profusion d’informations », il s’agit ensuite de leur « donner un sens » pour « arriver à un degré d’abstraction élevé ».

On retrouve l’autre pan du chiasme dans le discours de Philippe Onillon. Pour lui, « c’est la donnée qui produit du journalisme », et donc, sous-entendu, de l’information. Ainsi, « avant le traitement [de l'information], il faut la donnée, il faut la bâtir ». « Au départ, il y a un événement, quand on recherche l’illustration, on cherche une donnée précise pour illustrer le fait. »

 

Séminaire n°1 : introductions au journalisme de données

La première séance du séminaire jourdain dressait un premier panorama des modalités d’existence sociale – et médiatique en particulier – de l’objet « journalisme de données ». Elle rassemblait l’ensemble des participants au projet qui exposaient chacun, à tour de rôle, un angle d’étude spécifique autour de cet objet multiforme.

Introduction : la mise en scène de l’innovation

Adeline Wrona a d’abord rappelé les questionnements ayant conduit à l’organisation du séminaire et a proposé des pistes de problématisation afin d’aborder dans un même regard bien que sous des angles différents l’objet de recherche.

Il s’agit de voir comment étudier la question des données permet de reposer celle de l’identité journalistique : en quoi l’émergence du « journalisme de données » peut-elle apparaître comme une nouvelle manifestation de la nature profondément évolutive du journalisme, pensé comme « phénomène socio-discursif en formation permanente » ?

Schéma des étapes du datajournalisme par Lulu Pinney.

Schéma des étapes du datajournalisme par Lulu Pinney : complément ou révolution par rapport au travail journalistique classique ?

Dans cette optique, quatre pistes de réflexion ont été suggérées :

  • Le rapport entre journalisme et technique : le journalisme de « données » comme nouvelle manifestation/occasion de prises de position sur la place de la technique dans l’activité journalistique (effroi ou éblouissement).
  • La mise en discours de l’innovation : comment se traduit-elle, aussi, par un renouvellement des structures des entreprises de presse? Comment reformule-t-elle la tension pro/amateurs?
  • Le lien entre journalisme et esthétique : dans quelle mesure le journalisme de « données » est-il l’occasion de création de nouveaux standards et de nouvelles routines visuels ?
  • L’enjeu démocratique : quelle représentation du rôle des journalistes en démocratie derrière la promotion des « données » et, avec elles, d’un idéal de « transparence » ? Comment s’exprime, à travers un imaginaire du journalisme, une réflexion sur la représentation politique?

Cartographier les acteurs

Valérie Jeanne-Perrier a présenté les résultats d’une première investigation large des sources du discours et des acteurs en France.

Une piste émerge particulièrement : suivre la circulation de l’expression « journalisme de données » dans différents espaces professionnels permet d’en saisir l’aspect mobilisateur servant à exprimer ce que le journalisme n’est plus et ce qu’il devrait être.

Qui s’en empare ?

  • des acteurs institutionnels (Etalab, les écoles de journalisme etc.) qui mobilisent le mot « journalisme » comme « référence active ».
  • des entreprises qui ont à voir avec la production de contenu « data », de visualisations notamment : Data Publica. Le journalisme de « données » y est un « argument de positionnement ».
  • les journalistes autour de quatre « comportements » : formateurs, évangélisateurs, critiques/sceptiques, pragmatiques.
  • les universitaires ou la proposition d’une réflexivité : comment donnent-ils par leurs interrogations propres une légitimité et une visibilité à l’objet?

Un manuel à visée performative : le Data Journalism Handbook

Pierre-Carl Langlais et Guillaume Heuguet ont proposé une intervention sur la « vulgate du datajournalisme » et sur les formes éditoriales mobilisées pour la diffuser. Ils mettent en avant la visée performative des textes ayant recours à l’expression qu’ils considèrent comme « formule » : manifestes, manuels, dont le Datajournalism Handbook qui fait référence en la matière.

Dans ces textes, deux idées fortes tendent à fonder l’objet en « rupture » :

  • la « donnée » comme outil et non plus illustration de l’information (avec une valorisation de la forme graphique ou tabulaire) un contexte technologique en mutation nécessiterait un changement en profondeur des pratiques journalistiques – le journalisme de « données » comme remède possible à la crise énoncée.
  • l’annonce d’un double mouvement de « démédiation » (//transparence) et de « remédiation » avec une « nouvelle couche » de journalisme nécessaire pour donner à lire les « données ».

Former au datajournalisme

Hervé Demailly s’est penché sur la manière dont les acteurs de la formation au journalisme en France s’approprient, ou non, la thématique.

Quatre écoles parmi les treize reconnues par la professions affichent sur leurs plaquettes l’intitulé « journalisme de données » au menu des enseignements proposés. Il s’agit principalement de formations courtes (quelques jours) inscrites dans le cadre de formations dites continues.

D’autres structures s’y intéressent cependant (écoles et instituts privés, clubs de la presse…)et des personnalités singulières et des entreprises de presse, dans leurs productions, affichent également un objectif pédagogique (Alain Joannès revient en particulier).

Datajournalismes germaniques et helléniques en regard

Juliette Charbonneaux a effectué une première exploration des modalités d’appropriation de l’objet en terrain médiatique allemand. La première interrogation « qui se revendique du « Datajournalismus » ? » fait émerger un acteur récurrent, Lorenz Matzat, et une agence « Opendata-city » productrice de contenu « data » à destination, notamment, d’entreprises de presse (die Zeit, SZ, TAZ…).

Plus largement, cinq tendances semblent s’affirmer :

  • l’expression d’un potentiel démocratique lié à un idéal de transparence et de « don » à la communauté (rappelle les idéaux du journalisme d’investigation)
  • un tropisme cartographique donnant à lire l’ensemble ou des pans du territoire national
  • l’idée d’un journalisme « à partager » avec la communauté, nationale toujours, des lecteurs
  • un journalisme à enseigner aussi : les productions sont des occasions de « discours de la méthode »
  • la référence quasi-systématique à des modèles américains (A. Holovaty en premier lieu) et britanniques (The Guardian)

Pergia Gkouskou-Giannakou procède à une analyse similaire sur le terrain grec. Elle a fait remonter de cette première exploration la référence récurrente au journalisme d’investigation à travers la question des sources, soit pour proposer de l’améliorer, de l’ « augmenter », soit pour s’en écarter.

Cette double intervention constitue la première formulation d’une contribution présentée dans le cadre du colloque Mejor, Le journalisme de « données », une pratique d’investigation ? Cas allemand et grec en regard.