Archives mensuelles : juillet 2013

Séminaire n°4 : les enjeux démocratiques du datajournalisme

A l’occasion de cette quatrième séance, le séminaire Jourdain a reçu deux intervenants : Benjamin Gans, ingénieur Recherche et Développement et responsable Communication et Marketing chez Data Publica, société spécialisée dans le développement de « jeux de données » et Fabrice Rochelandet, économiste à l’université Paris III Sorbonne Nouvelle dont les travaux portent notamment sur « l’économie des données personnelles ».

L’objectif de cette rencontre consistait à explorer et questionner les enjeux démocratiques soulevés par le « datajournalisme » : quelle représentation du rôle des journalistes en démocratie se dessine derrière la promotion des « données » ? Comment s’exprime, à travers un imaginaire du journalisme, une réflexion sur la représentation politique ?

Les données personnelles en question

Fabrice Rochelandet est intervenu dans un premier temps. Auteur d’un ouvrage intitulé « Économie des données personnelles et de la vie privée », il étudie ce qu’il nomme le « fétichisme de la donnée ».

Il a rappelé que la liberté d’informer est à penser en lien avec la liberté des données personnelles. Il propose d’envisager, dans la longue durée, le travail de la presse (et du numérique) comme travail des données personnelles.

Il a donné pour exemple la peopolisation en soulignant qu’il ne s’agit nullement d’un phénomène récent mais bien plus d’une « vieille question » qui remonte à l’invention de la photographie de presse et qui a pu s’incarner aussi, ensuite, dans la pratique d’investigation consistant à aller chercher des « données » dans les poubelles par exemple.

Poussant plus loin la démarche, il propose d’analyser l’implication des données dans la « peopolisation de la vie ordinaire », les données sont alors envisagées comme « traces laissées derrière soi ». Elles peuvent être mobilisées comme outils dans le cadre d’étude des comportements individuels dans le sens où elles peuvent permettre de comprendre des comportements paradoxaux. Ce qui implique aussi de poser la question de la distinction entre ce qu’on dévoile de soi (données ex-ante) et ce qui est dévoilé par les autres (opérateurs – publicité ciblée) (données ex-post).

Investigation des données personnelles dans le monde par les programmes de surveillance américain (NSA)

Cette démarche met en lumière le rôle des données (et du médiatique) dans la construction des catégories désignant les personnalités comme people / publiques / politiques, dont les frontières sont loin d’être étanches.

Rochelandet pose la question de la construction de l’identité numérique. A son sens, celle-ci a à voir avec un processus de « décloisonnement des espaces sociaux de l’individu », phénomène qui conduit à la perte du monopole de la connaissance de soi et à une « illusion de contrôle ». Il propose, pour qualifier ce phénomène, la notion de « vie privée informationnelle » qui repose aussi la question de la distinction entre secret/privé et des frontières de l’intimité.

Système de récupération des données personnelles par le projet PRISM

Système de récupération des données personnelles par le projet PRISM

Son intervention s’est achevée sur une réflexion autour du flou entourant la définition de ce que sont les « données publiques » avec l’ambivalence du terme public qui peut désigner à la fois ce qui est rendu public comme ce qui est connu de tous car publié. Ainsi, les médias ne cessent d’en redéfinir les frontières.

Un exemple d’intermédiaire : Data Publica

Benjamin Gans est intervenu dans un second temps pour présenter l’agence Data Publica.
L’origine de celle-ci remonte à 2010, elle s’inscrivait alors dans le cadre d’un projet de recherche financé par le Ministère de l’Économie et données publiques en 2010. Il s’agissait de procéder au référencement des données publiques à partir des différents fichiers rendus disponibles par l’administration publique (2500 fichiers alors pour plus de 15 000 aujourd’hui). Elle avait alors pour concurrent direct le site datagouv.fr.

Au départ, l’équipe envisageait l’agence comme un « data-store » dans lequel les éditeurs privés seraient venus piocher. Comme le projet tel quel n’a pas fonctionné, un service de données « sur mesure » a été mis en place. Data Publica est alors partie du postulat que « les sociétés ont besoin de données » mais n’ont pas connaissance de ce qui existe en Open Data.

Le credo de datapublica : les entreprises ont besoin de données

Le credo de datapublica : les entreprises ont besoin de données

Aussi, eux proposent une automatisation de l’extraction pour les éditeurs qui produisent et publient des données (« qui font de l’Open Data sans le savoir »), développent des tableaux de bord à leur attention et mettent en place des outils de visualisation « à partager » (cartes, courbes, histogrammes, tableaux…). Leurs clients sont notamment des cabinets de conseil, il donne l’exemple de la réalisation d’un tableau de bord des zones d’emploi en France ou d’une carte du patrimoine immobilier de l’Etat.

En parallèle leur visée a aussi été, dans un « moment expérimental » de l’agence, de montrer que les données « ont de la valeur » en produisant des articles et en faisant connaître, à travers le travail des datajournalistes, la manière dont la donnée peut être « mise en scène ». Ils se placent ainsi en position de double intermédiaire : entre l’État et le citoyen, entre les journalistes et leurs lecteurs (médiateur de la médiation journalistique).

Une datavisualisation du réseau RATP reprise ensuite par la presse française.

Une datavisualisation du réseau RATP reprise ensuite par la presse française.

Concernant l’exposé de la méthode employée dans une démarche datajournalistique, Benjamin Gans expose qu’il existe des données disponibles, à nettoyer et à manipuler pour « faire sortir l’information ». Il souligne qu’il s’agit d’un « travail d’équipe » (développeur, journaliste, informaticien, statisticien) : « Il est possible d’en faire seul mais souvent les journalistes n’ont pas la maîtrise parfaite des outils. »

A ses yeux, il existe deux cas de figure majeurs impliquant une démarche de ce type : soit un fichier inédit à interpréter, soit la fouille de fichiers très volumineux. Ce qui implique aussi de faire la différence entre « Data » et « Big Data » : cette seconde dénomination désigne des volumes d’information exponentiels et incommensurables, qui ne peuvent être seulement traités par l’humain. A celui-ci revient toutefois de résoudre la question de comment on les gère et comment on les utilise. En effet, il rappelle que « Big Data » est évolutif et pose à ce titre des problèmes de stockage.

Plus largement, il parle du phénomène de l’Open data comme d’une « révolution » pour les données. Avec le basculement de données dans le domaine public, on est face à un gisement à exploiter, qui repose question de la transparence. En écho aux propos de Fabrice Rochelandet, il explique qu’à leur niveau on retrouve la déclinaison privé/public sous la forme business/État.

Les autres tournants identifiés par lui sont notamment OWNI, les productions d’Alexandre Léchenet pour lemonde.fr), et l’entreprise collective de Wikileaks. C’est à ce moment là, dit-il, qu’on redécouvert la possibilité de l’investigation avec les chiffres.

Benjamin Gans a clôturé son intervention en revenant sur le contenu de son activité d’enseignement au CELSA. Il a détaillé ce qu’il apprend aux étudiants et qu’il voit comme des prérequis à toute bonne activité datajournalistique : la manipulation de la donnée via Excel et les outils de visualisation (Google Charts, Many Eyes, Datawraper etc.). Ceux-ci permettent une visualisation très simple et « ça c’est du datajournalisme ». Mais, il ne s’agit pas non plus d’être uniquement dans la visualisation : la contextualisation est nécessaire en plus de la dimension esthétique et du « storytelling par l’image ».

Nom
Création
Type de logiciel
Éditeur
Type de visualisation
Utilisation
VIDI?Application webJefferson InstituteGraphiques
Many Eyes2007Application webIBMGraphiques
Infovis2008Bibliothèque javascriptCommunauté open sourceGraphiques animés
Gephi2008Application bureauCommunauté open sourceRéseaux sociaux
R1993Code spécifiqueCommunauté open sourceGraphiques
Highcharts2009Application WebHighcharts solution ASGraphiques animésOWNI
Google Maps2004Application WebGoogleCartographieOWNI, AFP, Rue89…
Kartograph2011Framework Python et JavascriptGregor AischCartographieJournalism++

Sélection des outils de visualisation par le projet jourdain

Il apprend également aux étudiants à identifier des « sources de données », à acquérir des réflexes en la matière — aller consulter opendataparis en est un exemple, à réfléchir sur nouveaux modes de lecture. Il souligne à ce propos l’aspect plus interactif des productions « data » et tisse un lien entre mobilité et nouvelles lectures, par la dimension tactile des nouveaux supports « on va pouvoir entrer dans la donnée », dans les différentes strates, avec, en prime, un effet ludique.

Séminaire n°2 : le parcours de la donnée, de l’informatique à l’information

Pour sa deuxième séance de travail, le séminaire Jourdain a reçu Patrick Gallinari et Jean-Gabriel Ganascia, chercheurs au Lip 6, laboratoire d’informatique de l’UPMC (Université Pierre et Marie Curie, Paris 6). Était également présent Philippe Onillon, directeur adjoint de la rédaction Europe-Afrique à l’AFP en charge de la veille sur les nouvelles pratiques d’information.

L’objectif de cette rencontre interdisciplinaire consistait à préciser les modalités techniques qui transforment en donnée une information recueillie et distribuée par des outils informatiques.

Patrick Gallinari et Jean-Gabriel Ganascia ont explicité les spécificités du département « données » de leur laboratoire. L’apprentissage consiste à créer des systèmes qui peuvent « apprendre » à partir des données du monde (la « fouille de données » est par exemple une technique d’apprentissage). Le développement d’algorithmes spécifiques permet de traiter des données de différentes sortes (sémantiques, textuelles, vidéos etc.).

Nom
Création
Type de logiciel
Licence
Éditeur
Utilisations notables
Fonction
Datawrangler2011Application web?StanfordNettoyage des données
Google Refine2010Application webLibreGoogleNettoyage des données
Google Fusion Tables2009Application web?GoogleNettoyage de petits jeux de données
Impure2010Application web?BestarioRecueil, traitement et visualisation
Tableau Public?Application webLibreTableau SoftwareLa NacionRecueil, traitement et visualisation
Excel1985Application bureauPropriétaireMicrosoftTout-le-monde…Traitement simple
R1993Code spécifiqueLibreCommunauté open sourcePro PublicaTout type de traitement
Ruby1995Code spécifiqueLibreCommunauté open sourceGregor Aisch, Chicago TribuneTout type de traitement
Python1991Code spécifiqueLibreCommunauté open sourceGregor AischTout type de traitement
SPSS1968Code spécifiquePropriétaireIBMProPublica, Seattle TimesTout type de traitement
Num.Py1995Bibliothèque PythonLibreCommunauté open sourceChicago TribuneTout type de traitement
NitroPDF2005Application bureauPropriétaireNitroLa NacionConversion des PDF
Panda2008Bibliothèque PythonLibreCommunauté open sourceTout type de traitement

Un jeu de données Jourdain :
Les principaux outils de traitement informatiques des données

A l’issue de la rencontre il s’avère que nous aurions pu intituler cette séance « Le parcours de la donnée : de l’information à l’information » ou encore « De l’information à la donnée, de la donnée à l’information ».

En effet, ce séminaire commun a été l’occasion de saisir des modalités d’appropriation très différenciées des termes : pour les informaticiens, l’ « information » est envisagée comme le matériau premier, le plus « brut ». Ils parlent ainsi d’ « information sale » qui demande à être « nettoyée ». Les « données », elles, sont considérées comme des « agrégats d’informations », stockées dans des dispositifs. En ce sens, les « données » sont déjà des connaissances, obtenues à partir des « informations » rendues « propres » puis mises en forme dans des « bases de données ».

Pour Patrick Gallinari, « quand on prend des données il y a plein d’informations dedans ». Il faut alors procéder à un « nettoyage pour garder l’information de base, pour trouver ce qui intéresse ». A partir du code, « on enlève un peu de cambouis, on nettoie avec des outils automatiques. »

Chaîne de production des données telle que modélisée par Datapublica

Chaîne de production des données telle que modélisée par Datapublica

Patrick Gallinari et Jean-Gabriel Ganascia ont par ailleurs exposé quelques exemples de « chantiers » sur lesquels interviennent les chercheurs du Lip6. Alcatel souhaitait ainsi développer des outils de recommandation à partir des discours sociaux et des habitudes d’usage. Pour cela, ils ont besoin des méta-données, c’est-à-dire des « informations » qui décrivent les programmes. Concrètement, il s’agit d’obtenir un retour d’usages lors de la production d’un objet.

Un autre projet sur la télécommande consiste à enregistrer tous les usages pour chercher les corrélations entre programmes, contextes et usages. Ce qui permet de tracer un parcours du visionnage à partir de la construction d’ « outils d’apprentissage ». Les chercheurs partent d’une « profusion d’informations », il s’agit ensuite de leur « donner un sens » pour « arriver à un degré d’abstraction élevé ».

On retrouve l’autre pan du chiasme dans le discours de Philippe Onillon. Pour lui, « c’est la donnée qui produit du journalisme », et donc, sous-entendu, de l’information. Ainsi, « avant le traitement [de l'information], il faut la donnée, il faut la bâtir ». « Au départ, il y a un événement, quand on recherche l’illustration, on cherche une donnée précise pour illustrer le fait. »

 

Séminaire n°1 : introductions au journalisme de données

La première séance du séminaire jourdain dressait un premier panorama des modalités d’existence sociale – et médiatique en particulier – de l’objet « journalisme de données ». Elle rassemblait l’ensemble des participants au projet qui exposaient chacun, à tour de rôle, un angle d’étude spécifique autour de cet objet multiforme.

Introduction : la mise en scène de l’innovation

Adeline Wrona a d’abord rappelé les questionnements ayant conduit à l’organisation du séminaire et a proposé des pistes de problématisation afin d’aborder dans un même regard bien que sous des angles différents l’objet de recherche.

Il s’agit de voir comment étudier la question des données permet de reposer celle de l’identité journalistique : en quoi l’émergence du « journalisme de données » peut-elle apparaître comme une nouvelle manifestation de la nature profondément évolutive du journalisme, pensé comme « phénomène socio-discursif en formation permanente » ?

Schéma des étapes du datajournalisme par Lulu Pinney.

Schéma des étapes du datajournalisme par Lulu Pinney : complément ou révolution par rapport au travail journalistique classique ?

Dans cette optique, quatre pistes de réflexion ont été suggérées :

  • Le rapport entre journalisme et technique : le journalisme de « données » comme nouvelle manifestation/occasion de prises de position sur la place de la technique dans l’activité journalistique (effroi ou éblouissement).
  • La mise en discours de l’innovation : comment se traduit-elle, aussi, par un renouvellement des structures des entreprises de presse? Comment reformule-t-elle la tension pro/amateurs?
  • Le lien entre journalisme et esthétique : dans quelle mesure le journalisme de « données » est-il l’occasion de création de nouveaux standards et de nouvelles routines visuels ?
  • L’enjeu démocratique : quelle représentation du rôle des journalistes en démocratie derrière la promotion des « données » et, avec elles, d’un idéal de « transparence » ? Comment s’exprime, à travers un imaginaire du journalisme, une réflexion sur la représentation politique?

Cartographier les acteurs

Valérie Jeanne-Perrier a présenté les résultats d’une première investigation large des sources du discours et des acteurs en France.

Une piste émerge particulièrement : suivre la circulation de l’expression « journalisme de données » dans différents espaces professionnels permet d’en saisir l’aspect mobilisateur servant à exprimer ce que le journalisme n’est plus et ce qu’il devrait être.

Qui s’en empare ?

  • des acteurs institutionnels (Etalab, les écoles de journalisme etc.) qui mobilisent le mot « journalisme » comme « référence active ».
  • des entreprises qui ont à voir avec la production de contenu « data », de visualisations notamment : Data Publica. Le journalisme de « données » y est un « argument de positionnement ».
  • les journalistes autour de quatre « comportements » : formateurs, évangélisateurs, critiques/sceptiques, pragmatiques.
  • les universitaires ou la proposition d’une réflexivité : comment donnent-ils par leurs interrogations propres une légitimité et une visibilité à l’objet?

Un manuel à visée performative : le Data Journalism Handbook

Pierre-Carl Langlais et Guillaume Heuguet ont proposé une intervention sur la « vulgate du datajournalisme » et sur les formes éditoriales mobilisées pour la diffuser. Ils mettent en avant la visée performative des textes ayant recours à l’expression qu’ils considèrent comme « formule » : manifestes, manuels, dont le Datajournalism Handbook qui fait référence en la matière.

Dans ces textes, deux idées fortes tendent à fonder l’objet en « rupture » :

  • la « donnée » comme outil et non plus illustration de l’information (avec une valorisation de la forme graphique ou tabulaire) un contexte technologique en mutation nécessiterait un changement en profondeur des pratiques journalistiques – le journalisme de « données » comme remède possible à la crise énoncée.
  • l’annonce d’un double mouvement de « démédiation » (//transparence) et de « remédiation » avec une « nouvelle couche » de journalisme nécessaire pour donner à lire les « données ».

Former au datajournalisme

Hervé Demailly s’est penché sur la manière dont les acteurs de la formation au journalisme en France s’approprient, ou non, la thématique.

Quatre écoles parmi les treize reconnues par la professions affichent sur leurs plaquettes l’intitulé « journalisme de données » au menu des enseignements proposés. Il s’agit principalement de formations courtes (quelques jours) inscrites dans le cadre de formations dites continues.

D’autres structures s’y intéressent cependant (écoles et instituts privés, clubs de la presse…)et des personnalités singulières et des entreprises de presse, dans leurs productions, affichent également un objectif pédagogique (Alain Joannès revient en particulier).

Datajournalismes germaniques et helléniques en regard

Juliette Charbonneaux a effectué une première exploration des modalités d’appropriation de l’objet en terrain médiatique allemand. La première interrogation « qui se revendique du « Datajournalismus » ? » fait émerger un acteur récurrent, Lorenz Matzat, et une agence « Opendata-city » productrice de contenu « data » à destination, notamment, d’entreprises de presse (die Zeit, SZ, TAZ…).

Plus largement, cinq tendances semblent s’affirmer :

  • l’expression d’un potentiel démocratique lié à un idéal de transparence et de « don » à la communauté (rappelle les idéaux du journalisme d’investigation)
  • un tropisme cartographique donnant à lire l’ensemble ou des pans du territoire national
  • l’idée d’un journalisme « à partager » avec la communauté, nationale toujours, des lecteurs
  • un journalisme à enseigner aussi : les productions sont des occasions de « discours de la méthode »
  • la référence quasi-systématique à des modèles américains (A. Holovaty en premier lieu) et britanniques (The Guardian)

Pergia Gkouskou-Giannakou procède à une analyse similaire sur le terrain grec. Elle a fait remonter de cette première exploration la référence récurrente au journalisme d’investigation à travers la question des sources, soit pour proposer de l’améliorer, de l’ « augmenter », soit pour s’en écarter.

Cette double intervention constitue la première formulation d’une contribution présentée dans le cadre du colloque Mejor, Le journalisme de « données », une pratique d’investigation ? Cas allemand et grec en regard.

Séminaire n°3 : Approches sémiotiques du « journalisme de données »

Le troisième séminaire jourdain s’ouvre là où le second s’était arrêté. Ce dernier était consacré aux processus de construction des données informatiques.

Au terme de ce travail de recueillement et d’explicitation, on dispose d’un ensemble de significations à exposer : corrélations, causalités, similitudes, affinités. Comment les mettre en scène ? Comment les donner à voir sans exiger du public la mise en œuvre de procédures statistiques élaborées ? En recourant à des visualisations (ou « dataviz » pour reprendre une terminologie assez circulante aujourd’hui).

Anne Beyaert-Geslin est professeur en sémiotique à l’université de Bordeaux III et directrice du CeRes (Centre de Recherches sémiotiques de Limoges). Pour ce séminaire dédiée à la visualisation des données, elle est revenue sur un projet ANR auquel elle a participé entre 2008-2010 : Idivis (Images et dispositifs de visualisation scientifique). Indivis interrogeait les modalités de visualisation de données à partir d’une question liminaire simple : qu’est-ce qu’une image scientifique ?

Définir l’image scientifique

L’image scientifique vise à faire connaître ce dont elle est la représentation. À ce titre, elle est prédictive, didactique et dynamique car elle permet aux scientifiques de mettre à l’épreuve la réflexion sur l’agencement de données. L’image est modifiable, déclinable et améliorable. Elle ne prétend pas proposer une représentation définitive et éternellement fixée.

Système solaire représenté par Andreas Cellarius dans Harmonica Macroscomica (1660). Le recours à l’allégorie contribue à rendre l’image plus familière.

L’image scientifique vise un référent qui est hors du visible, soit qu’il se trouve hors de portée soit qu’il est dissimulé par une autre couche ou enveloppe (ainsi en est-il des images de l’intérieur du corps humain). Dès lors s’impose la nécessité d’un visuel traduisant cet aspect « hors du visible ». L’image va créer le référent permettant cette lecture en même temps qu’elle façonne l’objet.

Comme l’objet qu’elle représente n’est pas visible, l’image scientifique est envisagée comme prothèse à deux titres :

  • pragmatique en ce que son enjeu est de dépasser l’obstacle entre exposition/obstruction et accessibilité/inaccessibilité
  • cognitive car il s’agit, pour assurer ce dépassement, de choisir un mode de visualisation qui renvoie à quelque chose de familier, qui compose un raccourci aisé à assimilé.

Bayaert-Geslin souligne que ce nous jugeons réaliste renvoie à une accoutumance à certains systèmes de représentation. Il existe de fait une dynamique de familiarisation et d’inculcation : les images que nous contemplons le plus souvent nous paraissent plus ordinaires et, donc, plus vraisemblable. D’où l’importance de l’iconisation : la stabilisation dans une forme familière assurera en retour la reconnaissance et l’impression de réalisme.

Le choix du modèle de visualisation par l’image s’effectue ainsi à partir de modèles familiers, dans une gamme de modes en usage. La visualisation est un dispositif pragmatique et cognitif qui vise à donner à comprendre.

Donner à voir et à croire

Au critère de familiarité s’ajoute un critère esthétique. Entre deux hypothèses, la préférence va toujours à la plus esthétique, en fonction de deux critères : symétrie et simplicité. Il s’agit, là encore, d’assurer l’effet réaliste, de faire croire, la beauté est envisagée comme force de conviction. La belle symétrie de la structure en double hélice de l’ADN a ainsi beaucoup contribué à sa rapide diffusion.

Un exemple de circulation de l’image scientifique : reproduction de la structure classique de l’ADN avec des briques légo

En effet, il s’agit avec l’image scientifique de construire le donner à lire d’une évidence. Est évident ce qui paraît immédiatement visible et saisissable. Comment se construit cet effet d’évidence ?

  • Par le traitement différent des formes et des couleurs. Si la forme est intrinsèque à l’objet, la couleur, elle, est autonome et va être utilisée pour cela en tant que discriminant signifiant (notamment en cartographie).
  • Par la standardisation du cadrage des photographies scientifiques : les marques de subjectivité sont effacées pour créer un effet d’impersonnalité, considéré comme critère d’appréciation de valeur.
    Choix du point d’ancrage ou à quoi « accrocher » l’image? : lorsque l’échelle humaine n’est pas envisageable, on choisit souvent l’échelon national, autre forme du familier.

Construire des images formelles

Les images formelles cherchent à rendre visibles des objets situés hors du visible. On retrouve un peu cette préoccupation dans le journalisme de donnée : il s’agit là aussi de mettre à jour une signification cachée, voire volontairement dissimulée, au terme d’un travail d’investigation.

Cette injonction devient tout particulièrement prégnante lorsque les quantités de données recueillies sont incommensurables en termes quantitatifs : comment leur rendre une présence sensible?

Si les données sont situées en deçà de l’information, il s’agit de leur construire une présence sensible (correspond au plan de l’expression de la sémiosis). La visualisation passe alors par une opération de réduction sémiotique. Dans son Anthropologie structurale Lévi-Strauss souligne que : « toute représentation passe par une réduction ». Il s’agit d’une conversion vers le sensible : elle suppose la commensurabilité des données pour assurer la compréhension. De même, le journaliste cherche, autant que possible, à ramener son sujet à une dimension humaine, en recourant notamment à la comparaison à des objets ou attitudes du quotidien.

La forme du diagramme est commune à l’imagerie scientifique traditionnelle et à la visualisation de données. Elle intervient comme réponse privilégiée à cette injonction de réduction.

Le diagramme scientifique est ici radicalement distinct de l’image artistique. IL n’admet aucune ambiguïté. Sa signification ne peut pas être indéfiniment distendue, ni servir de point de départ à des réceptions sociales élaborées (le scandale esthétique, par exemple). Pour Peirce, la dimension iconique du diagramme ne vise qu’à résoudre les problèmes cognitifs. Le diagramme est une conception explicative a posteriori, une pré-forme. Comme pour les stéréotypes de l’écriture journalistique, la structure élémentaire étant déjà connue et maîtrisée, on pourra mettre plus aisément l’accent sur le nouveau, sur le fait scientifique informel que l’on cherche à domestiquer.

Cette forme de visualisation possède, en somme, un caractère performatif. Elle est dotée d’une opérativité symbolique qui donne vie à un concept ou une représentation située par-delà la compréhension humaine immédiate.

Conclusion

Anne Beyaert-Geslin revient sur la dimension processuelle : collecte-visualisation – utilisation. Au long du processus de construction de visualisation(s) se pose toujours la question du « à quoi cela va servir ? ». Il ya une protension de l’ensemble vers le projet.

La visualisation s’adresse toujours à un certain public. Elle s’inscrit dans une pratique et dans une politique éditoriale. Il s’agit d’un principe interactif qui dynamise le système. On quitte avec elle la sémiotique du texte pour aller vers une sémiotique des pratiques, en envisageant une chaîne de la processualité, une traçabilité.

Cartographier le Data Journalism Handbook

cover DJHMouvement émergent, le datajournalisme possède déjà sa vulgate. Le Data Journalism Handbook a vocation a décrire et instituer toute une série de « bonnes pratiques » en recueillant les témoignages et conseils de 71 auteurs.

Pour quiconque s’intéresse au datajournalisme, cette expérience éditoriale a valeur de raccourci. Elle fige un champ social jusqu’alors indistinct autour d’une communauté spécifique (la communauté écrivante). Sans dissiper complètement le flou de la notion datajournalisme, elle en explicite à tout le moins les principales implications.

Le Data Journalism Handbook constitue donc un détour assez commode. Tout-le-monde peut se réclamer du titre de datajournaliste ou de journaliste de données : il n’existe pas encore de brevets de professionnalisation, comparable à la carte de presse, qui permettrait de séparer les « purs » des « impurs ». Toute étude sociologique de ce genre de déclaration d’intention se heurte inévitablement à des incohérences.

Inversement, la participation à l’écriture du livre a valeur d’engagement. Elle signale en soi une acceptation du label « datajournalisme » et une volonté de s’inscrire dans son mouvement de promotion. Étudier la communauté écrivant du Data Journalism Handbook revient à étudier un corpus auto-représentatif : par le simple geste de l’auctorialité et de l’accréditation collective, les auteurs se qualifient comme « exemplaires ». Ils établissent un référent désormais inévitable. On peut le contester, mais on ne saurait l’éviter.

Recueillir des données sur les datajournalistes

Le Data Journalism Handbook nous dit peu de choses sur ses auteurs. Deux sections fournissent des indices assez maigres. L’introduction évoque brièvement le processus de rédaction de l’ouvrage : tout est parti d’un atelier étalé sur deux jours à l’occasion du Mozilla Festival de novembre 2011. Une liste spécifie l’identité de 71 contributeurs et leurs principales affiliations.

Tout ceci ne donne qu’une image imprécise de cette communauté écrivante. Afin d’y remédier, j’ai mis en place une compilation de données biographiques essentiellement recueillies sur des sites personnels, lorsqu’ils existaient ou sur le réseau social professionnel LinkedIn. Pourquoi Linkedin et pas Facebook ? Il y a une part de ruse dans ce choix. Comme toute interface professionnelle, LinkedIn suscite de fortes contraintes techniques (les données sont très cadrées) et sociales (il est toujours possible de mentir à un employeur potentiel, mais cela reste peu probable).

Vu la relative faiblesse de l’échantillon concerné, cela reste un projet de small data : je me suis contenté de reporter les données une à une sans mettre en place un procédé de recueil automatique. Cette appréciation qualitative permet également de combler les éventuels trous et/ou d’opérer certaines déducations (la nationalité n’est pas toujours explicitée sur les fiches LinkedIn mais l’affiliation nationale reste assez aisée à cerner).

Au terme de ce travail de recueil, l’on aboutit au tableau suivant.

Prénom
Nationalité
Statut
Formation
Affiliation(s)
Gregor AischAllemagneDéveloppeurUniversität Magdeburg (Computer Visualistics)Die Zeit, Open Knowledge Foundation
Brigitte AlfterDanemarkJournalisteDanish School of JournalismJournalismfund.eu / Wobbing.eu (co-fondatrice)
Caelainn BarrRoyaume-UniJournalisteCity College JournalismBBC / Financial Times / The Guardian / Al-Jazeera / Citywire
Mariana BerruezoArgentineEntrepreneurUniversitad de Buenos AiresHacks/hackers (Buenos Aires)
Michael BlastlandRoyaume-UniJournaliste / Essayiste?BBC
Mariano BlejmanArgentineDéveloppeurUniversidad Nacional de CuyoHacks/Hackers (Buenos Aires)
John BonesNorvègeJournalisteNorges teknisk-naturvitenskapelige universitet (NTNU)Verdens Gang
Marianne BouchartFrance/Royaume-UniJournalisteESJ Lille / City University LondonBloomberg News
Paul BradshawRoyaume-UniConsultantBirmingham City UniversityDataDrivenJournalism.net, City University London, Brimingham City University
Wendy CarlisleAustralieJournalisteUniversity of New South WalesAustralian Broadcasting Corporation
Sarah CohenUSAUniversitaireUniversity of MinnesotaUniversity of North Carolina Press, Duke University
Alastair DantRoyaume-UniDéveloppeurUniversity of LondonThe Guardian
Helen DarbishireRoyaume-Uni / EspagneMilitant associatifUniversity of Durham (Philosophy of science)Access Info Europe
Chase DavisUSAJournalisteCenter for Investigative reporting
Lisa EvansRoyaume-UniDéveloppeurUniversity of Leeds (Physiotherapy)Open Knowledge Foundation / The Guardian
Duncan GeereSuèdeJournalisteGöteborgs universitetConde Nast / Pocket-lint / Shiny Media / Wired UK
Bella HurrellRoyaume-UniJournalisteThe University of Manchester (American Studies), University of Leeds (Journalism)BBC
John KeefeUSAJournalisteUniversity of Wisconsin-MadisonWNYC
Scott KleinUSAJournalisteClark UniversityThe Nation / Pro Publica / DocumentCloud
Andrew LeimdorferRoyaume-UniJournaliste?BBC
Friedrich LindenbergAllemagneDéveloppeur?Spiegel Online, Open Knowledge Foundation
Mike LinksvayerUSADéveloppeurUniversity of Illinois (Economics)Creative Commons (vice-président), Wikipedia
Mirko LorenzAllemagneUniversitaire / JournalisteUniversität zu Köln (Histoire)Deutsche Welle, Journalism++
Esa MäkinenFinlandeJournaliste?Helsingen Sanomat, OKFN
Pedro MarkunBrésilJournalisteUniversidade do Vale do Rio dos SinosTransparência Hacker, Hacks Hackers
Lorenz MatzatAllemagneJournalisteUniversität BremenZeit / Open Data City
Claire MillerRoyaume-UniJournalisteLambeth CollegeWalesOnline
Oluseun OnigbindeNigériaMilitant associatifUniversity of LondonBudgIT
Djordje PadejskiSerbieJournaliste / UniversitaireStanford UniversityStanford University
Jane ParkUSAProject ManagerUniversity of CaliforniaCreative Commons / Peer2Peer University
Cheryl PhillipsUSAJournalisteGeorgetown University / Seattle UniversityThe Seattle Times
Aron PilhoferUSAJournalisteUniversity of Minnesota-Twin CitiesThe New York Times / Hacks/Hackers / DocumentCloud / Center for Public Integrity
Lulu PinneyRoyaume-UniDesignerUniversity of CambridgeBBC News Online
Paul RaduRoumanieUniversitaire / Journaliste / EntrepreneurStanford UniversityRomanian Center for Investigative Journalism / World Economic Forum / Organised Crime and Corruption Reporting Project
Martin RosenbaumRoyaume-UniJournaliste?BBC News
Amanda RossiBrésilMilitant associatif?Friends of Januária
Martin SarsaleArgentineDéveloppeurCPELHacks/Hackers (Buenos Aires)
Fabriozio ScrolliniRoyaume-UniUniversitaireVictoria University of Wellington / Universidad Católica del UruguayLondon School of Economics and Political Science
Sarah SlobinUSADesignerNew York UniversityNew York Times / Fortune / Wall Street Journal
Sergio SorinArgentineDirecteur des ressources humainesFacultad Latinoamericana de Ciencia SocialesLa Nación / Hacks/Hackers (Buenos Aires)
Brian SudaUSA / IcelandDéveloppeurUniversity of Saint-Louis / University of Edinburgh(optional.is)
Jeremy ThorpUSADéveloppeur / DesignerVancouver Film SchoolThe Office for Creative Research / The New York Times
Andy TowArgentineUniversitaire?Hacks/Hackers (Buenos Aires)
Sascha VenohrAllemagneJournaliste?Die Zeit
Jerry VermanenPays-BasJournalisteLeiden UniversityNU.nl / Sanoma Media Netherlands
Farida VisRoyaume-UniUniversitaireManchester Metropolitan UniversityUniversity of Leicester / Open Data Manchester
Pete WardenUSADéveloppeur / StatisticienUniversity of ManchesterO'Reilly Media / OpenHeatMap / Jetpac
Chrys WuÉtats-UnisJournaliste?Knight News Challenge / Los Angeles Times / New York Times / WNYC
Brian BoyerUSAJournaliste / DéveloppeurUniversity of Illinois (Computer Science), Northwestern University (Journalism)Chicago Tribune
Stephen DoigUSAJournaliste / UniversitaireDarthmouth College (Bachelor of art)Miami Herald / Walter Cronkite School of Journalism
Nicolas Kayser-BrilFranceJournalisteScience po Lille / University of East AngliaOWNI / Journalism ++
Cynthia O'MurchuRoyaume-UniJournaliste?Financial Times, Centre for Investigative Journalism
Angélica Peralta RamosArgentineJournalisteUniversidad de Buenos AiresLa Nacion
Simon RogersRoyaume-UniJournalisteCity UniversityThe Guardian
David AndertonRoyaume-UniManagerUniversity of London (Oriental and African Studies)Financial Times / Apple / European Investment Bank / Flashbay Ltd.
Tim Berners-LeeRoyaume-UniDéveloppeurUniversity of Oxford (physique)Cern, W3C
Tom FriesUSAEntrepreneurUniversity of Virginia / Georgetown University (MBA)Bertelsmann Stiftung / The Arctic Institute
Alex HowardUSAJournalisteCoby CollegeForbes / Huffington Post / O'Reilly Media
Isao MatsunamiJaponJournaliste?Tokyo Shimbun
Philip MeyerUSAUniversitaireKansas State University (technical journalism), University of North Carolina (thesis in political science)Miami Herald / University of North Carolina
Chris TaggartRoyaume-UniEntrepreneur?OpenCorporates
César VianaBrésilUniversitaire?University of Goiás
David BanisarRoyaume-UniMilitant associatif / UniversitaireColumbus School fo LawArticle 19
Heather BrookeÉtats-Unis / Royaume-UniJournalisteUniversity of Washington / University of WarwickJournalist and FOI Campaigner, The Guardian
Rich GordonÉtats-UnisUniversitaireUniversity of Pennsylvania (History)Northwestern University
Francis IrvingRoyaume-UniEntrepreneurOxford University (mathématiques)Scraperwiki
Anthony ReubenRoyaume-UniJournalisteThe Queen's College OxfordBBC News
Jack GillumUSAJournalisteColumbia University (Journalism)USA Today / Arizona Daily Star / Associated Press
Alexandre LéchenetFranceJournalisteParis-VIIIOWNI / Le Monde, Hacks Hackers
Geoff McGheeUSAUniversitaireColumbia Graduate School of JournalismLe Monde / New-York Times / Stanford University
Jonathan StrayUSAJournaliste / EntrepreneurThe University Hong KongColumbia School of Journalism / CNN / Associated Press / The Overview Project
Liliana BounegruPays-Bas / RoumanieUniversitaireMaastricht School of Communication / University of AmsterdamEuropean Journalism Centre
Lucy ChambersRoyaume-UniCommunity ManagerCambridgeOKFN
Jonathan GrayRoyaume-UniUniversitaireCambridge / Open University / University of LondonOKFN
James BallRoyaume-UniJournaliste?Wikileaks / Bureau for Investigative Journalism / The Guardian
Mark Lee HunterUSA / FranceJournaliste / UniversitaireInstitut Français de PresseINSEAD
Luk Van WassenhoveBelgiqueUniversitaire?INSEAD

 

Par rapport à mon premier fichier, j’ai effectué plusieurs uniformisations, notamment en substituant les intitulés de poste les plus spécifiques par des appellations plus génériques. Certains contributeurs privilégient des titulature à la limite du néologisme, ce qui n’autorise pas vraiment les comparaisons et rapprochements : Data Artist, Information Architect, Thinking Designer

Une représentation internationale en trompe-l’œil

Le Datajournalism Handbook insiste sur sa portée universelle. Dans son introduction, l’ouvrage se met en scène comme une impulsion initiale qui s’est répandue dans le monde entier (« spilled over into an international, collaborative effort »). L’affiliation nationale est en grande partie refoulée : ce qui importe c’est la qualité du contributeur (« dozens of data journalism’s leading advocates and best practitioners. »).

Force est pourtant de constater que la géographie des contributeurs n’est pas neutre. La carte ci-dessous, réalisée avec Google Fusion Tables, est assez évocatrice. De larges pans de la planète sont plongés dans le rouge : Afrique, Asie, Europe de l’est, Russie… Comme pour toute activité de pointe, le sous-développement économique reste un facteur déterminant, mais ce n’est pas le seul. Si il explique la sous-représentation de l’Afrique et du Moyen-Orient, il ne justifie pas l’absence du Canada ou de l’extrême-orient.

Pour comprendre les ressorts de cette cartographie, il est nécessaire de revenir sur la nature du projet éditorial. Bien qu’il se présente en partie comme tel, le Data Journalism Handbook n’est pas une création spontanée. Il s’agit de l’émanation directe de deux associations, l’Open Knowledge Foundation et l’European Journalism Center et d’une liste de diffusion, Data-Driven Journalism. La nature de ces institutions a, en quelque sorte, balisé par avance la composition de la communauté écrivante. Elles sont largement ancrées en Europe de l’ouest. Les non-européens viennent surtout s’ajouter par surcroît, à l’exception notable des américains.

L’OFKN a ainsi publié une carte de ses principales émanations locales. Il convient de noter qu’elles ne sont pas toutes au même niveau d’organisation. Il existe une sorte de hiérarchie spontanée allant du chapter (association très structurée) à l’ambassadeur (simple présence) en passant par l’initiative (groupe en voie de structuration). Tous les chapters sont en Europe.

Cette géographie induite n’est pas entièrement décalquée. C’est que la thématique du datajournalisme est plus ou moins porteuse d’un pays à l’autre. Lieu de naissance de la notion et des premières expériences estampillés comme tel, les États-Unis sont bien représentés.

Le processus de rédaction reflète ces dynamiques nationales complexes et parfois aléatoires. La participation significative de l’Argentine découle d’un mail envoyé par la bonne personne au bon moment. Membre de la délégation de Hacks/Hackers à Buenos Aires, Angelica Peralta Ramos se manifeste dès le 6 novembre 2011 pour participer à l’écriture de l’ouvrage. Par elle transiteront la quasi-totalité des collaborateurs argentins.

Géographie réelle et imaginaire

La représentation nationale suggérée par le Data Journalism Handbook reproduit-elle avec une certaine acuité la diffusion du datajournalisme ?

Là n’est peut-être pas l’essentiel. En raison de son statut de vulgate, l’ouvrage modifie fatalement les phénomènes qu’il prétend observé. Il confère une légitimité internationale à des projets et des initiatives relativement marginaux. La géographie imaginaire qu’il dessine contribue fatalement à altérer une hypothétique géographie réelle du datajournalisme.

Vers une vulgate data-visuelle ? Le cas d’Highcharts

Le développement d’outils informatiques simplifiés et mieux adaptés aux besoins spécifiques de la médiation journalistique a joué un rôle crucial dans l’avènement et la légitimation du datajournalisme. Depuis une dizaine d’années, il est possible de gérer des grands jeux de données ou de créer des applications en ligne inventives sans être un programmeur confirmé. Des applications comme Google Fusion Tables ou des langages intuitifs comme JQuery entraînent une certaine démocratisation des compétences. Ces nouveaux supports rendent possible l’avènement de profils ambidextres, situés à mi-chemin entre l’univers professionnel du journalisme et celui de l’informatique. Dans une section du Data Journalism Handbook, Chase Davis évoque l’implication croissante des reporters dans le travail de programmation « ce qui libère les développeurs pour des projets plus difficiles ».

Nom
Création
Type de logiciel
Éditeur
Type de visualisation
Utilisation
VIDI?Application webJefferson InstituteGraphiques
Many Eyes2007Application webIBMGraphiques
Infovis2008Bibliothèque javascriptCommunauté open sourceGraphiques animés
Gephi2008Application bureauCommunauté open sourceRéseaux sociaux
R1993Code spécifiqueCommunauté open sourceGraphiques
Highcharts2009Application WebHighcharts solution ASGraphiques animésOWNI
Google Maps2004Application WebGoogleCartographieOWNI, AFP, Rue89…
Kartograph2011Framework Python et JavascriptGregor AischCartographieJournalism++

Une telle démocratisation a cependant son revers. En proposant du prêt-à-publier, les outils « intermédiaires » suscitent de puissants effets de rection.

Highcharts constitue un bon exemple de cette tendance à l’uniformisation. Il s’agit d’une « bibliothèque » javascript. La métaphore de la bibliothèque est ici à prendre au sens propre. Highcharts propose un jeu de fonctions prédéfinies, qui fonctionnent un peu comme des « livres » : ils forment une totalité achevée à laquelle il suffit de faire référence pour en convoquer le savoir. En témoigne cette élégante présentation interactive, dite bubble :

Elle est générée avec un code très bref :

code Highcharts

Aucune indication supplémentaire n’est nécessaire. C’est que l’essentiel se passe ailleurs : dans des fichiers pré-remplis, beaucoup plus bavards. En voici une illustration évocatrice. Il s’agit d’un extrait du fichier Highcharts.js qui gère les interactions fondamentales de toutes les visualisations Highcharts :

Code Highcharts Java

En somme le data-journaliste qui manipule la visualisation n’a pas grand chose à faire : il insère ses données, fait appel à la mise en forme de la bibliothèque highcharts et le tour est joué… Inversement, la marge laissée à la personnalisation est assez étroite. Il est possible de modifier en profondeur la bibliothèque, mais comprendre de quoi il en ressort demande un investissement temporel déraisonnable. Il est plus confortable de laisser les choses telles qu’elles sont.

Cette incitation à la facilité entraîne une uniformisation sémiotique assez peu surprenante. Les mises en forme de Highcharts se retrouvent telles quelles dans plusieurs articles de datajournalisme. En témoigne le camembert-type :

On le retrouve quasiment inchangé dans une application d’OWNI sur le chômage des jeunes (aujourd’hui disparue : l’archive hébergée sur Wayback Machine en donne une très vague idée…).

Utilisation du camembert Highcharts dans le cadre d'un sondage sur le chômage des jeunes.

Utilisation du camembert Highcharts dans le cadre d’un sondage sur le chômage des jeunes.

Le même phénomène se répète pour Gazette.fr. Cela concerne cette fois le graphique standard :

Il se retrouve, identique, dans une modélisation des salaires dans la fonction publique :

HC Gazette

Les modélisations d’Highcharts sont également utilisées de manière plus furtive. Le Monde.fr propose une sorte de collage datavisuel en accolant un camembert sophistiqué élaboré avec Jit (au centre) et un petit camembert plus basique d’Highcharts (en haut à gauche).

Les 500 membres de la galaxie Ayrault-Hollande (Le Monde.fr)

Il est intéressant de noter que les codes pré-remplis ne diffèrent pas tant que cela des outils classiques de bureautique. Sur le papier, ils autorisent des manipulation très poussées, qu’on ne pourrait jamais réaliser sur Excel. Cependant, l’impératif d’une facilité d’usage et les contraintes médiatiques d’une conception accélérée encouragent clairement le copier-coller. La maîtrise du code ne constitue pas à elle seule une garantie d’originalité et d’indépendance.