Pour sa deuxième séance de travail, le séminaire Jourdain a reçu Patrick Gallinari et Jean-Gabriel Ganascia, chercheurs au Lip 6, laboratoire d’informatique de l’UPMC (Université Pierre et Marie Curie, Paris 6). Était également présent Philippe Onillon, directeur adjoint de la rédaction Europe-Afrique à l’AFP en charge de la veille sur les nouvelles pratiques d’information.
L’objectif de cette rencontre interdisciplinaire consistait à préciser les modalités techniques qui transforment en donnée une information recueillie et distribuée par des outils informatiques.
Patrick Gallinari et Jean-Gabriel Ganascia ont explicité les spécificités du département « données » de leur laboratoire. L’apprentissage consiste à créer des systèmes qui peuvent « apprendre » à partir des données du monde (la « fouille de données » est par exemple une technique d’apprentissage). Le développement d’algorithmes spécifiques permet de traiter des données de différentes sortes (sémantiques, textuelles, vidéos etc.).
Nom | Création | Type de logiciel | Licence | Éditeur | Utilisations notables | Fonction |
---|---|---|---|---|---|---|
Datawrangler | 2011 | Application web | ? | Stanford | Nettoyage des données | |
Google Refine | 2010 | Application web | Libre | Nettoyage des données | ||
Google Fusion Tables | 2009 | Application web | ? | Nettoyage de petits jeux de données | ||
Impure | 2010 | Application web | ? | Bestario | Recueil, traitement et visualisation | |
Tableau Public | ? | Application web | Libre | Tableau Software | La Nacion | Recueil, traitement et visualisation |
Excel | 1985 | Application bureau | Propriétaire | Microsoft | Tout-le-monde… | Traitement simple |
R | 1993 | Code spécifique | Libre | Communauté open source | Pro Publica | Tout type de traitement |
Ruby | 1995 | Code spécifique | Libre | Communauté open source | Gregor Aisch, Chicago Tribune | Tout type de traitement |
Python | 1991 | Code spécifique | Libre | Communauté open source | Gregor Aisch | Tout type de traitement |
SPSS | 1968 | Code spécifique | Propriétaire | IBM | ProPublica, Seattle Times | Tout type de traitement |
Num.Py | 1995 | Bibliothèque Python | Libre | Communauté open source | Chicago Tribune | Tout type de traitement |
NitroPDF | 2005 | Application bureau | Propriétaire | Nitro | La Nacion | Conversion des PDF |
Panda | 2008 | Bibliothèque Python | Libre | Communauté open source | Tout type de traitement |
Un jeu de données Jourdain :
Les principaux outils de traitement informatiques des données
A l’issue de la rencontre il s’avère que nous aurions pu intituler cette séance « Le parcours de la donnée : de l’information à l’information » ou encore « De l’information à la donnée, de la donnée à l’information ».
En effet, ce séminaire commun a été l’occasion de saisir des modalités d’appropriation très différenciées des termes : pour les informaticiens, l’ « information » est envisagée comme le matériau premier, le plus « brut ». Ils parlent ainsi d’ « information sale » qui demande à être « nettoyée ». Les « données », elles, sont considérées comme des « agrégats d’informations », stockées dans des dispositifs. En ce sens, les « données » sont déjà des connaissances, obtenues à partir des « informations » rendues « propres » puis mises en forme dans des « bases de données ».
Pour Patrick Gallinari, « quand on prend des données il y a plein d’informations dedans ». Il faut alors procéder à un « nettoyage pour garder l’information de base, pour trouver ce qui intéresse ». A partir du code, « on enlève un peu de cambouis, on nettoie avec des outils automatiques. »
Patrick Gallinari et Jean-Gabriel Ganascia ont par ailleurs exposé quelques exemples de « chantiers » sur lesquels interviennent les chercheurs du Lip6. Alcatel souhaitait ainsi développer des outils de recommandation à partir des discours sociaux et des habitudes d’usage. Pour cela, ils ont besoin des méta-données, c’est-à-dire des « informations » qui décrivent les programmes. Concrètement, il s’agit d’obtenir un retour d’usages lors de la production d’un objet.
Un autre projet sur la télécommande consiste à enregistrer tous les usages pour chercher les corrélations entre programmes, contextes et usages. Ce qui permet de tracer un parcours du visionnage à partir de la construction d’ « outils d’apprentissage ». Les chercheurs partent d’une « profusion d’informations », il s’agit ensuite de leur « donner un sens » pour « arriver à un degré d’abstraction élevé ».
On retrouve l’autre pan du chiasme dans le discours de Philippe Onillon. Pour lui, « c’est la donnée qui produit du journalisme », et donc, sous-entendu, de l’information. Ainsi, « avant le traitement [de l'information], il faut la donnée, il faut la bâtir ». « Au départ, il y a un événement, quand on recherche l’illustration, on cherche une donnée précise pour illustrer le fait. »