Séminaire n°2 : le parcours de la donnée, de l’informatique à l’information

Pour sa deuxième séance de travail, le séminaire Jourdain a reçu Patrick Gallinari et Jean-Gabriel Ganascia, chercheurs au Lip 6, laboratoire d’informatique de l’UPMC (Université Pierre et Marie Curie, Paris 6). Était également présent Philippe Onillon, directeur adjoint de la rédaction Europe-Afrique à l’AFP en charge de la veille sur les nouvelles pratiques d’information.

L’objectif de cette rencontre interdisciplinaire consistait à préciser les modalités techniques qui transforment en donnée une information recueillie et distribuée par des outils informatiques.

Patrick Gallinari et Jean-Gabriel Ganascia ont explicité les spécificités du département « données » de leur laboratoire. L’apprentissage consiste à créer des systèmes qui peuvent « apprendre » à partir des données du monde (la « fouille de données » est par exemple une technique d’apprentissage). Le développement d’algorithmes spécifiques permet de traiter des données de différentes sortes (sémantiques, textuelles, vidéos etc.).

Nom	Création	Type de logiciel	Licence	Éditeur	Utilisations notables	Fonction
Datawrangler	2011	Application web	?	Stanford		Nettoyage des données
Google Refine	2010	Application web	Libre	Google		Nettoyage des données
Google Fusion Tables	2009	Application web	?	Google		Nettoyage de petits jeux de données
Impure	2010	Application web	?	Bestario		Recueil, traitement et visualisation
Tableau Public	?	Application web	Libre	Tableau Software	La Nacion	Recueil, traitement et visualisation
Excel	1985	Application bureau	Propriétaire	Microsoft	Tout-le-monde…	Traitement simple
R	1993	Code spécifique	Libre	Communauté open source	Pro Publica	Tout type de traitement
Ruby	1995	Code spécifique	Libre	Communauté open source	Gregor Aisch, Chicago Tribune	Tout type de traitement
Python	1991	Code spécifique	Libre	Communauté open source	Gregor Aisch	Tout type de traitement
SPSS	1968	Code spécifique	Propriétaire	IBM	ProPublica, Seattle Times	Tout type de traitement
Num.Py	1995	Bibliothèque Python	Libre	Communauté open source	Chicago Tribune	Tout type de traitement
NitroPDF	2005	Application bureau	Propriétaire	Nitro	La Nacion	Conversion des PDF
Panda	2008	Bibliothèque Python	Libre	Communauté open source		Tout type de traitement

Un jeu de données Jourdain :
Les principaux outils de traitement informatiques des données

A l’issue de la rencontre il s’avère que nous aurions pu intituler cette séance « Le parcours de la donnée : de l’information à l’information » ou encore « De l’information à la donnée, de la donnée à l’information ».

En effet, ce séminaire commun a été l’occasion de saisir des modalités d’appropriation très différenciées des termes : pour les informaticiens, l’ « information » est envisagée comme le matériau premier, le plus « brut ». Ils parlent ainsi d’ « information sale » qui demande à être « nettoyée ». Les « données », elles, sont considérées comme des « agrégats d’informations », stockées dans des dispositifs. En ce sens, les « données » sont déjà des connaissances, obtenues à partir des « informations » rendues « propres » puis mises en forme dans des « bases de données ».

Pour Patrick Gallinari, « quand on prend des données il y a plein d’informations dedans ». Il faut alors procéder à un « nettoyage pour garder l’information de base, pour trouver ce qui intéresse ». A partir du code, « on enlève un peu de cambouis, on nettoie avec des outils automatiques. »

Chaîne de production des données telle que modélisée par Datapublica

Patrick Gallinari et Jean-Gabriel Ganascia ont par ailleurs exposé quelques exemples de « chantiers » sur lesquels interviennent les chercheurs du Lip6. Alcatel souhaitait ainsi développer des outils de recommandation à partir des discours sociaux et des habitudes d’usage. Pour cela, ils ont besoin des méta-données, c’est-à-dire des « informations » qui décrivent les programmes. Concrètement, il s’agit d’obtenir un retour d’usages lors de la production d’un objet.

Un autre projet sur la télécommande consiste à enregistrer tous les usages pour chercher les corrélations entre programmes, contextes et usages. Ce qui permet de tracer un parcours du visionnage à partir de la construction d’ « outils d’apprentissage ». Les chercheurs partent d’une « profusion d’informations », il s’agit ensuite de leur « donner un sens » pour « arriver à un degré d’abstraction élevé ».

On retrouve l’autre pan du chiasme dans le discours de Philippe Onillon. Pour lui, « c’est la donnée qui produit du journalisme », et donc, sous-entendu, de l’information. Ainsi, « avant le traitement [de l'information], il faut la donnée, il faut la bâtir ». « Au départ, il y a un événement, quand on recherche l’illustration, on cherche une donnée précise pour illustrer le fait. »

L	Ma	Me	J	V	S	D
« mar
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Projet Jourdain

Séminaire n°2 : le parcours de la donnée, de l’informatique à l’information

Laisser un commentaire Annuler la réponse.