Outils et logiciels

Le traitement des données constituent l’une des missions premières des sciences informatiques. De fait, le datajournaliste a bien souvent l’embarras du choix : la plupart des langages de programmation permettent de traiter de larges échantillons de données. A ces outils spécialisés, nécessitant une véritable expertise, s’ajoutent depuis une vingtaine d’années de nombreux outils intermédiaires. Ils couvrent toutes les étapes d’un projet de datajournalisme : recueil des données, traitement, visualisation, publication…

Il est possible de se faire une idée de cette offre technique importante en consultant les jeux de données suivants : les bases de données, les outils de recueil (on parle aussi de scrapping), les outils de traitement et d’analyse, les outils de mise en forme visuelles et les interfaces de publication.

Bases de données

Nom
Création
Licence
Éditeur
Utilisations notables
MySQL1995LibreIBM
PostGreSQL1995LibreCommunauté open source
Oracle1977PropriétaireIBM
SQLite2000LibreCommunauté open source
MariaDB2009LibreCommunauté open source
Firebird2002LibreCommunauté open source

Recueil et Scrapping

Nom
Création
Type de logiciel
Éditeur
Fonction
Utilisations notables
R1993Code spécifiqueCommunauté open sourceTout type d’extraction
Python1991Code spécifiqueCommunauté open sourceTout type d’extraction
Ruby1995Code spécifiqueCommunauté open sourceTout type d’extraction
Scraper Wiki2009Application Web (à partir de Python)ScraperWikiTout type d’extraction
Readability2010Application FirefoxReadabilityAmélioration de la consultation des pages
Dowthemall2004Application FirefoxFederico Parodi & Stefano VernaExtraction d’image ou de liens
Scrapy2009Bibliothèque Python? (sous Licence propriétaire)Extraction web.
Nokogiri2008Bibliothèque RubyAaron Patterson & co. (Licence propriétaire)Extraction web.

Traitement et analyse

Nom
Création
Type de logiciel
Licence
Éditeur
Utilisations notables
Fonction
Datawrangler2011Application web?StanfordNettoyage des données
Google Refine2010Application webLibreGoogleNettoyage des données
Google Fusion Tables2009Application web?GoogleNettoyage de petits jeux de données
Impure2010Application web?BestarioRecueil, traitement et visualisation
Tableau Public?Application webLibreTableau SoftwareLa NacionRecueil, traitement et visualisation
Excel1985Application bureauPropriétaireMicrosoftTout-le-monde…Traitement simple
R1993Code spécifiqueLibreCommunauté open sourcePro PublicaTout type de traitement
Ruby1995Code spécifiqueLibreCommunauté open sourceGregor Aisch, Chicago TribuneTout type de traitement
Python1991Code spécifiqueLibreCommunauté open sourceGregor AischTout type de traitement
SPSS1968Code spécifiquePropriétaireIBMProPublica, Seattle TimesTout type de traitement
Num.Py1995Bibliothèque PythonLibreCommunauté open sourceChicago TribuneTout type de traitement
NitroPDF2005Application bureauPropriétaireNitroLa NacionConversion des PDF
Panda2008Bibliothèque PythonLibreCommunauté open sourceTout type de traitement

Visualisations

Nom
Création
Type de logiciel
Éditeur
Type de visualisation
Utilisation
VIDI?Application webJefferson InstituteGraphiques
Many Eyes2007Application webIBMGraphiques
Infovis2008Bibliothèque javascriptCommunauté open sourceGraphiques animés
Gephi2008Application bureauCommunauté open sourceRéseaux sociaux
R1993Code spécifiqueCommunauté open sourceGraphiques
Highcharts2009Application WebHighcharts solution ASGraphiques animésOWNI
Google Maps2004Application WebGoogleCartographieOWNI, AFP, Rue89…
Kartograph2011Framework Python et JavascriptGregor AischCartographieJournalism++

Publication

Nom
Création
Type de logiciel
Éditeur
Utilisation
Google Spreadsheets2006Application webGoogleTout-le-monde…
Exhibit2006Bibliothèque javascriptMIT
Django2005Framework (Python)Adrian HolovatyPro Publica
Ruby on rails2004Framework (Ruby)David H. HanssonPro Publica
Junar2009FrameworkJunarLa Nacion