Analyse de données et logiciels : quelques pistes de réflexion

Pour citer cet article :

Freund Rebecca, Beauné Aurélie, Khaneboubi Mehdi et Baron Georges-Louis (2012). Analyse de données et logiciels : quelques pistes de réflexion. Adjectif.net [En ligne] http://www.adjectif.net/spip/spip.php?article172

Résumé :

Les logiciels de traitement de données sont nombreux et puissants. Désormais, toute recherche à caractère empirique y a recours. Ils permettent de repérer un ordre dans ce qui semble à l’œil nu un fatras, d’identifier des relations entre variables, des liaisons statistiques, de conduire des tests statistiques. On les utilise en particulier massivement dans le cadre d’approches qualitatives où le matériau travaillé est un texte, une transcription d’entretien par exemple. L’utilisation de ces logiciels demande une certaine compréhension du processus réalisé. Surtout, ils font uniquement partie d’une étape préalable à l’importante question de l’interprétation des résultats.

Mots clés :

International, Logiciels d’analyse, Logiciels libres

Ressources et outils génériques

Face à la prolifération d’outils de traitement des données d’enquête ainsi qu’aux discours promotionnels, il n’est pas très facile de s’y retrouver. Voici un échantillon de références générales.

  • Certains forums peuvent, par exemple, être source d’aiguillages diversifiés.
  • La plateforme Framasoft consacrée aux logiciels libres (qui ne sont pas nécessairement gratuits) organise en fonction d’un classement thématique des outils diversifiés ; il est également possible d’y rechercher des outils spécifiques.
  • La page Wikipedia consacrée aux logiciels de traitement statistique permet d’appréhender succinctement les logiciels disponibles.
  • La plateforme content-analysis.de rassemble également un certain nombre de logiciels pour l’analyse des données, l’ensemble du contenu est en langue anglaise.
  • Le logiciel CMAP correspond à un outil de construction de cartes mentales. Libre et gratuit, ce logiciel peut aussi bien servir la préparation des enquêtes qu’à leurs présentations finales.

On présentera par la suite trois outils d’analyses statistiques qui n’illustrent pas nécessairement toute la variété des outils, mais qui sont puissants et utilisés par diverses communautés de chercheurs. Nous n’aborderons donc pas dans cette contribution plusieurs autres produits qui sont très utilisés dans le monde la recherche, en particulier ALCESTE [1] pour l’analyse de textes (avec sa variante libre IRAMUTEQ [2]), SPHINX [3] et NVIVO [4], très employé aux États-Unis.

Trois exemples de logiciels d’analyses statistiques

Cette présentation constitue une première présentation de logiciels couramment utilisés dans les milieux universitaires. Ces trois logiciels sont disponibles pour Windows, MacOs et Linux. Il est n’est sans doute pas inutile de rappeler ici que, quel que soit le logiciel utilisé, quatre grandes étapes jalonnent le processus d’analyse de données : l’importation des données, leurs toilettages, l’analyse statistique et l’interprétation des résultats.

Un logiciel libre : R

Similaire au langage de programmation S développé dans les laboratoires Bell, R est un langage et un logiciel de traitement statistique qui fait partie des projets GNU (acronyme récursif signifiant : Gnu’s Not Unix) lancés par Richard Stallman en 1984 qui manifestait la possibilité d’échanger des programmes librement et légalement (voir la page Wikipédia dédiée). Du point de vue du traitement statistique, R permet de réaliser toutes les analyses et représentations graphiques imaginables, les fonctions statistiques sont up to date, ouvertes et soumises à un processus de validation par les pairs. Il est intéressant de signaler que les logiciels SAS, Statistica ou SPSS intègrent R dans leurs interfaces.

La prise en main de R n’est pas nécessairement évidente, mais il existe de nombreuses communautés actives permettant de parer aux difficultés rencontrées lors des premières utilisations. On citera :

On trouvera des ressources en anglais notamment sur le site d’aide Stack Overflow, sur la liste de discussion officielle R help, et/ou avec le hashtag #rstats sur twitter.

Dans sa forme minimale, le logiciel R se présente sous la forme d’une console presque nue, mais il existe différentes interfaces graphiques permettant de faciliter les premières manipulations :

  • On recommandera tout particulièrement l’environnement Rstudio qui est multiplateforme,
  • R-commander qui ajoute des menus et une interface graphique au langage (fonctionne aussi indépendamment du système d’exploitation utilisé),
  • On citera aussi le fork Red-R qui permet de concevoir l’analyse statistique comme des flux de données.

Si l’apprentissage de R, proche de celui d’un langage de programmation, a tendance à effrayer les novices, R reste un des logiciels de traitement statistique les plus utilisé grâce à la variété des analyses possible et la simplicité de la manipulation des données.

Deux logiciels propriétaires très répandus

SPSS

Le logiciel SPSS est un des plus populaires pour le traitement des données. Créé en 1968, SPSS est très puissant et dispose d’un très grand nombre de fonctions statistiques. Il est disponible en plusieurs versions avec des fonctions spécialisées. Comme il est très populaire, il y a beaucoup de tutoriels disponibles, dont la plupart sont en anglais. On peut citer, parmi les tutoriels :

Modalisa

La première version de Modalisa, sortie en 1987, avait été baptisée « Sherlock » [5] : l’ambition était de constituer un outil accessible tant aux informaticiens qu’aux néophytes en matière d’informatique ou de statistiques et il a été réédité par Philippe Chappot et Jean-Luc Van Impe.

Il permet de gérer les réponses quantitatives et qualitatives des enquêtes : les données peuvent être inventoriées en fonction de trois catégories couvrant les questions fermées, les questions à choix multiples ou celles ouvertes (réponse unique, réponses multiples, texte). On peut ensuite visualiser les résultats de l’analyse au moyen de courbes et de graphiques diversifiés (histogrammes, camemberts, boîtes à moustache, etc). Le logiciel permet des tris croisés et comporte beaucoup de fonctions qui sont détaillées en ligne sur le site de Modalisa dans la rubrique Logiciel. La rubrique « ressources » de ce même site comporte plusieurs tutoriels non animés.

On mentionnera donc finalement une série de six tutoriels vidéos assez clairs et d’une durée moyenne de cinq minutes, accessibles en ligne sur YouTube, qui présentent une version un peu ancienne mais dont les bases restent assez similaires :

  1. Installation et premiers pas
  2. Les tris croisés, χ² (Khi carré) et insertion des graphiques dans un document texte
  3. Reprise du χ² (Khi carré), recodage/regroupement de variables et différents types de question
  4. Traitement des questions de type « texte », recherche d’occurrences, fréquences, regroupement, dictionnaire
  5. Sous populations et variables spéciales
  6. Indice synthétique, variable score

Modalisa présente l’originalité de mettre à disposition des utilisateurs des fonctions issues des écoles statistiques françaises comme le pourcentage d’écart maximal pour le test de khi deux de contingence, ou l’analyse factorielle des correspondances.

Comme nous l’avons déjà dit, bien d’autres systèmes existent, chacun ayant des fonctionnalités propres et des possibilités spécifiques. On citera par exemple le logiciel libre et gratuit Gretl spécialisé dans le traitement de séries chronologiques. Le plus important, sans doute, est d’utiliser un produit courant dans le laboratoire ou le milieu où on travaille, afin de pouvoir bénéficier de ressources et s’inscrire dans une communauté de pratique. Il convient d’utiliser ces logiciels avec parcimonie et à bon escient, en se concentrant sur les types de traitement que l’on maîtrise suffisamment. L’enjeu est d’être ensuite capable d’interpréter correctement les résultats obtenus.


Accueil | Contact | En résumé | | Statistiques du site | Crédits photo | Visiteurs : 15653 / 1073700

Suivre la vie du site fr  Suivre la vie du site Outils et méthodologies  Suivre la vie du site Outils et techniques de recherches   ?    |    titre sites syndiques OPML   ?

Site réalisé avec SPIP 3.0.20 + AHUNTSIC

Creative Commons License