Accueil

Mise en forme et contrôle qualité de données, l’informatique au service de l’écologie

Florèn HUGON, Xavier NAVARRO, Matt RODRIGUEZ, Gabriel DAS NEVES, Matthieu BERRONEAU & Frank D’AMICO

fr Naturae 2022 (2) - Pages 17-30

Publié le 26 janvier 2022

Dans de nombreuses disciplines scientifiques, des études expérimentales ou des suivis sur le terrain assurent la récolte de données. Celles-ci sont stockées sur des fichiers bruts avec un format intuitif, permettant une saisie facile par l’expérimentateur. Cependant, ce format brut est rarement directement compatible avec l’analyse des données récoltées et peut engendrer des analyses erronées ; il est nécessaire d’effectuer une mise en forme et un contrôle qualité des données. Face au nombre de jeux de données brutes croissants et toujours plus massifs, la discipline du numérique pour les sciences du vivant s’est développée. La programmation informatique représente une aide précieuse pour les modélisateurs puisqu’elle permet d’automatiser la mise en forme et le contrôle qualité qui nécessitent souvent un nettoyage des données. Dans cet article, nous présentons une collaboration entre informaticien et modélisateur dans le cadre du suivi de l’abondance d’espèces animales. Les données récoltées sur plusieurs feuilles d’un tableur sont regroupées sur une seule et leur qualité est vérifiée. Les diverses fonctionnalités du programme effectuant cette vérification ont été mises en place à l’aide de la méthode « agile », méthode de développement informatique constituée de sprints. Après la fourniture d’une version du programme, un nouveau sprint définit une nouvelle fonctionnalité à mettre en place par l’informaticien dans une nouvelle version du programme. La première version permet l’appropriation du jeu de données par l’informaticien grâce à la fonctionnalité de mise en forme. Une version plus avancée gère l’absence de données, puis d’autres contrôlent la qualité des données récoltées et rapportent le traitement des anomalies détectées – donnée absente ou erronée ou en dehors d’une plage spécifiée – dans un fichier texte. Ce programme informatique a été explicité afin qu’il puisse être ré-approprié et ré-utilisé. Sa version complète est déposée dans GitHub. Le lien est donné en conclusion.
 

Mots-clés :
Abondance, gestion de données, méthode « agile », nettoyage des données, programmation informatique.
Télécharger l'article complet au format PDF Commander une version imprimée