"Recherche reproductible" comme analyse reproductible
La recherche reproductible est un terme utilisé dans certains domaines de recherche pour désigner spécifiquement des analyses telles que
- le code transforme les données brutes et les méta-données en données traitées,
- le code exécute des analyses sur les données, et
- Le code intègre des analyses dans un rapport.
Lorsque ces données et codes sont partagés, cela permet à d'autres chercheurs de:
- effectuer des analyses non rapportées par les chercheurs d'origine
- vérifier l'exactitude des analyses effectuées par les chercheurs d'origine
Cet usage est visible dans les discussions sur des technologies telles que Sweave . Par exemple, Friedrich Leisch écrit dans le contexte de Sweave que "le rapport peut être automatiquement mis à jour si les données ou les analyses changent, ce qui permet une recherche véritablement reproductible". La vue des tâches du CRAN sur la recherche reproductible indique également que "l'objectif de la recherche reproductible est de lier des instructions spécifiques à l'analyse de données et à des données expérimentales afin de permettre la reconstitution, la compréhension et la vérification des données scientifiques".
Utilisation plus large du terme "reproductibilité"
La reproductibilité est un objectif fondamental de la science. Ce n'est pas nouveau Les rapports de recherche comprennent des sections sur la méthode et les résultats, qui doivent décrire la manière dont les données ont été générées, traitées et analysées. En règle générale, les détails fournis doivent être suffisants pour permettre à un chercheur suffisamment compétent de prendre les informations fournies et de reproduire l’étude.
La reproductibilité est également étroitement liée aux concepts de réplicabilité et de généralisation.
Ainsi, le terme "recherche reproductible", pris littéralement, appliqué à des technologies telles que Sweave, est impropre, dans la mesure où il suggère une pertinence plus large qu'il ne le couvre. En outre, lorsqu’ils présentent des technologies telles que Sweave à des chercheurs qui n’ont pas utilisé de telles technologies, ces chercheurs sont souvent surpris lorsque j’appelle le processus «recherche reproductible».
Un meilleur terme que "recherche reproductible"
Étant donné que la "recherche reproductible" telle qu'elle est utilisée dans les contextes ressemblant à Sweave ne concerne qu'un aspect de la recherche reproductible, un terme alternatif devrait peut-être être adopté. Les alternatives possibles incluent:
- Analyse reproductible:
- Analyse de données reproductible
- Analyse statistique reproductible
- Reporting reproductible
Tous les termes ci-dessus reflètent plus précisément ce que comportent des analyses analogues à celles de Sweave. L'analyse reproductible est courte et douce. L'ajout de "données" ou de "statistiques" clarifie davantage les choses, mais rend également le terme à la fois plus long et plus étroit. En outre, le terme "statistique" a un sens étroit et un sens large, et certainement dans le sens étroit, une grande partie du traitement de données n'est pas statistique. Ainsi, la portée implicite de l'expression "analyse reproductible" présente des avantages .
Il ne s'agit pas seulement de reproductibilité
L’autre problème supplémentaire lié à l’expression "recherche reproductible" est l’objectif des technologies analogues à Sweave n’est pas simplement la "reproductibilité". Il y a plusieurs objectifs interdépendants:
- Reproductibilité
- Les analyses peuvent-elles être facilement réexécutées pour transformer les données brutes en rapport final avec les mêmes résultats?
- La justesse
- L’analyse des données est-elle conforme aux intentions du chercheur?
- Les intentions du chercheur sont-elles correctes?
- Ouverture
- Transparence, responsabilité
- Est-ce que d'autres personnes peuvent vérifier et vérifier l'exactitude des analyses effectuées?
- Extensibilité, modifiable
- D'autres personnes peuvent-elles modifier, étendre, réutiliser et mash, les données, les analyses ou les deux pour créer de nouveaux travaux de recherche?
Il existe un argument selon lequel une analyse reproductible devrait favoriser des analyses correctes, car il existe une trace écrite des analyses pouvant être vérifiées. De plus, si les données et le code sont partagés, cela crée une responsabilité qui motive les chercheurs à vérifier leurs analyses et permet aux autres chercheurs de noter les corrections.
L'analyse reproductible est également étroitement liée aux concepts de recherche ouverte. Bien entendu, un chercheur peut utiliser des technologies analogues à Sweave pour lui-même. Les principes de recherche ouverts encouragent le partage des données et du code d'analyse pour permettre une réutilisation et une responsabilisation accrues.
Ce n'est pas vraiment une critique de l'utilisation du mot "reproductible". Au contraire, il souligne simplement que l’utilisation de technologies analogues à Sweave est nécessaire mais pas suffisante pour atteindre des objectifs de recherche scientifique ouverts.