Compléter des exemples concrets de recherches reproductibles utilisant R


71

La question: Existe-t-il de bons exemples de recherche reproductible utilisant R qui sont disponibles gratuitement en ligne?

Exemple idéal: Plus précisément, des exemples idéaux fourniraient:

  • Les données brutes (et idéalement les métadonnées expliquant les données),
  • Tout le code R, y compris l’importation, le traitement, les analyses et la production de données,
  • Utiliser une approche ou une autre pour relier le résultat final au document final,
  • Le tout dans un format facilement téléchargeable et compilable sur l’ordinateur du lecteur.

Idéalement, l'exemple serait un article de journal ou une thèse où l'accent est mis sur un sujet réellement appliqué, par opposition à un exemple d'enseignement statistique.

Motifs d’intérêt: Je suis particulièrement intéressé par les sujets appliqués dans les articles de revues et les thèses car, dans ces situations, plusieurs problèmes supplémentaires se posent:

  • Des problèmes se posent concernant le nettoyage et le traitement des données,
  • Des problèmes se posent liés à la gestion des métadonnées,
  • Les revues et thèses ont souvent des attentes en matière de style pour l’apparence et la mise en forme des tableaux et des figures,
  • De nombreuses revues et thèses présentent souvent un large éventail d’analyses qui soulèvent des problèmes en termes de flux de travail (par exemple, comment séquencer des analyses) et de temps de traitement (par exemple, des problèmes d’analyses en mémoire cache, etc.).

Le fait de voir des exemples de travail complets pourrait fournir un bon matériel d’instruction aux chercheurs débutant par une recherche reproductible.

Réponses:


14

Frank Harrell bat des tambours sur des recherches et des rapports reproductibles depuis de très nombreuses années. Vous pouvez commencer par cette page wiki qui répertorie de nombreuses autres ressources, y compris des recherches publiées, et couvre également la page de Charles Geyer.


11

La revue Biostatistics a un éditeur associé pour Reproductibility, et tous ses articles sont marqués:

Recherche reproductible

Notre politique de recherche reproductible est que les articles de la revue portent la mention kite D si les données sur lesquelles ils sont basés sont librement disponibles, C si le code de l'auteur est librement disponible, et R si les données et le code sont disponibles, et notre Associate Editor for Reproducibility peut les utiliser pour reproduire les résultats dans le document. Les données et les codes sont publiés électroniquement sur le site Web de la revue en tant que matériel supplémentaire.

http://biostatistics.oxfordjournals.org/

Quelle bonne idée est-ce?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract est livré avec un paquet R dans les compléments qui fait l'analyse - je ne l'ai pas encore essayé moi-même. En outre, vous ne pouvez pas savoir où la cote d'ouverture est spécifiée. J'envoie un courriel au rédacteur en chef avec quelques questions ...

[modifier]

Roger Peng, rédacteur en chef adjoint, me dit qu'il n'y a probablement aucun moyen de trouver les documents reproductibles sans obtenir le fichier PDF. Il m'a pointé vers celui-ci qui a un joli grand 'R' (ce qui ne signifie pas R-rated comme des films) pour la reproductibilité:

http://biostatistics.oxfordjournals.org/content/10/3/409.abstract

Bien sûr, le journal lui-même n'est pas gratuit ... # échec

Barry


1
c’est formidable de voir un journal privilégiant la reproductibilité. Avez-vous vu de bons exemples d'articles marqués R?
Jeromy Anglim

1
Ils ne donnent pas la priorité à la publication, je pense qu'ils veulent juste la mettre en évidence. Je vais modifier ma réponse avec un exemple.
Spacedman


10

J'ai quelques exemples de ce type sur ma page de documents de recherche . (Je ne suis pas autorisé à poster plus d'un hyperlien en tant que nouveau membre. Je vais donc simplement décrire les articles sur ce site.)

(1) "Rendre manifeste les effets dans des expériences aléatoires" utilise le système de vignettes de R.

(2) "Attribuer les effets à une campagne en grappes randomisées" était un document plus complexe qui impliquait des simulations fastidieuses. Nous avons utilisé un système Makefile et l’avons posté dans le fichier de données.

(3) "EDA for HLM" a été ma première tentative. Ici, je viens de mettre les données et les fichiers Sweave associés dans une archive.

Un problème que nous avons découvert lors de la création de notre archive JASA était que les versions et les valeurs par défaut des packages CRAN avaient été modifiées. Ainsi, dans cette archive, nous incluons également les versions des packages que nous avons utilisés. Le système basé sur la vignette va probablement casser à mesure que les gens changeront leurs paquets (vous ne savez pas comment inclure des paquets supplémentaires dans le paquet qui est le Compendium).

Enfin, je me demande ce qu’il faut faire lorsque R change lui-même. Existe-t-il un moyen de produire, par exemple, une machine virtuelle qui reproduit l’environnement informatique complet utilisé pour un papier de telle sorte que la machine virtuelle ne soit pas énorme?

Quoi qu'il en soit, j'espère que ces exemples aideront. Au moins, ils montrent certaines de mes propres expériences dans ce domaine.

(Voici quelques hyperliens en texte brut.)

  [2]: http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3]: http://hdl.handle.net/1902.1/12174
  [4]: http://hdl.handle.net/1902.1/13376

Vous soulevez des questions intéressantes. J'ai posté une question distincte en vous citant: stats.stackexchange.com/questions/4466/…
Jeromy Anglim

9

Koenker et Zeileis fournissent une page Web avec un exemple relativement complet. Ils partagent:

  • Rnw (code Sweave)
  • Code d'analyse R
  • PDF final
  • Discussion sur les problèmes de contrôle de version

8

Nous avons écrit un article expliquant comment utiliser R / Bioconductor lors de l'analyse de données de puces à ADN. Le papier a été écrit en Sweave et tout le code utilisé pour générer les graphiques est inclus en tant que matériel supplémentaire.

Gillespie, CS, G. Lei, Boys, RJ, AJ Greenall, DJ Wilkinson, 2010. Analyse des données de microréseaux dans le temps d'une levure à l'aide de BioConductor: une étude de cas utilisant des matrices Affymetrix BMC Research Notes, 3:81.


7

La page de Charles Geyer sur Sweave présente un exemple tiré d'une thèse qui répond à certaines de vos exigences (les données brutes proviennent simplement d'un package R, mais le code R / sweat et le PDF final sont disponibles):

Un article sur la théorie dans la thèse de Yun Ju Sung, L'inférence de vraisemblance de Monte Carlo pour les modèles de données manquants (préimpression), contenait des exemples informatiques. Chaque numéro dans le papier et chaque tracé ont été pris (par un copier-coller, je dois l’avouer) dans un document de "matériel supplémentaire" rédigé à Sweave.

(Le fichier source est lié dans la section "Supports supplémentaires pour un papier".)

Je sais que j'ai déjà rencontré au moins un exemple R en parcourant la page de matériel ReproducibleResearch.net auparavant, mais je ne l'ai malheureusement pas marqué.


5

Simon Jackman a un exemple particulièrement utile d'analyse des résultats d'un sondage: "Américains et Australiens 10 ans après le 11 septembre". Il contient de nombreux exemples d’intégration de tableaux et de figures.

Il a réalisé le document Sweave et le rapport PDF via ce blog .

Bien que les données brutes ne soient pas fournies (pour autant que je sache), il n’est donc pas possible d’exécuter les exemples réels de Sweave, mais je pense qu’on peut en apprendre beaucoup en étudiant le code Sweave.


5

Neil Saunders a analysé les interactions en ligne associées à une conférence. Plusieurs propriétés qui en font un exemple utile de Sweave incluent:

  • Le fichier Rnw est fourni
  • Les graphiques sont générés en utilisant ggplot
  • Bonne taille et domaine facilement compréhensible

Les matériaux sont disponibles ici:


4

Regardez aussi Journal Of Statistical Software ; ils encouragent la fabrication de papiers dans Sweave.


Non, pas officiellement - la soumission de LaTeX est encourageante, mais si vous regardez la page d’instructions, elle ne contient pas le mot Sweave. Les auteurs l'utilisent et / ou envoient le code R avec le papier, mais pour moi, cela fait écho à la remarque de Shane sur les vignettes de paquets.
Dirk Eddelbuettel

Ok, la plupart des utilisateurs l'utilisent (le style du journal inclut également Swave.sty); Le principal problème est qu’il n’ya pas de publication de Rnws, mais les articles de Sweave sont toujours accompagnés d’une sortie Stangle.

4

J'en ai trouvé de bons par le passé et je les posterai dès que je les déterrerai, mais quelques suggestions générales rapides:

  1. Vous pourrez peut-être trouver des exemples intéressants en cherchant sur Google avec les mots-clés et ext: rnw (qui recherchera les fichiers avec l'extension sweave). Voici un exemple de recherche . Voici le troisième résultat de ma recherche: http://www.ne.su.se/paper/araietal_source.Rnw . Voici un autre exemple tiré de ma recherche: http://www.stat.umn.edu/geyer/gdor/ .
  2. Beaucoup de paquets R ont des vignettes intéressantes qui représentent essentiellement la même chose. Un exemple: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw

4

Robert Gentleman a écrit un article intitulé "Recherche reproductible: une étude de cas en bioinformatique"

Il implémente un ensemble d'analyses en tant que package R et utilise Sweave. Il aborde également l'utilisation de Sweave de manière plus générale.

Consultez la section "Fichiers associés" de la page d'article pour un fichier archive de tous les fichiers et dossiers utilisés.

Référence:

  • Gentleman, Robert (2005) "Recherche reproductible: une étude de cas en bioinformatique", Applications statistiques en génétique et biologie moléculaire: Vol. 4: Iss. 1, article 2.
  • DOI: 10.2202 / 1544-6115.1034
  • Disponible à l' adresse : http://www.bepress.com/sagmb/vol4/iss1/art2

4

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

Un beau papier, rédigé par un de mes collègues de laboratoire. Notre PI était très heureux quand quelque chose qui ressemblait à un courrier de fans est arrivé pour cela. Désormais, toutes les publications du groupe ont les méthodes supplémentaires décrites dans LaTeX / Sweave. Certains papiers aussi (ne pouvant pas décider de garder le mien dans LyX / Sweave ou de se coucher et de faire les suppléments dans Sweave).


3

Rechercher des exemples et des pratiques est un bon moyen d’apprendre, mais je voulais juste mentionner que la reproductibilité présente un aspect non seulement technique / script relancé, mais également un style de code et un aspect structurant, la minimisation des effets secondaires dans les fonctions principales, etc. Le logiciel Chambers Book pour l'analyse des données permet de comprendre plus en profondeur les techniques permettant d'éviter les problèmes de fiabilité et de reproductibilité au niveau du code R.


2

Si vous avez encore besoin d’un excellent exemple d’analyse entièrement REPRODUCTIBLE et d’un PAPIER, utilisez ce dépôt .

@Jscamac a fait un excellent travail en rendant son analyse reproductible et je l'ai personnellement validée.

Vous pouvez apprendre à utiliser des fonctions spécifiques à R, telles que le package, remakepour en assurer la reproductibilité.

Attention, les calculs prennent environ une heure.

Son tout écrit et produit un papier LaTeX à la fin avec des chiffres.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.