En tant qu'utilisateur passionné de R, bash, Python, asciidoc, (La) TeX, logiciel open source ou tout autre outil un * x, je ne peux pas fournir de réponse objective. De plus, comme je m'oppose souvent à l'utilisation de MS Excel ou de feuilles de calcul de toute nature (enfin, vous voyez vos données, ou une partie de celles-ci, mais quoi d'autre?), Je ne contribuerais pas positivement au débat. Je ne suis pas le seul, par exemple
- Spreadsheet Addiction , de P. Burns.
- Précision et exactitude de MS Excel , un message sur la liste de diffusion 2004 R
- L. Knusel, Sur l'exactitude des distributions statistiques dans Microsoft Excel 97 , Computational Statistics & Data Analysis, 26: 375–377, 1998. ( pdf )
- BD McCullough et B. Wilson, Sur l'exactitude des procédures statistiques dans Microsoft Excel 2000 et Excel XP , Computational Statistics & Data Analysis , 40: 713–721, 2002.
- M. Altman, J. Gill et MP McDonald, Numerical Issues in Statistical Computing for the Social Scientist , Wiley, 2004. [par exemple, pp. 12-14]
Un de mes collègues a perdu toutes ses macros à cause du manque de rétrocompatibilité, etc. Un autre collègue a tenté d'importer des données génétiques (environ 700 sujets génotypés sur 800 000 marqueurs, 120 Mo), juste pour les "regarder". Excel a échoué, le Bloc-notes a également abandonné ... Je suis en mesure de les "regarder" avec vi et de reformater rapidement les données avec un script sed / awk ou perl. Je pense donc qu'il y a différents niveaux à considérer lors de la discussion sur l'utilité des feuilles de calcul. Soit vous travaillez sur de petits ensembles de données, et vous souhaitez uniquement appliquer des éléments statistiques élémentaires et peut-être que ça va. Ensuite, c'est à vous de faire confiance aux résultats, ou vous pouvez toujours demander le code source, mais il serait peut-être plus simple de faire un test rapide de toutes les procédures en ligne avec le benchmark NIST. Je ne pense pas que cela corresponde à une bonne façon de faire des statistiques simplement parce que ce n'est pas un vrai logiciel statistique (IMHO), bien qu'en tant que mise à jour de la liste susmentionnée, les versions plus récentes de MS Excel semblent avoir démontré des améliorations dans leur précision pour analyses statistiques, voir Keeling et Pavur, Une étude comparative de la fiabilité de neuf progiciels statistiques ( CSDA 2007 51: 3811).
Pourtant, environ un article sur 10 ou 20 (en biomédecine, psychologie, psychiatrie) comprend des graphiques réalisés avec Excel, parfois sans supprimer le fond gris, la ligne noire horizontale ou la légende automatique (Andrew Gelman et Hadley Wickham sont certainement aussi heureux que moi en le voyant). Mais plus généralement, il a tendance à être le "logiciel" le plus utilisé selon un récent sondage sur FlowingData, qui me rappelle un vieux discours de Brian Ripley (qui a co-écrit le package MASS R, et écrit un excellent livre sur la reconnaissance des formes , entre autres):
Ne nous leurrons pas: le logiciel de statistique le plus utilisé est Excel (B. Ripley via Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf
Maintenant, si vous pensez que cela vous fournit un moyen rapide et plus simple d'obtenir vos statistiques, pourquoi pas? Le problème est qu'il y a encore des choses qui ne peuvent pas être faites (ou du moins, c'est plutôt délicat) dans un tel environnement. Je pense au bootstrap, à la permutation, à l'analyse exploratoire multivariée des données, pour n'en nommer que quelques-uns. À moins que vous ne soyez très compétent en VBA (qui n'est ni un script ni un langage de programmation), je suis enclin à penser que même les opérations mineures sur les données sont mieux gérées sous R (ou Matlab ou Python, à condition que vous obteniez le bon outil pour traiter avec par exemple ce que l'on appelle data.frame). Par-dessus tout, je pense qu'Excel ne promeut pas de très bonnes pratiques pour l'analyste de données (mais cela s'applique également à tout "cliquodrome", voir la discussion sur Medstats sur la nécessité de maintenir un enregistrement du traitement des données,Documenter les analyses et les modifications de données ), et j'ai trouvé cet article sur Practical Stats relativement illustratif de certains des pièges d'Excel. Pourtant, cela s'applique à Excel, je ne sais pas comment cela se traduit par GDocs.
Concernant le partage de votre travail, j'ai tendance à penser que Github (ou Gist pour le code source) ou Dropbox (bien que le CLUF puisse décourager certaines personnes) sont de très bonnes options (historique des révisions, gestion des subventions si nécessaire, etc.). Je ne peux pas encourager l'utilisation d'un logiciel qui stocke essentiellement vos données dans un format binaire. Je sais qu'il peut être importé en R, Matlab, Stata, SPSS, mais à mon avis:
- les données doivent être définitivement au format texte, lisible par un autre logiciel statistique;
- l'analyse doit être reproductible, ce qui signifie que vous devez fournir un script complet pour votre analyse et qu'elle doit s'exécuter (nous approchons du cas idéal près d'ici ...) sur un autre système d'exploitation à tout moment;
- votre propre logiciel statistique devrait implémenter des algorithmes reconnus et il devrait y avoir un moyen facile de le mettre à jour pour refléter les meilleures pratiques actuelles en matière de modélisation statistique;
- le système de partage que vous choisissez doit inclure des versions et des fonctionnalités de collaboration.
C'est ça.