Excel comme un atelier de statistiques


52

Il semble que beaucoup de personnes (y compris moi-même) aiment effectuer une analyse exploratoire de données dans Excel. Certaines limitations, telles que le nombre de lignes autorisées dans une feuille de calcul, sont pénibles, mais dans la plupart des cas, il n’est pas impossible d’utiliser Excel pour jouer avec les données.

Un article de McCullough et Heiser , cependant, crie pratiquement que vous obtiendrez des résultats erronés - et brûlera probablement aussi en enfer - si vous essayez d’utiliser Excel.

Ce document est-il correct ou est-il biaisé? Les auteurs sonnent comme s'ils détestaient Microsoft.


5
Une analyse récente de l'exactitude des tableurs pour les calculs statistiques figure dans [Kellie B. Keeling et Robert J. Pavur (2011): Précision statistique des logiciels de tableurs, The American Statistician, 65: 4, 265-273] (téléchargement gratuit disponible actuellement). à l' adresse amstat.tandfonline.com/doi/pdf/10.1198/tas.2011.09076 ). Les résultats sont mitigés et peut-être un peu surprenant. Il convient de noter l’énorme amélioration des calculs de répartition entre Excel 2007 et Excel 2010 (qui semble être plus précise que RSAS ou).
whuber

Réponses:


45

Utilisez le bon outil pour le bon travail et exploitez les atouts des outils que vous connaissez.

Dans le cas d'Excel, il existe quelques problèmes importants:

  • N'utilisez pas de feuille de calcul pour gérer les données, même si celles-ci vont en tenir un. Vous ne faites que demander des problèmes, des problèmes terribles. Il n’existe pratiquement aucune protection contre les erreurs typographiques, le mélange en bloc de données, le tronquage des valeurs de données, etc., etc.

  • Bon nombre des fonctions statistiques sont en effet brisées. La distribution est l'un d'entre eux.

  • Les graphiques par défaut sont affreux.

  • Il manque quelques graphiques statistiques fondamentaux, en particulier les boîtes à moustaches et les histogrammes.

  • Le générateur de nombres aléatoires est une blague (mais malgré cela reste efficace à des fins éducatives).

  • Évitez les fonctions de haut niveau et la plupart des compléments; ils sont c ** p. Mais ceci n’est qu’un principe général de la sécurité informatique: si vous n'êtes pas sûr de la fonction d’une fonction, ne l’utilisez pas. Tenez-vous en aux bas niveaux (qui incluent les fonctions arithmétiques, le classement, les fonctions exp, ln, trig et, dans les limites, les fonctions de distribution normales). N'utilisez jamais un complément produisant un graphique: cela va être terrible. (NB: il est très facile de créer vos propres diagrammes de probabilité à partir de rien. Ils seront corrects et hautement personnalisables.)

En sa faveur, cependant, sont les suivants:

  • Ses calculs numériques de base sont aussi précis que peuvent l'être les flotteurs à double précision. Ils incluent des éléments utiles, tels que log gamma.

  • Il est assez facile de placer un contrôle autour des zones de saisie dans une feuille de calcul, ce qui permet de créer facilement des simulations dynamiques.

  • Si vous avez besoin de partager un calcul avec des utilisateurs non statistiques, la plupart d'entre eux se sentiront à l'aise avec un tableur et aucun avec un logiciel de statistique, peu importe le prix.

  • Il est facile d’écrire des macros numériques efficaces, notamment le portage de l’ancien code Fortran, qui est assez proche de VBA. De plus, l'exécution de VBA est raisonnablement rapide. (Par exemple, j'ai un code qui calcule avec précision les distributions non centrales à partir de zéro et trois implémentations différentes de Fast Fourier Transforms.)

  • Il prend en charge une simulation efficace et des add-ons Monte-Carlo tels que Crystal Ball et @Risk. (Ils utilisent leurs propres GNA, en passant - j'ai vérifié.)

  • L'interaction directe avec (un petit ensemble) de données est immédiate: c'est mieux que n'importe quel logiciel de statistiques, Mathematica, etc. Utilisé comme une calculatrice géante avec beaucoup de stockage, un tableur prend tout son sens.

  • Une bonne EDA, utilisant des méthodes robustes et résistantes, n’est pas facile, mais une fois que vous l’avez faite une fois, vous pouvez la réinstaller rapidement. Avec Excel, vous pouvez reproduire efficacement tous les calculs (bien que quelques-uns seulement des graphes) dans le livre EDA de Tukey, y compris le polissage médian des tableaux à n voies (bien que ce soit un peu fastidieux).

En réponse directe à la question initiale, ce document comporte un biais: il se concentre sur le matériel sur lequel Excel est le plus faible et qu'un statisticien compétent est le moins susceptible d’utiliser. Ce n'est cependant pas une critique du journal, car de tels avertissements doivent être diffusés.


7
@whuber Un bon aperçu des avantages et des inconvénients!
chl

4
+1 sympa et équilibré. J'aime particulièrement le point sur "l'immédiateté d'interagir directement" qui, selon moi, est le principal argument de vente d'Excel (ou du tableur). Programmation déclarative pour les masses - ce qui explique pourquoi certaines personnes pensent que 80% de la logique économique mondiale est écrite en Excel (il convient de le signaler aux programmeurs et aux statisticiens qui se disputent R / SAS ou Java / C ++, etc.).
ars

2
J'ai entendu dire que Microsoft avait engagé des analystes numériques il y a plusieurs années pour réparer les fonctions défectueuses d'Excel. Savez-vous si les problèmes avec Excel existent toujours dans les versions 2007 ou 2010?
John D. Cook

2
@Zach Par exemple, avec Excel 2002, calculez =TINV(2*p,df)des valeurs de p variant de 0,01 à presque 0 et comparez-les aux valeurs correctes. (J'ai vérifié avec df allant de 2 à 32.) Les erreurs commencent par le sixième chiffre significatif, puis explosent une fois que p est environ 1.E-5 ou moins. Même si ces valeurs de p sont faibles, ce sont des valeurs réalistes à tester, car elles sont cruciales pour les tests de comparaisons multiples et pour le calcul des valeurs liées à la distribution t, telles que le t non central.
whuber

2
Je pense que votre premier point doit avoir des étoiles et des flèches l'appelant. Les feuilles de calcul ne fournissent aucune piste d'audit, ce qui est essentiel si vous avez l'intention de faire un travail sur lequel quelqu'un s'appuie réellement. R, en revanche, ne fournit pas directement de piste d'audit, mais puisqu'il accepte des commandes et que vous pouvez enregistrer les commandes pour importer, pré-traiter, traiter, représenter graphiquement, etc., dans un fichier séparé, vous pouvez avoir une trace de ce que vous avez fait. Obtenez le graphique n ° 1 et vous pourrez le recréer à partir de zéro, juste au cas où vous auriez une raison de le remettre en question.
Wayne

18

Un article intéressant sur l'utilisation d'Excel dans un contexte bioinformatique est le suivant:

Identificateurs erronés: des erreurs de nom de gène peuvent être introduites par inadvertance lors de l'utilisation d'Excel en bioinformatique, BMC Bioinformatics, 2004 ( lien ).

Ce court document décrit le problème des conversions de types automatiques dans Excel (notamment les conversions par date et virgule flottante). Par exemple, le nom de gène Sept2 est converti en 2-Sept. Vous pouvez réellement trouver cette erreur dans les bases de données en ligne .

Utiliser Excel pour gérer des quantités de données moyennes à importantes est dangereux. Les erreurs peuvent facilement se glisser sans que l'utilisateur s'en aperçoive.


6
C'est de loin l'aspect d'Excel qui m'énerve le plus. Le stockage de données nécessite des types de données explicites, pas de formatage.
Matt Parker

3
En fait, c’est quelque chose qui me contrarie dans les logiciels MS en général: cela change votre contribution en ce qu’elle pense réellement vouloir dire, et vous ne le voyez généralement même pas.
Carlos Accioly

@csgillespie (+1) C'est bon d'entendre parler d'Excel sous cet angle!
chl

6
Mon erreur préférée s'est produite lorsque Excel avait l'habitude de tronquer discrètement des champs lors de l'exportation vers d'autres formats. Dans un fichier de concentrations de pesticides dans le sol, il a converti une valeur de 1 000 050 (extrêmement toxique) en 50 (presque sans conséquence) en coupant le premier chiffre!
whuber

@ Matt est seulement irritant si vous "stockez" des données dans Excel. C'est une fonctionnalité intéressante lorsque vous utilisez Excel uniquement comme interface frontale pour la création de rapports et la création de graphiques.
Type anonyme

11

Eh bien, la question de savoir si le document est correct ou partial doit être simple: vous pouvez simplement reproduire certaines de leurs analyses et voir si vous obtenez les mêmes réponses.

McCullough prend différentes versions de MS Excel à part depuis quelques années maintenant, et apparemment, MS n'a pas jugé bon de corriger les erreurs qu'il avait signalées il y a des années dans les versions précédentes.

Je ne vois pas de problème à jouer avec les données dans Excel. Mais pour être honnête, je ne ferais pas mes analyses "sérieuses" dans Excel. Mon principal problème ne serait pas des inexactitudes (ce qui, je suppose, ne sera que très rarement un problème), mais l'impossibilité de suivre et de reproduire mes analyses un an plus tard lorsqu'un critique ou mon patron me demande pourquoi je ne l'ai pas fait. X - vous pouvez sauvegarder votre travailler et vos impasses en code R commenté, mais pas de manière significative dans Excel.


2
(+1) Vous faites écho à la discussion sur Medstats sur la nécessité de conserver un enregistrement des données modifiées et analysées ( j.mp/dAyGGY )! Merci.
chl

Enregistrer votre "travail et vos impasses" n'est pas plus difficile avec Excel qu'avec R. C'est juste une question de le faire réellement. Le principal problème avec Excel est lié à sa force: il est trop facile de changer quelque chose par inadvertance. Mais pour EDA - le centre d'intérêt du PO - nous sauvegardons rarement, voire jamais, tout ce que nous faisons. Après tout, l’EDA est supposée être interactive.
whuber

1
il est possible de conserver un enregistrement reproductible de vos méthodes si vous le faites en VB, mais le focus de l'interface graphique d'Excel n'encourage pas ce comportement.
James

7

Incidemment, une question sur l'utilisation des feuilles de calcul Google a suscité des opinions contrastées (et donc intéressantes) à ce sujet. Certains d'entre vous utilisent-ils le tableur Google Docs pour effectuer leur travail statistique et le partager avec d'autres?

Je pense à un article plus ancien qui ne semblait pas si pessimiste, mais il n’est cité que marginalement dans l’article que vous avez mentionné: Keeling et Pavur, Une étude comparative de la fiabilité de neuf logiciels de statistique (CSDA 2007 51: 3811). Mais maintenant, j'ai trouvé le vôtre sur mon disque dur. Un numéro spécial a également été publié en 2008 (voir la section Spéciale sur Microsoft Excel 2007 et, plus récemment, dans le Journal of Statistical Software: Sur la précision numérique des feuilles de calcul .

Je pense qu’il s’agit d’un débat de longue date et que vous trouverez divers articles / opinions sur la fiabilité d’Excel pour l’informatique statistique. Je pense qu'il y a différents niveaux de discussion (quel type d'analyse envisagez-vous de faire, comptez-vous sur le résolveur interne, existe-t-il des termes non linéaires entrant dans un modèle donné, etc.) et des sources d'inexactitude numérique pourraient surgir en raison d' erreurs de calcul appropriées ou de problèmes de choix de conception ; ceci est bien résumé dans

M. Altman, J. Gill et MP McDonald, Problèmes numériques en calcul statistique à l’intention des spécialistes des sciences sociales , Wiley, 2004.

Maintenant, pour l'analyse exploratoire des données, il existe diverses alternatives offrant des capacités de visualisation améliorées, des graphiques multivariés et dynamiques, par exemple GGobi - mais voir les discussions associées sur ce wiki.

Toutefois, le premier point que vous avez soulevé concerne clairement un autre problème (OMI), à savoir l’utilisation d’un tableur pour traiter un grand ensemble de données: il est tout simplement impossible d’importer un fichier csv volumineux dans Excel (je pense aux données génomiques, par exemple). mais cela s’applique à d’autres types de données de grande dimension). Il n'a pas été construit à cet effet.


J'aime la nuance de "différents niveaux de discussion".
whuber

7

Les documents et les autres participants soulignent les faiblesses techniques. Whuber fait un bon travail en décrivant au moins une partie de ses points forts. Personnellement, je fais un travail statistique approfondi dans Excel (tests d’hypothèses, régressions linéaires et multiples) et je l’adore. J'utilise Excel 2003 avec une capacité de 256 colonnes et 65 000 lignes pouvant gérer à peu près 100% des ensembles de données que j'utilise. Je crois comprendre qu'Excel 2007 a considérablement augmenté cette capacité (rangées sur des millions).

Comme Whuber le mentionne, Excel sert également de plate-forme de départ pour une multitude de logiciels add-in remarquables, tous puissants et faciles à utiliser. Je pense à Crystal Ball et à @Risk pour la simulation de Monte Carlo; XLStat pour de puissantes statistiques et analyses de données; Quel est le meilleur pour l'optimisation. Et la liste continue. C'est comme si Excel était l'équivalent d'un IPod ou d'un IPad avec un zillion d'applications assez incroyables. Accordé les applications Excel ne sont pas bon marché. Mais, pour ce qu'ils sont capables de faire, ce sont généralement de très bonnes aubaines.

En ce qui concerne la documentation du modèle, il est si facile d’insérer une zone de texte dans laquelle vous pouvez littéralement écrire un livre sur votre méthodologie, vos sources, etc. Vous pouvez également insérer des commentaires dans n’importe quelle cellule. Donc, si quelque chose, Excel est vraiment bon pour faciliter la documentation incorporée.


1
Merci pour les points supplémentaires et pour partager votre point de vue.
whuber

Il est bon d’entendre quelqu'un l’utiliser de la bonne façon et en tirer profit.
Type anonyme

6

Excel n'est pas bon pour les statistiques, mais il peut être merveilleux pour l'analyse de données exploratoire. Regardez cette vidéo pour des techniques particulièrement intéressantes. La capacité d'Excel à colorier vos données de manière conditionnelle et à ajouter des graphiques à barres dans une cellule peut donner un bon aperçu de la structure de vos données brutes.


6

Une autre bonne source de référence expliquant pourquoi vous ne souhaitez peut-être pas utiliser Excel est la suivante:

Dépendance au tableur

Si vous vous trouvez dans une situation où vous avez vraiment besoin d'utiliser Excel (certains départements académiques insistent), je suggérerais alors d'utiliser le plugin Rexcel . Cela vous permet d'interfacer avec Excel, mais utilise le programme R comme moteur de calcul. Vous n'avez pas besoin de connaître R pour l'utiliser, vous pouvez utiliser les menus déroulants et les boîtes de dialogue, mais vous pouvez en faire beaucoup plus si vous le faites. Étant donné que R effectue les calculs, il est beaucoup plus fiable qu'Excel et vous avez de meilleurs graphiques, diagrammes à boîte et autres graphiques manquants dans Excel. Cela fonctionne même avec la mise à jour automatique des cellules dans Excel (bien que cela puisse ralentir les choses si vous avez de nombreuses analyses complexes à recalculer à chaque fois). Il ne résout pas tous les problèmes de la page de dépendance du tableur, mais représente une amélioration considérable par rapport à l'utilisation de straight excel.


1

Excel peut être très utile pour l’analyse exploratoire de données et l’analyse de régression linéaire avec les bons plugins. Il existe un certain nombre de produits commerciaux, bien que la plupart d'entre eux laissent à désirer en termes de qualité des résultats qu'ils produisent (ils ne tirent pas pleinement parti des options de création de graphiques d'Excel ou de la possibilité de les relier à d'autres applications Office) et En général, ils ne sont pas aussi bons qu'ils pourraient l'être pour la visualisation et la présentation des données. Ils ont également tendance à ne pas soutenir une approche de modélisation disciplinée dans laquelle (entre autres choses) vous gardez une piste d'audit bien documentée pour votre travail. Voici un plugin GRATUIT, "RegressIt", qui répond à beaucoup de ces problèmes: http://regressit.com. Il fournit un très bon support pour l’analyse exploratoire (y compris la possibilité de générer des tracés de séries chronologiques parallèles et des matrices de diagramme de dispersion comportant jusqu’à 50 variables), il est facile d’appliquer des transformations de données telles que le décalage, la journalisation et la différenciation (qui ne sont souvent pas appliquées). par les utilisateurs naïfs de la régression), il fournit un tableau très détaillé et une sortie graphique qui prend en charge les meilleures pratiques en matière d’analyse de données, et il maintient une feuille de travail de piste de vérification qui facilite les comparaisons de modèles côte à côte, tout en conservant une trace des modèles. ont été installés dans quel ordre. Cela complète bien ce que vous utilisez, si vous utilisez des données multivariées et qu'au moins une partie de votre travail est effectuée dans un environnement Excel.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.