Quel livre est recommandé pour commencer à apprendre les statistiques en utilisant R en même temps?


50

Livres pour apprendre les statistiques en utilisant R

Quel est exactement le livre que je cherche.

Ce que je recherche, c’est un livre qui vous apprendra des statistiques tout en utilisant R pour vous donner une expérience pratique et vous aider ainsi à apprendre R ensemble. J'ai vu sur amazon de nombreux livres qui tentent de le faire, mais pas avec R. Les exemples sont Minitab et SAS.

Le livre R et l'informatique statistique sont-ils une option? - Toujours pas répondu .

Le livre R et l’informatique statistique: une introduction à l’analyse de données à l’aide de S-Plus semble viable, mais l’avis du lecteur serait utile et serait le bienvenu.

Quel est le lien entre le livre et les cours de statistiques?

Pour être encore plus précis sur ce que je cherchais, considérons ces deux cours sur les résultats d'apprentissage des statistiques d'un département de mathématiques de l'université. Je suis actuellement étudiant:

Statistiques intermédiaires et Probabilités & statistiques , c’est-à-dire que je cherche dans un livre un cours de statistiques normal allant au niveau intermédiaire, mais plutôt qu’un simple tableau contenant des informations vous permettant d’apprendre et d’utiliser R au lieu de cela. Cela signifie également que je recherche un livre qui suppose que je souhaite apprendre les statistiques depuis le début.

Ce livre est également destiné aux chercheurs.

Je suis également ingénieur en informatique, mais je suppose que la situation actuelle est caractérisée par une profusion de données et que l’on veut apprendre les statistiques pour pouvoir écrire du code pour l’automatisation qui s’applique à peu près à de nombreux autres domaines.

Cela signifie que je ne suis pas intéressé à apprendre chaque détail de chaque propriété pour chaque courbe, mais je suis plus soucieux de donner un sens aux données de mon domaine de recherche, bien que cela ne me dérangerait pas si le livre voulait approfondir ce sujet. .

En guise de motivation finale, je me trouve à lire des articles scientifiques dans différents types de communautés qui revendiquent des résultats basés sur l'inférence statistique alors qu'il n'existe aucune preuve lisible si les hypothèses / contraintes statistiques sont violées ou non.

Un livre qui ne traite pas beaucoup de statistiques sur les statistiques ne garantira pas que je ne vais pas suivre cette pratique, et c’est aussi pourquoi j’ai décidé de chercher un livre qui s'apparente à un cours de statistique utilisant R plutôt que de jouer avec un livre de synthèse.

Questions connexes dans Cross Validated.

Réponses et commentaires pour cette question.

@ Julie

Les livres suggérés sont rares, mais je suis un exemple qui malheureusement ne me convient pas:

Statistiques d'introduction avec R , Utilisation de R pour statistiques d'introduction , Statistiques: Une introduction à l'aide de R sont quelques-uns des ouvrages que j'ai déjà consultés sur amazon, mais qui traitent d'un aperçu statistique ou qui reposent sur des hypothèses nécessitant une connaissance préalable des statistiques. Le problème avec les livres de synthèse est principalement de ne pas attirer l'attention sur les hypothèses, les contraintes et de fournir suffisamment d'explications pour donner un sens à l'information.

Si vous pensez qu’il n’ya pas de livre qui conviendrait à cet égard aussi bien ou si vous pensez que le livre R ou l’Informatique statistique: introduction à l’analyse de données à l’aide de S-Plus conviendrait, j’apprécierais également ce type de réponse.

@Christopher Aden

Introduction à la probabilité et aux statistiques L'utilisation de R semble être la méthode la plus proche, mais elle reste très générale par rapport à ce que je cherchais.

Ce à quoi je m'attendais est un livre tel que David S. Moore, Les bases de la statistique, parce que:

  • Il couvre tous les sujets statistiques.
  • Il utilise deux outils, miniTab et autre, pour apprendre concrètement la méthode qui vient d'être expliquée.
  • Il met beaucoup en évidence les hypothèses et les contraintes. Ceci est très important pour un chercheur qui n'a pas suivi de formation approfondie en statistiques et qui souhaite utiliser les statistiques. À peine des ouvrages de synthèse les couvriront, ce qui est dangereux pour les chercheurs.
    • Vous pouvez voir la table des matières du livre ici . Remarquez que l'accent est mis sur les statistiques et que l'utilisation des outils a pour but d'améliorer la compréhension et de permettre à l'étudiant de savoir comment utiliser plus facilement les outils permettant de réaliser les statistiques après l'apprentissage. Ce n'est pas à propos de l'outil, c'est à propos des statistiques!

Je veux exactement la même chose, mais en utilisant R.

@ Gregory Demin

Il utilise R comme exemple pédagogique, suppose que vous souhaitiez apprendre des statistiques et, mieux encore, qu’il soit open source. Malheureusement, ne couvre pas ANOVA ni ANCOVA, ni des sujets plus avancés.

@Peter Ellis

Bonne suggestion pour un manuel qui couvre ce que l'on veut dans cette question.

Livres dans l'opinion du demandeur qui répondent à la question.

@ Peter Ellis et @ Gregory Demin.

Collection de livres R sur Amazon

Une discussion sur Amazon à propos des livres R pour différents élèves peut être trouvée ici .

Conférences vidéo sur l'enseignement des statistiques à l'aide de R

Les Google Tech Talks de 2007 qui ont également motivé cette question et couvrent davantage le Data Mining que les statistiques, mais utilisent R ensemble ici .

Réponses:


15

Je pense qu’une des raisons pour lesquelles il est si difficile de répondre à cette question est que R est si puissant et flexible qu’une véritable introduction à la programmation de R va bien au-delà de ce qui est normalement nécessaire dans une introduction aux statistiques. Les livres qui enseignent les statistiques à l’aide de MiniTab, JMP ou SPSS font des choses relativement simples avec un logiciel qui gratte à peine la surface de ce que R est capable de faire en matière de manipulation de données, de simulations, de fonctions personnalisées, etc.

Cela dit, je pense que La statistique moderne de Wilcox pour les sciences sociales et comportementales: une introduction pratique (2012) est un tout nouveau livre. Il ne suppose aucune connaissance statistique et vous emmène de zéro à une vaste gamme de techniques robustes et modernes; et n'assume pas beaucoup plus de connaissances que la capacité de l'ouvrir et de charger un jeu de données. Il couvre également de nombreuses techniques classiques, y compris l'ANOVA (mentionnée dans le PO).

Je verrais dans ce livre l'équivalent des livres qui introduisent des statistiques et un logiciel de statistiques comme SPSS en même temps. Cependant, cela ne vous apprendra pas à programmer en R, mais seulement à en faire une analyse statistique moderne, en mettant l’accent sur des techniques robustes qui résolvent les problèmes connus de l’analyse classique et qui sont marginalisés par la plupart des autres approches de l’enseignement des statistiques.

Les trois problèmes des méthodes classiques que ce livre aborde particulièrement dès le début sont l’échantillonnage à partir de distributions à queue lourde; asymétrie; et l'hétéroscédasticité.

Wilcox utilise R. parce que "En ce qui concerne les techniques statistiques modernes, R est clairement dominant. Lors de l’analyse de données, il s’agit incontestablement du développement logiciel le plus important du dernier quart de siècle. Et il est gratuit. Bien que les méthodes classiques présentent des défauts fondamentaux , il n’est pas suggéré qu’elles soient complètement abandonnées ... En conséquence, des illustrations sont fournies sur la façon d’appliquer des méthodes standard avec R. Il est particulièrement important de noter ici que, de plus, des illustrations sont fournies sur la manière d’appliquer des méthodes modernes avec plus de 900 R fonctions écrites pour ce livre. "

Ce livre est tellement excellent qu’après avoir acheté une copie pour le travail, j’ai acheté ma propre copie à la maison.

Les titres de chapitre sont:

  1. résumés numériques et graphiques des données;
  2. probabilité et concepts connexes;
  3. distributions d'échantillonnage et intervalles de confiance;
  4. tests d'hypothèses;
  5. régression et corrélation;
  6. méthodes bootstrap;
  7. comparer deux groupes indépendants;
  8. comparer deux groupes dépendants;
  9. ANOVA à un facteur;
  10. conceptions bidirectionnelles et tridirectionnelles;
  11. comparer plus de deux groupes dépendants;
  12. comparaisons multiples;
  13. certaines méthodes multivariées;
  14. régression robuste et mesures d'association;
  15. méthodes de base pour l'analyse des données catégoriques;

Après avoir vérifié l’exemple de David Moore de ce que vous recherchez, je pense vraiment que le livre de Wilcox répond à ce besoin.


1
Merci beaucoup, je suis heureux de recevoir une autre référence également disponible en version imprimable. Je modifierai le post principal plus tard pour inclure votre référence si personne ne le fait à ce moment! Vraiment vraiment apprécié. Juste pour confirmer, vous voulez dire que cela vous apprend à tracer la théorie qui est mentionnée? C'est plus que bien pour moi! Veuillez confirmer.
Oeufcoque Penteano

Je ne suis pas tout à fait sûr de ce que vous entendez par "tracer la théorie" - mais il utilise certainement beaucoup les tracés et dispose du code R pour effectuer toutes les théories qu'il couvre (l'inférence statistique et le tracé). Wilcox fournit également son propre ensemble de fonctions ou de références à d’autres fonctions pour les approches robustes de pointe développées au cours des dernières décennies. Chaque technique est fournie avec des exemples, y compris du code. J'ai modifié la réponse pour inclure les en-têtes de chapitre.
Peter Ellis

Oui, vous avez tout à fait raison! Les morceaux de code qui m'aident à faire toute la théorie sur R seraient les bienvenus et nécessaires dans mes recherches. Merci d'avoir fourni la liste! J'avais aussi besoin d'un livre qui parlerait de bootstrap. Déjà commander ce livre. Éditera le post principal bientôt.
Oeufcoque Penteano

Je suis déjà en train de parcourir ce livre. +500 sur cette suggestion, EXACTEMENT ce que je cherchais: un gros volume plein d’informations sur les statistiques et la fonction appropriée pour l’utiliser sur R (qui est gratuit et open source, yay!). C'est très bon marché pour la taille de ce livre et son caractère unique. Ne vous sentez pas effrayé par les sciences du comportement. Je l'utilise malgré que je sois un étudiant en CS. J'ai trouvé que les livres de statistiques comportementales étaient même plus utiles pour moi que ceux de statistiques pour comprendre ce qui se passait. Je ne dis pas qu'une statistique pure est inutile, vous en avez besoin d'une. J'ai utilisé Paul Meyer (1965).
Oeufcoque Penteano


4

Le post de @ du livre de Julie par Julie est un très bon choix pour quelqu'un qui n'a ni l'expérience de R ni les statistiques. Le département de sciences politiques de UC Davis utilise les chiffres R et les statistiques avec suffisamment de souplesse. Ces étudiants n’ont ni cours de programmation ni mathématiques de niveau supérieur. Son travail est disponible via son package CRAN, simpleR .
Étant donné que vous avez une formation en informatique, je ne pense pas que vous ayez besoin d’une introduction très douce à R. Je suppose que vous avez une bonne connaissance des structures de données, de la portée et de la raison pour laquelle vous avez besoin d’un débogueur. Pour une perspective très centrée sur l'informatique de R (plus que ce que vous pourriez même voir dans une classe de programmation statistique dans un département de statistiques de premier cycle), consultez The Art of R Programming de Norm Matloff.. Pour voir si cela vous intéresse, Matloff a une version préliminaire très brouillon disponible sur son site web . Si vous aimez son style, je vous recommande de récupérer la copie finie. Il est professeur de CS et le livre est plus destiné à un public CS qu’à un public de statistiques.
G. Jay Kerns (une affiche fréquente ici) a aussi un livre disponible en ligne appelé Introduction aux probabilités et statistiques à l' aide R . Personnellement, j’estime qu’il est très utile de présenter le courage de R.
Je réalise que votre question vise à obtenir des réponses destinées à un CS majeur, mais veuillez également consulter ce sujet: quel livre recommanderiez-vous aux scientifiques non statisticiens?


1
Je crois que l’introduction aux probabilités et aux statistiques utilisant R est la plus proche, mais pas celle que je cherche. J'édite la question en une seconde pour donner une référence précise à ce que je recherche, mais utilise malheureusement miniTab à la place de R. La programmation de l'art de la programmation en R semble plus préoccupée par le fait d'apprendre des statistiques (corrigez-moi si je suis faux), et encore le livre précédent me concerne d'être assez rigoureux sur les statistiques pour faire des hypothèses de statistiques de base, ce qui me manque malheureusement. Je vais également résumer les points principaux.
Oeufcoque Penteano

Vous avez raison à propos de TAoRP - il met davantage l’accent sur la programmation que sur l’apprentissage des statistiques. Je suis cependant un peu confus par votre question. À moins que vous ne vouliez commencer à apprendre les statistiques mathématiques, vous devez émettre des hypothèses et les prendre avec foi - au moins brièvement. Vous voulez un livre qui présente des statistiques, des exemples en R et ne dissimule pas des hypothèses? La plupart des livres d'introduction fourniront une certaine intuition derrière les hypothèses de modélisation, sans pour autant en formaliser la logique. Vous aurez probablement besoin de lire un livre de statistiques mathématiques pour cela.
Christopher Aden

Veuillez consulter le livre que je viens de mentionner lors de ma dernière édition sur la question. Il fait exactement ce que je voulais. En fait, la question est venue de la lecture de morceaux de ce livre. Je veux la même chose, mais avec R., j’ai également mis en lumière ce qui est si important dans le livre, en raison de la partie importante de la motivation qui s’exerce pour ceux qui n’ont jamais découvert le livre. J'espère que c'est clair maintenant. La table des matières du livre peut également être consultée ici whfreeman.com/Catalog/product/…
Oeufcoque Penteano

3

J'ai trouvé ce livre très utile, mais il suppose certaines connaissances en termes statistiques de base, tels que p-value, ANOVA, etc.

Ce livre propose une introduction beaucoup plus douce aux concepts statistiques eux-mêmes ...


+1 Le livre de Verzani est une introduction très douce et est également disponible dans son package CRAN. Le livre de Dalgaard est aussi un bon livre, et il parle certainement en tant qu'expert, n'étant pas étranger au monde des R!
Christopher Aden

@ChristopherAden - quel livre recommanderiez-vous pour construire une base solide pour une réflexion conceptuelle sur les statistiques , sans approfondir (du tout, vraiment) les calculs en eux-mêmes?
Julie

@ Julie, quelle est votre majeure? Un de ces jours, j'ai eu un livre de 1979 sur les statistiques pour les étudiants en sociologie d'un professeur de sciences sociales. Parfois, ils sont plus utiles, bien qu'un professeur sur Amazon dise qu'ils ont tendance à commettre davantage d'erreurs, en particulier sur les formules dangereuses pour les professeurs
peu enclins

Julie: C'est certainement une question sur laquelle je vais me pencher pour donner de meilleures recommandations. J'ai appris de Statistics: L'art et la science de l'apprentissage à partir de données, de Agresti et Franklin. J'ai trouvé que l'approche basée sur l'application était géniale. Il ne propose pas la répartition 50-50 des statistiques-et-R demandée par le PO, je ne me suis donc pas soucié de le mentionner. Je suis toujours une recrue des statistiques, cependant, alors prenez mes recommandations avec un grain de sel.
Christopher Aden

1
Salut julie Ce serait bien si vous pouviez fournir une citation complète pour chaque livre dans votre réponse. :)
cardinal

1

Un bon livre est produit par l’Université d’Adélaïde. Il est disponible gratuitement en ligne et sous forme imprimée.

Statistiques d'apprentissage avec R

Il est très bien fragmenté dans sa structure et couvre une introduction à R ainsi qu’une introduction de base à la statistique avant de passer à des sujets plus approfondis.

Il existe une liste très complète de livres sur le site Web de R, à titre de référence, mais n’avons pas encore lu les titres.

https://www.r-project.org/doc/bib/R-books.html


0

Learning Statistics Using R de Randall E. Schumacker sera publié en janvier 2014 par SAGE Publications. Il contient tout le matériel dans la publication.


3
C'est bien que les gens nous fassent connaître leur propre travail. Nous sommes profondément reconnaissants d’avoir ce genre de connaissances de première main. C’est plus qu’une bonne idée, cependant, de reconnaître son lien avec une recommandation: cela donne plus de crédibilité à la recommandation et vous donne le crédit que vous méritez, aussi :-). Peut-être pourriez-vous saisir cette occasion, Randy, pour développer votre réponse, reconnaître votre qualité d'auteur et en dire davantage sur les raisons pour lesquelles votre livre constituerait un excellent choix aux fins énoncées dans la question. Et bienvenue sur notre site!
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.