Réponses:
Persi Diaconis a répondu brièvement à cette question: les problèmes considérés par probabilité et par statistique sont inverses. Dans la théorie des probabilités, nous considérons un processus sous-jacent comportant une certaine aléatoire ou une incertitude modélisée par des variables aléatoires, et nous déterminons ce qui se passe. Dans les statistiques, nous observons quelque chose qui s'est passé et essayons de déterminer quel processus sous-jacent expliquerait ces observations.
J'aime l'exemple d'un pot de bonbons haricots rouges et verts.
Un probabiliste commence par connaître la proportion de chacun et demande la probabilité de tirer un bonbon rouge. Un statisticien déduit la proportion de bonbons à la gelée rouge en prélevant des échantillons dans le bocal.
Il est trompeur de simplement dire que les statistiques sont simplement l'inverse de la probabilité. Oui, les questions statistiques sont des questions de probabilité inverse, mais ce sont des problèmes inverses mal posés , et cela fait une grande différence quant à la manière dont elles sont traitées.
La probabilité est une branche des mathématiques pures - les questions de probabilité peuvent être posées et résolues en utilisant un raisonnement axiomatique. Il existe donc une réponse correcte à toute question de probabilité.
Les questions statistiques peuvent être converties en questions de probabilité en utilisant des modèles de probabilité . Une fois que nous faisons certaines hypothèses sur le mécanisme générant les données, nous pouvons répondre aux questions statistiques en utilisant la théorie des probabilités. CEPENDANT, la formulation et la vérification appropriées de ces modèles de probabilité sont tout aussi importantes, voire plus importantes que l’analyse ultérieure du problème à l’aide de ces modèles.
On pourrait dire que les statistiques comportent deux parties. La première partie est la question de savoir comment formuler et évaluer des modèles probabilistes pour le problème; cette entreprise relève du domaine de la "philosophie des sciences". La deuxième partie est la question de l’obtention de réponses après la prise en compte d’un certain modèle. Cette partie de la statistique relève bien de la théorie des probabilités appliquées et, en pratique, contient également une bonne part de l’analyse numérique.
J'aime cela des calculs calculés de Steve Skienna (voir le lien pour une discussion complète):
En résumé, la théorie des probabilités nous permet de trouver les conséquences d'un monde idéal donné, tandis que la théorie statistique nous permet de mesurer la mesure dans laquelle notre monde est idéal.
La probabilité est une science pure (mathématique), les statistiques concernent les données. Ils sont liés puisque la probabilité forme en quelque sorte un fondement des statistiques, fournissant des idées de base.
Le tableau 3.1 de la biostatistique intuitive répond à cette question avec le diagramme présenté ci-dessous. Notez que toutes les flèches pointent vers la droite pour la probabilité et vers la gauche pour les statistiques.
PROBABILITÉ
Général ---> Spécifique
Population ---> Échantillon
Modèle ---> Données
STATISTIQUES
Général <--- Spécifique
Population <--- échantillon
Modèle <--- Données
Probability répond aux questions sur ce qui va se passer, les statistiques répondent aux questions sur ce qui s'est passé.
La probabilité concerne la quantification de l'incertitude alors que les statistiques expliquent la variation d'une mesure d'intérêt (par exemple, pourquoi les niveaux de revenu varient-ils?) Que nous observons dans le monde réel.
Nous expliquons la variation en utilisant certains facteurs observables (par exemple, le sexe, le niveau d'éducation, l'âge, etc. pour l'exemple de revenu). Cependant, comme nous ne pouvons pas éventuellement prendre en compte tous les facteurs possibles qui affectent le revenu, nous laissons toute variation inexpliquée à des erreurs aléatoires (c’est là que l’incertitude de quantification entre en jeu).
Comme nous attribuons "Variation = Effet des facteurs observables + Effet des erreurs aléatoires", nous avons besoin des outils fournis par la probabilité pour prendre en compte l’effet des erreurs aléatoires sur la variation observée.
Quelques exemples suivent:
Quantifier l'incertitude
Exemple 1: vous lancez un dé à 6 faces. Quelle est la probabilité d'obtenir un 1?
Exemple 2: Quelle est la probabilité que le revenu annuel d'une personne adulte sélectionnée au hasard aux États-Unis soit inférieur à 40 000 $?
Explication de la variation
Exemple 1: Nous observons que le revenu annuel d'une personne varie. Quels facteurs expliquent la variation du revenu d'une personne?
De toute évidence, nous ne pouvons pas prendre en compte tous les facteurs. Ainsi, nous attribuons le revenu d’une personne à certains facteurs observables (par exemple, le niveau d’éducation, le sexe, l’âge, etc.) et laissons toute variation restante à l’incertitude (ou dans le langage statistique: à des erreurs aléatoires).
Exemple 2: Nous observons que certains consommateurs choisissent Tide la plupart du temps pour acheter un détergent, alors que d'autres consommateurs choisissent la marque de détergent xyz. Qu'est-ce qui explique la variation de choix? Nous attribuons la variation des choix à certains facteurs observables tels que le prix, le nom de marque, etc., et laissons toute variation inexpliquée à des erreurs aléatoires (ou incertitudes).
La probabilité correspond à l'incertitude, tandis que les statistiques sont une poursuite empirique et vorace de la vérité (les maudits menteurs sont exclus, bien sûr).
La probabilité d'un événement est sa fréquence relative à long terme. Donc, il s'agit essentiellement de vous indiquer la possibilité , par exemple, d'obtenir une "tête" lors du prochain lancer d'une pièce ou un "3" au prochain lancer d'un dé.
Une statistique est une mesure numérique calculée à partir d'un échantillon de la population. Par exemple, la moyenne de l'échantillon. Nous utilisons cela comme une statistique qui estime la moyenne de la population, qui est un paramètre. Donc, fondamentalement, cela vous donne une sorte de résumé d’un échantillon.
Les études de probabilité, eh bien, comment les événements sont probables. Vous savez intuitivement ce qu'est la probabilité.
La statistique est l'étude des données: les montrer (en utilisant des outils tels que des graphiques), les résumer (en utilisant des moyennes et des écarts types, etc.), en tirant des conclusions sur le monde à partir duquel ces données ont été tirées (ajustement des lignes aux données, etc.), et - c’est la clé - quantifier à quel point nous pouvons être sûrs de nos conclusions.
Afin de quantifier à quel point nous pouvons être sûrs de nos conclusions, nous devons utiliser Probabilité. Supposons que vous disposiez des données de l'année dernière sur les précipitations dans la région où vous habitez et où j'habite. L'année dernière, il a plu en moyenne 1/4 de pouce par semaine chez vous et 3/8 de pouce chez moi. On peut donc dire que les précipitations dans ma région sont en moyenne 50% plus importantes que chez vous, pas vrai? Pas si vite, Sparky. Ce pourrait être une coïncidence: peut-être est-il arrivé qu'il pleuve beaucoup l'année dernière où je vis. Nous pouvons utiliser Probability pour estimer la confiance que nous pouvons avoir dans notre conclusion que ma maison est 50% plus soggier que la vôtre.
Vous pouvez donc dire en gros que la probabilité est le fondement mathématique de la théorie de la statistique.
En théorie des probabilités, on nous donne des variables aléatoires X1, X2, ... d'une certaine manière, puis nous étudions leurs propriétés, c'est-à-dire que nous calculons la probabilité P {X1 \ in B1}, et étudions la convergence de X1, X2, ... etc. .
En statistique mathématique, nous avons n réalisations de certaines variables aléatoires X et ensemble de distributions D; le problème est de trouver parmi les distributions de D une qui est la plus susceptible de générer les données que nous avons observées.
En probabilité, la distribution est connue et connaissable à l'avance - vous commencez avec une fonction de distribution de probabilité connue (ou similaire) et en échantillonnez.
En statistique, la distribution est inconnue à l’avance. Il peut même être inconnaissable. Des hypothèses sont émises sur la distribution de probabilité derrière les données observées, afin de pouvoir appliquer la théorie des probabilités à ces données afin de savoir si une hypothèse nulle concernant ces données peut être rejetée ou non.
Il existe une discussion philosophique sur le point de savoir si la probabilité existe dans le monde réel ou si elle est un produit idéal de nos imaginations mathématiques, et toutes nos observations ne peuvent être que statistiques.
La statistique est la recherche de la vérité face à l'incertitude. La probabilité est l'outil qui permet de quantifier l'incertitude.
(J'ai fourni une autre réponse, plus longue, qui supposait que l'on demandait quelque chose du genre "comment l'expliquerais-tu à ta grand-mère?")
Avertissement: les réponses ci-dessus sont des réponses mathématiques. En réalité, une grande partie de la statistique consiste également à concevoir / découvrir des modèles appropriés, à remettre en question les modèles existants, à concevoir des expériences, à traiter des données imparfaites, etc. "Tous les modèles sont erronés."
Probabilité : à partir de paramètres connus, trouvez la probabilité d'observer un ensemble de données particulier.
Statistiques : Étant donné un ensemble particulier de données observées, faites une inférence sur les paramètres possibles.
La statistique est "plus subjective" et "plus d'art que de science" (par rapport à la probabilité).
Différents statisticiens donneront des réponses différentes, souvent longues.
La différence entre les probabilités et les statistiques est que, dans les probabilités, il n'y a pas d'erreur. Nous sommes certains de la probabilité, car nous savons exactement combien de faces ont une pièce de monnaie ou combien de caramels bleus se trouvent dans le vase. Mais dans les statistiques, nous examinons une partie de la population de ce que nous examinons, et à partir de là, nous essayons de voir la vérité, mais il y a toujours un% de mauvaises conclusions. La seule chose qui soit vraie dans les statistiques, c’est une% erreur, c’est en fait une probabilité.
Le texte de Savage intitulé Foundations of Statistics a été cité plus de 12 000 fois sur Google Scholar [3]. Il raconte ce qui suit.
Il est unanimement convenu que les statistiques dépendent en quelque sorte de la probabilité. Mais, en ce qui concerne la probabilité et son lien avec les statistiques, il y a rarement eu un désaccord aussi complet et une rupture de la communication depuis la Tour de Babel. Sans doute, une grande partie du désaccord est purement terminologique et disparaîtrait sous une analyse suffisamment précise.
https://en.wikipedia.org/wiki/Foundations_of_statistics
La théorie de la probabilité est donc à la base de la statistique. Tout le reste est un jeu juste.
Mais en essayant d'être plus utile, pratique avec une réponse ...
Cependant, la théorie des probabilités contient beaucoup de choses d’intérêt mathématique qui ne concernent pas directement les statistiques. De plus, de nombreux sujets statistiques sont indépendants de la théorie des probabilités
https://en.wikipedia.org/wiki/Probability_and_statistics
Ce qui précède n’est nullement exhaustif ni autoritaire, mais j’estime que cela est utile.
Généralement, cela m'a aidé à voir des choses telles que ...
Mathématiques discrètes >> Théorie des probabilités >> Statistiques
Chacun étant fortement utilisé, en moyenne, dans les fondements du suivant. C'est-à-dire qu'il y a de grandes intersections dans la façon dont nous étudions les fondements suivants.
PS Il existe des statistiques inductives et déductives, ce n'est donc pas là que réside la différence.
Beaucoup de mathématiciens et de mathématiciens disent que «STATISTIQUES est l'inverse de PROBABILITÉ», mais que ce n'est pas particulièrement juste. La manière d’approcher ou la méthode de résolution de ces 2 sont complètement différentes mais elles sont INTERCONNECTÉES .
je voudrais me référer à mon ami John D Cook .....
"J'aime l'exemple d'un pot de bonbons haricots rouges et verts.
Un probabiliste commence par connaître la proportion de chacun et trouve la probabilité de tirer un bonbon rouge. Un statisticien déduit la proportion de bonbons à la gelée rouge en prélevant des échantillons dans le bocal. "
Maintenant, la probabiliste utilise la proportion de haricot rouge obtenue en prélevant un échantillon dans le pot pour trouver la probabilité de tirer un haricot rouge du pot.
Considérez cet exemple ---- >>>
Lors d'un examen, 30% des élèves ont échoué en physique, 25% en mathématiques et 12% en physique et en mathématiques. Un élève sélectionné au hasard trouve la probabilité que l'élève ait échoué en physique, s'il est connu qu'il a échoué en maths.
La somme ci-dessus est un problème de probabilité, mais si nous examinons attentivement, nous verrons que la somme est fournie avec des données statistiques.
30% des élèves ont échoué en physique, 25% des "maths", ce sont essentiellement des fréquences si les pourcentages sont calculés. Nous disposons donc de données statistiques qui nous aident à déterminer la probabilité
TELLEMENT, LA PROBABILITÉ ET LES STATISTIQUES SONT TRÈS INTERCONNECTÉES, OU plutôt nous pouvons dire que la probabilité dépend beaucoup des statistiques
Le terme "statistiques" est merveilleusement expliqué par JC Maxwell dans l'article Molecules (in Nature 8, 1873, p. 437–441). Permettez-moi de citer le passage pertinent:
Lorsque les membres actifs de la section F se procurent un rapport du recensement ou tout autre document contenant les données numériques des sciences économiques et sociales, ils commencent par répartir l’ensemble de la population en groupes, par âge, impôt sur le revenu, éducation, etc. croyances religieuses ou condamnations pénales. Le nombre d'individus est beaucoup trop important pour qu'ils puissent retracer l'histoire de chacun séparément, de sorte que, pour réduire leur travail dans les limites de l'homme, ils concentrent leur attention sur un petit nombre de groupes artificiels. Le nombre variable d'individus dans chaque groupe, et non l'état variable de chaque individu, constitue la principale donnée à partir de laquelle ils travaillent.
Ceci, bien sûr, n'est pas la seule méthode pour étudier la nature humaine. Nous pouvons observer le comportement d’hommes individuels et le comparer à celui auquel leur caractère antérieur et leurs circonstances actuelles, selon la meilleure théorie existante, nous conduiraient. Ceux qui pratiquent cette méthode s’efforcent d’améliorer leur connaissance des éléments de la nature humaine, de la même manière qu’un astronome corrige les éléments d’une planète en comparant sa position réelle à celle déduite des éléments reçus. L’étude de la nature humaine par les parents et les maîtres d’école, par les historiens et les hommes d’État doit donc être distinguée de celle des greffiers, des tabulatrices et des hommes d’État qui font confiance aux chiffres. L'un peut s'appeler l'historique et l'autre la méthode statistique.
Les équations de la dynamique expriment complètement les lois de la méthode historique telle qu'appliquée à la matière, mais l'application de ces équations implique une connaissance parfaite de toutes les données. Mais la plus petite partie de la matière que nous puissions expérimenter est constituée de millions de molécules, dont aucune ne nous paraît individuellement sensible. Nous ne pouvons donc pas déterminer le mouvement réel de l'une de ces molécules, de sorte que nous sommes obligés d'abandonner la méthode historique stricte et d'adopter la méthode statistique pour traiter de grands groupes de molécules.
Il donne cette explication de la méthode statistique dans plusieurs autres travaux. Par exemple, "dans la méthode d’investigation statistique, nous ne suivons pas le système lorsqu’il est en mouvement, mais nous fixons notre attention sur une phase particulière, et nous vérifions si le système est dans cette phase ou non, et aussi quand il entre dans la phase et quand il le quitte "(Trans. Cambridge Philos. Soc. 12, 1879, p. 547-570).
Il y a un autre beau passage de Maxwell à propos de "probabilité" (extrait d'une lettre à Campbell de 1850, reproduite dans La vie de James Clerk Maxwell , p. 143):
la science actuelle de la logique ne connaît pour l'instant que des choses soit certaines, soit impossibles, soit totalement douteuses, dont aucune (heureusement) nous devons raisonner. Par conséquent, la vraie logique de ce monde est le calcul des probabilités, qui tient compte de l'ampleur de la probabilité (qui est ou qui devrait être dans l'esprit d'un homme raisonnable).
On peut donc dire:
- En statistique, nous "concentrons notre attention sur un petit nombre de groupes artificiels" ou de quantités; nous faisons une sorte de catalogage ou de recensement.
- Probablement, nous calculons notre incertitude à propos de certains événements ou de certaines quantités.
Les deux sont distincts et nous pouvons faire l'un sans l'autre.
Par exemple, si nous effectuons un recensement complet de la population entière d'un pays et comptons le nombre exact de personnes appartenant à des groupes particuliers tels que l'âge, le sexe, etc., nous établissons des statistiques. Il n'y a pas d'incertitude - de probabilité - en cause, car les chiffres que nous trouvons sont exacts et connus.
D'autre part, imaginez quelqu'un passant devant nous dans la rue, et nous nous interrogeons sur leur âge. Dans ce cas, nous sommes incertains et nous utilisons des probabilités, mais il n'y a pas de statistiques impliquées, car nous ne faisons pas de recensement ou de catalogue.
Mais les deux peuvent aussi se produire ensemble. Si nous ne pouvons pas procéder à un recensement complet de la population, nous devons deviner combien de personnes appartiennent à des groupes d'âge ou de sexe spécifiques. Par conséquent, nous utilisons des probabilités en établissant des statistiques. Inversement, nous pouvons prendre en compte des données statistiques exactes sur l'âge des personnes et essayer à partir de ces données de mieux deviner la personne qui passe devant nous. Par conséquent, nous utilisons des statistiques tout en décidant d'une probabilité.