La distribution de probabilité est une fonction mathématique qui décrit une variable aléatoire. Un peu plus précisément, c'est une fonction qui attribue des probabilités aux nombres et sa sortie doit être en accord avec les axiomes de probabilité .
Le modèle statistique est une description abstraite et idéalisée de certains phénomènes en termes mathématiques en utilisant des distributions de probabilité. Citant Wasserman (2013):
Un modèle statistique est un ensemble de distributions (ou densités ou fonctions de régression). Un modèle paramétrique est un ensemble
F qui peut être paramétré par un nombre fini de paramètres. [...] FF
En général, un modèle paramétrique prend la forme
F= {f( x ; θ ) : θ ∈ Θ }
où est un paramètre inconnu (ou vecteur de paramètres) qui peut prendre des valeurs dans l' espace des paramètres Θ . Si θ est un vecteur mais que nous ne nous intéressons qu'à une seule composante de θ , nous appelons les paramètres restants des paramètres de nuisance . Un modèle non paramétrique est un ensemble F qui ne peut pas être paramétré par un nombre fini de paramètres.θ ΘθθF
Dans de nombreux cas, nous utilisons des distributions comme modèles (vous pouvez vérifier cet exemple ). Vous pouvez utiliser la distribution binomiale comme modèle de comptage de têtes dans une série de lancers de pièces. Dans ce cas, nous supposons que cette distribution décrit, de manière simplifiée, les résultats réels. Cela ne signifie pas qu'il s'agit d'une seule façon de décrire un tel phénomène, ni que la distribution binomiale est quelque chose qui ne peut être utilisé qu'à cette fin. Le modèle peut utiliser une ou plusieurs distributions, tandis que les modèles bayésiens spécifient également des distributions antérieures.
Plus formellement, cela est discuté par McCullaugh (2002):
Selon les théories actuellement acceptées [Cox et Hinkley (1974), chapitre 1; Lehmann (1983), chapitre 1; Barndorff-Nielsen et Cox (1994), section 1.1; Bernardo et Smith (1994), Chapitre 4] un modèle statistique est un ensemble de distributions de probabilité sur l'espace échantillon . Un modèle statistique paramétré est un paramètre
Θ réglé avec une fonction P : Θ → P ( S ) , qui attribue à chaque point de paramètre
θ ∈ Θ une distribution de probabilité P θ sur
S . Ici P ( S ) est l'ensemble de tousSΘP: Θ → P(S)θ∈ΘPθSP(S)
les distributions de probabilité sur . Dans la plupart des cas suivants, il est important de faire la distinction entre le modèle en tant que fonction P : Θ → P ( S ) et l'ensemble de distributions associé P Θ ⊂ P ( S ) .SP:Θ→P(S)PΘ⊂P(S)
Les modèles statistiques utilisent donc des distributions de probabilité pour décrire les données dans leurs termes. Les modèles paramétriques sont également décrits en termes d'ensemble fini de paramètres.
Cela ne signifie pas que toutes les méthodes statistiques nécessitent des distributions de probabilité. Par exemple, la régression linéaire est souvent décrite en termes d' hypothèse de normalité , mais en fait, elle est assez robuste aux écarts par rapport à la normalité et nous avons besoin d'hypothèses sur la normalité des erreurs pour les intervalles de confiance et les tests d'hypothèse. Donc, pour que la régression fonctionne, nous n'avons pas besoin d'une telle hypothèse, mais pour avoir un modèle statistique entièrement spécifié, nous devons le décrire en termes de variables aléatoires , nous avons donc besoin de distributions de probabilité. J'écris à ce sujet parce que vous pouvez souvent entendre des gens dire qu'ils ont utilisé un modèle de régression pour leurs données - dans la plupart des cas, ils signifient plutôt qu'ils décrivent les données en termes de relation linéaire entre les valeurs cibles et les prédicteurs à l'aide de certains paramètres, plutôt que d'insister sur le conditionnel. normalité.
McCullagh, P. (2002). Qu'est-ce qu'un modèle statistique? Annales des statistiques, 1225-1267.
Wasserman, L. (2013). Toutes les statistiques: un cours concis d'inférence statistique. Springer.