Je m'apprends quelques statistiques pour le plaisir et j'ai une certaine confusion concernant des statistiques suffisantes . Je vais écrire mes confusions sous forme de liste:
Si une distribution a paramètres, aura-t-elle statistiques suffisantes?
Existe-t-il une sorte de correspondance directe entre les statistiques suffisantes et les paramètres? Ou bien les statistiques suffisantes servent-elles simplement de pool "d'informations" afin que nous puissions recréer le paramètre afin de pouvoir calculer les mêmes estimations pour les paramètres de la distribution sous-jacente.
Toutes les distributions ont-elles des statistiques suffisantes? c'est à dire. le théorème de factorisation peut-il jamais échouer?
En utilisant notre échantillon de données, nous supposons une distribution dont les données sont les plus susceptibles de provenir et puis pouvons calculer des estimations (par exemple le MLE) pour les paramètres de la distribution. Des statistiques suffisantes sont un moyen de pouvoir calculer les mêmes estimations pour les paramètres sans avoir à s'appuyer sur les données elles-mêmes, non?
Tous les ensembles de statistiques suffisantes auront-ils une statistique minimale suffisante?
C'est le matériel que j'utilise pour essayer de comprendre le sujet: https://onlinecourses.science.psu.edu/stat414/node/283
D'après ce que je comprends, nous avons un théorème de factorisation qui sépare la distribution conjointe en deux fonctions, mais je ne comprends pas comment nous pouvons extraire la statistique suffisante après factorisation de la distribution dans nos fonctions.
La question de Poisson donnée dans cet exemple avait une factorisation claire, mais il a ensuite été déclaré que les statistiques suffisantes étaient la moyenne de l'échantillon et la somme de l'échantillon. Comment savions-nous que ces statistiques étaient suffisantes rien qu'en regardant la forme de la première équation?
Comment est-il possible d'effectuer les mêmes estimations MLE en utilisant des statistiques suffisantes si la deuxième équation du résultat de la factorisation dépend parfois des valeurs de données elles-mêmes? Par exemple dans le cas de Poisson, la deuxième fonction dépendait de l'inverse du produit des factorielles des données, et nous n'aurions plus les données!
Pourquoi la taille d'échantillon ne serait-elle pas une statistique suffisante par rapport à l'exemple de Poisson sur la page Web ? Nous aurions besoin de pour reconstruire certaines parties de la première fonction, alors pourquoi n'est-ce pas également une statistique suffisante?