Statistiques suffisantes pour le profane

23

Quelqu'un peut-il expliquer suffisamment de statistiques en termes très basiques? Je viens d'un milieu d'ingénierie et j'ai traversé beaucoup de choses mais je n'ai pas réussi à trouver une explication intuitive.

machine-learning mathematical-statistics intuition

— user1343318
source

33

Une statistique suffisante résume toutes les informations contenues dans un échantillon afin que vous fassiez la même estimation de paramètre que nous vous ayons donné l'échantillon ou simplement la statistique elle-même. C'est la réduction des données sans perte d'informations.

Voici un exemple. Supposons que ait une distribution symétrique autour de zéro. Au lieu de vous donner un échantillon, je vous donne un échantillon de valeurs absolues à la place (c'est la statistique). Vous ne voyez pas le signe. Mais vous savez que la distribution est symétrique, donc pour une valeur donnée , et sont également probables (la probabilité conditionnelle est de ). Vous pouvez donc lancer une pièce juste. Si ça monte, faites que négatif. Si c'est pile, rendez-le positif. Cela vous donne un échantillon de , qui a la même distribution que les données d' origine . En gros, vous avez pu reconstruire les données à partir des statistiques. C'est ce qui le rend suffisant. $X$ $x$ $-x$ $x$ $0.5$ $x$ $X'$ $X$

— Dimitriy V. Masterov
source

Pour clarifier / confirmer: les statistiques sont suffisantes pour un paramètre. Il n'y a aucun paramètre mentionné dans cet exemple, mais je suppose que la statistique serait suffisante pour n'importe quel paramètre de n'importe quelle distribution paramétrique X choisie? C'est donc un exemple inhabituel - mais toujours utile pour l'intuition.

— Denziloe

2

@Denziloe Suffisant pour n'importe quel paramètre de cette distribution, sous les fortes hypothèses de symétrie autour de 0. Ceci est un exemple de jouet conçu pour construire l'intuition.

— Dimitriy V. Masterov

13

En termes bayésiens, vous avez une propriété observable et un paramètre . La distribution conjointe de est spécifiée, mais prise en compte comme la distribution conditionnelle de et la distribution précédente de . Une statistique est suffisante pour ce modèle si et seulement si la distribution postérieure de est la même que celle de , pour chaque distribution antérieure de . En d'autres termes, votre incertitude mise à jour sur après avoir connu la valeur de est la même que votre incertitude mise à jour sur $X$ $\Theta$ $X,\Theta$ $X\mid \Theta$ $\Theta$ $T$ $\Theta\mid X$ $\Theta\mid T(X)$ $\Theta$ $\Theta$ $X$ $\Theta$ après avoir connu la valeur de , quelles que soient les informations que vous possédez sur . Gardez à l'esprit que la suffisance est un concept dépendant du modèle. $T(X)$ $\Theta$

— Zen
source

1

Disons que vous avez une pièce et que vous ne savez pas si elle est juste ou non. En d'autres termes, il a une probabilité de remonter les têtes ( ) et de remonter les queues ( ), et vous ne connaissez pas la valeur de . $p$ $H$ $1 - p$ $T$ $p$

Vous essayez de vous faire une idée de la valeur de en lançant la pièce plusieurs fois, disons fois. $p$ $n$

Disons que et le résultat que vous obtenez est la séquence . $n = 5$ $(H, H, T, H, T)$

Maintenant, vous voulez que votre ami statisticien estime la valeur de pour vous et vous dise peut-être si la pièce est susceptible d'être juste ou non. De quelles informations avez-vous besoin pour leur dire afin qu'ils puissent faire leurs calculs et tirer leurs conclusions? $p$

Vous pouvez leur dire toutes les données, c'est-à-dire . Est-ce pourtant nécessaire? Pourriez-vous résumer ces données sans perdre d'informations pertinentes? $(H, H, T, H, T)$

Il est clair que l'ordre des lancers de pièces n'est pas pertinent, car vous faisiez la même chose pour chaque lancer de pièces, et les lancers de pièces ne s'influençaient pas mutuellement. Si le résultat était place, par exemple, nos conclusions ne seront pas différentes. Il s'ensuit que tout ce que vous devez vraiment dire à votre ami statisticien est le nombre de têtes. $(H, H, T, T, H)$

Nous exprimons cela en disant que le nombre de têtes est une statistique suffisante pour p .

Cet exemple donne la saveur du concept. Lisez la suite si vous souhaitez voir comment il se connecte à la définition formelle.

Formellement, une statistique est suffisante pour un paramètre si, étant donné la valeur de la statistique, la distribution de probabilité des résultats n'implique pas le paramètre.

$p^\text{number of heads}(1 - p)^\text{n - number of heads}$ $p$

$(H, H, T, H, T)$ $(H, H, T, T, H)$ $...$ $1/10$ $p$ $p$ $p$

$p$ $\text{number of heads}$ $\text{number of heads}$ $p$

— Denziloe
source