x=(X1,...,Xj,...,Xk)k−
ni=1,...,n
xi=(X1i,...,Xji,...,Xki)
S=(x1,...,xi,...,xn)k− vecteur dimensionnel une "observation" (bien qu'il ne devienne vraiment un que lorsque nous mesurons et enregistrons les réalisations des variables aléatoires impliquées).
fi(xi),i=1,...,nf(x1,...,xi,...,xn)
S
f(x1,...,xi,...,xn)=∏i=1nfi(xi),∀(x1,...,xi,...,xn)∈DS
DSn
Cela signifie que les "observations" sont "conjointement indépendantes", (au sens statistique, ou "indépendantes en probabilité" comme le disait le vieil adage que l'on voit encore parfois parfois). L'habitude est simplement de les appeler «observations indépendantes».
i
Notez également que dans les cas où nous avons des variables aléatoires continues sans densité, ce qui précède peut être exprimé en termes de fonctions de distribution.
C'est ce que signifie «observations indépendantes» . C'est une propriété définie avec précision exprimée en termes mathématiques. Voyons un peu ce que cela implique .
QUELQUES CONSEQUENCES D'AVOIR DES OBSERVATIONS INDÉPENDANTES
A. Si deux observations font partie d'un groupe d'observations conjointement indépendantes, elles sont également "indépendantes par paire" (statistiquement),
f(xi,xm)=fi(xi)fm(xm)∀i≠m,i,m=1,...,n
Ceci implique à son tour que les PMF / PDF conditionnels sont égaux à ceux «marginaux»
f(xi∣xm)=fi(xi)∀i≠m,i,m=1,...,n
Cela se généralise à de nombreux arguments, conditionnés ou conditionnant, disons
f(xi,xℓ∣xm)=f(xi,xℓ),f(xi∣xm,xℓ)=fi(xi)
etc, tant que les index à gauche sont différents des index à droite de la ligne verticale.
Cela implique que si nous observons réellement une observation, les probabilités caractérisant toute autre observation de l'échantillon ne changent pas. Donc en matière de prédiction , un échantillon indépendant n'est pas notre meilleur ami. Nous préférerions avoir la dépendance pour que chaque observation puisse nous aider à dire quelque chose de plus sur toute autre observation.
B. D'un autre côté, un échantillon indépendant a un contenu informationnel maximal. Chaque observation, étant indépendante, contient des informations qui ne peuvent être déduites, en tout ou en partie, par aucune autre observation de l'échantillon. La somme totale est donc maximale, par rapport à tout échantillon comparable où il existe une certaine dépendance statistique entre certaines des observations. Mais à quoi servent ces informations, si elles ne peuvent pas nous aider à améliorer nos prévisions?
Eh bien, ce sont des informations indirectes sur les probabilités qui caractérisent les variables aléatoires dans l'échantillon. Plus ces observations ont des caractéristiques communes (distribution de probabilité commune dans notre cas), plus nous sommes en meilleure position pour les découvrir, si notre échantillon est indépendant.
En d'autres termes, si l'échantillon est indépendant et "distribué de manière identique", ce qui signifie
fi(xi)=fm(xm)=f(x),i≠m
f(x)fj(xji)
f(xi∣xm)=fi(xi)xi fi
Par conséquent, en ce qui concerne l' estimation (qui est parfois utilisée comme terme fourre-tout, mais ici elle doit être maintenue distincte du concept de prédiction ), un échantillon indépendant est notre "meilleur ami", s'il est combiné avec le "réparti de manière identique". " propriété.
C. Il s'ensuit également qu'un échantillon indépendant d'observations où chacune est caractérisée par une distribution de probabilité totalement différente, sans aucune caractéristique commune, est aussi sans valeur une collecte d'informations que l'on peut obtenir (bien sûr, chaque élément d'information en soi est digne, le problème ici est que, pris ensemble, ils ne peuvent pas être combinés pour offrir quelque chose d'utile). Imaginez un échantillon contenant trois observations: une contenant (caractéristiques quantitatives) des fruits d'Amérique du Sud, une autre contenant des montagnes d'Europe et une troisième contenant des vêtements d'Asie. Des éléments d'information assez intéressants tous les trois, mais ensemble, en tant qu'échantillon, ils ne peuvent rien faire statistiquement utile pour nous.
Autrement dit, une condition nécessaire et suffisante pour qu'un échantillon indépendant soit utile, est que les observations aient en commun certaines caractéristiques statistiques. C'est pourquoi, dans Statistiques, le mot "échantillon" n'est pas synonyme de "collecte d'informations" en général, mais de "collecte d'informations sur des entités qui ont des caractéristiques communes".
APPLICATION À L'EXEMPLE DE DONNÉES DE L'OP
En réponse à une demande de l'utilisateur @gung, examinons l'exemple de l'OP à la lumière de ce qui précède. Nous supposons raisonnablement que nous sommes dans une école avec plus de deux enseignants et plus de six élèves. Donc a) nous échantillonnons à la fois les élèves et les enseignants, et b) nous incluons dans notre ensemble de données la note correspondant à chaque combinaison enseignant-élève.
GPTS=(s1,...,s6)
s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)
PiGi
T1,T2
s1,s2,s3T1s4,s5,s6T2
Notez soigneusement la distinction entre "la même variable aléatoire" et "deux variables aléatoires distinctes qui ont des distributions identiques".
s1,s2,s3T1s4,s5,s6T2
Supposons maintenant que nous excluons la variable aléatoire "enseignant" de notre échantillon. L'échantillon (élève, grade) de six observations est-il un échantillon indépendant?
Ici, les hypothèses que nous ferons en ce qui concerne la relation structurelle entre les enseignants, les élèves et les notes sont importantes.
T1T2G1,G2,G3T1
Mais disons que les enseignants sont identiques à cet égard. Ensuite, dans l'hypothèse énoncée «les enseignants influencent les élèves», nous avons encore une fois que les trois premières observations dépendent les unes des autres, car les enseignants influencent les élèves qui influencent les notes, et nous arrivons au même résultat, quoique indirectement dans ce cas (et de même pour le trois autres). Encore une fois, l'échantillon n'est pas indépendant.
LE CAS DU GENRE
GeM,F
s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)
Notez bien que ce que nous avons inclus dans la description de l'échantillon en ce qui concerne le sexe, ce n'est pas la valeur réelle qu'il prend pour chaque élève, mais la variable aléatoire "Sexe" . Revenons au début de cette très longue réponse: l'échantillon n'est pas défini comme une collection de nombres (ou des valeurs numériques fixes ou non en général), mais comme une collection de variables aléatoires (c'est-à-dire de fonctions).
Gei1Ge1P2,P3,..., puis il s'en va une autre source possible de dépendance entre les observations. Enfin, le sexe d'un élève influence-t-il directement les notes d'un autre élève? si nous affirmons que non, nous obtenons un échantillon indépendant (à condition que tous les élèves aient le même enseignant).