Ce que vous concluez si les données sont des IID provient d'informations externes, pas des données elles-mêmes. En tant que scientifique, vous devez déterminer s'il est raisonnable de supposer les données IID en fonction de la façon dont les données ont été collectées et d'autres informations externes.
Prenons quelques exemples.
Scénario 1: Nous générons un ensemble de données indépendamment d'une distribution unique qui se trouve être un mélange de 2 normales.
Scénario 2: Nous générons d'abord une variable de genre à partir d'une distribution binomiale, puis au sein des hommes et des femmes, nous générons indépendamment des données à partir d'une distribution normale (mais les normales sont différentes pour les hommes et les femmes), puis nous supprimons ou perdons les informations sur le sexe.
Dans le scénario 1, les données sont IID et dans le scénario 2, les données ne sont clairement pas distribuées de manière identique (différentes distributions pour les hommes et les femmes), mais les 2 distributions pour les 2 scénarios ne se distinguent pas des données, vous devez savoir des choses sur la façon dont les données a été généré pour déterminer la différence.
Scénario 3: Je prends un échantillon aléatoire simple de personnes vivant dans ma ville et je fais une enquête et j'analyse les résultats pour faire des inférences sur toutes les personnes dans la ville.
Scénario 4: Je prends un échantillon aléatoire simple de personnes vivant dans ma ville et je fais une enquête et j'analyse les résultats pour faire des déductions sur toutes les personnes dans le pays.
Dans le scénario 3, les sujets seraient considérés comme indépendants (simple échantillon aléatoire de la population d'intérêt), mais dans le scénario 4, ils ne seraient pas considérés comme indépendants parce qu'ils étaient sélectionnés dans un petit sous-ensemble de la population d'intérêt et la proximité géographique imposerait probablement dépendance. Mais les 2 jeux de données sont identiques, c'est la manière dont nous avons l'intention d'utiliser les données qui détermine s'ils sont indépendants ou dépendants dans ce cas.
Il n'y a donc aucun moyen de tester en utilisant uniquement les données pour montrer que les données sont IID, les tracés et autres diagnostics peuvent montrer certains types de non-IID, mais leur absence ne garantit pas que les données sont IID. Vous pouvez également comparer à des hypothèses spécifiques (IID normal est plus facile à réfuter que juste IID). Tout test n'est encore qu'une règle, mais le fait de ne pas rejeter les tests ne prouve jamais qu'il s'agit d'un IID.
Les décisions quant à savoir si vous êtes prêt à supposer que les conditions de l'IID sont respectées doivent être prises en fonction de la science de la façon dont les données ont été collectées, de leur lien avec d'autres informations et de la manière dont elles seront utilisées.
Modifications:
Voici un autre ensemble d'exemples de non-identiques.
Scénario 5: les données sont des résidus d'une régression où il y a hétéroscédasticité (les variances ne sont pas égales).
Scénario 6: les données proviennent d'un mélange de normales avec une moyenne de 0 mais des variances différentes.
Dans le scénario 5, nous pouvons clairement voir que les résidus ne sont pas distribués de manière identique si nous représentons les résidus par rapport aux valeurs ajustées ou à d'autres variables (prédicteurs ou prédicteurs potentiels), mais les résidus eux-mêmes (sans les informations externes) ne pourraient pas être distingués du scénario 6.