J'essaie de séparer deux groupes de valeurs d'un même ensemble de données. Je peux supposer que l'une des populations est normalement distribuée et représente au moins la moitié de la taille de l'échantillon. Les valeurs du second sont à la fois inférieures ou supérieures aux valeurs du premier (la distribution est inconnue). Ce que j'essaie de faire, c'est de trouver les limites supérieure et inférieure qui enfermeraient la population normalement répartie de l'autre.
Mon hypothèse me fournit un point de départ:
- tous les points dans l'intervalle interquartile de l'échantillon proviennent de la population normalement distribuée.
J'essaie de tester les valeurs aberrantes en les tirant du reste de l'échantillon jusqu'à ce qu'elles ne rentrent pas dans le 3 e rang de la population normalement distribuée. Ce qui n'est pas idéal, mais semble produire un résultat assez raisonnable.
Mon hypothèse est-elle statistiquement valable? Quelle serait la meilleure façon de procéder?
ps veuillez corriger les balises quelqu'un.