Supposons que vous ayez reçu des données d'un modèle de bloc aléatoire avec 4 répétitions et 23 traitements. Après une première inspection des données, vous constatez que pour 8 traitements toutes les répétitions sont identiques, ce qui est évidemment faux. Après avoir signalé le problème, vous êtes informé qu'il est dû à une confusion de la part du responsable des données, qui vous enverra ultérieurement la "version correcte" des données. La version corrigée des données ressemblerait à ceci:
Valeur du représentant de traitement A 1 5727.000 A 2 5400.000 A 3 5800.000 A 4 5473.000 B 1 4618.000 B 2 4844.000 B 3 4966.000 B 4 4496.000 ... Z 1 4329.345 Z 2 4597.275 Z 3 4833.246 Z 4 4199.098
La première chose qui attirerait mon attention dans ces données serait le fait que seuls les huit traitements pour lesquels le problème a été signalé n'avaient pas de fraction décimale (tous les traitements restants étant très bien). Je déciderais donc de les examiner de plus près et de soustraire chaque observation de sa moyenne d'échantillon dans les traitements, en trouvant quelque chose comme
Traitement Rep Value Delta A 1 5727.000 +127 A 2 5400.000 -200 A 3 5800.000 +200 A 4 5473.000 -127 B 1 4618.000 -113 B 2 4844.000 +113 B 3 4966.000 +235 B 4 4496.000 -235 ... Z 1 4329.345 ... Z 2 4597.275 ... Z 3 4833.246 ... Z 4 4199.098 ...
Après avoir constaté que les différences sont symétriques par rapport à la moyenne, j'appellerais immédiatement la personne responsable du projet et signalerais le problème. Bien sûr, je renoncerais également à travailler sur ce projet.
Bien que les preuves soient assez convaincantes, il serait bon d'attacher une probabilité au rapport, juste pour donner une idée de la qualité de ces données. J'aurais donc pensé à quelque chose comme ce qui suit et j'aimerais savoir s'il y aurait un défaut dans mon raisonnement:
Disons que si les données étaient légitimes, il serait raisonnable de supposer la normalité pour ce type de données, sur la base de l'expérience tirée de l'analyse précédente de ce type de données.
Définissons donc 4 iid variables aléatoires normales pour chacune des quatre répétitions de chaque traitement:
L'inégalité est tout simplement parce que je ne veux pas supprimer l'intersection.
Si nous définissons la variable aléatoire Y comme suit:
Il en résulte:
Disons qu'à partir des résidus du modèle avec ces données, j'ai estimé la comme 350. À partir de cela, j'utiliserais le CDF de y pour calculer la probabilité que Y tombe entre -0,5 et 0,5, ce qui serait P (A) = 0,0005699175
pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)
Ainsi, la probabilité de S serait:
Parce qu'il n'y aurait pas d'effet de bloc clair et que les données proviendraient d'une expérience randomisée, il serait raisonnable de supposer une indépendance statistique. Supposons que sur 8 traitements suspects, 3 avaient cette symétrie. Ensuite, en supposant l'indépendance, nous pourrions calculer la probabilité d'un tel événement (appelons-le D) à partir d'une distribution binomiale:
D: 3 des 8 traitements ont une symétrie des observations autour de la moyenne de l'échantillon.
Je ne suis pas statisticien, j'aimerais donc savoir s'il y a un défaut dans ce raisonnement et si vous déclareriez également les données comme frauduleuses.