Une méthode pour réduire la prudence de certaines statistiques de test discrètes
(ou plus généralement, obtenir simplement plus de choix de niveau de signification)
Selon le test, une approche parfois utile qui ne nécessite pas de randomisation consiste à ajouter une infime fraction d'une autre statistique raisonnable pour rompre les liens.
Par exemple, imaginez que nous testions le tau de Kendall, mais dans des échantillons de petite à moyenne taille, il est encore assez discret, il est donc difficile d'atteindre un niveau de signification souhaité.
Pour être concret, disons que vous voulez un niveau proche de α = 10 % sur un test bilatéral, avec n = 7.
Les niveaux de signification réalisables sont de 6,9% ou 13,6%; ni l'un ni l'autre n'est très proche de ce qui est nécessaire!
Une chose que nous pourrions faire est d'ajouter une infime fraction d'une statistique différente, qui n'est pas parfaitement corrélée avec celle que nous avons; cela signifie que de nombreux accords qui fournissaient des statistiques qui étaient auparavant liées ne le sont plus, même si leurs valeurs sont proches.
Par exemple, si nous utilisons le rho de Spearman pour rompre les liens, par exemple en regardant 0,999 τ+ 0,001 ρ, les valeurs sont presque identiques à celles d'avant, mais les niveaux de signification réalisables sont désormais de 8,9% et 10,9% - pas parfaits , mais bien meilleurs qu'auparavant - et dans ce cas, la statistique est toujours sans distribution.
Notez que le poids sur ρ peut être fait aussi petit que souhaité.
Voici une illustration - le noir est l'ECDF de la corrélation originale de Kendall, tandis que le rouge est la version «rompre les liens». J'ai rendu la contribution relative du Spearman beaucoup plus importante ici (un poids de 0,1) afin que vous puissiez voir l'effet plus clairement:
Zoomons sur la région près du niveau de 2,5% et 5% à l'extrémité gauche (une queue, pour correspondre à 5% et 10% à deux queues):
Comme nous le voyons, nous pouvons ainsi nous rapprocher beaucoup plus du niveau de signification souhaité, tout en conservant à peu près toutes les autres propriétés souhaitables, quel que soit le degré de proximité souhaité.
Il existe différents ajustements pour rendre le résultat encore plus semblable à Kendall (par exemple, pour le configurer de sorte que l'attente du petit ajustement de la corrélation de Kendall à chaque corrélation de Kendall soit nulle, mais c'est rarement un problème pour moi).
[Si vous ne savez vraiment pas lequel de Kendall et Spearman vous souhaitez utiliser pour une corrélation non paramétrique, un mixage plus uniforme a une distribution beaucoup plus normale (bien que ce soit un peu difficile de calculer sa variance si vous ne le faites pas déterminer la distribution exacte - une caractéristique intéressante de l'utilisation d'une version avec presque toutes les statistiques est que vous pouvez utiliser une approximation normale existante plus facilement, même si ce n'est pas une distribution aussi agréable).]
Cette même approche pour obtenir des niveaux de signification «plus agréables» (et des valeurs de p) peut fonctionner avec d'autres tests; Je l'ai vu utilisé avec un test de signe (rompre les liens avec une statistique de rang signé correctement redimensionnée) par exemple.