Qu'est-ce qu'un test statistique robuste? Qu'est-ce qu'un puissant test statistique?

Certains tests statistiques sont robustes et d'autres non. Que signifie exactement la robustesse? Étonnamment, je n'ai pas pu trouver une telle question sur ce site.

De plus, parfois, la robustesse et la puissance d'un test sont discutées ensemble. Et intuitivement, je ne pouvais pas différencier les deux concepts. Qu'est-ce qu'un test puissant? En quoi est-il différent d'un test statistique robuste?

statistical-significance power robust

— Décalage horaire
source

La puissance et la robustesse sont des concepts orthogonaux, même si ce sont deux propriétés importantes d'un test. Il me semble qu'il vaudrait mieux poser deux questions distinctes.

— Stephan Kolassa

Nous pourrions dire que la robustesse est la propriété d'une procédure adaptée qui est insensible aux violations de certaines hypothèses de sa théorie fondamentale.

— Firebug

La robustesse a différentes significations dans les statistiques, mais toutes impliquent une certaine résilience aux changements dans le type de données utilisées. Cela peut sembler un peu ambigu, mais c'est parce que la robustesse peut se référer à différents types d'insensibilités aux changements. Par exemple:

Robustesse aux valeurs aberrantes
Robustesse à la non-normalité
Robustesse à la variance non constante (ou hétéroscédasticité)

Dans le cas des tests , la robustesse se réfère généralement au test toujours valide étant donné un tel changement. En d'autres termes, que le résultat soit significatif ou non n'est significatif que si les hypothèses du test sont remplies. Lorsque ces hypothèses sont assouplies (c'est-à-dire moins importantes), le test est réputé robuste.

La puissance d'un test est sa capacité à détecter une différence significative s'il y a une vraie différence. La raison pour laquelle des tests et des modèles spécifiques sont utilisés avec diverses hypothèses est que ces hypothèses simplifient le problème (par exemple, nécessitent moins de paramètres pour être estimées). Plus un test fait d'hypothèses, moins il est robuste, car toutes ces hypothèses doivent être remplies pour que le test soit valide.

En revanche, un test avec moins d'hypothèses est plus robuste. Cependant, la robustesse se fait généralement au détriment de la puissance, car soit moins d'informations provenant de l'entrée sont utilisées, soit plus de paramètres doivent être estimés.

Robuste
Un test pourrait être considéré comme robuste, car bien qu'il suppose des groupes normalement distribués, il reste un test valable pour comparer des groupes approximativement normalement distribués. $t$

Un test de Wilcoxon est moins puissant lorsque les hypothèses du test sont remplies, mais il est plus robuste, car il ne suppose pas de distribution sous-jacente et est donc valable pour les données non normales. Sa puissance est généralement plus faible car elle utilise les rangs des données plutôt que les numéros d'origine et rejette donc essentiellement certaines informations. $t$

Non robuste
Un test est une comparaison des variances, mais il est très sensible à la non-normalité et donc invalide pour la normalité approximative. En d'autres termes, le test n'est pas robuste. $F$ $F$

— Frans Rodenburg
source

Votre réponse est très claire et facile à comprendre. J'ai édité par question pour demander plus si un test est powerfulcomme je vois que vous en avez discuté dans votre réponse. Pourriez-vous expliquer ce que signifie un test puissant?

— JetLag

J'ai inclus une brève description de la façon dont cela se rapporte à la puissance d'un test.

— Frans Rodenburg

C'est une excellente réponse, je veux juste ajouter qu'il existe des moyens de formaliser la définition. Certains considèrent qu'un test est robuste s'il a à la fois la robustesse de la validité , c'est-à-dire que le niveau de signification du test est stable compte tenu des petits écarts par rapport au zéro et la robustesse de l'efficacité , c'est-à-dire que la puissance est toujours bonne compte tenu des petits écarts par rapport à l'alternative spécifiée; et ces qualités peuvent être quantifiées grâce à l'utilisation de fonctions d'influence .

— Francis

@Eric, l'équivalence n'est-elle pas vraie uniquement pour deux groupes?

— Sextus Empiricus

@eric_kernfeld Je pense que Frans fait référence à l'utilisation de pour comparer les variances et non à son utilisation dans l'ANOVA.

F

$F$

— mdewey

Il n'y a pas de définition formelle de "test statistique robuste", mais il y a une sorte d'accord général sur ce que cela signifie. Le site Wikipedia a une bonne définition de cela (en termes de statistiques plutôt que de test lui-même):

Les statistiques robustes sont des statistiques avec de bonnes performances pour les données tirées d'un large éventail de distributions de probabilité, en particulier pour les distributions qui ne sont pas normales.

https://en.wikipedia.org/wiki/Robust_statistics

— Rob Ustinov
source