Nom du «remaniement» (permutation aléatoire de l'ensemble de données pour estimer le biais d'un estimateur)

Connaissez-vous une référence ou un nom pour la façon suivante de rechercher si une technique de modélisation complexe $T$ est biaisé?

Appliquez à l'ensemble de données d'origine. Mesurer ses performances (par exemple, R au carré dans le cadre de la régression). $T$
Permutez au hasard la variable de réponse pour obtenir un nouvel ensemble de données. Appliquer et mesurer sa performance . [Si les observations sont dépendantes, cette étape est plus compliquée.] $T$ $P'$

Si est sensiblement différent d'une performance nulle, nous concluons que est biaisé. $P'$ $T$

L'étape 2 peut être répétée si les ressources le permettent, ce qui entraînerait la distribution nulle de permutation de la mesure de performance. Mais dans mon application, je ne peux pas le faire en raison de problèmes de ressources.

Je me souviens sombrement que cette astuce de "remaniement" a été utilisée par quelqu'un pour enquêter sur le parti pris de la validation croisée avec oubli (dans certains contextes). Je ne sais pas, cependant, s'il était dans ma situation où il pourrait répéter tout le processus une seule fois.

Un exemple en R qui montre la "puissance" de la sélection naïve en arrière:

# Generate random data set. Only random performance is expected.
n <- 100
p <- 30

set.seed(7567)
y <- rnorm(n)
X <- rnorm(n*p)
dim(X) <- c(n, p)
data <- data.frame(y, X)

# Modelling technique: backward selection with OLS
T <- function(data) {
  step(lm(y ~ ., data = data), trace = 0)
}

# Performance: R-squared
P <- function(fit) {
  summary(fit)$r.squared
}

# Step 1: Compute performance on original data. Happily publish high R-squared...
P(T(data)) # 0.240405

# Step 2: Your mean colleague reshuffles response and gets also R-squared far away from 0
data$y <- data$y[sample(n)]
P(T(data)) # 0.1925726

Conclusion sur l'exemple: La technique de modélisation choisie est extrêmement sujette au sur-ajustement, au moins dans ce contexte spécifique.

Quelques antécédents

J'ai déjà utilisé cette astuce de remaniement pour vérifier si la validation croisée d'un processus de modélisation fastidieux a été correctement mise en œuvre par moi. Sous une permutation aléatoire, CV a donné un R au carré essentiellement de 0 (comme prévu / souhaité).

— Michael M
source

Cette question semble très pertinente: stats.stackexchange.com/questions/192291/… et la référence qui y est citée.

— Flounderer

Bonne recherche @Flounderer, j'ai ajouté le lien vers cette question à ma réponse pour ceux qui veulent plus de lecture (et peut-être obtenir la réponse d'amibe certaines des notes positives qu'elle mérite)

— IWS

Réponses:

Pour répondre à la question dans le titre, AFAIK, cela s'appelle un test de permutation . Si c'est bien ce que vous recherchez, cela ne fonctionne pas comme décrit dans la question.

Pour être (un peu) concis: le test de permutation fonctionne en effet en mélangeant l'une des «colonnes» et en effectuant le test ou le calcul d'intérêt. Cependant, l'astuce consiste à le faire plusieurs fois , en mélangeant les données à chaque fois. Dans de petits ensembles de données, il pourrait même être possible d'effectuer toutes les permutations possibles. Dans les grands ensembles de données, vous effectuez généralement une quantité de permutation que votre ordinateur peut gérer, mais qui est suffisamment grande pour obtenir une distribution de la statistique d'intérêt .

Enfin, vous utilisez cette distribution pour vérifier si, par exemple, la différence moyenne entre deux groupes est> 0 dans 95% de la distribution. En termes simples, cette dernière étape de vérification de la partie de la distribution qui est au-dessus / en dessous d'une certaine valeur critique est la «valeur p» pour votre test d'hypothèse.

Si cela est très différent de la valeur de p dans l'échantillon d'origine, je ne dirais pas qu'il y a un problème avec le test / la statistique d'intérêt, mais plutôt votre échantillon contenant certains points de données qui influencent spécifiquement le résultat du test. Il peut s'agir d'un biais (biais de sélection dû à l'inclusion de certains cas étranges; erreur de mesure dans des cas spécifiques, etc.), ou d'une utilisation incorrecte du test (par exemple, hypothèses non respectées).

Voir https://en.wikipedia.org/wiki/Resampling_(statistics) pour plus de détails

De plus, voir la réponse de @amoeba à cette question Si vous voulez en savoir plus sur la façon de combiner les tests de permutation avec la sélection des variables.

— IWS
source

C'est donc comme un test de permutation avec une seule permutation (car

T

$T$ par exemple, fonctionne pendant 10 jours) et en mettant l'accent sur la distribution nulle de la statistique de performance (au lieu des valeurs de p)?

— Michael M

La force des tests de permutation (et des méthodes de rééchantillonnage) réside dans la distribution des statistiques de test que vous obtenez. Pour reformuler cela, l'obtention de la distribution est obligatoire pour le test. Vous comprendrez que si vous ne faites cela qu'une seule fois ou seulement quelques fois, vous ne pouvez pas former une distribution appropriée de ces résultats. Si la modélisation

T

$T$ une fois qu'il faut 10 jours d'exécution, les tests de permutation appropriés prendraient en effet des âges. Peut-être que la validation croisée en.wikipedia.org/wiki/Cross-validation_(statistics) est plus applicable?

— IWS

@MichaelM Le test de permutation et le test de randomisation sont le même test. Si la statistique prend beaucoup de temps à calculer, le test de permutation prendra très longtemps à s'exécuter.

— AdamO

@AdamO: Entièrement d'accord sur le calendrier. Mais la technique ne consiste pas du tout à tester une hypothèse. Il s'agit d'estimer un biais (qui irait davantage dans le sens d'une application bootstrap). Mais c'est la raison pour laquelle j'ai posé la question!

— Michael M

J'ai finalement trouvé la réponse dans le livre de Frank Harrell "Stratégies de modélisation de régression" [1] à la section 5.2.4 (Améliorations du fractionnement des données: rééchantillonnage).

"La méthode de randomisation" est présentée comme une méthode intéressante pour estimer l'optimisme à travers des permutations aléatoires de la réponse, notamment en combinaison avec la sélection de variables (comme dans l'exemple du PO).

Il se réfère, entre autres, à [2] pour des idées connexes.

La méthode est très simple: disons que votre stratégie de modélisation compliquée implique une sélection en avant / en arrière (et latéralement) et que votre ensemble de données est trop petit pour avoir une répartition propre train / validation / test. En outre, vous pourriez ne pas faire entièrement confiance à la validation croisée, car cela signifie toujours de supprimer une certaine proportion des données dans le pli. Comment pouvez-vous juger si votre R au carré de 0,7 est valide ou s'il résulte principalement d'un sur-ajustement? La méthode de randomisation fonctionne comme suit (ici, nous parlons de R au carré, mais cela peut être n'importe quelle mesure de performance d'intérêt). Si votre stratégie n'est pas biaisée, vous vous attendez à ce que le R au carré soit proche de 0 s'il est répété sur un ensemble de données avec une variable de réponse permutée de manière aléatoire. Disons que vous obtenez un R-carré moyen de 0,6 au lieu de 0 après 20 permutations. Vous savez donc que le R-carré d'origine de 0. 7 n'est probablement pas beaucoup plus que le résultat d'un sur-ajustement. Une estimation plus honnête du "vrai" R au carré serait de 0,7-0,6 = 0,1 (petit). Vous avez donc montré à quel point votre stratégie est inadaptée.

Avantages de la méthode

Très simple
Vous utilisez toujours l'ensemble de données complet

Les inconvénients incluent

L'estimation de l'optimisme ne semble pas très précise
La méthode n'est pas bien connue contrairement à la validation croisée ou à la validation bootstrap.

[1] Frank Harrell, "Stratégies de modélisation de la régression", 2001. Springer.

[2] R. Tibshirani et K. Knight. Le critère d'inflation de covariance pour la sélection de modèles adaptatifs. JRSS B, 61: 529-546, 1999.

— Michael M
source

+1 Intéressant, il semble que j'ai manqué cette méthode, tout en appréciant les votes positifs pour ma réponse sur une explication générale des méthodes de rééchantillonnage. Si vous pouviez élaborer cette réponse avec le fonctionnement de cette méthode de permutation unique, ce serait formidable.

— IWS

Inutile de s'excuser! Vos réponses sont toujours les bienvenues. Il n'y a en fait pas grand-chose à élaborer, mais j'ai ajouté quelques informations à la réponse.

— Michael M

Sur la base de lectures supplémentaires, j'ai modifié la réponse pour souligner que, contrairement à mon OP, généralement quelques permutations sont exécutées pour calculer l'optimisme avec suffisamment de précision.

— Michael M

Voici une publication récente sur la technique: arxiv.org/abs/1801.01489

— Michael M