Y a-t-il des utilisations contemporaines du jackknifing?

La question: Bootstrapping est supérieur au jackknifing; cependant, je me demande s'il existe des cas où le jackknifing est la seule ou au moins une option viable pour caractériser l'incertitude à partir des estimations des paramètres. De plus, dans des situations pratiques, dans quelle mesure le jackknifing est-il biaisé / imprécis par rapport au bootstrapping, et les résultats du jackknife peuvent-ils fournir des informations préliminaires avant qu'un bootstrap plus compliqué ne soit développé?

Contexte: un ami utilise un algorithme d'apprentissage automatique à boîte noire ( MaxEnt ) pour classer les données géographiques qui sont «présence uniquement» ou «positives uniquement». L'évaluation générale du modèle est généralement effectuée à l'aide de la validation croisée et des courbes ROC. Cependant, elle utilise la sortie du modèle pour dériver une description numérique unique de la sortie du modèle et souhaite un intervalle de confiance autour de ce nombre; Le jackknifing semble être un moyen raisonnable de caractériser l'incertitude autour de cette valeur. L'amorçage ne semble pas pertinent car chaque point de données est un emplacement unique sur une carte qui ne peut pas être rééchantillonné avec remplacement. Le programme de modélisation lui-même pourrait éventuellement fournir ce dont elle a besoin; cependant, je m'intéresse en général si / quand le jackknifing peut être utile.

— N Brouwer
source

De telles applications de cartographie - faire des estimations à partir d'emplacements échantillonnés discrets - sont précisément celles où j'ai noté une utilisation intensive du jackknifing, pour la raison que vous donnez. Il s'agit d'une procédure standard entreprise préalablement à l'exécution du krigeage, par exemple.

— whuber

Dans certains paramètres d'échantillon bas, parce que l'amorçage de l'échantillon avec remplacement, la matrice de données entière peut devenir singulière, de sorte que de nombreux modèles sont impossibles à ajuster.

— rep_ho

Si vous prenez le jackknifing non seulement pour inclure le laisser-passer, mais pour tout type de rééchantillonnage sans remplacement tel que les procédures fold, je considère que c'est une option viable et je l'utilise régulièrement, par exemple dans Beleites et al. : Classement spectroscopique Raman des tissus des astrocytomes: utilisation d'informations de référence souples. Anal Bioanal Chem, 2011, 400, 2801-2816 $k$

voir aussi: Intervalle de confiance pour une précision de classification validée de façon croisée

J'évite LOO pour plusieurs raisons et utilise à la place un schéma de pli itéré / répété . Dans mon domaine (chimie / spectroscopie / chimiométrie), la validation croisée est beaucoup plus courante que la validation hors bootstrap. Pour nos données / applications typcial nous avons constaté que fois itéré -fold validation croisée et itérations de hors-bootstrap estimations de performance ont erreur totale très similaire [Beleites et al. : Réduction de la variance dans l'estimation de l'erreur de classification à l'aide d'ensembles de données clairsemés. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] . $k$ $i$ $k$ $i \cdot k$

L'avantage particulier que je vois en examinant les schémas de validation croisée itérative par rapport au bootstrap est que je peux très facilement dériver des mesures d'incertitude de stabilité / modèle qui peuvent être expliquées intuitivement, et il a séparé deux causes différentes d'incertitude de variance dans la mesure de performance qui sont plus entrelacées dans mesures hors bootstrap.
Un raisonnement qui m'amène à la validation croisée / jackknifing consiste à examiner la robustesse du modèle: la validation croisée correspond plutôt directement aux questions du type "Qu'arrive-t-il à mon modèle si j'échange cas pour nouveaux cas?" $x$ $x$ ou "Quelle est la robustesse de mon modèle contre la perturbation des données d'entraînement en échangeant cas?" $x$ C'est également applicable au bootstrap, mais moins directement.

Notez que je n'essaie pas de dériver des intervalles de confiance, car mes données sont intrinsèquement regroupées ( spectres de patients), donc je préfère rapporter $n_s$ $n_p \ll n_s$

un intervalle de confiance binomial (conservateur) utilisant la performance moyenne observée et comme taille d'échantillon et $n_p$
la variance que j'observe entre les itérations de la validation croisée. Après plis, chaque cas est testé exactement une fois, mais par différents modèles de substitution. Ainsi, tout type de variation observée entre les passages doit être causé par l'instabilité du modèle. $i$ $k$ $i$

En règle générale, c'est-à-dire si le modèle est bien configuré, il suffit de 2. pour montrer qu'il est beaucoup plus petit que la variance en 1. et que le modèle est donc raisonnablement stable. Si 2. se révèle non négligeable, il est temps d'envisager des modèles agrégés: l'agrégation de modèles n'aide que pour la variance causée par l'instabilité du modèle, elle ne peut pas réduire l'incertitude de variance dans la mesure des performances due au nombre fini de cas de test .

Notez que pour construire des intervalles de confiance de performance pour de telles données, je considérerais au moins que la variance observée entre les exécutions de la validation croisée est de la moyenne des modèles de cette instabilité, c'est-à-dire je dirais la variance d'instabilité du modèle est la variance observée entre les essais de validation croisée; plus la variance due au nombre de cas fini - pour les mesures de performance de classification (hit / error), il s'agit d'un binôme. Pour les mesures continues, j'essaierais de dériver la variance à partir de la variance du cycle de validation croisée, , et l'estimation de la variance de type instabilité pour les modèles dérivés de la $i$ $k$ $k \cdot$ $k$ $k$

L' avantage de la validation croisée ici est que vous obtenez une séparation claire entre l'incertitude causée par l'instabilité du modèle et l'incertitude causée par le nombre fini de cas de test. L' inconvénient correspondant est bien sûr que si vous oubliez de prendre en compte le nombre fini de cas réels, vous sous-estimerez gravement la véritable incertitude. Cependant, cela se produirait également pour le démarrage (bien que dans une moindre mesure).

Jusqu'à présent, les concentrés de raisonnement sur la mesure de la performance pour le modèle que vous dérivez une donnée ensemble de données. Si vous considérez un ensemble de données pour l'application donnée et de la taille d'échantillon donnée, il y a une troisième contribution à la variance qui ne peut fondamentalement pas être mesurée par la validation de rééchantillonnage, voir par exemple Bengio & Grandvalet: Pas d'estimateur impartial de la variance de la croix pliée en K -Validation, Journal of Machine Learning Research, 5, 1089-1105 (2004). , nous avons également des chiffres montrant ces trois contributions dans Beleites et al. : Sample size planning for classification models., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Je pense que ce qui se passe ici est le résultat de l'hypothèse selon laquelle le rééchantillonnage est similaire au dessin d'un nouvel échantillon complet en panne.

Ceci est important si les algorithmes / stratégies / heuristiques de construction de modèles doivent être comparés plutôt que de construire un modèle particulier pour l'application et de valider ce modèle.

— cbeleites mécontents de SX
source