Quel problème les méthodes de rétrécissement résolvent-elles?


61

La saison des vacances m'a donné l'occasion de m'installer près du feu avec Les éléments d'apprentissage statistique . Venant d’une perspective économétrique (fréquentiste), j’ai du mal à comprendre les utilisations de méthodes de réduction telles que la régression de crête, le lasso et la régression du moindre angle (LAR). En règle générale, je m'intéresse aux paramètres eux-mêmes et à l'atteinte d'un objectif impartial ou du moins d'une cohérence. Les méthodes de retrait ne font pas cela.

Il me semble que ces méthodes sont utilisées lorsque le statisticien craint que la fonction de régression ne soit trop réactive aux prédicteurs, qu’il considère que les prédicteurs sont plus importants (mesurés par l’ampleur des coefficients) qu’ils ne le sont réellement. En d'autres termes, overfitting.

Mais les MCO fournissent généralement des estimations non biaisées et cohérentes (note de bas de page). ESL mentionne ce dernier point).

Les estimations de coefficient non biaisées / cohérentes conduisent à des prédictions non biaisées / cohérentes du résultat. Les méthodes de réduction ramènent les prédictions plus près du résultat moyen que ne le ferait MCO, laissant apparemment des informations sur la table.

Je le répète, je ne vois pas quel problème les méthodes de réduction cherchent à résoudre. Est-ce que je manque quelque chose?

Note de bas de page: Nous avons besoin de la condition de rang de colonne complète pour l'identification des coefficients. L'hypothèse exogénéité / moyenne conditionnelle zéro pour les erreurs et l'hypothèse de l'espérance conditionnelle linéaire déterminent l'interprétation que nous pouvons donner aux coefficients, mais nous obtenons une estimation non biaisée ou cohérente de quelque chose même si ces hypothèses sont fausses.


1
Il y a plusieurs questions liées ici. En voici
cardinal

2
Notez qu'il existe des conditions simples et assez faibles sur le choix du paramètre de retrait pour atteindre la cohérence du paramètre. Ceci est détaillé dans le célèbre document Knight & Fu (2000) et dans des cas bien au-delà de la régression de crête et du lasso. La cohérence de la sélection des modèles est également devenue un sujet de prédilection au cours des dernières années.
cardinal

@ cardinal, merci pour les pointeurs permettant de modéliser les résultats de cohérence pour le lasso; Je vais regarder. Bien entendu, ces résultats peuvent également être trouvés pour MCO. Les résultats impliquent que les deux procédures se retrouvent au même endroit. Je ne comprends donc toujours pas pourquoi nous utiliserions le lasso au-dessus de l’OLS.
Charlie

1
La cohérence du modèle est un concept différent de la cohérence asymptotique des estimations de paramètres. Êtes-vous au courant de (familier avec) cette différence?
Cardinal

@ cardinal, Par cohérence du modèle, je suppose que vous voulez dire que les prédicteurs corrects sont inclus. Nous pouvons obtenir cela en utilisant le critère AIC dans le processus de sélection en utilisant MCO. Je suppose que vous sous-entendez que, dans la limite, Lasso sélectionne le bon modèle avec de "mauvais" coefficients?
Charlie

Réponses:


47

Je suppose que vous voulez une réponse plus profonde, et je devrai laisser quelqu'un d'autre vous le fournir, mais je peux vous donner quelques réflexions sur la régression de crête d'un point de vue conceptuel vague.

La régression OLS donne des estimations de paramètres non biaisées (c'est-à-dire que si de tels échantillons sont rassemblés et que les paramètres sont estimés indéfiniment, la distribution d'échantillonnage des estimations de paramètres sera centrée sur la valeur vraie). De plus, la distribution d'échantillonnage présentera la variance la plus faible de toutes les estimations non biaisées possibles (cela signifie qu'en moyenne, une estimation du paramètre MLS sera plus proche de la valeur réelle qu'une estimation issue d'une autre procédure d'estimation non biaisée). C'est une vieille nouvelle (et je m'excuse, je sais que vous le savez bien), cependant, le fait que la variance soit inférieure ne signifie pas qu'elle soit terriblement faible. Dans certaines circonstances, la variance de la distribution d’échantillonnage peut être si importante que l’estimateur MCO est pratiquement sans valeur. (Il peut arriver que cela se produise lorsqu'il existe un degré élevé de multicolinéarité.)

Que faut-il faire dans une telle situation? Eh bien, on pourrait trouver un estimateur différent qui présente une variance inférieure (bien que, évidemment, il doit être biaisé, compte tenu de ce qui a été stipulé ci-dessus). En d’autres termes, nous négocions l’impartialité pour une variance inférieure. Par exemple, nous obtenons des estimations de paramètres qui seront probablement beaucoup plus proches de la valeur réelle, même si elles sont probablement un peu inférieures à la valeur réelle. Que ce compromis en vaille la peine est un jugement que l’analyste doit prendre face à cette situation. En tout état de cause, la régression de crête est une telle technique. La figure suivante (entièrement fabriquée) est destinée à illustrer ces idées.

entrez la description de l'image ici

Ceci fournit une introduction brève, simple et conceptuelle à la régression de crête. Je connais moins le lasso et le LAR, mais je pense que les mêmes idées pourraient être appliquées. Pour plus d’informations sur le lasso et la régression par le moindre angle , cliquez ici , le lien "Explication simple ..." est particulièrement utile. Cela fournit beaucoup plus d'informations sur les méthodes de réduction.

J'espère que cela a une certaine valeur.


12
Cela donne de bons conseils conceptuels. Dans le deuxième paragraphe, l'accent est mis sur l'impartialité, mais une mise en garde importante manque. À moins que (a) le modèle linéaire ne soit "correct" (et quand?) Et (b) que tous les prédicteurs pertinents soient inclus dans le modèle, les estimations des coefficients seront toujours biaisées, en général.
cardinal

5
Ma compréhension limitée du compromis biais / variance est que quelqu'un cherchant une explication (comme peut-être l'affiche originale) préférerait être impartial, même si la variance était plus grande, mais que quelqu'un faisant une prévision pourrait bien préférer une chose avec une faible variance, même si un biais est introduit.
Wayne

2
@Wayne: En effet, il s’agit du (des) problème (s) essentiel (s). Une grande partie du point de vue d'ESL provient d'une perspective de prédiction, ce qui colore une grande partie de leur analyse. Effectuer une inférence sur un seul coefficient, en particulier dans un contexte d'observation, est une question très glissante. Il serait très convaincant de prétendre que les estimations des coefficients sont vraiment "non biaisées".
Cardinal

1
Avec le temps, je pourrais essayer d’étoffer un peu plus tard mes commentaires déjà trop volumineux.
cardinal

@gung, voici un fil méta qui pourrait vous intéresser.
Richard Hardy

16

L'erreur d'un estimateur est une combinaison de composantes de biais et de variance (au carré) . Cependant, dans la pratique, nous voulons adapter un modèle à un échantillon limité de données et minimiser l'erreur totale de l'estimateur évalué sur l'échantillon de données dont nous disposons réellement , plutôt qu'une erreur nulle en moyenne sur une population d'échantillons donnée. (que nous n'avons pas). Nous voulons donc réduire à la fois le biais et la variance, afin de minimiser l’erreur, ce qui signifie souvent qu’il faut sacrifier l’impartialité pour réduire davantage la composante de variance. Cela est particulièrement vrai lorsqu'il s'agit de petits ensembles de données, où la variance est susceptible d'être importante.

Je pense que la différence de focalisation dépend de l’intérêt porté aux propriétés d’une procédure ou de l’obtention des meilleurs résultats sur un échantillon particulier. Les fréquentistes trouvent généralement le premier plus facile à traiter dans ce cadre; Les Bayésiens sont souvent plus concentrés sur ces derniers.


9

Je suppose que quelques réponses peuvent être applicables:

  • La régression de crête peut fournir une identification lorsque la matrice de prédicteurs n’est pas un rang de colonne complet.
  • Lasso et LAR peuvent être utilisés lorsque le nombre de prédicteurs est supérieur au nombre d'observations (autre variante de la question non singulière).
  • Lasso et LAR sont des algorithmes automatiques de sélection de variables.

Je ne suis pas sûr que le premier point concernant la régression de crête est vraiment une caractéristique; Je pense que je préférerais changer de modèle pour traiter de la non-identification. Même sans changement de modélisation, MCO fournit des prédictions uniques (et non biaisées / cohérentes) du résultat dans ce cas.

Je pourrais voir comment le deuxième point pourrait être utile, mais la sélection en aval peut également fonctionner dans le cas où le nombre de paramètres dépasse le nombre d'observations tout en produisant des estimations non biaisées / cohérentes.

Sur le dernier point, la sélection en avant / en arrière, à titre d’exemples, est facilement automatisée.

Donc, je ne vois toujours pas les avantages réels.


6
Quelques remarques: ( 1 ) Les estimations MCO ne sont pas uniques lorsque la matrice des prédicteurs n’est pas au rang complet. ( 2 ) La cohérence est un concept asymptotique et nécessite donc une séquence d'estimateurs. Cela signifie que vous devez définir le type de séquence que vous envisagez, et le type de croissance que vous êtes intéressé par le fait affaire. ( 3 ) Il existe plusieurs types de cohérence et la compréhension des différences entre eux peut être illustrative. Le document de Zhao & Yu (2006) a une discussion intéressante. ( 4 ) L'impartialité est surestimée.
Cardinal

1
( 5 ) Dans Hoerl & Kennard (1970), la régression de la crête avait initialement pour but de traiter des matrices de conception mal conditionnées, qui constituent une forme "modérée" de déficit en grades.
Cardinal

1
@ cardinal, re. (1): Désolé, je voulais dire des prédictions du résultat plutôt que des estimations des coefficients.
Charlie

1
Ah ok. Cela correspond mieux à votre note de bas de page dans la question.
Cardinal

Voici un lien vers la version publique de Zhao & Yu (2006), comme dans le commentaire ci-dessus.
Richard Hardy

4

Voici un exemple de base appliqué de Biostatistics

Supposons que j'étudie les relations possibles entre la présence d'un cancer de l'ovaire et un ensemble de gènes.

Ma variable dépendante est un binaire (codé comme un zéro ou un 1). Mes variables indépendantes codent les données d'une base de données protéomique.

Comme il est courant dans de nombreuses études de génétique, mes données sont beaucoup plus larges que hautes. J'ai 216 observations différentes, mais environ 4000 prédicteurs possibles.

La régression linéaire est terminée (le système est horrible et déterminé).

les techniques de sélection des fonctionnalités ne sont vraiment pas réalisables. Avec plus de 4 000 variables indépendantes différentes, toutes les techniques de sous-ensemble possibles sont complètement hors de question et même la sélection séquentielle de caractéristiques est douteuse.

La meilleure option consiste probablement à utiliser la régression logistique avec un réseau élastique.

Je souhaite effectuer une sélection de fonctionnalités (identifier les variables indépendantes importantes), de sorte que la régression de type Ridge ne convient pas vraiment.

Il est tout à fait possible que plus de 216 variables indépendantes aient une influence significative. Je ne devrais donc probablement pas utiliser de lasso (Lasso ne peut pas identifier plus de prédicteurs que vous n'en avez d'observations) ...

Entrez le filet élastique ...


1
Pourriez-vous fournir un manuel traitant des situations que vous avez mentionnées?
Qbik

0

Un autre problème que peuvent résoudre les méthodes de réduction de la régression linéaire consiste à obtenir une estimation à faible variance (éventuellement non biaisée) d'un effet de traitement moyen (ATE) dans des études cas-témoins de grande dimension basées sur des données d'observation.

Plus précisément, dans les cas où 1) il existe un grand nombre de variables (rendant difficile la sélection de variables pour une correspondance exacte), 2) la correspondance du score de propension ne parvient pas à éliminer le déséquilibre dans les échantillons de traitement et de contrôle et 3) une multicolinéarité est présente, Plusieurs techniques, telles que le lasso adaptatif (Zou, 2006), permettent d’obtenir des estimations asymptotiquement non biaisées. Plusieurs articles ont traité de l'utilisation de la régression de lasso pour l'inférence causale et de la génération d'intervalles de confiance dans les estimations de coefficients (voir l'article suivant: Inférence après l'utilisation de Lasso pour la sélection de variables ).

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.