La méthodologie de la forêt aléatoire peut-elle être appliquée aux régressions linéaires?


14

Les forêts aléatoires fonctionnent en créant un ensemble d'arbres de décision où chaque arbre est créé en utilisant un échantillon bootstrap des données de formation d'origine (échantillon à la fois de variables d'entrée et d'observations).

Un processus similaire peut-il être appliqué pour la régression linéaire? Créer k modèles de régression linéaire en utilisant un échantillon de bootstrap aléatoire pour chacune des k régressions

Quelles sont les raisons de NE PAS créer un modèle de "régression aléatoire"?

Merci. S'il y a quelque chose que je ne comprends pas, alors faites-le moi savoir.


Lors du bootstrap d'agrégation d'arbres, la fonction de régression globale devient de plus en plus complexe avec chaque arbre ajouté. D'autre part, lors du bootstrap d'agrégation de fonctions linéaires de la formea_0 + a_1 * x_1 + ... + a_d * x_d , la fonction linéaire moyenne résultante (après l'agrégation bootstrap) a toujours la même forme fonctionnelle linéaire que celle avec laquelle vous commencez (c'est-à-dire `` l'apprenant de base '').
Andre Holzner

1
@Andre Holzner - ce que vous dites est vrai, mais, mais, mais ... faire cette forêt aléatoire est en fait une forme de régularisation, dans une classe similaire à la crête. Je vais vous dire un secret, un arbre de régression est en fait un modèle linéaire - une classe similaire aux splines. en mettant mon chapeau bayésien, le régularisateur de forrest aléatoire correspondrait probablement à peu près aux priors "à pointe et à dalle" utilisés dans le contexte bayésien.
probabilités

@probabilityislogic, pouvez-vous expliquer?
Simon Kuang

Vous pouvez considérer les arbres comme le modèle linéaire . Z t est une matrice de conception indiquant à quel nœud terminal chaque observation appartient pour l'arbre t , et θ t est le vecteur correspondant des prédictions de nœuds terminaux. Tout arbre peut être décrit de cette façon - le choix d'un arbre équivaut à une sélection de modèle linéaire standard dans l'espace de Z t - dont il y a 2 n configurations de "noeud terminal" possibles je pense (où n est la taille de l'échantillon d'apprentissage). y=Ztθt+eZttθtZt2nn
probabilitéislogique

Réponses:


5

Je suis partiellement en désaccord avec les réponses actuelles parce que la méthodologie de la forêt aléatoire est basée sur l'introduction d'une variance (CART construits sur des échantillons bootstrapés + méthode de sous-espace aléatoire) pour les rendre indépendants. Une fois que vous avez des arbres orthogonaux, la moyenne de leurs prédictions tend (dans de nombreux cas) à être meilleure que la prédiction de l'arbre moyen (en raison de l'inégalité de Jensen). Bien que les CART aient des avantages notables lorsqu'ils sont soumis à ce traitement, cette méthodologie s'applique définitivement à tout modèle et les modèles linéaires ne font pas exception. Voici un package R qui correspond exactement à ce que vous recherchez. Il présente un joli tutoriel sur la façon de les régler et de les interpréter ainsi qu'une bibliographie sur le sujet: Modèles linéaires généralisés aléatoires .


14

Pour mettre la réponse de @ ziggystar en termes de jargon d'apprentissage automatique: l'idée derrière les techniques d'agrégation de bootstrap (par exemple, les forêts aléatoires) est d'adapter de nombreux modèles à faible biais et à forte variance aux données avec un élément de "caractère aléatoire" ou "d'instabilité". Dans le cas des forêts aléatoires, l'instabilité est ajoutée par le biais de l'amorçage et en sélectionnant un ensemble aléatoire de fonctionnalités pour diviser chaque nœud de l'arbre. La moyenne de ces arbres bruyants mais à faible biais atténue la forte variance de tout arbre individuel.

Alors que les arbres de régression / classification sont des modèles «à faible biais et à forte variance», les modèles de régression linéaire sont généralement l'opposé - «à biais élevé et à faible variance». Ainsi, le problème auquel on est souvent confronté avec les modèles linéaires est de réduire le biais et non de réduire la variance. L'agrégation de bootstrap n'est tout simplement pas faite pour cela.

Un problème supplémentaire est que l'amorçage peut ne pas fournir suffisamment de "caractère aléatoire" ou "d'instabilité" dans un modèle linéaire typique. Je m'attendrais à ce qu'un arbre de régression soit plus sensible au caractère aléatoire des échantillons de bootstrap, car chaque feuille ne contient généralement qu'une poignée de points de données. De plus, les arbres de régression peuvent être développés de manière stochastique en divisant l'arbre sur un sous-ensemble aléatoire de variables à chaque nœud. Voir cette question précédente pour savoir pourquoi cela est important: pourquoi les forêts aléatoires sont-elles divisées en fonction de m caractéristiques aléatoires?

Cela étant dit, vous pouvez certainement utiliser le bootstrap sur des modèles linéaires [LINK] , et cela peut être très utile dans certains contextes. Cependant, la motivation est très différente des techniques d'agrégation bootstrap.


Merci pour les liens et la réponse. Si la méthode du caractère aléatoire est utile pour les modèles «à faible biais et à forte variance», existe-t-il des méthodologies pour traiter le type opposé de modèles «à biais élevé, faible variance»?
Rick

Si vous avez un modèle à faible biais et à forte variance, des méthodologies comme l'ensachage peuvent réduire la variance avec une légère augmentation du biais. Si vous avez un biais élevé, une faible variance, utilisez un modèle avec un biais plus faible et une variance plus élevée - comme une régression polynomiale ou plus généralement des méthodes de noyau.
Joe

10

kk

Et voici pourquoi il n'est pas aussi attrayant de faire du "aléatoire" avec des modèles linéaires qu'avec des arbres de décision:

Un grand arbre de décision créé à partir d'un grand échantillon est très susceptible de surcharger les données, et la méthode de la forêt aléatoire combat cet effet en s'appuyant sur un vote de nombreux petits arbres.

La régression linéaire, d'autre part, est un modèle qui n'est pas très enclin au sur-ajustement et n'est donc pas blessé en l'entraînant sur l'échantillon complet au début. Et même si vous avez de nombreuses variables de régresseur, vous pouvez appliquer d'autres techniques, telles que la régularisation, pour lutter contre le sur-ajustement.


0

k converge vers l'infini, l'estimation ensachée du modèle linéaire converge vers l'estimation OLS (Ordinary Least Squares) du modèle linéaire exécuté sur l'ensemble de l'échantillon. La façon de le prouver est de voir que le bootstrap "prétend" que la distribution de la population est la même que la distribution empirique. À mesure que vous échantillonnez de plus en plus d'ensembles de données à partir de cette distribution empirique, la moyenne des hyperplans estimés convergera vers le «véritable hyperplan» (qui est l'estimation OLS exécutée sur l'ensemble des données) par les propriétés asymptotiques des moindres carrés ordinaires.

X1,X2,...,XnBe(p)
p1-p
θ=1{p>0}
Xje=1θ=1θθ
Bjeunes buneggjeng=Prob(jen une bootstrunep sunemple X(1)=...=X(n)=0)>0,
θ=1

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.