Choix entre un modèle de régression linéaire ou un modèle de régression non linéaire


10

Comment choisir entre un modèle de régression linéaire ou un modèle de régression non linéaire?

Mon objectif est de prédire Y.

Dans le cas d'un simple ensemble de données et je pouvais facilement décider quel modèle de régression utiliser en traçant un nuage de points.xy

En cas de multi-variantes comme et . Comment puis-je décider quel modèle de régression doit être utilisé? Autrement dit, comment vais-je décider d'aller avec un modèle linéaire simple ou des modèles non linéaires tels que quadrique, cubique, etc.x1,x2,...xny

Existe-t-il une technique ou une approche statistique ou des graphiques pour déduire et décider quel modèle de régression doit être utilisé?


Le «modèle non linéaire» est une catégorie assez large. En aviez-vous un en tête? Quels sont vos objectifs d'analyse?
shadowtalker

Cela dépend de vos objectifs. Construisez-vous un modèle de prédiction / prévision?
Aksakal

La prédiction est mon objectif.
shakthydoss

1
Si vous recherchez quelque chose comme l'approche "tracer les données" mais pour plusieurs prédicteurs, il y a des tracés variables ajoutés qui peuvent avoir une certaine valeur. Mais si votre objectif est la prédiction, le problème est que vous choisissez quoi git en fonction de la visualisation des données, donc il sera beaucoup mieux sur les données que vous avez que sur d'autres données (et il y a plusieurs autres problèmes qui viennent avec un tel approche de la sélection du modèle) - pour évaluer correctement la capacité prédictive hors échantillon, vous devez évaluer les choses sur un échantillon non respecté / envisager quelque chose comme la validation croisée.
Glen_b -Reinstate Monica

1
Vous trouverez peut-être utile une discussion connexe que j'ai commencée il y a quelque temps.
Aleksandr Blekh

Réponses:


10

Il s'agit d'un domaine de statistiques appelé sélection de modèle. Beaucoup de recherches sont effectuées dans ce domaine et il n'y a pas de réponse définitive et facile.

Supposons que vous avez et et que vous souhaitez savoir si vous devez inclure un terme dans le modèle. Dans une situation comme celle-ci, votre modèle le plus parcimonieux est imbriqué dans votre modèle le plus complexe. En d'autres termes, les variables et (modèle parcimonieux) sont un sous-ensemble des variables et (modèle complexe). Dans la construction de modèles, vous avez (au moins) l'un des deux objectifs principaux suivants:X1,X2X3X32X1,X2X3X1,X2,X3X32

  1. Expliquer les données: vous essayez de comprendre comment une série de variables affectent votre variable de réponse ou vous êtes intéressé par la façon dont effets tout en contrôlant les effets deX1YX2,...Xp
  2. Prédire : vous voulez prédire avec précision , sans vous soucier de ce que ou de combien de variables sont dans votre modèleYY

Si votre objectif est le numéro 1, je recommande le test du rapport de vraisemblance (LRT). Le TLR est utilisé lorsque vous avez des modèles imbriqués et que vous voulez savoir "les données sont-elles beaucoup plus susceptibles de provenir du modèle complexe que du modèle parcimonieux?". Cela vous donnera un aperçu du modèle qui explique le mieux la relation entre vos données.

Si votre objectif est le numéro 2, je recommande une sorte de technique de validation croisée (CV) (CV plié, CV sans engagement, CV de formation aux tests) en fonction de la taille de vos données. En résumé, ces méthodes construisent un modèle sur un sous-ensemble de vos données et prédisent les résultats sur les données restantes. Choisissez le modèle qui fait le meilleur travail de prédiction sur les données restantes.k


S'il vous plaît, pourriez-vous faire / expliquer la différence entre les objectifs (1) et (2) plus prononcée? Actuellement, il n'y a pas beaucoup de différence.
ttnphns

@ttnphns J'ai ajouté une brève description des deux objectifs.
TrynnaDoStat

@TrynnaDoStat Juste confondu ici par la déclaration Choisissez le modèle qui fait le meilleur travail de prédiction. Par meilleur modèle, vous entendez choisir entre le modèle linéaire (parcimonieux) et le modèle complexe ... n'est-ce pas? Parce que ce que je sais est k-fold, les CV à laisser-un sont utilisés pour vérifier les performances du modèle sur des données invisibles. Ils ne sont pas utilisés pour la sélection des modèles. Je suis confus ici.
tushaR

1

Quand je google pour "modèle linéaire ou non linéaire pour la régression", je reçois des liens qui mènent à ce livre: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Ce livre n'est pas intéressant, et je ne ne lui fais pas confiance à 100% (pour certaines raisons).

J'ai aussi trouvé cet article: http://hunch.net/?p=524 avec le titre: Presque tous les problèmes naturels nécessitent une non-linéarité

J'ai également trouvé une question similaire avec une assez bonne explication: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

D'après mon expérience, lorsque vous ne savez pas quel modèle utiliser, utilisez les deux et essayez d'autres fonctionnalités.


0

Comme vous le dites, les modèles linéaires sont généralement plus simples que les modèles non linéaires, ce qui signifie qu'ils s'exécutent plus rapidement (création et prévision), sont plus faciles à interpréter et à expliquer, et généralement simples dans les mesures d'erreurs. Le but est donc de savoir si les hypothèses d'une régression linéaire sont valables avec vos données (si vous ne parvenez pas à prendre en charge linéaire, alors optez simplement pour non-linéaire). Habituellement, vous répéteriez votre tracé à variable unique avec toutes les variables individuellement, en maintenant toutes les autres variables constantes.

Mais peut-être plus important encore, vous voulez savoir si vous pouvez appliquer une sorte de transformation, d'interaction variable ou de variable fictive pour déplacer vos données vers un espace linéaire. Si vous êtes en mesure de valider les hypothèses ou si vous connaissez suffisamment vos données pour appliquer des transformations ou des modifications bien motivées ou informées de manière intelligente, vous devez procéder à cette transformation et utiliser une régression linéaire. Une fois que vous avez les résidus, vous pouvez les représenter en fonction des valeurs prédites ou des variables indépendantes pour décider plus avant si vous devez passer à des méthodes non linéaires.

Il y a une excellente ventilation des hypothèses de régression linéaire ici à Duke . Les quatre hypothèses principales sont répertoriées, et chacune est décomposée en effets sur le modèle, comment le diagnostiquer dans les données et les moyens potentiels de "corriger" (c'est-à-dire de les transformer ou de les ajouter) pour que l'hypothèse se vérifie. Voici un petit extrait du haut résumant les quatre hypothèses abordées, mais vous devriez y aller et lire les ventilations.

Quatre hypothèses principales justifient l'utilisation de modèles de régression linéaire à des fins d'inférence ou de prédiction:

(i) linéarité et additivité de la relation entre les variables dépendantes et indépendantes:

(a) La valeur attendue de la variable dépendante est une fonction linéaire de chaque variable indépendante, les autres étant fixes.

(b) La pente de cette droite ne dépend pas des valeurs des autres variables.

(c) Les effets de différentes variables indépendantes sur la valeur attendue de la variable dépendante sont additifs.

(ii) indépendance statistique des erreurs (en particulier, pas de corrélation entre> erreurs consécutives dans le cas de données de séries chronologiques)

(iii) homoscédasticité (variance constante) des erreurs

(a) en fonction du temps (dans le cas des données de séries chronologiques)

(b) par rapport aux prédictions

(c) par rapport à toute variable indépendante

(iv) normalité de la distribution des erreurs.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.