J'ai la pensée naïve que la régression linéaire ne convient que lorsque l'on soupçonne qu'il existe des relations fonctionnelles linéaires entre les variables explicatives et la variable de réponse. Mais peu d'applications réelles semblent répondre à ce critère.
Ce n'est pas une compréhension correcte de ce qui est "linéaire" dans la "régression linéaire".
Ce n'est pas la relation entre et les x qui est supposée être de forme linéaire (bien que tous les exemples élémentaires soient susceptibles de vous induire en erreur).yX
Le «linéaire» fait référence au modèle étant linéaire dans les paramètres, et les relations non linéaires entre et certains x peuvent certainement être modélisées de cette façon.yX
Il y a un exemple avec un seul prédicteur ici , mais les modèles curvilignes sont plus souvent ajustés en régression multiple, où plusieurs fonctions d'un prédicteur (variable x, variable indépendante) peuvent se produire dans la régression, et cela permet beaucoup de flexibilité. Cela inclut la régression polynomiale, par exemple. Voir quelques discussions et exemples ici .
Cependant, si l'on tient compte du fait que les prédicteurs peuvent être transformés pour s'adapter aux relations courbes, la linéarité des paramètres correspond également à la linéarité de ces prédicteurs transformés.
De plus, de nombreux problèmes sont presque linéaires (au moins sur la plage de valeurs considérée), ou sont si bruyants que toute courbure légère n'est pas perceptible, et une variété de modèles simples pour une relation croissante ou décroissante pourrait le faire - et dans ce cas, un choix linéaire peut être à la fois adéquat et le plus simple à adapter et à comprendre.
À quelles facettes d'un projet un statisticien expérimenté penserait-il s'il était à ma place, à la recherche d'une question + de données bien adaptées à la régression linéaire?
La seule fois où je pourrais rechercher un problème auquel appliquer la régression, c'est quand j'essaie de trouver un bon exemple d'enseignement. Lorsque je suis en mesure de faire un travail statistique (plutôt que de l'expliquer ou de l'enseigner), je choisis la méthodologie adaptée à la question d'intérêt (et aux caractéristiques des données), plutôt que de choisir les données adaptées à la méthode.
Imaginez un charpentier, par exemple. Le charpentier ne capte pas un bastringue et dire : « Que puis - je utiliser ce sur? ». Au contraire, le charpentier a un problème à résoudre, et en considérant les caractéristiques du problème ("qu'est-ce que j'essaye de faire?" Et "quel type de bois est-ce que j'utilise?" Et ainsi de suite ...) des outils particuliers peuvent être plus pertinent que les autres. Parfois, les outils disponibles peuvent limiter ou guider les choix (si vous n'avez pas de porte - parole, vous devrez peut-être vous contenter d'autre chose ... ou vous devrez peut-être simplement acheter un porte-parole).
Cependant, supposons que vous avez un statisticien de poche pour vous aider et que vous essayez de trouver un problème adapté à la régression linéaire. Ensuite, ils pourraient vous suggérer de considérer diverses hypothèses de régression et quand elles sont importantes. Je mentionnerai quelques choses.
E( y| g( x ) )g( x )gX∗= xE( y| X∗) = a + b x ∗
Si vous êtes capable d'utiliser la régression multiple même si ce n'est pas spécialement un problème majeur, car on peut utiliser (par exemple) des splines de régression cubiques pour s'adapter à des relations assez générales.
Je vous suggère d'éviter les données au fil du temps, sauf si vous comprenez les problèmes de régression parasite; s'en tenir aux problèmes transversaux.
XX
X
Si vous êtes intéressé par les tests d'hypothèse, les intervalles de confiance ou les intervalles de prédiction, alors plus d'hypothèses de régression habituelles peuvent avoir de l'importance (mais il existe des alternatives qui ne font pas ces hypothèses, et dans certains cas, au moins certaines des hypothèses peuvent ne pas être particulièrement important de toute façon).
Donc, au moins une chose à savoir est de savoir quelles sont ces hypothèses qui sont faites pour dériver les procédures inférentielles que vous utilisez et leur importance dans votre problème particulier (par exemple, lors de l'exécution des tests d'hypothèse habituels, la normalité est une hypothèse, mais dans de grands échantillons, cette hypothèse peut ne pas être importante; en revanche, l'hypothèse de variance constante peut être plus problématique).
Il existe un certain nombre de publications qui discutent des hypothèses de régression, et certaines publications qui discutent du moment où elles doivent être faites, de la mesure dans laquelle elles peuvent être importantes et même de l'ordre dans lequel les prendre en compte.