Exemples de modélisation de régression avancée

22

Je recherche une étude de cas de régression linéaire avancée illustrant les étapes nécessaires pour modéliser des relations non linéaires complexes et multiples à l'aide de GLM ou OLS. Il est étonnamment difficile de trouver des ressources allant au-delà des exemples d'école de base: la plupart des livres que j'ai lus n'iront pas plus loin qu'une transformation logarithmique de la réponse couplée à un BoxCox d'un prédicteur, ou une spline naturelle dans le meilleur des cas. De plus, tous les exemples que j'ai vus jusqu'à présent abordent chaque problème de transformation de données dans un modèle distinct, souvent dans un modèle prédictif unique.

Je sais ce qu'est une transformation BoxCox ou YeoJohnson. Ce que je recherche, c'est une étude de cas détaillée et réelle où la réponse / relation n'est pas claire. Par exemple, la réponse n'est pas strictement positive (vous ne pouvez donc pas utiliser log ou BoxCox), les prédicteurs ont des relations non linéaires entre eux et par rapport à la réponse, et les transformations de données de probabilité maximale ne semblent pas impliquer un standard 0,33 ou 0,5 exposant. De plus, la variance résiduelle n'est pas constante (elle ne l'est jamais), donc la réponse doit également être transformée et des choix devront être faits entre une régression de famille GLM non standard ou une transformation de réponse. Le chercheur fera probablement des choix pour éviter de sur-ajuster les données.

MODIFIER

Jusqu'à présent, j'ai rassemblé les ressources suivantes:

Stratégies de modélisation de la régression, F. Harrell
Série chronologique économétrique appliquée, W. Enders
Modèles linéaires dynamiques avec R, G. Petris
Analyse de régression appliquée, D. Kleinbaum
Une introduction à l'apprentissage statistique, G. James / D. Witten

Je n'ai lu que le dernier (ISLR) et c'est un très bon texte (un 5 cinq étoiles sur ma montre), bien que plus orienté vers le ML que la modélisation de régression avancée.

Il y a aussi ce bon article sur CV qui présente un cas de régression difficile.

— Robert Kubrick
source

8

Je pense que le livre de Frank Harrells ( amazon.com/… ) pourrait être utile.

— Adam Robinsson

@AdamRobinsson Je vois que la table des matières touche plusieurs sujets pertinents (modèles multivariés, splines, multicolinéarité), mais ces méthodologies sont-elles illustrées ensemble dans un exemple réel ou chaque sujet est expliqué séparément? Parce que généralement dans des exemples concrets, tous les problèmes se présentent à vous et il n'est jamais évident de les gérer correctement.

— Robert Kubrick

1

Je n'ai pas encore lu le livre en entier, mais les 150 premières pages ont été absolument géniales (je ne suis pas statisticien, juste un passionné). Les exemples sont nombreux et élaborés. Le livre est accompagné du package RMS (stratégies de modélisation de régression) à R. J'ai également examiné le livre concurrent de David Kleinbaums (oublié le titre malheureusement) mais il contenait beaucoup moins de stratégies et d'exemples (et était deux fois plus cher).

— Adam Robinsson

3

@RobertKubrick: "Régression multivariée" signifie avec plus d'une réponse (voir le wiki pour la balise que vous avez ajoutée, ou ici ). "Régression multiple" signifie avec plus d'un prédicteur.

— Scortchi - Réintégrer Monica

3

Vous voudrez peut-être consulter Applied Econometric Time Series by Enders. La nouvelle version couvre les modèles non linéaires vers la fin du livre. Presque toutes les données sont accessibles au public sur le site Web de la Fed de Saint-Louis (accessible via quantmod dans R) afin que vous puissiez suivre des exemples réels. Les modèles linéaires dynamiques avec R ont également quelques exemples avec des données réelles qui sont assez décentes.

— Eric Brady

10

Les stratégies de modélisation de la régression et l'ISLR, qui ont déjà été mentionnées par d'autres, sont deux très bonnes suggestions. J'en ai quelques autres à considérer.

La modélisation prédictive appliquée par Kuhn et Johnson contient un certain nombre de bonnes études de cas et est assez pratique.

Practical Data Science with R traite la modélisation pratique (régression) dans le contexte de ses applications principalement comme des modèles prédictifs dans une situation commerciale. $-$

Modèles additifs généralisés: une introduction avec R par Simon Wood est un bon traitement des modèles additifs généralisés et comment vous les adaptez en utilisant son mgcvpackage pour R. Il contient quelques exemples pratiques non triviaux. L'utilisation de modèles GAM est une alternative à la détermination de la transformation "correcte" car elle est effectuée de manière adaptative aux données via une expansion de spline et une estimation de probabilité maximale pénalisée. Cependant, il y a encore d'autres choix à faire, par exemple le choix de la fonction de liaison.

Le package mboost pour R s'adapte également aux modèles GAM mais en utilisant une approche différente via le boosting. Je recommande le tutoriel pour le package (l'une des vignettes).

Je mentionnerai également la découverte de modèles empiriques et l'évaluation de la théorie par Hendry et Doornik, bien que je n'ai pas encore lu ce livre moi-même. Il m'avait été recommandé.

— NRH
source

Modélisation prédictive appliquée ... so-so. Je préfère ISLR.

— Robert Kubrick

5

L'un des meilleurs supports de cours que vous pouvez trouver sur la régression avancée, multiple, complexe (y compris non linéaire) est basé sur le livre Regression Modeling Strategies de Frank E. Harrell Jr.

Le livre est discuté dans les commentaires mais pas ce matériel, qui est lui-même une grande ressource.

— rnso
source

2

Je recommanderais le livre Mostly Harmless Econometrics de Joshua D. Angrist et Jörn-Steffen Pischke

C'est le monde le plus réel, le sel à la terre, le texte que je possède et c'est super bon marché, environ 26,00 $ neuf. Le livre est écrit pour le statisticien / économiste diplômé, il est donc très avancé.

Maintenant, ce livre n'est pas exactement ce que vous demandez dans le sens où il ne se concentre pas sur les "relations multiples et non linéaires complexes" autant que sur les principes fondamentaux comme l'endoégénéité, l'interprétation et la conception de régression intelligente.

Mais je propose ce livre pour essayer de faire un point. C'est-à-dire que, lorsqu'il s'agit de l'application réelle de l'analyse de régression, les problèmes les plus difficiles n'ont généralement pas à voir avec le fait que nos modèles ne sont pas assez complexes ... croyez-moi, nous sommes très bons pour percer très complexe des modèles! Les plus gros problèmes sont plutôt des choses comme

Endogénéité
ne pas avoir toutes les données dont nous avons besoin
Avoir trop de données ... et c'est tout un bordel!
Pour de nombreuses personnes ne peuvent pas interpréter correctement leurs propres modèles (un problème qui devient plus répandu à mesure que nous rendons les modèles plus complexes)

Une solide compréhension du GMM, des filtres non linéaires et de la régression non paramétrique couvre à peu près tous les sujets que vous avez énumérés et peut être appris au fur et à mesure. Cependant, avec des données réelles, ces cadres ont le potentiel d'être inutilement complexes, souvent de manière nuisible.

Trop souvent, c'est la capacité d'être intelligemment simple plutôt que complètement généralisé et hautement sophistiqué, qui vous profite le plus avec l'analyse du monde réel. Ce livre vous aidera avec l'ancien.

— Zachary Blumenfeld
source

1

Vous pouvez vous référer à Introduction à l'apprentissage statistique avec R (ISLR), le livre parle en détail des splines et de la régression polynomiale avec des cas.

— Vikram Venkat
source

1

Je ne sais pas quel est l'objectif de votre question. Je peux recommander le texte de l' analyse économétrique de Greene . Il contient une tonne de références à des documents à l'intérieur. Presque chaque exemple du livre fait référence à un article publié.

Pour vous donner une idée, consultez l'exemple 7.6 «Effets d'interaction dans un modèle loglinear pour le revenu» à la p.195. Il fait référence à un article et à l'ensemble de données: Regina T. Riphahn, Achim Wambach et Andreas Million, " Incentive Effects in the Demand for Health Care: A Bivariate Panel Count Data Estimation ", Journal of Applied Econometrics, Vol. 18, n ° 4, 2003, p. 387-405.

L'exemple concerne l'utilisation des modèles log-linéaires et les effets d'interaction. Vous pouvez lire l'intégralité du document ou la description de ce manuel. Ce n'est pas un cas d'utilisation composé. C'est une vraie recherche publiée. C'est ainsi que les gens utilisent réellement les méthodes statistiques dans la recherche économique.

Au moment où j'écrivais, le livre est harcelé de cas d'utilisation comme celui-ci sur l'utilisation de méthodes statistiques avancées.

— Aksakal
source

0

Avez-vous examiné certains des cours / livres d'analyse des séries chronologiques financières que Ruey Tsay (UChicago) écrit?

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

Les classes Ruey Tsays et le manuel fournissent de nombreux exemples concrets en finance de régressions complexes du type qui sont créées pour être utilisées sur les marchés financiers. Le chapitre 1 commence par les modèles de régression multifactorielle et s'étend aux modèles de séries chronologiques autorégressives saisonnières par le chapitre 5 ou 6.

— zhqiat
source

2

Oui, je l'ai aimé et je ne l'aime pas du tout. Il est très large (des modèles de volatilité aux hautes fréquences en passant par ARIMA ...), touche légèrement chaque sujet (comment ne pas le faire avec autant de sujets abordés) et les études et défis R sont réduits au minimum. C'est une refonte d'articles universitaires et de théories / modèles déjà énoncés que vous pouvez trouver ailleurs. C'est précisément ce que j'entends par cas scolaires qui ne traitent jamais de la complexité de multiples défis dans un problème avancé du monde réel.

— Robert Kubrick