Je recherche une étude de cas de régression linéaire avancée illustrant les étapes nécessaires pour modéliser des relations non linéaires complexes et multiples à l'aide de GLM ou OLS. Il est étonnamment difficile de trouver des ressources allant au-delà des exemples d'école de base: la plupart des livres que j'ai lus n'iront pas plus loin qu'une transformation logarithmique de la réponse couplée à un BoxCox d'un prédicteur, ou une spline naturelle dans le meilleur des cas. De plus, tous les exemples que j'ai vus jusqu'à présent abordent chaque problème de transformation de données dans un modèle distinct, souvent dans un modèle prédictif unique.
Je sais ce qu'est une transformation BoxCox ou YeoJohnson. Ce que je recherche, c'est une étude de cas détaillée et réelle où la réponse / relation n'est pas claire. Par exemple, la réponse n'est pas strictement positive (vous ne pouvez donc pas utiliser log ou BoxCox), les prédicteurs ont des relations non linéaires entre eux et par rapport à la réponse, et les transformations de données de probabilité maximale ne semblent pas impliquer un standard 0,33 ou 0,5 exposant. De plus, la variance résiduelle n'est pas constante (elle ne l'est jamais), donc la réponse doit également être transformée et des choix devront être faits entre une régression de famille GLM non standard ou une transformation de réponse. Le chercheur fera probablement des choix pour éviter de sur-ajuster les données.
MODIFIER
Jusqu'à présent, j'ai rassemblé les ressources suivantes:
- Stratégies de modélisation de la régression, F. Harrell
- Série chronologique économétrique appliquée, W. Enders
- Modèles linéaires dynamiques avec R, G. Petris
- Analyse de régression appliquée, D. Kleinbaum
- Une introduction à l'apprentissage statistique, G. James / D. Witten
Je n'ai lu que le dernier (ISLR) et c'est un très bon texte (un 5 cinq étoiles sur ma montre), bien que plus orienté vers le ML que la modélisation de régression avancée.
Il y a aussi ce bon article sur CV qui présente un cas de régression difficile.