J'ai rencontré des statisticiens qui n'utilisent jamais de modèles autres que la régression linéaire pour la prédiction, car ils croient que les "modèles ML" tels que la forêt aléatoire ou le renforcement du gradient sont difficiles à expliquer ou "non interprétables".
Dans une régression linéaire, étant donné que l'ensemble des hypothèses est vérifié (normalité des erreurs, homoscédasticité, pas de multi-colinéarité), les tests t fournissent un moyen de tester la signification des variables, tests qui, à ma connaissance, ne sont pas disponibles dans le forêts aléatoires ou modèles de renforcement de gradient.
Par conséquent, ma question est de savoir si je veux modéliser une variable dépendante avec un ensemble de variables indépendantes, par souci d'interprétabilité, dois-je toujours utiliser la régression linéaire?