La régression logistique (et plus généralement GLM) n'appartient PAS au Machine Learning! Ces méthodes appartiennent plutôt à la modélisation paramétrique .
Les modèles paramétriques et algorithmiques (ML) utilisent les données, mais de différentes manières. Les modèles algorithmiques apprennent des données comment les prédicteurs sont mappés au prédictant, mais ils ne font aucune hypothèse sur le processus qui a généré les observations (ni aucune autre hypothèse, en fait). Ils considèrent que les relations sous-jacentes entre les variables d'entrée et de sortie sont complexes et inconnues, et adoptent donc une approche basée sur les données pour comprendre ce qui se passe, plutôt que d'imposer une équation formelle.
D'un autre côté, les modèles paramétriques sont prescrits a priori sur la base d'une certaine connaissance du processus étudié, utilisent les données pour estimer leurs paramètres et font beaucoup d'hypothèses irréalistes qui tiennent rarement en pratique (telles que l'indépendance, la variance égale et Distribution normale des erreurs).
De plus, les modèles paramétriques (comme la régression logistique) sont des modèles globaux . Ils ne peuvent pas capturer les modèles locaux dans les données (contrairement aux méthodes ML qui utilisent des arbres comme modèles de base, par exemple RF ou Boosted Trees). Voir cet article page 5. En tant que stratégie de correction, un GLM local (c'est-à-dire non paramétrique) peut être utilisé (voir par exemple le package locfit R).
Souvent, lorsque peu de connaissances sur le phénomène sous-jacent sont disponibles, il est préférable d'adopter une approche basée sur les données et d'utiliser la modélisation algorithmique. Par exemple, si vous utilisez la régression logistique dans un cas où l'interaction entre les variables d'entrée et de sortie n'est pas linéaire, votre modèle sera clairement inadéquat et beaucoup de signaux ne seront pas capturés. Cependant, lorsque le processus est bien compris, les modèles paramétriques ont l'avantage de fournir une équation formelle pour tout résumer, ce qui est puissant d'un point de vue théorique.
Pour une discussion plus détaillée, lisez ceci excellent article de Leo Breiman.