Quelles sont les différences pratiques et d'interprétation entre les alternatives et la régression logistique?

Une question récente sur les alternatives à la régression logistique dans R a donné une variété de réponses, y compris randomForest, gbm, rpart, bayesglm et des modèles additifs généralisés. Quelles sont les différences pratiques et d'interprétation entre ces méthodes et la régression logistique? Quelles hypothèses font-ils (ou ne font-elles pas) par rapport à la régression logistique? Les tests d'hypothèse conviennent-ils? Etc.

r hypothesis-testing logistic random-forest

— russellpierce
source

Avertissement: C'est certainement loin d'être une réponse complète à la question!

Je pense qu'il y a au moins deux niveaux à considérer avant d'établir une distinction entre toutes ces méthodes:

si un modèle unique est ajusté ou non: cela aide les méthodes opposées comme la régression logistique vs RF ou le renforcement des gradients (ou plus généralement les méthodes Ensemble ), et met également l'accent sur l'estimation des paramètres (avec les intervalles de confiance asymptotiques ou bootstrap associés) vs la classification ou calcul de l'exactitude des prévisions;
$p$ $n$

Voici quelques autres points qui, selon moi, sont pertinents pour la question.

Dans le cas où nous considérons plusieurs modèles - le même modèle est ajusté sur différents sous-ensembles (individus et / ou variables) des données disponibles, ou différents modèles compétitifs sont ajustés sur le même ensemble de données -, la validation croisée peut être utilisée pour éviter sur-équiper et effectuer la sélection de modèles ou de fonctionnalités, bien que CV ne soit pas limité à ces cas particuliers (il peut être utilisé avec des GAM ou des GLM pénalisés, par exemple). Il y a aussi la question de l'interprétation traditionnelle: des modèles plus complexes impliquent souvent une interprétation plus complexe (plus de paramètres, des hypothèses plus strictes, etc.).

L'amplification des gradients et les RF surmontent les limites d'un arbre de décision unique, grâce à Boosting dont l'idée principale est de combiner la sortie de plusieurs algorithmes d'apprentissage faibles afin de construire une règle de décision plus précise et stable, et Bagging où nous "moyenne" les résultats sur ensembles de données rééchantillonnées. Au total, ils sont souvent considérés comme une sorte de boîtes noires par rapport aux modèles plus "classiques" où des spécifications claires pour le modèle sont fournies (je peux penser à trois classes de modèles: paramétriques , semi-paramétriques , non paramétriques ), mais Je pense que la discussion tenue sous cet autre fil The Two Cultures: statistiques vs machine learning? fournir des points de vue intéressants.

Voici quelques articles sur la sélection des fonctionnalités et certaines techniques ML:

Saeys, Y, Inza, I et Larrañaga, P. Une revue des techniques de sélection des caractéristiques en bioinformatique , Bioinformatics (2007) 23 (19): 2507-2517.
Dougherty, ER, Hua J, et Sima, C. Performance of Feature Selection Methods , Current Genomics (2009) 10 (6): 365–374.
Boulesteix, AL et Strobl, C. Sélection d'un classificateur optimal et biais négatif dans l'estimation du taux d'erreur: une étude empirique sur la prédiction à haute dimension , BMC Medical Research Methodology (2009) 9:85.
Caruana, R et Niculescu-Mizil, A. Une comparaison empirique des algorithmes d'apprentissage supervisé . Actes de la 23e Conférence internationale sur l'apprentissage automatique (2006).
Friedman, J, Hastie, T et Tibshirani, R. Régression logistique additive: une vue statistique du boosting , Ann. Statist. (2000) 28 (2): 337-407. (Avec discussion)
Olden, JD, Lawler, JJ et Poff, NL. Méthodes d'apprentissage automatique sans larmes: un guide pour les écologistes , Q Rev Biol. (2008) 83 (2): 171-93.

Et bien sûr, The Elements of Statistical Learning , par Hastie et coll., Regorge d'illustrations et de références. Assurez-vous également de consulter les didacticiels d'exploration de données statistiques d'Andrew Moore.

— chl
source