Modélisation prédictive - Faut-il se soucier de la modélisation mixte?

Pour la modélisation prédictive, devons-nous nous préoccuper de concepts statistiques tels que les effets aléatoires et la non indépendance des observations (mesures répétées)? Par exemple....

J'ai des données de 5 campagnes de publipostage (survenues au cours d'une année) avec divers attributs et un drapeau à acheter. Idéalement, j'utiliserais toutes ces données combinées pour construire un modèle d'achat des attributs clients donnés au moment de la campagne. La raison en est que l'événement d'achat est rare et j'aimerais utiliser autant d'informations que possible. Il est possible qu'un client donné participe à 1 à 5 des campagnes, ce qui signifie qu'il n'y a pas d'indépendance entre les enregistrements.

Est-ce important lorsque vous utilisez:

1) Une approche d'apprentissage automatique (par exemple arbre, MLP, SVM)

2) Une approche statistique (régression logistique)?

**ADD:**

Ma pensée sur la modélisation prédictive est si le modèle fonctionne, utilisez-le. Alors que je n'ai jamais vraiment considéré l'importance des hypothèses. Penser au cas que je décris ci-dessus m'a fait réfléchir.

Prenez des algorithmes d'apprentissage automatique tels que a MLP and SVM. Celles-ci sont utilisées avec succès pour modéliser un événement binaire tel que mon exemple ci-dessus mais aussi des données de séries temporelles qui sont clairement corrélées. Cependant, beaucoup utilisent des fonctions de perte qui sont des probabilités et dérivées en supposant que les erreurs sont iid. Par exemple, les arbres boostés par gradient dans R gbmutilisent des fonctions de perte de déviance dérivées du binôme ( Page 10 ).

— B_Miner
source

Cela importera pour les approches statistiques qui supposent une indépendance entre les enregistrements, car il s'agit alors de mesures répétées.

— Michelle

Il me semble que l'une des principales différences entre l'apprentissage automatique axé sur la prédiction et les statistiques axées sur l'inférence est exactement ce que vous dites, B_Miner. L'apprentissage automatique s'intéresse davantage à ce qui fonctionne, tandis que les statistiques traditionnelles accordent une attention particulière aux hypothèses. Dans les deux cas, vous devez être conscient des hypothèses / propriétés de vos approches, puis prendre une décision éclairée, qu'elles importent ou non. Vous vous trompez peut-être dans la modélisation prédictive pour savoir si votre modèle fonctionne si vous ne comprenez pas les hypothèses / propriétés de l'approche.

— Anne Z.

@ AnneZ.Si vous suivez l'approche de validation recommandée de la formation, du test et du jeu de validations (tous les échantillons sont suffisamment gros) en modélisation prédictive et que vous trouvez quelque chose qui fonctionne, faut-il encore s'embêter si les hypothèses sous-jacentes sont remplies? Je ne recommande certainement pas l'application insensée de ML, je me demandais juste ...

— steffen

Dans ce contexte, l'article "Modélisation statistique: les deux cultures" pourrait être intéressant, discuté dans le troisième club de revues

— croisées

Je me le demande moi-même et voici mes conclusions provisoires. Je serais heureux si quelqu'un pouvait compléter / corriger cela avec leurs connaissances et toute référence sur ce sujet.

Si vous souhaitez tester des hypothèses sur les coefficients de régression logistique en vérifiant la signification statistique, vous devez modéliser la corrélation entre les observations (ou sinon corriger la non-indépendance) car sinon vos erreurs standard seront trop petites, du moins lorsque vous envisagez de effets de cluster. Mais les coefficients de régression ne sont pas biaisés même avec des observations corrélées, il devrait donc être judicieux d'utiliser un tel modèle pour la prédiction.

Dans la modélisation prédictive, vous ne devriez pas avoir besoin de prendre explicitement en compte la corrélation lors de la formation de votre modèle, que vous utilisiez une régression logistique ou une autre approche. Cependant, si vous souhaitez utiliser un ensemble d'exclusion pour la validation ou le calcul d'une erreur hors échantillon, vous devez vous assurer que les observations pour chaque individu n'apparaissent que dans un seul ensemble, soit la formation, soit la validation, mais pas les deux. Sinon, votre modèle prédira pour les individus qu'il possède déjà des informations sur et vous n'obtenez pas une vraie lecture sur la capacité de classification hors échantillon.

— Anne Z.
source