Pour la modélisation prédictive, devons-nous nous préoccuper de concepts statistiques tels que les effets aléatoires et la non indépendance des observations (mesures répétées)? Par exemple....
J'ai des données de 5 campagnes de publipostage (survenues au cours d'une année) avec divers attributs et un drapeau à acheter. Idéalement, j'utiliserais toutes ces données combinées pour construire un modèle d'achat des attributs clients donnés au moment de la campagne. La raison en est que l'événement d'achat est rare et j'aimerais utiliser autant d'informations que possible. Il est possible qu'un client donné participe à 1 à 5 des campagnes, ce qui signifie qu'il n'y a pas d'indépendance entre les enregistrements.
Est-ce important lorsque vous utilisez:
1) Une approche d'apprentissage automatique (par exemple arbre, MLP, SVM)
2) Une approche statistique (régression logistique)?
**ADD:**
Ma pensée sur la modélisation prédictive est si le modèle fonctionne, utilisez-le. Alors que je n'ai jamais vraiment considéré l'importance des hypothèses. Penser au cas que je décris ci-dessus m'a fait réfléchir.
Prenez des algorithmes d'apprentissage automatique tels que a MLP and SVM
. Celles-ci sont utilisées avec succès pour modéliser un événement binaire tel que mon exemple ci-dessus mais aussi des données de séries temporelles qui sont clairement corrélées. Cependant, beaucoup utilisent des fonctions de perte qui sont des probabilités et dérivées en supposant que les erreurs sont iid. Par exemple, les arbres boostés par gradient dans R gbm
utilisent des fonctions de perte de déviance dérivées du binôme ( Page 10 ).