Est-il rationnel (théorique, substantiel, statistique) d'opter pour l' apprentissage automatique ou les modèles de risque lors de la modélisation du taux de désabonnement des clients (ou plus généralement, des événements)?
Est-il rationnel (théorique, substantiel, statistique) d'opter pour l' apprentissage automatique ou les modèles de risque lors de la modélisation du taux de désabonnement des clients (ou plus généralement, des événements)?
Réponses:
Je pense que votre question pourrait être mieux définie. La première distinction pour les modèles de désabonnement est entre la création
(1) un modèle binaire (ou multi-classes s'il existe plusieurs types de désabonnement) pour estimer la probabilité qu'un client se désabonne dans ou à partir d'un certain point futur (par exemple les 3 prochains mois)
(2) un modèle de type de survie créant une estimation du risque d'attrition à chaque période (disons chaque mois pour l'année suivante)
Lequel des deux est adapté à votre situation dépend de l'utilisation du modèle. Si vous voulez vraiment comprendre le risque d'attrition au fil du temps et peut-être comprendre comment les variables (éventuellement variables dans le temps) interagissent avec le temps, alors un modèle de survie est approprié. Pour de nombreux modèles de clients, je préfère utiliser des modèles d'aléa temporels discrets à cet effet car le temps est souvent discret dans les bases de données et l'estimation du danger est une probabilité de l'événement. La régression de Cox est un autre choix populaire mais le temps est traité comme continu (ou via l'ajustement pour les liens) mais le risque n'est techniquement pas une probabilité.
Pour la plupart des modèles de désabonnement, lorsqu'une entreprise souhaite cibler les x% de clients les plus à risque et que la base de données est notée à chaque lancement d'une campagne de ciblage, l'option binaire (ou multi-classes) est normalement ce qui est nécessaire.
Le deuxième choix consiste à estimer les modèles. Utilisez-vous un modèle statistique traditionnel tel que la régression logistique pour le modèle binaire (multi-classes) ou un algorithme d'apprentissage automatique (par exemple forêt aléatoire). Le choix est basé sur celui qui donne le modèle le plus précis et le niveau d'interprétabilité requis. Pour les modèles à aléas temporels discrets, une régression logistique est généralement utilisée avec des splines pour introduire des effets non linéaires du temps. Cela peut également être fait avec des réseaux de neurones et de nombreux autres types d'algorithmes ML car la configuration est simplement un apprentissage supervisé avec un ensemble de données "personne-période". De plus, la régression cox peut être adaptée aux algorithmes traditionnels comme SAS proc phreg ou R coxph (). L'algorithme d'apprentissage machine GBM adapte également la régression cox avec une fonction de perte sélectionnée. Comme cela a été mentionné,
Tout d'abord, je voudrais clarifier où exactement vous faites la distinction entre l'apprentissage automatique et les modèles de danger. D'après ma compréhension, la littérature ml fait la distinction entre les modèles paramétriques et non paramétriques (entre autres).
Et deuxièmement, pourquoi avez-vous besoin du modèle? Est-ce pour la recherche scientifique ou autre chose? En tout état de cause, le choix du modèle approprié pour décrire vos données dépend tout d'abord de la raison pour laquelle vous avez besoin du modèle.
Pour votre question: Cela dépend de ce que vous savez sur le processus de génération de données.
Si, par exemple, vous prenez le fameux lancer de pièce ou le dé, vous avez une très bonne idée du processus qui génère le résultat attendu d'une expérience.
Dans ce cas, vous voulez vraiment utiliser une estimation paramétrique (bayésienne ou fréquentiste) car elle vous donnera une très bonne estimation du paramètre inconnu. De plus, ces modèles sont très bien compris, ce qui présente de nombreux avantages.
Si vous ne connaissez pas le processus de génération de données, ou si vous n'en êtes pas sûr, vous n'avez pas vraiment le choix, vous devrez estimer les paramètres qui décrivent les données à partir des données elles-mêmes. Si vous décidez pour une telle approche, vous devez accepter que ces modèles présentent des inconvénients (selon le modèle spécifique, etc.)
D'après ma compréhension, moins vous en savez sur un processus, plus vous aurez besoin d'estimer à partir des données elles-mêmes, qui auront certainement un prix.