Modèle de Cox vs régression logistique


15

Disons que le problème suivant nous est posé:

Prévoyez quels clients sont les plus susceptibles d'arrêter d'acheter dans notre boutique au cours des 3 prochains mois.
Pour chaque client, nous connaissons le mois où l'on a commencé à acheter dans notre boutique et, en outre, nous avons de nombreuses fonctionnalités comportementales dans les agrégats mensuels. Le client «le plus âgé» achète depuis cinquante mois; notons le temps écoulé depuis qu'un client a commencé à acheter par ( ). On peut supposer que le nombre de clients est très important. Si un client cesse d'acheter pendant trois mois, puis revient, il est alors traité comme un nouveau client, de sorte qu'un événement (arrêt d'achat) ne peut se produire qu'une seule fois.t [ 0 , 50 ]tt[0,50]

Deux solutions me viennent à l'esprit:

Régression logistique - Pour chaque client et chaque mois (peut-être à l'exception des 3 derniers mois), nous pouvons dire si un client a cessé d'acheter ou non, afin que nous puissions faire des échantillons roulants avec une observation par client et par mois. Nous pouvons utiliser le nombre de mois depuis le début comme variable catégorielle pour obtenir un équivalent de la fonction de risque de base.

Modèle Cox étendu - Ce problème peut également être modélisé à l'aide du modèle Cox étendu. Il semble que ce problème soit plus adapté à l'analyse de survie.

Question: Quels sont les avantages de l'analyse de survie dans des problèmes similaires? L'analyse de survie a été inventée pour une raison quelconque, il doit donc y avoir un sérieux avantage.

Mes connaissances en analyse de survie ne sont pas très approfondies et je pense que la plupart des avantages potentiels du modèle de Cox peuvent également être obtenus en utilisant la régression logistique.

  • L'équivalent du modèle de Cox stratifié peut être obtenu en utilisant une interaction de et de la variable de stratification. t
  • Le modèle de Cox d'interaction peut être obtenu en plongeant la population en plusieurs sous-populations et en estimant LR pour chaque sous-population.

Le seul avantage que je vois est que le modèle Cox est plus flexible; par exemple, nous pouvons facilement calculer la probabilité qu'un client cesse d'acheter en 6 mois.

Réponses:


10

Le problème avec le modèle Cox est qu'il ne prédit rien. L '"interception" (fonction de risque de base) dans les modèles de Cox n'est jamais réellement estimée. La régression logistique peut être utilisée pour prédire le risque ou la probabilité d'un événement, dans ce cas: le fait qu'un sujet vienne ou non acheter quelque chose un mois donné.

Le problème avec les hypothèses de régression logistique ordinaire est que vous traitez chaque observation mois-personne comme indépendante, qu'il s'agisse de la même personne ou du même mois au cours duquel les observations se sont produites. Cela peut être dangereux car certains articles sont achetés à des intervalles de deux mois, de sorte que les observations consécutives de personne par mois sont corrélées négativement . Alternativement, un client peut être retenu ou perdu par de bonnes ou de mauvaises expériences conduisant une personne consécutive par mois à des observations positivement corrélées.

Je pense qu'un bon début à ce problème de prédiction consiste à adopter l'approche de la prévision où nous pouvons utiliser les informations précédentes pour informer nos prévisions sur les activités du mois prochain. Un simple début de ce problème consiste à ajuster pour un effet retardé, ou un indicateur de l'arrivée d'un sujet au cours du dernier mois, comme prédicteur de son arrivée ce mois-ci.


2
Une régression logistique à plusieurs niveaux ne pourrait-elle pas être utilisée ici pour résoudre le problème de l'indépendance? Le niveau 2 serait des clients et le niveau 1 serait des mesures répétées au fil du temps.
Forinstance

1
@AdamO, l'ordonnée à l'origine peut être estimée, et combinée avec la prédiction du risque partiel de l'individu, nous pouvons créer des courbes de survie individuelles. Je ne sais pas pourquoi vous pensez que le modèle Cox ne peut prédire "rien".
Cam.Davidson.Pilon

δ

À des fins de prédiction, je pense que ce ne sont pas des bloqueurs. Il n'est pas rare de combiner plusieurs estimations pour créer une seule prédiction, et (malheureusement et je ne le préconise pas), les intervalles de prédiction ne sont pas couramment utilisés ou disponibles de toute façon.
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon Je n'ai pas dit que les prédictions de risque ne peuvent pas être obtenues à partir des données de survie, j'ai dit que les modèles de Cox ne prédisent pas le risque. Les étapes entre appeler coxphet obtenir des estimations de risques sont raides et nombreuses.
AdamO

3

TjjPr(Tj>3)j3

L'analyse de survie tient compte du fait que chaque client a son propre temps d'entrée dans l'étude. Le fait que la période de suivi varie selon les clients n'est donc pas un problème.

j


Remarque : voici un article qui montre que, sous certaines contraintes, le modèle logistique et le modèle de Cox sont liés.


Merci de répondre. Si SA gère correctement la censure, cela implique que la solution LR ne gère pas correctement la censure. Comment cela peut-il en résulter? Je n'arrive toujours pas à convaincre moi-même que SA est meilleur pour un objectif de temps fixe. Puis-je trouver quelque part cet article gratuitement?
Tomek Tarczynski

Oui=0

Mon email est: tomek.tarczynski@gmail.com Merci beaucoup!
Tomek Tarczynski

@TomekTarczynski: reçu?
ocram

Oui, merci encore! J'aurai le temps demain de le lire plus attentivement. Je l'ai juste effleuré et si j'ai bien compris, cela résout un problème légèrement différent. En utilisant l'analogie de la boutique, il compare LR et COX au problème "Quelle est la probabilité que le client ne soit plus client après un nombre fixe de mois depuis le début?"
Tomek Tarczynski

2

La littérature marketing suggère un Pareto / NBD ici ou similaire. Vous supposez essentiellement que l'achat - pendant qu'il achète - suit une distribution binomiale négative. Mais vous devez modéliser l'heure à laquelle le client s'arrête. C'est l'autre partie.

Pete Fader et Bruce Hardie ont quelques articles à ce sujet, avec Abe.

Il existe plusieurs approches plus simples du Pareto / NBD, même en comptant simplement les différents articles de Fader et Hardie. N'UTILISEZ PAS l'approche la plus simple dans laquelle on suppose que la probabilité d'arrêt est constante à chaque instant - cela signifie que vos clients plus lourds sont plus susceptibles d'abandonner plus tôt. C'est un modèle plus simple à monter, mais faux.

Je n'en ai pas adapté un depuis un moment; désolé d'être un peu non spécifique.

Voici une référence au document Abe, qui refond ce problème sous la forme d'un Bayes hiérarchique. . Si je travaillais à nouveau dans ce domaine, je pense que je testerais cette approche.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.