Que disent les graphiques Lift and Gain dans le contexte d'un modèle de rotation du personnel

J'essaie donc de mieux comprendre les graphiques Lift and Gain tels qu'ils s'appliquent à mon modèle de rotation des employés (c'est-à-dire utilisé CHAID dans SPSS Modeler). Pour mes données, cela signifie prévoir le nombre de personnes qui quittent volontairement l'entreprise.

J'ai examiné les références ci-dessous et j'ai les bases concernant l'interprétation: ce qui est tracé sur les axes x et y et la courbe idéale que vous recherchez. J'ai même pratiqué la construction de mes propres graphiques de gains et d'ascenseurs dans Excel.

Mais tous les exemples que j'ai vus jusqu'à présent concernent une campagne de publipostage. Maintenant, je veux savoir ce que cela signifie pour mes données. Cela signifie-t-il simplement, dans le cas du graphique des gains, que si j'échantillonne les 10% supérieurs de mes données, je peux m'attendre à 40% des termes par rapport à l'échantillonnage des 60% supérieurs des 80% de mes données? (veuillez supposer que les valeurs de 40% et 60% sont les valeurs). Si oui, quelle importance devrais-je retirer de cela parce que je ne comprends vraiment pas dans le contexte de mon modèle de chiffre d'affaires?

Références:

ascenseur-mesure-dans-l'exploration de données

qu'est-ce-qu'un-ascenseur-graphique

http://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html

modeling predictive-models

— daniellopez46
source

Pourquoi utilisez-vous CHAID? Autant que je sache, il s'agit d'une ancienne méthode de classification des arbres qui est antérieure à CART et qui manque de nombreuses bonnes propriétés statistiques de CART.

— Michael R. Chernick

(+1) pour avoir démontré l'effort de recherche

— steffen

@Michael: Je suis d'accord, c'est une méthode plus ancienne. Mais je suis dans une position où je ramasse les morceaux d'un ce qu'un analyste précédent utilisait depuis qu'il a quitté l'entreprise. Pour l'instant, je reprends juste là où il s'était arrêté. Finalement, je veux passer à l'utilisation d'autres méthodes et même d'ensembles. @ steffen - merci.

— daniellopez46

Parfois, cela aide à imaginer l'objectif d'une telle analyse et ce qu'une entreprise peut faire sans. Supposons que l'entreprise à laquelle appartiennent les données de chiffre d'affaires veuille faire quelque chose contre un taux de roulement (éventuellement) élevé. Je peux imaginer deux actions possibles

Découvrez ce qui pousse les gens à partir et corrigez cela (pas assez de soins de santé? Aucun esprit d'équipe?) En général
Trouvez les employés qui envisagent de partir et parlez-leur, en découvrant ce qui les pousse à résoudre les problèmes spécifiquement pour eux.

Alors, pourquoi est-ce important?

Les diagrammes de portance sont principalement importants pour le deuxième cas d'utilisation. Imaginez ce qu'une entreprise peut faire lorsqu'elle a décidé d'investir de l'argent en parlant aux employés 1 à 1 mais qu'elle n'a pas de modèle? La seule option est de parler à tout le monde ou à tout le monde dans un échantillon aléatoire d'une taille fixe. Parler à tout le monde, malgré le gain d'identifier tous les départs potentiels, est beaucoup trop cher. Mais lorsque seul un échantillon aléatoire est sélectionné pour parler, seule une fraction de tous les départs potentiels est identifiée tout en dépensant encore beaucoup d'argent. Dans les deux cas, le rapport coût-par-congé-prévention est assez élevé.

Mais quand un bon modèle existe, l'entreprise peut décider de ne parler qu'à ceux qui ont la plus forte probabilité de partir (ceux qui ont les meilleurs scores selon le modèle), afin que plus de départs potentiels soient identifiés, optimisant ainsi le coût par -leave-prevention .

Jetez un œil aux deux premiers tableaux ici: http://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html . Disons que «clients» = «employés» et «répondants positifs» = «départs potentiels» (voir les données ci-dessous).

Si l'entreprise décide qu'elle ne peut dépenser que suffisamment d'argent pour parler à 10 000 employés, elle identifiera

$\frac{20000}{100000}*10000=2000$ départs sont identifiés sans modèle
$\frac{6000}{10000}*10000=6000$ départs sont identifiés avec le modèle (en sélectionnant uniquement les 10000 premiers selon le score du modèle)

ce qui signifie

une amélioration du facteur qui est représenté comme un point (10%, 3) dans le graphique de portance . $\frac{6000}{2000}=3$
que 6000 des 20000 départs au total ont été identifiés, soit 30%, ce qui est représenté comme (10%, 30%) dans le graphique de gain . La base de référence ici n'est que de 10%, car en prenant un échantillon aléatoire de 10000 employés, seuls de tous les départs potentiels sont identifiés . $\frac{10000 * (20000/100000)}{20000}=\frac{10000}{100000}=0.1$

L'axe des X dans les deux cas montre le pourcentage d'employés contactés, dans cet exemple spécifique 10%.

annexe

Données utilisées pour rendre cette question indépendante de la pourriture des liens.

Taux global

Nombre total d'employés contactés
100000 20000

Efficacité du modèle lorsque les employés sont contactés par tranches de 10 000

Nombre total d'employés contactés
10000 6000
20000 10000
30000 13000
40000 15800
50000 17000
60000 18000
70000 18800
80000 19400
90000 19800
100000 20000

— steffen
source

l'anglais n'est pas ma langue maternelle et je n'aime pas utiliser "leavers". Quel est le terme correct ici?

— steffen

Steffen, «sortants» est compréhensible mais les «départs» pourraient être plus conventionnels. L'utilisation de «pris», cependant, est un peu choquante, car ce mot a des connotations de quelqu'un arrêté pour malversation: un criminel est «attrapé» mais le sujet d'une étude est «identifié».

— whuber

Steffen, le terme général utilisé pour décrire la modélisation du taux de désabonnement dans la gestion de la relation client / l'analyse marketing est "Attriter". Cela concerne la notion d'attrition. Je soupçonnerais ce terme approprié dans le monde de l'analyse des ressources humaines, mais je ne peux pas dire avec certitude.

— B_Miner

@Whuber, oui c'est un terme spécialisé. L'un se réfère également à l'attrition "dure" et "douce". Le premier étant généralement un choix proactif du client et le second étant moins un choix que l'entreprise pourrait influencer / intervenir pour corriger. Par exemple, certains clients sont des attriters doux parce qu'ils déménagent, meurent ou sont supprimés par l'entreprise en raison d'un non-paiement. Dans certains modèles de désabonnement utilisant une analyse de survie (généralement à temps discret), des risques concurrents sont utilisés pour différencier ces causes d'attrition.

— B_Miner

Parfois, l'attrition douce est également utilisée pour décrire une relation qui reste techniquement "active" mais le client cesse d'être engagé (par exemple, il a toujours un compte de carte de crédit mais n'a rien débité pendant une période donnée).

— B_Miner