Parfois, cela aide à imaginer l'objectif d'une telle analyse et ce qu'une entreprise peut faire sans. Supposons que l'entreprise à laquelle appartiennent les données de chiffre d'affaires veuille faire quelque chose contre un taux de roulement (éventuellement) élevé. Je peux imaginer deux actions possibles
- Découvrez ce qui pousse les gens à partir et corrigez cela (pas assez de soins de santé? Aucun esprit d'équipe?) En général
- Trouvez les employés qui envisagent de partir et parlez-leur, en découvrant ce qui les pousse à résoudre les problèmes spécifiquement pour eux.
Alors, pourquoi est-ce important?
Les diagrammes de portance sont principalement importants pour le deuxième cas d'utilisation. Imaginez ce qu'une entreprise peut faire lorsqu'elle a décidé d'investir de l'argent en parlant aux employés 1 à 1 mais qu'elle n'a pas de modèle? La seule option est de parler à tout le monde ou à tout le monde dans un échantillon aléatoire d'une taille fixe. Parler à tout le monde, malgré le gain d'identifier tous les départs potentiels, est beaucoup trop cher. Mais lorsque seul un échantillon aléatoire est sélectionné pour parler, seule une fraction de tous les départs potentiels est identifiée tout en dépensant encore beaucoup d'argent. Dans les deux cas, le rapport coût-par-congé-prévention est assez élevé.
Mais quand un bon modèle existe, l'entreprise peut décider de ne parler qu'à ceux qui ont la plus forte probabilité de partir (ceux qui ont les meilleurs scores selon le modèle), afin que plus de départs potentiels soient identifiés, optimisant ainsi le coût par -leave-prevention .
Jetez un œil aux deux premiers tableaux ici: http://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html . Disons que «clients» = «employés» et «répondants positifs» = «départs potentiels» (voir les données ci-dessous).
Si l'entreprise décide qu'elle ne peut dépenser que suffisamment d'argent pour parler à 10 000 employés, elle identifiera
- 20000100000∗10000=2000 départs sont identifiés sans modèle
- 600010000∗10000=6000 départs sont identifiés avec le modèle (en sélectionnant uniquement les 10000 premiers selon le score du modèle)
ce qui signifie
- une amélioration du facteur qui est représenté comme un point (10%, 3) dans le graphique de portance .60002000=3
- que 6000 des 20000 départs au total ont été identifiés, soit 30%, ce qui est représenté comme (10%, 30%) dans le graphique de gain . La base de référence ici n'est que de 10%, car en prenant un échantillon aléatoire de 10000 employés, seuls de tous les départs potentiels sont identifiés .10000∗(20000/100000)20000=10000100000=0.1
L'axe des X dans les deux cas montre le pourcentage d'employés contactés, dans cet exemple spécifique 10%.
annexe
Données utilisées pour rendre cette question indépendante de la pourriture des liens.
Taux global
Nombre total d'employés contactés
100000 20000
Efficacité du modèle lorsque les employés sont contactés par tranches de 10 000
Nombre total d'employés contactés
10000 6000
20000 10000
30000 13000
40000 15800
50000 17000
60000 18000
70000 18800
80000 19400
90000 19800
100000 20000