J'ai des données sur une série de paris gagnants et perdants sur 5 tours d'enchères avec attrition après chaque tour. J'utilise un arbre de décision comme le suivant pour afficher les données.
Les nœuds vers le haut de l'arbre sont ceux qui ont des paris gagnants, et ceux vers le bas de l'arbre ont des séries de paris perdants. Je veux regarder (a) l'attrition à chaque nœud (b) les changements dans la taille moyenne des paris à chaque nœud. Je regarde le taux d'attrition à chaque nœud du nœud précédent et le taux de survie (en utilisant le nombre attendu de personnes à chaque nœud si la probabilité est de 50%). Par exemple, si la probabilité est de 50% à chaque nœud, sur les 1000 qui ont commencé, environ 500 personnes devraient se trouver dans chacun des seconds nœuds, W et L. L'hypothèse est (a) le taux d'attrition est plus élevé après la perte paris (b) la taille moyenne des paris est réduite après les perdants et augmentée après les gagnants.
Je veux juste le faire dans un cadre univarié très simple d'abord. Comment puis-je effectuer un test t pour montrer que le changement de taille moyenne de mise d'un nœud WW à un nœud WWW est statistiquement significatif si 50 personnes ont abandonné? Je ne suis pas sûr que ce soit la bonne approche: chaque pari suivant est indépendant, mais les gens abandonnent après les perdants, donc l'échantillon n'est pas égalé. Si c'était juste un cas où la même classe passait une série d'examens l'un après l'autre sans abandon, je comprendrais comment effectuer le test t approprié, mais je pense que c'est un peu différent.
Comment puis-je faire ceci? De plus, si les résultats sont faussés par un petit nombre de clients, comment pourrais-je éliminer les 5% supérieurs et les 5% inférieurs? Supprimez simplement les clients avec la taille de mise cumulée la plus élevée du pari 1 - 3?
J'ai les données à partir desquelles le chiffre a été généré, j'ai donc la moyenne, std, erreur std, etc. à chaque nœud.