J'ai une question sur les grappes que j'envisage de traiter avec une approche de mélange non paramétrique (je pense). Je travaille sur l'explication du comportement humain.
Chaque ligne de ma base de données contient:
- l'ID de quelqu'un
- certains paramètres de l'environnement X (exemple: la température, le vent, etc.)
- une variable binaire Y représentant la réaction de la personne aux paramètres (exemple: tomber malade ou ne pas tomber malade à cause du temps).
Mon idée (basée sur l'intuition et non sur des données) est que nous pouvons rassembler les gens dans un nombre fini de groupes afin que dans un groupe, les gens aient la même réaction à la température (certains sont facilement malades, d'autres ne sont jamais malades ...) . Dans un groupe donné, plus formellement, la loi de Y conditionnelle aux paramètres X est la même.
Je ne sais pas de la loi de Y conditionnelle à X . Pour les paramètres X , je peux faire quelques hypothèses si nécessaire.
Je voudrais créer un groupe de personnes "ayant plus ou moins" la même réaction au paramètre. Par ailleurs, je voudrais prédire la réaction d'une personne donnée à une valeur donnée des paramètres (même si cet événement ne s'est jamais produit dans la base de données).
Il me semble que nous pouvons traiter le problème comme un modèle de mélange non paramétrique. Comme je n'ai pas d'hypothèse sur la loi conditionnelle de Y , je pense que je vais devoir la créer avec la méthode des noyaux par exemple. J'ai trouvé ce papier . Par ailleurs, il me semble que, dans ce cas, chaque ligne d'observation n'est pas une simple réalisation d'une variable aléatoire, mais est une réalisation d'une variable aléatoire, et est une réalisation d'une variable aléatoire conditionnelle à . Je ne sais pas si cela fait une différence.
J'ai environ 100 000 lignes. Le vecteura quelques composants discrets, et d'autres sont continus. Je me demande:
- Mon approche est-elle correcte?
- Recommanderiez-vous un autre point de vue pour ce problème?
Je serais très intéressé par des références à ce sujet.
N'hésitez pas à me demander de reformuler l'énoncé du problème.