Aujourd'hui, j'ai une question sur la régression binomiale / logistique, basée sur une analyse qu'un groupe de mon département a fait et sur laquelle je sollicitais des commentaires. J'ai composé l'exemple ci-dessous pour protéger leur anonymat, mais ils étaient impatients de voir les réponses.
Premièrement, l'analyse a commencé par une réponse binomiale simple 1 ou 0 (par exemple, survie d'une saison de reproduction à la suivante) et l'objectif était de modéliser cette réponse en fonction de certaines co-variées.
Cependant, plusieurs mesures de certaines co-variables étaient disponibles pour certains individus, mais pas pour d'autres. Par exemple, imaginez que la variable x est une mesure du taux métabolique pendant le travail et que les individus varient en nombre de descendants (par exemple, la variable x a été mesurée 3 fois pour l'individu A, mais une seule fois pour l'individu B). Ce déséquilibre n'est pas dû à la stratégie d'échantillonnage des chercheurs en soi, mais reflète les caractéristiques de la population à partir de laquelle ils échantillonnent; certains individus ont plus de descendants que d'autres.
Je dois également souligner que la mesure de la réponse binomiale 0 \ 1 entre les événements de travail n'était pas possible car l'intervalle entre ces événements était assez court. Encore une fois, imaginez que l'espèce en question a une courte saison de reproduction, mais peut donner naissance à plus d'une progéniture au cours de la saison.
Les chercheurs ont choisi d'exécuter un modèle dans lequel ils ont utilisé la moyenne de la variable x comme une covariable et le nombre de descendants qu'un individu a mis au monde comme une autre covariable.
Maintenant, je n'aimais pas cette approche pour un certain nombre de raisons
1) Prendre la moyenne de x signifie perdre des informations sur la variabilité intra-individuelle de x.
2) La moyenne est elle-même une statistique, donc en l'intégrant dans le modèle, nous finissons par faire des statistiques sur les statistiques.
3) Le nombre de descendants d'un individu est dans le modèle, mais il est également utilisé pour calculer la moyenne de la variable x, ce qui, je pense, pourrait causer des problèmes.
Donc, ma question est de savoir comment les gens pourraient-ils modéliser ce type de données?
Pour le moment, j'exécuterais probablement des modèles distincts pour les individus qui avaient une progéniture, puis pour les individus qui avaient deux progénitures, etc. pas convaincu que ce soit beaucoup mieux non plus.
Merci pour votre temps
(PS: je m'excuse que c'est une assez longue question, et j'espère que l'exemple est clair)