Je modélise certaines données où je pense avoir deux effets aléatoires croisés. Mais l'ensemble de données n'est pas équilibré, et je ne suis pas sûr de ce qui doit être fait pour en tenir compte.
Mes données sont un ensemble d'événements. Un événement se produit lorsqu'un client rencontre un fournisseur pour effectuer une tâche, réussie ou non. Il y a des milliers de clients et fournisseurs, et chaque client et fournisseur participe à un nombre variable d'événements (environ 5 à 500). Chaque client et fournisseur a un niveau de compétence, et les chances de succès de la tâche dépendent des compétences des deux participants. Il n'y a pas de chevauchement entre les clients et les fournisseurs.
Je m'intéresse aux variations respectives de la population des clients et des prestataires, afin que nous puissions savoir quelle source a un plus grand effet sur le taux de réussite. Je veux également connaître les valeurs spécifiques des compétences parmi le client et les fournisseurs pour lesquels nous avons réellement des données, afin d'identifier les meilleurs / pires clients ou fournisseurs.
Au départ, je veux supposer que la probabilité de réussite est uniquement déterminée par les niveaux de compétence combinés du client et du fournisseur, sans autres effets fixes. Donc, en supposant que x est un facteur pour le client et y est un facteur pour le fournisseur, alors dans R (en utilisant le package lme4), j'ai un modèle spécifié comme:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
Un problème est que les clients ne sont pas répartis également entre les fournisseurs. Les clients plus qualifiés sont plus susceptibles d'être jumelés à des fournisseurs de compétences plus élevées. Je crois comprendre qu'un effet aléatoire ne doit pas être corrélé avec tout autre prédicteur du modèle, mais je ne sais pas comment le prendre en compte.
De plus, certains clients et fournisseurs ont très peu d'événements (moins de 10), tandis que d'autres en ont beaucoup (jusqu'à 500), il y a donc une large diffusion dans la quantité de données que nous avons sur chaque participant. Idéalement, cela se refléterait dans un "intervalle de confiance" autour de chaque estimation de compétence des participants (bien que je pense que le terme intervalle de confiance n'est pas tout à fait correct ici).
Les effets aléatoires croisés vont-ils être problématiques en raison des données déséquilibrées? Si oui, quelles sont les autres approches à considérer?