J'essaie d'adapter une régression logistique où il y a une énorme différence dans le nombre de points de données dans les deux groupes (70 Vs 10 000). Un de mes amis statisticien m'a dit que c'est un problème connu de régression logistique et que pour ces types de chiffres, il correspond aux données et ne fonctionne pas. Lorsque je range les données et les compare au modèle, il est assez évident que c'est définitivement le cas.
Je me demande si quelqu'un est au courant d'une méthode meilleure / plus flexible pour ajuster ce type de données de réponse binaire?
(Je ne suis pas un statisticien au fait, alors allez-y doucement avec moi!)