Il y a plusieurs problèmes ici.
En règle générale, nous voulons déterminer une taille d'échantillon minimale afin d'atteindre un niveau de puissance statistique minimalement acceptable . La taille d'échantillon requise est fonction de plusieurs facteurs, principalement l'ampleur de l'effet que vous souhaitez pouvoir différencier de 0 (ou quel que soit le zéro que vous utilisez, mais 0 est le plus courant), et la probabilité minimale d'attraper cet effet vous vouloir avoir. Dans cette perspective, la taille de l'échantillon est déterminée par une analyse de puissance.
Une autre considération est la stabilité de votre modèle (comme le note @cbeleites). En fait, comme le rapport des paramètres estimés au nombre de données se rapproche de 1, votre modèle deviendra saturé, et sera nécessairement être surajustement ( à moins qu'il y est, en fait, pas aléatoire dans le système). La règle empirique du ratio de 1 à 10 vient de cette perspective. Notez qu'avoir une puissance adéquate couvrira généralement cette préoccupation pour vous, mais pas l'inverse.
Cependant, la règle de 1 à 10 vient du monde de la régression linéaire, et il est important de reconnaître que la régression logistique présente des complexités supplémentaires. Un problème est que la régression logistique fonctionne mieux lorsque les pourcentages de 1 et de 0 sont d'environ 50% / 50% (comme @andrea et @psj en discutent dans les commentaires ci-dessus). Une autre question à se préoccuper est la séparation . Autrement dit, vous ne voulez pas que tous vos 1 soient rassemblés à un extrême d'une variable indépendante (ou une combinaison d'entre eux), et tous les 0 à l'autre extrême. Bien que cela semble être une bonne situation, car cela rendrait la prédiction parfaite facile, cela fait exploser le processus d'estimation des paramètres. (@Scortchi a une excellente discussion sur la façon de gérer la séparation dans la régression logistique ici:Comment gérer la séparation parfaite dans la régression logistique? ) Avec plus d'IV, cela devient plus probable, même si la véritable amplitude des effets est maintenue constante, et surtout si vos réponses sont déséquilibrées. Ainsi, vous pouvez facilement avoir besoin de plus de 10 données par IV.
Un dernier problème avec cette règle de base, c'est qu'elle suppose que vos IV sont orthogonaux . Ceci est raisonnable pour les expériences conçues, mais avec des études d'observation telles que la vôtre, vos IV ne seront presque jamais à peu près orthogonaux. Il existe des stratégies pour faire face à cette situation (par exemple, combiner ou abandonner les IV, effectuer d'abord une analyse des principaux composants, etc.), mais si elle n'est pas traitée (ce qui est courant), vous aurez besoin de plus de données.
Une question raisonnable est alors la suivante: quel devrait être votre N minimum et / ou la taille de votre échantillon est-elle suffisante? Pour résoudre ce problème, je vous suggère d'utiliser les méthodes décrites par @cbeleites; s'appuyer sur la règle de 1 à 10 sera insuffisant.
1
) et 90 non-cas (les0
), alors la règle dit "n'inclut qu'un seul prédicteur". Mais que se passe-t-il si je modélise le0
's au lieu du1
' s et que je prends ensuite l'inverse des odds ratios estimés? Serais-je autorisé à inclure 9 prédicteurs? Cela n'a aucun sens pour moi.