Taille de l'échantillon pour la régression logistique?

26

Je veux faire un modèle logistique à partir de mes données d'enquête. Il s'agit d'une petite enquête sur quatre colonies résidentielles dans laquelle seulement 154 répondants ont été interrogés. Ma variable dépendante est «transition satisfaisante vers le travail». J'ai constaté que, sur les 154 répondants, 73 ont déclaré avoir effectué une transition satisfaisante vers le travail, tandis que les autres ne l'ont pas fait. La variable dépendante est donc de nature binaire et j'ai décidé d'utiliser la régression logistique. J'ai sept variables indépendantes (trois continues et quatre nominales). Une ligne directrice suggère qu'il devrait y avoir 10 cas pour chaque prédicteur / variable indépendante (Agresti, 2007). Sur la base de cette ligne directrice, je pense qu'il est correct d'effectuer une régression logistique.

Ai-je raison? Sinon, veuillez me faire savoir comment décider du nombre de variables indépendantes?

— Braj-Stat
source

3

Je n'ai jamais vraiment compris la règle empirique qui dit "10 cas pour chaque prédicteur" (et malheureusement je n'ai pas accès au livre écrit par Agresti). Ce que je veux dire, c'est que si j'ai 100 sujets dont 10 sont des cas (les 1) et 90 non-cas (les 0), alors la règle dit "n'inclut qu'un seul prédicteur". Mais que se passe-t-il si je modélise le 0's au lieu du 1' s et que je prends ensuite l'inverse des odds ratios estimés? Serais-je autorisé à inclure 9 prédicteurs? Cela n'a aucun sens pour moi.

— boscovich

Chère Andrea, j'ai dit la même chose que tu veux dire. Sur 154 répondants, il y a 73 cas (les 1 et les 0 restants). Pourriez-vous éclairer ma question, merci!

— Braj-Stat

4

Dans un commentaire, j'ai lu qu'il fallait considérer le minimum du nombre d'événements et de non-événements. Ainsi, dans l'exemple de 10/100, vous vous retrouvez avec un seul prédicteur, quelle que soit la façon dont vous le codez.

— psj

@psj cela semble raisonnable. Avez-vous des références?

— Boscovich

1

Il y a une discussion connexe ici: nombre minimum d'observations pour la régression logistique .

— gung - Rétablir Monica

25

Il y a plusieurs problèmes ici.

En règle générale, nous voulons déterminer une taille d'échantillon minimale afin d'atteindre un niveau de puissance statistique minimalement acceptable . La taille d'échantillon requise est fonction de plusieurs facteurs, principalement l'ampleur de l'effet que vous souhaitez pouvoir différencier de 0 (ou quel que soit le zéro que vous utilisez, mais 0 est le plus courant), et la probabilité minimale d'attraper cet effet vous vouloir avoir. Dans cette perspective, la taille de l'échantillon est déterminée par une analyse de puissance.

Une autre considération est la stabilité de votre modèle (comme le note @cbeleites). En fait, comme le rapport des paramètres estimés au nombre de données se rapproche de 1, votre modèle deviendra saturé, et sera nécessairement être surajustement ( à moins qu'il y est, en fait, pas aléatoire dans le système). La règle empirique du ratio de 1 à 10 vient de cette perspective. Notez qu'avoir une puissance adéquate couvrira généralement cette préoccupation pour vous, mais pas l'inverse.

Cependant, la règle de 1 à 10 vient du monde de la régression linéaire, et il est important de reconnaître que la régression logistique présente des complexités supplémentaires. Un problème est que la régression logistique fonctionne mieux lorsque les pourcentages de 1 et de 0 sont d'environ 50% / 50% (comme @andrea et @psj en discutent dans les commentaires ci-dessus). Une autre question à se préoccuper est la séparation . Autrement dit, vous ne voulez pas que tous vos 1 soient rassemblés à un extrême d'une variable indépendante (ou une combinaison d'entre eux), et tous les 0 à l'autre extrême. Bien que cela semble être une bonne situation, car cela rendrait la prédiction parfaite facile, cela fait exploser le processus d'estimation des paramètres. (@Scortchi a une excellente discussion sur la façon de gérer la séparation dans la régression logistique ici:Comment gérer la séparation parfaite dans la régression logistique? ) Avec plus d'IV, cela devient plus probable, même si la véritable amplitude des effets est maintenue constante, et surtout si vos réponses sont déséquilibrées. Ainsi, vous pouvez facilement avoir besoin de plus de 10 données par IV.

Un dernier problème avec cette règle de base, c'est qu'elle suppose que vos IV sont orthogonaux . Ceci est raisonnable pour les expériences conçues, mais avec des études d'observation telles que la vôtre, vos IV ne seront presque jamais à peu près orthogonaux. Il existe des stratégies pour faire face à cette situation (par exemple, combiner ou abandonner les IV, effectuer d'abord une analyse des principaux composants, etc.), mais si elle n'est pas traitée (ce qui est courant), vous aurez besoin de plus de données.

Une question raisonnable est alors la suivante: quel devrait être votre N minimum et / ou la taille de votre échantillon est-elle suffisante? Pour résoudre ce problème, je vous suggère d'utiliser les méthodes décrites par @cbeleites; s'appuyer sur la règle de 1 à 10 sera insuffisant.

— gung - Réintégrer Monica
source

6

Pouvez-vous fournir une référence pour l'énoncé «Un problème est que la régression logistique fonctionne mieux lorsque les pourcentages de 1 et de 0 sont d'environ 50% / 50%»? Je me pose des questions à ce sujet moi-même, car j'ai un ensemble de données très loin de 50/50 et je me demande les implications. (désolé de ressusciter le fil)

— Trevor

3

Je ne vois aucun problème avec la résurrection d'un ancien thread quand c'est approprié, @Trevor. Je pense que ce que vous cherchez est quelque chose dans le sens de cette belle réponse par conjugué avant: fait-un-échantillon-déséquilibré-matière-quand-faire-régression logistique .

— gung - Rétablir Monica

2

+1 à la question de Trevor. Je pense que la régression logistique continuera de bénéficier de nouvelles données, même si ces données sont du même cas (malgré des rendements décroissants). C'est en fait quelque chose qui m'a dérangé dans les techniques d'apprentissage automatique comme les forêts aléatoires - qu'elles peuvent s'aggraver en ajoutant des données d'entraînement plus pertinentes. Il y a peut-être un moment où la régression logistique s'effondrerait en raison de considérations numériques si le déséquilibre devenait trop grave. Serait intéressé à en savoir plus à ce sujet.

— Ben Ogorek

+1, peut-être que cela est sous-entendu par votre réponse, je ne suis pas sûr, mais je me demande comment cela fonctionne pour les variables catégorielles avec différents niveaux? Serait-il suggéré d'avoir 10 observations par niveau?

— baxx

1

C'est une règle d'or, @baxx, mais oui, pour faire plus que simplement estimer les pourcentages, il vous en faudrait au moins 45.

— gung - Réintégrer Monica

16

J'utilise généralement une règle de 15: 1 (rapport du min (événements, non-événements) au nombre de paramètres candidats dans le modèle). Des travaux plus récents ont montré que pour une validation plus rigoureuse, 20: 1 est nécessaire. Plus d'informations peuvent être trouvées dans mes documents de cours liés à http://biostat.mc.vanderbilt.edu/rms , en particulier un argument pour une taille d'échantillon minimum de 96 juste pour estimer l'interception. Mais l'exigence de taille d'échantillon est plus nuancée, et un article encore plus récent aborde cette question de manière plus complète.

— Frank Harrell
source

14

Habituellement, trop peu de cas ont été écrits. la complexité du modèle (nombre de paramètres) signifie que les modèles sont instables . Donc, si vous voulez savoir si la complexité de votre taille / modèle d'échantillon est OK, vérifiez si vous obtenez un modèle raisonnablement stable.

Il existe (au moins) deux types différents d'instabilité:

Les paramètres du modèle varient beaucoup avec seulement de légères modifications dans les données d'entraînement.
Les prévisions (pour le même cas) de modèles entraînés avec de légères modifications dans les données d'entraînement varient beaucoup.

Vous pouvez mesurer 1. en observant la variation de vos coefficients de modèle si les données d'entraînement sont légèrement perturbées. Un ensemble approprié de modèles peut être calculé, par exemple pendant les procédures de bootstrap ou de validation croisée (itérée).

Pour certains types de modèles ou de problèmes, des paramètres variables n'impliquent pas des prévisions différentes. Vous pouvez vérifier directement l'instabilité 2. en examinant la variation des prédictions pour le même cas (qu'elles soient correctes ou non) calculées lors de la validation hors bootstrap ou itérée.

— cbeleites soutient Monica
source

5

Il n'y a pas de règles strictes, mais vous pouvez inclure toutes les variables indépendantes tant que les variables nominales n'ont pas trop de catégories. Vous avez besoin d'un "bêta" pour tous sauf un de la classe pour chaque variable nominale. Donc, si une variable nominale était «zone de travail» et que vous avez 30 zones, vous auriez besoin de 29 bêtas.

Une façon de surmonter ce problème consiste à régulariser les bêtas - ou à pénaliser les coefficients importants. Cela permet de vous assurer que votre modèle ne surpasse pas les données. La régularisation L2 et L1 sont des choix populaires.

Une autre question à considérer est la représentativité de votre échantillon. De quelle population voulez-vous faire l'inférence? avez-vous tous les différents types de personnes dans l'échantillon qu'il y a dans la population? il sera difficile de faire une inférence précise si votre échantillon présente des «trous» (par exemple, aucune femme âgée de 35 à 50 ans dans l'échantillon ou aucun travailleur à revenu élevé, etc.)

— probabilitéislogique
source

4

Voici la réponse réelle du site Web de MedCalc user41466 a écrit à propos de

http://www.medcalc.org/manual/logistic_regression.php

Considérations sur la taille de l'échantillon

Le calcul de la taille de l'échantillon pour la régression logistique est un problème complexe, mais d'après les travaux de Peduzzi et al. (1996), la ligne directrice suivante pour un nombre minimal de cas à inclure dans votre étude peut être suggérée. Soit p la plus petite des proportions de cas négatifs ou positifs dans la population et k le nombre de covariables (le nombre de variables indépendantes), alors le nombre minimum de cas à inclure est: N = 10 k / p Par exemple: vous ont 3 covariables à inclure dans le modèle et la proportion de cas positifs dans la population est de 0,20 (20%). Le nombre minimal de cas requis est N = 10 x 3 / 0,20 = 150 Si le nombre résultant est inférieur à 100, vous devez l'augmenter à 100 comme suggéré par Long (1997).

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) Une étude de simulation du nombre d'événements par variable dans l'analyse de régression logistique. Journal of Clinical Epidemiology 49: 1373-1379.

— user2387584
source

Il s'agit donc des 10 mêmes cas par variable indépendante (avec plancher)

— seanv507

1

Les résultats de tout modèle logistique avec un nombre d'observations par variable indépendante allant d'au moins cinq à neuf sont fiables, surtout si les résultats sont statistiquement significatifs (Vittinghoff et McCulloch, 2007).

Vittinghoff, E. et McCulloch, CE 2007. Assouplissement de la règle de dix événements par variable dans la régression logistique et de Cox. American Journal of Epidemiology, 165 (6): 710–718.

— user143522
source

Notez que ce n'est pas strictement le "nombre d'observations par variable indépendante" qui est en cause, c'est le nombre "d'événements". Pour une régression logistique, le nombre «d'événements» est le nombre de cas dans la moins fréquente des deux classes de résultats. Cela ne dépassera pas la moitié du nombre total d'observations et, dans certaines applications, beaucoup moins que cela.

— EdM