(1) Il existe une littérature abondante sur les raisons pour lesquelles on devrait préférer les modèles complets aux modèles restreints / parcimonieux. Ma compréhension est peu de raisons de préférer le modèle parcimonieux. Cependant, des modèles plus grands peuvent ne pas être réalisables pour de nombreuses applications cliniques.
(2) Pour autant que je sache, les indices de discrimination / discrimination ne sont pas (? Ne devraient pas être) utilisés comme paramètre de sélection de modèle / variable. Ils ne sont pas destinés à cet usage et, par conséquent, il peut ne pas y avoir beaucoup de littérature sur pourquoi ils ne devraient pas être utilisés pour la construction de modèles.
(3) Les modèles parcimonieux peuvent avoir des limites qui ne sont pas facilement apparentes. Ils peuvent être moins bien calibrés que les modèles plus grands, la validité externe / interne peut être réduite.
(4) La statistique c peut ne pas être optimale pour évaluer les modèles qui prédisent le risque futur ou stratifient les individus en catégories de risque. Dans ce contexte, l'étalonnage est tout aussi important pour une évaluation précise du risque. Par exemple, un biomarqueur avec un rapport de cotes de 3 peut avoir peu d'effet sur les statistiques, mais un niveau accru pourrait faire passer le risque cardiovasculaire estimé à 10 ans pour un patient individuel de 8% à 24%.
Cook NR; Utilisation et mauvaise utilisation de la courbe ROC dans la littérature médicale. Circulation. 115 2007: 928-935.
(5) L'ASC / statistique c / discrimination est connue pour être insensible aux variables prédictives significatives. Ceci est discuté dans la référence Cook ci-dessus, et la force motrice derrière le développement de l'indice de reclassement net. Également discuté dans Cook ci-dessus.
(6) Les grands ensembles de données peuvent toujours conduire à des modèles plus grands que souhaité si des méthodes de sélection de variables standard sont utilisées. Dans les procédures de sélection par étapes, un seuil de valeur p de 0,05 est souvent utilisé. Mais il n'y a rien d'intrinsèque dans cette valeur qui signifie que vous devez choisir cette valeur. Avec des ensembles de données plus petits, une valeur p plus grande (0,2) peut être plus appropriée, dans des ensembles de données plus grands une valeur p plus petite peut être appropriée (0,01 a été utilisé pour l'ensemble de données GUSTO I pour cette raison).
(7) Alors que l'AIC est souvent utilisé pour la sélection de modèles et est mieux soutenu par la littérature, le BIC peut être une alternative valable dans des ensembles de données plus importants. Pour la sélection du modèle BIC, le chi carré doit dépasser log (n), donc il en résultera des modèles plus petits dans des ensembles de données plus grands. (La mauve peut avoir des caractéristiques similaires)
(8) Mais si vous voulez juste un maximum de 10 ou 12 variables, la solution la plus simple est quelque chose comme bestglm
ou des leaps
packages si vous venez de définir le nombre maximum de variables que vous souhaitez considérer.
(9) si vous voulez juste un test qui rendra les deux modèles identiques et ne vous inquiétez pas trop des détails, vous pouvez probablement comparer l'ASC des deux modèles. Certains packages vous donneront même une valeur de p pour la comparaison. Ne semble pas conseillé.
Ambler G (2002) Simplifier un modèle pronostique: une étude de simulation basée sur les données cliniques
Cook NR; Utilisation et mauvaise utilisation de la courbe ROC dans la littérature médicale. Circulation. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Sur les critères d'évaluation des modèles de risque absolu. Biostat. 6 2005: 227-239.
(10) Une fois le modèle construit, les indices c-statistiques / décimation peuvent ne pas être la meilleure approche pour comparer les modèles et présentent des limites bien documentées. Les comparaisons devraient également au minimum inclure l'étalonnage et l'indice de reclassement.
Steyerber (2010) Évaluer la performance des modèles de prédiction: un cadre pour certaines mesures traditionnelles et nouvelles
(11) Il peut être judicieux d'aller plus loin et d'utiliser des mesures analytiques de décision.
Vickers AJ, Elkin EB. Analyse de la courbe de décision: une nouvelle méthode pour évaluer les modèles de prédiction. Fabrication Med Decis. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Utilisation de courbes d'utilité relative pour évaluer la prédiction des risques. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Évaluation des marqueurs et des modèles de prévision des risques: aperçu des relations entre le NRI et les mesures décisionnelles. Fabrication Med Decis. 2013; 33: 490-501
--- Mise à jour --- Je trouve l'article Vickers le plus intéressant. Mais cela n'a toujours pas été largement accepté malgré de nombreux éditoriaux. Donc, peut ne pas être d'une grande utilité pratique. Les articles Cook et Steyerberg sont beaucoup plus pratiques.
Personne n'aime la sélection par étapes. Je ne vais certainement pas en plaider la cause. Je pourrais souligner que la plupart des critiques à l'égard de l'étape par étape supposent une VPE <50 et un choix entre un modèle complet ou prédéfini et un modèle réduit. Si EPV> 50 et qu'il existe un engagement à réduire le modèle, l'analyse coûts-avantages peut être différente.
La faible pensée derrière la comparaison des statistiques c est qu'elles peuvent ne pas être différentes et je semble me souvenir que ce test est considérablement sous-alimenté. Mais maintenant, je ne peux pas trouver la référence, donc peut-être bien loin de là-dessus.