Ce n'est probablement pas une bonne chose à faire. Examiner d'abord toutes les covariables individuelles, puis construire un modèle avec celles qui sont significatives équivaut logiquement à une procédure de recherche automatique. Bien que cette approche soit intuitive, les déductions faites à partir de cette procédure ne sont pas valides (par exemple, les vraies valeurs de p sont différentes de celles rapportées par le logiciel). Le problème est amplifié plus la taille de l'ensemble initial de covariables est grande. Si vous le faites de toute façon (et, malheureusement, beaucoup de gens le font), vous ne pouvez pas prendre le modèle résultant au sérieux. Au lieu de cela, vous devez exécuter une étude entièrement nouvelle, rassemblant un échantillon indépendant et ajustant le modèle précédent, pour le tester. Cependant, cela nécessite beaucoup de ressources, et de plus, puisque le processus est défectueux et que le modèle précédent est probablement mauvais,gaspiller beaucoup de ressources.
Une meilleure façon consiste à évaluer les modèles qui vous intéressent sur le fond. Utilisez ensuite un critère d'information qui pénalise la flexibilité des modèles (comme l'AIC) pour juger ces modèles. Pour la régression logistique, l'AIC est:
AIC=−2×ln(likelihood)+2k
où est le nombre de covariables incluses dans ce modèle. Vous voulez le modèle avec la plus petite valeur pour l'AIC, toutes choses étant égales par ailleurs. Cependant, ce n'est pas toujours aussi simple; méfiez-vous lorsque plusieurs modèles ont des valeurs similaires pour l'AIC, même si l'un peut être le plus bas. k
J'inclus ici la formule complète de l'AIC, car différents logiciels génèrent des informations différentes. Vous devrez peut-être le calculer à partir de la probabilité, ou vous pouvez obtenir l'AIC final, ou quoi que ce soit entre les deux.