Ceci est mon premier article sur StackExchange, mais je l'utilise comme ressource depuis un bon moment, je ferai de mon mieux pour utiliser le format approprié et apporter les modifications appropriées. C'est également une question en plusieurs parties. Je ne savais pas si je devais diviser la question en plusieurs messages différents ou un seul. Étant donné que les questions proviennent toutes d'une section du même texte, j'ai pensé qu'il serait plus pertinent de poster en une seule question.
Je recherche l'utilisation de l'habitat d'une grande espèce de mammifère pour une thèse de maîtrise. Le but de ce projet est de fournir aux gestionnaires forestiers (qui ne sont probablement pas des statisticiens) un cadre pratique pour évaluer la qualité de l'habitat sur les terres qu'ils gèrent à l'égard de cette espèce. Cet animal est relativement insaisissable, spécialiste de l'habitat et généralement situé dans des régions éloignées. Relativement peu d'études ont été menées concernant la répartition de l'espèce, en particulier de façon saisonnière. Plusieurs animaux ont été équipés de colliers GPS pendant une période d'un an. Cent emplacements (50 été et 50 hiver) ont été sélectionnés au hasard à partir des données de collier GPS de chaque animal. De plus, 50 points ont été générés au hasard dans le domaine vital de chaque animal pour servir de lieux "disponibles" ou "pseudo-absents".
Pour chaque emplacement, plusieurs variables de l'habitat ont été échantillonnées sur le terrain (diamètres des arbres, couverture horizontale, débris ligneux grossiers, etc.) et plusieurs ont été échantillonnées à distance via le SIG (élévation, distance à la route, robustesse, etc.). Les variables sont pour la plupart continues, à l'exception d'une variable catégorielle à 7 niveaux.
Mon objectif est d'utiliser la modélisation de régression pour créer des fonctions de sélection des ressources (RSF) afin de modéliser la probabilité relative d'utilisation des unités de ressources. Je voudrais construire un RSF saisonnier (hiver et été) pour la population d'animaux (type de conception I) ainsi que pour chaque animal individuel (type de conception III).
J'utilise R pour effectuer l'analyse statistique.
Le texte principal que j'utilise est ...
- "Hosmer, DW, Lemeshow, S., et Sturdivant, RX 2013. Régression logistique appliquée. Wiley, Chicester".
La majorité des exemples dans Hosmer et al. utilisation STATA, j'ai également utilisé les 2 textes suivants pour référence avec R .
- "Crawley, MJ 2005. Statistics: an introduction using RJ Wiley, Chichester, West Sussex, England."
- "Plant, RE 2012. Analyse des données spatiales en écologie et en agriculture à l'aide de R. CRC Press, Londres, GBR."
Je suis actuellement en train de suivre les étapes du chapitre 4 de Hosmer et al. pour la "Sélection délibérée des covariables" et avez quelques questions sur le processus. J'ai décrit les premières étapes dans le texte ci-dessous pour répondre à mes questions.
- Étape 1: Une analyse univariable de chaque variable indépendante (j'ai utilisé une régression logistique univariable). Toute variable dont le test univariable a une valeur de p inférieure à 0,25 doit être incluse dans le premier modèle multivariable.
- Étape 2: Ajustez un modèle multivariable contenant toutes les covariables identifiées pour inclusion à l'étape 1 et pour évaluer l'importance de chaque covariable en utilisant la valeur de p de sa statistique de Wald. Les variables qui ne contribuent pas aux niveaux de signification traditionnels devraient être éliminées et un nouveau modèle adapté. Le nouveau modèle plus petit doit être comparé à l'ancien modèle plus grand en utilisant le test du rapport de vraisemblance partiel.
- Étape 3: Comparez les valeurs des coefficients estimés dans le petit modèle à leurs valeurs respectives dans le grand modèle. Toute variable dont le coefficient a considérablement changé en ampleur doit être rajoutée dans le modèle car elle est importante dans le sens de fournir un ajustement nécessaire de l'effet des variables qui restent dans le modèle. Parcourez les étapes 2 et 3 jusqu'à ce qu'il apparaisse que toutes les variables importantes sont incluses dans le modèle et que celles qui sont exclues sont cliniquement et / ou statistiquement sans importance. Hosmer et al. utiliser le " delta-beta-hat-percent " comme mesure du changement de magnitude des coefficients. Ils suggèrent un changement significatif en tant que pourcentage delta-bêta-chapeau de> 20%. Hosmer et al. définir le delta-beta-hat-percent comme . Oùθ1est le coefficient du modèle plus petit etβ1est le coefficient du modèle plus grand.
- Étape 4: Ajoutez chaque variable non sélectionnée à l'étape 1 au modèle obtenu à la fin de l'étape 3, une par une, et vérifiez sa signification soit par la valeur p de la statistique de Wald soit par le test du rapport de vraisemblance partielle s'il s'agit d'un critère catégorique variable avec plus de 2 niveaux. Cette étape est essentielle pour identifier les variables qui, en elles-mêmes, ne sont pas significativement liées au résultat mais apportent une contribution importante en présence d'autres variables. Nous désignons le modèle à la fin de l'étape 4 comme le modèle préliminaire des effets principaux .
- Étapes 5-7: Je n'ai pas progressé jusqu'à ce point, je vais donc laisser ces étapes pour le moment ou les enregistrer pour une autre question.
Mes questions:
- À l'étape 2, quel serait le niveau de signification traditionnel, une valeur de p <0,05 quelque chose de plus grand comme <0,25?
- À l'étape 2, je veux m'assurer que le code R que j'ai utilisé pour le test de vraisemblance partielle est correct et je veux m'assurer d'interpréter correctement les résultats. Voici ce que j'ai fait…
anova(smallmodel,largemodel,test='Chisq')
Si la valeur de p est significative (<0,05) j'ajoute la variable au modèle, si elle est insignifiante je procède à la suppression? 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])