Divulgation complète: ce sont des devoirs. J'ai inclus un lien vers l'ensemble de données ( http://www.bertelsen.ca/R/logistic-regression.sav )
Mon objectif est de maximiser la prédiction des défaillants dans cet ensemble de données.
Chaque modèle que j'ai trouvé jusqu'à présent prédit> 90% des non-défaillants, mais <40% des défaillants, ce qui rend l'efficacité de la classification globale ~ 80%. Je me demande donc s'il y a des effets d'interaction entre les variables? Dans une régression logistique, outre le test de chaque combinaison possible, existe-t-il un moyen d'identifier les effets d'interaction potentiels? Ou encore un moyen d'augmenter l'efficacité de la classification des défaillants.
Je suis coincé, toute recommandation serait utile dans votre choix de mots, de code R ou de syntaxe SPSS.
Mes variables principales sont décrites dans l'histogramme et le diagramme de dispersion suivants (à l'exception de la variable dichotomique)
Une description des variables primaires:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
Les variables supplémentaires ne sont que des transformations de ce qui précède. J'ai également essayé de convertir quelques-unes des variables continues en variables catégorielles et de les implémenter dans le modèle, pas de chance là-bas.
Si vous souhaitez l'insérer dans R, rapidement, le voici:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)