Bon, je pense donc avoir un échantillon assez décent, en tenant compte de la règle empirique de 20: 1: un échantillon assez volumineux (N = 374) pour un total de 7 variables prédictives candidates.
Mon problème est le suivant: quel que soit le jeu de variables de prédiction que j'utilise, les classifications ne dépassent jamais une spécificité de 100% et une sensibilité de 0%. Bien que peu satisfaisant, cela pourrait en fait être le meilleur résultat possible, étant donné l'ensemble des variables prédictives candidates (à partir desquelles je ne peux pas dévier).
Mais, je ne pouvais pas m'empêcher de penser que je pouvais faire mieux, alors j'ai remarqué que les catégories de la variable dépendante étaient assez inégalement équilibrées, presque 4: 1. Un sous-échantillon plus équilibré pourrait-il améliorer les classifications?