Je travaille sur un projet et j'ai besoin de ressources pour me mettre au courant.
L'ensemble de données comprend environ 35 000 observations sur une trentaine de variables. Environ la moitié des variables sont catégorielles, certaines ayant plusieurs valeurs possibles différentes, c'est-à-dire que si vous divisez les variables catégorielles en variables factices, vous auriez beaucoup plus de 30 variables. Mais encore probablement de l'ordre de quelques centaines de max. (n> p).
La réponse que nous voulons prédire est ordinale avec 5 niveaux (1,2,3,4,5). Les prédicteurs sont un mélange de continu et de catégorique, environ la moitié de chacun. Voici mes pensées / plans jusqu'à présent: 1. Traitez la réponse comme une régression linéaire continue et exécutez la vanille. 2. Exécuter une régression logistique nominale et ordinale et une régression probit 3. Utiliser MARS et / ou une autre variante de régression non linéaire
Je connais la régression linéaire. MARS est assez bien décrit par Hastie et Tibshirani. Mais je suis perdu quand il s'agit de logit / probit ordinaux, en particulier avec autant de variables et un ensemble de données volumineux.
Le paquet r glmnetcr semble être mon meilleur pari jusqu'à présent, mais la documentation ne suffit pas à me mettre où je dois être.
Où puis-je aller pour en savoir plus?