Que pensez-vous de l'application de techniques d'apprentissage automatique, comme les forêts aléatoires ou la régression pénalisée (avec pénalité L1 ou L2, ou une combinaison de celles-ci) dans de petits échantillons d'études cliniques lorsque l'objectif est d'isoler des prédicteurs intéressants dans un contexte de classification? Ce n'est pas une question sur la sélection du modèle, ni sur la façon de trouver des estimations optimales d'effet / importance variable. Je ne prévois pas de faire d'inférence forte mais simplement d'utiliser une modélisation multivariée, évitant ainsi de tester chaque prédicteur par rapport au résultat d'intérêt un par un, et de prendre en compte leurs interrelations.
Je me demandais simplement si une telle approche était déjà appliquée dans ce cas extrême particulier, disons 20-30 sujets avec des données sur 10-15 variables catégoriques ou continues. Ce n'est pas exactement le cas et je pense que le problème ici est lié au nombre de classes que nous essayons d'expliquer (qui sont souvent mal équilibrées), et au n (très) petit. Je connais l'énorme littérature sur ce sujet dans le contexte de la bioinformatique, mais je n'ai trouvé aucune référence liée aux études biomédicales avec des phénotypes mesurés psychométriquement (par exemple dans les questionnaires neuropsychologiques).
Avez-vous des conseils ou des indications sur les articles pertinents?
Mise à jour
Je suis ouvert à toute autre solution pour analyser ce type de données, par exemple l'algorithme C4.5 ou ses dérivés, les méthodes de règles d'association et toutes les techniques d'exploration de données pour la classification supervisée ou semi-supervisée.