Une distinction essentielle est de savoir si vous voulez:
- [Cas le plus courant]: Construisez une estimation de la performance sur de nouveaux sujets (tirée de la même population que vos données).
- Construisez une estimation de la performance sur de nouvelles observations des mêmes sujets que dans votre échantillon.
Le cas le plus courant est le numéro de dossier (1). Par exemple, dans quelle mesure prévoyez-vous des crises cardiaques pour une personne qui arrive aux urgences? Et si vous êtes dans le cas (1), vous devriez presque certainement faire (a) une validation croisée par sujet plutôt que (b) une validation croisée par enregistrement. Effectuer une validation au niveau des enregistrements dans le cas (1) conduira probablement à des estimations déraisonnablement élevées des performances sur de nouveaux sujets.
Je ne comprends pas précisément ce que vous essayez de faire (et c'est peut-être de l'auto-apprentissage donc la question n'est pas entièrement réaliste). Je ne sais pas dans quel cas vous vous trouvez. Si vous êtes dans le cas beaucoup moins courant (2), la validation par enregistrement peut être correcte.
Un thème général de la statistique est de bien réfléchir à ce qui est indépendant et à ce qui est corrélé. D'une manière générale, une observation indépendante a tendance à être un sujet différent. Si vous voulez prédire les performances sur de nouveaux sujets, vous devez tester sur des sujets sur lesquels vous ne vous êtes pas entraîné!
Pourquoi la validation croisée par sujet plutôt que par enregistrement?
Dans des contextes typiques, des observations répétées du même individu sont corrélées les unes aux autres, même après conditionnement des caractéristiques. Par conséquent, avec une validation croisée record, votre ensemble de tests n'est pas indépendant de votre ensemble d'entraînement! Dans le cas extrême d'une corrélation parfaite, vous auriez exactement les mêmes observations dans le jeu d'entraînement et le jeu de test! Vous vous entraîneriez sur l'ensemble de test! La performance mesurée en validation croisée ne serait pas prédictive de la performance sur de nouveaux sujets.
Par exemple, ce récent article appelle la validation croisée au niveau des enregistrements, «Voodoo Machine Learning».
Que faire avec si peu de sujets ...
k = n
Pour maximiser les données pour la formation, vous pouvez laisser de côté un sujet pour la validation croisée. À chaque itération, testez sur un sujet différent et entraînez-vous sur tous les autres.
n = 38