Je ne comprends pas bien la question. Généralement, un échantillon plus grand donnera (par exemple) une meilleure classification. Sauf si plus grand signifie des observations de mauvaise qualité. Un petit échantillon rendra beaucoup de modèles inutiles. Par exemple, étant donné que les modèles arborescents sont une sorte d'approche «diviser pour régner», leur efficacité dépend beaucoup de la taille de l'échantillon d'apprentissage.
D'un autre côté, si vous êtes intéressé par l'apprentissage statistique dans les hautes dimensions, je pense que votre préoccupation a plus à voir avec la malédiction de la dimensionnalité. Si la taille de votre échantillon est "petite" et votre espace de fonctionnalité est d'une dimension "élevée", vos données se comporteront comme si elles étaient rares et la plupart des algorithmes auront beaucoup de mal à essayer de donner un sens à cela. Citant John A. Richards dans l'analyse d'images numériques par télédétection:
Réduction et séparabilité des fonctionnalités
Le coût de la classification augmente avec le nombre d'entités utilisées pour décrire les vecteurs pixels dans l'espace multispectral - c'est-à-dire avec le nombre de bandes spectrales associées à un pixel. Pour les classificateurs tels que les procédures de parallélépipède et de distance minimale, il s'agit d'une augmentation linéaire avec les caractéristiques; cependant, pour la classification du maximum de vraisemblance, la procédure la plus souvent préférée, l'augmentation des coûts avec les caractéristiques est quadratique. Par conséquent, il est judicieux sur le plan économique de veiller à ne pas utiliser plus de fonctionnalités que nécessaire lors de l'exécution d'une classification. La section 8.2.6 attire l'attention sur le nombre de pixels d'apprentissage nécessaires pour garantir l'obtention d'estimations fiables des signatues de classe. En particulier, le nombre de pixels d'apprentissage requis augmente avec le nombre de bandes ou de canaux dans les données. Pour les données à haute dimensionnalité, telle que celle des spectromètres imageurs, cette exigence représente un défi dans la pratique, il est donc important de maintenir le nombre de fonctionnalités utilisées dans une classification aussi petit que possible si des résultats fiables sont attendus d'un nombre abordable de pixels d'entraînement. Les caractéristiques qui ne favorisent pas la discrimination, en contribuant peu à la séparabilité des classes spectrales, devraient être rejetées. La suppression des fonctionnalités les moins efficaces est appelée sélection des fonctionnalités, ce qui constitue une forme de réduction des fonctionnalités. L'autre consiste à transformer le vecteur pixel en un nouvel ensemble de coordonnées dans lequel les caractéristiques qui peuvent être supprimées sont rendues plus évidentes. Les deux procédures sont examinées en détail dans ce chapitre. il est donc important de maintenir le nombre de fonctionnalités utilisées dans une classification aussi peu que possible pour obtenir des résultats fiables à partir d'un nombre abordable de pixels d'entraînement. Les caractéristiques qui ne favorisent pas la discrimination, en contribuant peu à la séparabilité des classes spectrales, devraient être rejetées. La suppression des fonctionnalités les moins efficaces est appelée sélection des fonctionnalités, ce qui constitue une forme de réduction des fonctionnalités. L'autre consiste à transformer le vecteur pixel en un nouvel ensemble de coordonnées dans lequel les caractéristiques qui peuvent être supprimées sont rendues plus évidentes. Les deux procédures sont examinées en détail dans ce chapitre. il est donc important de maintenir le nombre de fonctionnalités utilisées dans une classification aussi peu que possible pour obtenir des résultats fiables à partir d'un nombre abordable de pixels d'entraînement. Les caractéristiques qui ne favorisent pas la discrimination, en contribuant peu à la séparabilité des classes spectrales, devraient être rejetées. La suppression des fonctionnalités les moins efficaces est appelée sélection des fonctionnalités, ce qui constitue une forme de réduction des fonctionnalités. L'autre consiste à transformer le vecteur pixel en un nouvel ensemble de coordonnées dans lequel les caractéristiques qui peuvent être supprimées sont rendues plus évidentes. Les deux procédures sont examinées en détail dans ce chapitre. doit être jeté. La suppression des fonctionnalités les moins efficaces est appelée sélection des fonctionnalités, ce qui constitue une forme de réduction des fonctionnalités. L'autre consiste à transformer le vecteur pixel en un nouvel ensemble de coordonnées dans lequel les caractéristiques qui peuvent être supprimées sont rendues plus évidentes. Les deux procédures sont examinées en détail dans ce chapitre. doit être jeté. La suppression des fonctionnalités les moins efficaces est appelée sélection des fonctionnalités, ce qui constitue une forme de réduction des fonctionnalités. L'autre consiste à transformer le vecteur pixel en un nouvel ensemble de coordonnées dans lequel les caractéristiques qui peuvent être supprimées sont rendues plus évidentes. Les deux procédures sont examinées en détail dans ce chapitre.
Ce qui signifierait que le problème est double, trouvant les fonctionnalités pertinentes et la taille de samp que vous mentionnez. À partir de maintenant, vous pouvez télécharger le livre gratuitement si vous le recherchez sur Google.
Une autre façon de lire votre question qui m'intéresse particulièrement serait la suivante: dans l'apprentissage supervisé, vous ne pouvez vraiment valider vos modèles sur des données de test que par validation croisée et ce qui ne l'est pas. Si l'échantillon étiqueté à partir duquel vous avez obtenu vos échantillons de train / test ne représente pas bien votre univers, les résultats de validation peuvent ne pas s'appliquer à votre univers. Comment pouvez-vous mesurer la représentativité de votre échantillon étiqueté?