Le terme de recherche que vous recherchez est "courbe d'apprentissage", qui donne les performances (moyennes) du modèle en fonction de la taille de l'échantillon d'apprentissage.
Les courbes d'apprentissage dépendent de beaucoup de choses, par exemple
- méthode de classification
- complexité du classificateur
- dans quelle mesure les classes sont séparées.
(Je pense que pour un LDA à deux classes, vous pouvez peut-être dériver des calculs de puissance théoriques, mais le fait crucial est toujours de savoir si vos données répondent réellement à l'hypothèse "COV normal multivarié égal". J'irais pour une simulation sur les deux LDA hypothèses et rééchantillonnage de vos données déjà existantes).
n
Un autre aspect que vous devrez peut-être prendre en compte est qu'il ne suffit généralement pas de former un bon classificateur, mais vous devez également prouver que le classificateur est bon (ou assez bon). Vous devez donc planifier également la taille de l'échantillon nécessaire à la validation avec une précision donnée. Si vous devez donner ces résultats sous forme de fraction de succès parmi autant de cas de test (par exemple, l'exactitude / la précision / la sensibilité / la valeur prédictive positive du producteur ou du consommateur), et la tâche de classification sous-jacente est plutôt facile, cela peut nécessiter des cas plus indépendants que la formation de un bon modèle.
En règle générale, pour la formation, la taille de l'échantillon est généralement discutée en fonction de la complexité du modèle (nombre de cas: nombre de variables), tandis que des limites absolues sur la taille de l'échantillon de test peuvent être données pour une précision requise de la mesure des performances.
Voici un article, où nous avons expliqué ces choses plus en détail, et discutons également de la façon de constuire les courbes d'apprentissage:
Beleites, C. et Neugebauer, U. et Bocklitz, T. et Krafft, C. et Popp, J .: Planification de la taille de l'échantillon pour les modèles de classification. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrit accepté sur arXiv: 1211.1323
Ceci est le "teaser", montrant un problème de classification facile (nous avons en fait une distinction facile comme celle-ci dans notre problème de classification, mais d'autres classes sont beaucoup plus difficiles à distinguer):
Nous n'avons pas essayé d'extrapoler à de plus grandes tailles d'échantillons de formation pour déterminer combien de cas de formation supplémentaires sont nécessaires, car les tailles des échantillons de test sont notre goulot d'étranglement, et des tailles plus grandes des échantillons de formation nous permettraient de construire des modèles plus complexes, donc l'extrapolation est discutable. Pour le type d'ensembles de données dont je dispose, j'aborderais cela de manière itérative, en mesurant un tas de nouveaux cas, en montrant combien les choses se sont améliorées, en mesurant plus de cas, etc.
Cela peut être différent pour vous, mais l'article contient des références bibliographiques à des articles utilisant l'extrapolation à des tailles d'échantillon plus élevées afin d'estimer le nombre d'échantillons requis.