Je travaille sur pas mal de modélisation statistique, comme les modèles de Markov cachés et les modèles de mélanges gaussiens. Je vois que la formation de bons modèles dans chacun de ces cas nécessite une grande quantité (> 20000 phrases pour les HMM) de données qui sont extraites d'environnements similaires comme utilisation finale. Ma question est:
- Existe-t-il un concept de «suffisamment» de données de formation dans la littérature? Combien de données d'entraînement sont "assez bonnes"?
- Comment puis-je calculer le nombre de phrases nécessaires pour que les «bons» (qui donnent une bonne précision de reconnaissance (> 80%)) soient formés?
- Comment savoir si un modèle a été correctement formé? Les coefficients du modèle commenceront-ils à présenter des fluctuations aléatoires? Si oui, comment distinguer les fluctuations aléatoires et les changements réels dus à la mise à jour du modèle?
N'hésitez pas à redéfinir cette question au cas où elle aurait besoin de plus de balises.