Si j'ai un réseau neuronal convolutif (CNN), qui a environ 1 000 000 de paramètres, combien de données d'entraînement sont nécessaires (supposons que je fais une descente de gradient stochastique)? Y a-t-il une règle d'or?
Notes supplémentaires: Lorsque j'ai effectué une descente de gradient stochastique (par exemple, 64 patchs pour 1 itération), après ~ 10000 itérations, la précision du classificateur peut atteindre une valeur stable approximative). Est-ce à dire que peu de données sont nécessaires? Comme les données 100k-1000k.