A fourni une taille d'échantillon "N" que je prévois d'utiliser pour prévoir les données. Quelles sont certaines des façons de subdiviser les données afin que j'en utilise une partie pour établir un modèle et les autres données pour valider le modèle?
Je sais qu'il n'y a pas de réponse en noir et blanc à cela, mais il serait intéressant de connaître certaines "règles empiriques" ou les ratios habituellement utilisés. Je sais de retour à l'université, l'un de nos professeurs avait l'habitude de dire modèle sur 60% et validation sur 40%.