La plupart des réponses ont permis de clarifier ce que sont la modélisation pour l'explication et la modélisation pour la prédiction et pourquoi elles diffèrent. Ce qui ne sait pas, à ce jour, est la façon dont ils diffèrent. J'ai donc pensé proposer un exemple qui pourrait être utile.
Supposons que nous participions à la modélisation de la GPA des collèges en fonction de la préparation académique. En tant que mesures de la préparation académique, nous avons:
- Scores de test d'aptitude;
- HS GPA; et
- Nombre de tests AP passés.
Stratégie de prévision
Si l'objectif est la prédiction, je pourrais utiliser toutes ces variables simultanément dans un modèle linéaire et ma principale préoccupation serait la précision prédictive. La variable la plus utile pour prédire la moyenne pondérée cumulative des collèges sera incluse dans le modèle final.
Stratégie d'explication
Si l'objectif est d'explication, je pourrais être plus préoccupé par la réduction des données et réfléchir soigneusement aux corrélations entre les variables indépendantes. Ma principale préoccupation serait d'interpréter les coefficients.
Exemple
Dans un problème multivarié typique avec des prédicteurs corrélés, il ne serait pas rare d'observer des coefficients de régression "inattendus". Compte tenu des interrelations entre les variables indépendantes, il ne serait pas surprenant de voir des coefficients partiels pour certaines de ces variables qui ne vont pas dans le même sens que leurs relations d'ordre zéro et qui peuvent sembler contre-intuitifs et difficiles à expliquer.
Par exemple, supposons que le modèle suggère que (les scores de test d’aptitude et le nombre de tests de réussite ayant été terminés soient pris en compte), les MPC des lycées supérieurs sont associés à des MPPA de niveau inférieur . Ce n'est pas un problème de prédiction, mais cela pose un problème pour un modèle explicatif où une telle relation est difficile à interpréter . Ce modèle peut fournir le meilleur des prédictions d'échantillon, mais il ne nous aide pas beaucoup à comprendre la relation entre la préparation académique et la GPA des collèges.
Au lieu de cela, une stratégie explicative pourrait rechercher une forme de réduction variable, telle que composantes principales, analyse factorielle ou SEM pour:
- se concentrer sur la variable qui constitue la meilleure mesure du «rendement scolaire» et modéliser la moyenne pondérée cumulative du collège sur cette variable en particulier; ou
- utilisez les scores factoriels / variables latentes dérivés de la combinaison des trois mesures de la préparation académique plutôt que des variables originales.
De telles stratégies pourraient réduire le pouvoir prédictif du modèle, mais elles permettraient peut-être de mieux comprendre le lien qui existe entre la préparation à l’enseignement et la GPA des collèges.