Je ne peux pas courir avec les gros chiens des statistiques qui ont répondu avant moi, et peut-être que ma pensée est naïve, mais je regarde les choses de cette façon ...
Imaginez que vous êtes dans une voiture et que vous descendez la route et que vous tournez le volant à gauche et à droite et que vous appuyez frénétiquement sur la pédale d'accélérateur et les freins. Pourtant, la voiture se déplace en douceur, sans être affectée par vos actions. Vous soupçonneriez immédiatement que vous n'étiez pas dans une vraie voiture, et peut-être que si nous regardions attentivement, nous déterminerions que vous êtes en balade à Disney World. (Si vous étiez dans une vraie voiture, vous courriez un danger mortel, mais n'y allons pas.)
D'un autre côté, si vous conduisiez sur la route dans une voiture et que vous tourniez légèrement le volant à gauche ou à droite, la voiture bougeait immédiatement, le fait de coller les freins entraînait une forte décélération, tout en appuyant sur la pédale d'accélérateur vous renvoyait dans le siège. Vous pourriez penser que vous étiez dans une voiture de sport haute performance.
En général, vous rencontrez probablement quelque chose entre ces deux extrêmes. La mesure dans laquelle vos entrées (direction, freins, gaz) affectent directement le mouvement de la voiture vous donne un indice quant à la qualité de la voiture. C'est-à-dire que plus la variance de mouvement de votre voiture qui est liée à vos actions est meilleure, et plus la voiture se déplace indépendamment de votre contrôle, plus la voiture est mauvaise.
De la même manière, vous parlez de créer un modèle pour certaines données (appelons ces données ), basé sur d'autres ensembles de données (appelons-les ). Si ne varie pas, c'est comme une voiture qui ne bouge pas et il n'y a vraiment aucun intérêt à discuter si la voiture (modèle) fonctionne bien ou non, nous supposerons donc que varie.x 1 , x 2 , . . . , x i y yyX1, x2, . . . , xjeyy
Tout comme la voiture, un modèle de bonne qualité aura une bonne relation entre les résultats variant et les entrées variant. Contrairement à une voiture, les ne reflètent pas nécessairement la cause changer, mais si le modèle va être utile le besoin de changement dans une relation étroite avec . En d'autres termes, les expliquent une grande partie de la variance de .x i x i y x i y x i yyXjeXje yXjeyXjey
PS Je n'ai pas pu trouver d'analogie avec Winnie l'Ourson, mais j'ai essayé.
PPS [EDIT:] Notez que je réponds à cette question particulière. Ne soyez pas confus en pensant que si vous représentez 100% de la variance, votre modèle fonctionnera à merveille. Vous devez également penser au sur-ajustement, où votre modèle est si flexible qu'il s'adapte très étroitement aux données de formation - y compris ses bizarreries et bizarreries aléatoires. Pour utiliser l'analogie, vous voulez une voiture qui a une bonne direction et de bons freins, mais vous voulez qu'elle fonctionne bien sur la route, pas seulement sur la piste d'essai que vous utilisez.