Méfiez-vous du sur- ajustement . Un modèle plus précis des données recueillies à partir d'un système peut ne pas être un meilleur prédicteur du comportement futur d'un système.
L'image ci-dessus montre deux modèles de certaines données.
La ligne linéaire est quelque peu précise sur les données d'entraînement (les points sur le graphique) et (on pourrait s'y attendre), elle sera quelque peu précise sur les données de test (où les points sont susceptibles d'être pour x <5 et x> -5 ).
En revanche, le polynôme est précis à 100% pour les données d'entraînement, mais (sauf si vous avez des raisons de croire que le polynôme du 9e degré est raisonnable pour une raison physique), vous supposeriez que ce sera un très mauvais prédicteur pour x> 5 et x <-5.
Le modèle linéaire est «moins précis», basé sur toute comparaison d'erreurs avec les données que nous avons recueillies. Mais c'est plus généralisable.
De plus, les ingénieurs doivent se préoccuper moins de leur modèle et davantage de ce que les gens vont faire avec le modèle.
Si je vous dis que nous allons faire une promenade par une chaude journée et que cela devrait durer 426 minutes. Vous êtes susceptible d'apporter moins d'eau que si je vous dis que la promenade durera 7 heures, et encore moins que si je dis que la promenade durera 4 à 8 heures. C'est parce que vous répondez à mon niveau implicite de confiance dans mes prévisions, plutôt qu'au point médian de mes temps déclarés.
Si vous donnez aux gens un modèle précis, les gens réduiront leur marge d'erreur. Cela entraîne des risques plus importants.
Prenons l'exemple de la marche par une chaude journée, si je sais que la marche prendra de 4 à 8 heures dans 95% des cas, avec une certaine incertitude concernant la navigation et la vitesse de marche. Connaître parfaitement notre vitesse de marche réduira l'incertitude du chiffre 4-8, mais cela n'affectera pas de manière significative la `` chance que nous prenions si longtemps que l'eau devienne un problème '', car cela est presque entièrement dû à la navigation incertaine, non la vitesse de marche incertaine.