Réponses:
Je pense que sa signification est mieux analysée en la regardant en deux parties:
"Tous les modèles ont tort", c’est-à-dire que chaque modèle est faux car c’est une simplification de la réalité. Certains modèles, en particulier dans les sciences "dures", ne sont qu'un peu faux. Ils ignorent des choses comme la friction ou l’effet gravitationnel de corps minuscules. Les autres modèles sont très faux - ils ignorent les choses plus importantes. En sciences sociales, nous ignorons beaucoup.
"Mais certains sont utiles" - des simplifications de la réalité peuvent être très utiles. Ils peuvent nous aider à expliquer, prédire et comprendre l'univers et toutes ses composantes.
Ce n'est pas juste vrai dans les statistiques! Les cartes sont un type de modèle. ils ont tort. Mais les bonnes cartes sont très utiles. Des exemples d'autres modèles utiles mais erronés abondent.
Cela signifie que des informations utiles peuvent être fournies par des modèles qui ne représentent pas parfaitement les phénomènes qu’ils modélisent.
Un modèle statistique est une description d'un système utilisant des concepts mathématiques. En tant que tel, dans de nombreux cas, vous ajoutez une certaine couche d’abstraction pour faciliter votre procédure inférentielle (par exemple, la normalité des erreurs de mesure, la symétrie composée dans les structures de corrélation, etc.). Il est presque impossible pour un modèle unique de décrire parfaitement un phénomène du monde réel si nous avons une vision subjective du monde (notre système sensoriel n'est pas parfait); Néanmoins, une inférence statistique réussie se produit car notre monde exploite un certain degré de cohérence. Donc, nos modèles presque toujours faux s'avèrent utiles .
(Je suis sûr que vous aurez bientôt une grande réponse en gras, mais j'ai essayé d'être concis à ce sujet!)
An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
(. En fait , je chose la citation de JT est étonnamment perspicace)
J'ai trouvé que cette intervention de Thad Tarpey sur la JSA en 2009 fournissait une explication et des commentaires utiles sur le passage de la boîte. Il soutient que si nous considérons les modèles comme des approximations de la vérité, nous pourrions tout aussi bien appeler tous les modèles.
Voici le résumé:
Les étudiants en statistiques sont souvent initiés à la célèbre citation de George Box: «Tous les modèles sont erronés, certains sont utiles». Dans cet exposé, je soutiens que cette citation, bien qu'utile, est fausse. Une perspective différente et plus positive consiste à reconnaître qu'un modèle est simplement un moyen d'extraire des informations d'intérêt à partir de données. La vérité est infiniment complexe et un modèle n’est qu’une approximation de la vérité. Si l'approximation est mauvaise ou trompeuse, le modèle est inutile. Dans cet exposé, je donne des exemples de modèles corrects qui ne sont pas de vrais modèles. Je montre comment la notion de «mauvais» modèle peut conduire à des conclusions erronées.
Pour moi, la compréhension réelle réside dans l'aspect suivant:
Un modèle n'a pas besoin d'être correct pour être utile.
Malheureusement, dans de nombreuses sciences, on oublie souvent que les modèles ne doivent pas nécessairement être des représentations exactes de la réalité pour permettre de nouvelles découvertes et prédictions!
Alors ne perdez pas votre temps à construire un modèle compliqué qui nécessite des mesures précises d’une myriade de variables. Le vrai génie invente un modèle simple qui fait le travail.
Un modèle ne peut pas fournir des prévisions précises à 100% s'il existe un quelconque aléa dans les résultats. S'il n'y avait pas d'incertitude, pas de hasard, ni d'erreur, alors cela serait considéré comme un fait plutôt que comme un modèle. La première est très importante, car les modèles sont fréquemment utilisés pour modéliser les attentes d'événements qui ne se sont pas produits. Cela garantit presque qu'il y a une incertitude sur les événements réels.
En théorie, il serait peut-être possible de créer un modèle donnant des prévisions parfaites pour des événements aussi connus. Cependant, même dans ces circonstances improbables, un tel modèle peut être si complexe qu'il est impossible à utiliser, et ne peut être précis qu'à un moment donné, car d'autres facteurs changent la façon dont les valeurs changent avec les événements.
Comme la plupart des données du monde réel comportent des incertitudes et des aléas, les efforts pour obtenir un modèle parfait sont un exercice futile. Au lieu de cela, il est plus intéressant de chercher à obtenir un modèle suffisamment précis, suffisamment simple pour être utilisable à la fois en termes de données et de calcul requis pour leur utilisation. Bien que ces modèles soient réputés imparfaits, certaines de ces failles sont bien connues et peuvent être prises en compte pour la prise de décision en fonction de ces modèles.
Des modèles plus simples peuvent être imparfaits, mais ils sont également plus faciles à raisonner, à se comparer, et peuvent être plus faciles à utiliser car ils sont susceptibles de nécessiter moins de calcul.
Si vous me le permettez, un seul commentaire de plus pourrait être utile. La version du prase que je préfère est
(...) tous les modèles sont des approximations. Essentiellement, tous les modèles sont erronés, mais certains sont utiles (...)
extrait de Response Surfaces, Mixtures, and Ridge Analyses de Box et Draper (2007, p. 414, Wiley). En regardant la citation détaillée, on voit plus clairement ce que Box voulait dire - la modélisation statistique consiste à approximer la réalité et cette approximation n’est jamais exacte; il s’agit donc de trouver l’ approximation la plus appropriée . Ce qui convient à votre objectif est une chose subjective, c’est pourquoi ce n’est pas l’un des modèles qui est utile, mais peut-être que certains le sont, en fonction du but de la modélisation.
Comme personne ne l'a ajouté, George Box a utilisé la phase citée pour introduire la section suivante dans un livre. Je crois qu'il fait le meilleur travail pour expliquer ce qu'il voulait dire:
Il serait maintenant très remarquable qu'un système simple puisse représenter exactement un système existant dans le monde réel . Cependant, des modèles parcimonieux judicieusement choisis fournissent souvent des approximations remarquablement utiles. Par exemple, la loi liant la pression , le volume et la température d’un gaz "idéal" via une constante n’est pas tout à fait vraie pour un gaz réel, mais elle fournit fréquemment une approximation utile et sa structure est informative, car il découle d'une vue physique du comportement des molécules de gaz.
Pour un tel modèle, il n'est pas nécessaire de poser la question "Le modèle est-il vrai?". Si la "vérité" doit être la "vérité entière", la réponse doit être "Non". La seule question d'intérêt est "Le modèle est-il éclairant et utile?".
Box, GEP (1979), "Robustesse dans la stratégie de construction de modèles scientifiques", in Launer, RL; Wilkinson, GN, La robustesse dans les statistiques , Academic Press, p. 201-236.
Vous pourriez penser de cette façon. la complexité maximale (c'est-à-dire l'entropie) d'un objet obéit à une certaine forme du lien de Bekenstein :
où est l'énergie de repos totale, masse comprise, et le rayon d'une sphère qui entoure l'objet.
C'est un grand nombre, dans la plupart des cas:
La limite de Bekenstein pour un cerveau humain moyen serait de bits et représente une limite supérieure sur les informations nécessaires pour recréer parfaitement le cerveau humain moyen jusqu'au niveau quantique. Cela implique que le nombre d'états différents ( ) du cerveau humain (et de l'esprit si le physicalisme est vrai) est d'au plus .
Voulez-vous donc utiliser "la meilleure carte", c'est-à-dire le territoire lui-même, avec toutes les équations d'onde correspondant à toutes les particules de chaque cellule? Absolument pas. Non seulement ce serait un désastre informatique, mais vous modéliseriez des choses qui n'ont peut-être rien à voir avec ce qui vous intéresse. Si tout ce que vous voulez faire est, par exemple, d'identifier si je suis réveillé ou non, vous n'avez pas besoin de savoir ce que l'électron # 32458 fait dans le neurone # 844030, molécule # 2 du ribosome # 2305. Si vous ne modélisez pas cela, votre modèle est en effet "faux", mais si vous pouvez identifier si je suis réveillé ou non, votre modèle est certainement utile.
Je pense que Peter et user11852 ont donné d'excellentes réponses. J'ajouterais également (par négation) que si un modèle était vraiment bon, il serait probablement inutile en raison d'une configuration excessive (par conséquent, non généralisable).
Mon interprétation est la suivante: Croire qu’un modèle mathématique décrit exactement tous les facteurs et leurs interactions gouvernant un phénomène intéressant serait trop simpliste et arrogant. Nous ne savons même pas si la logique que nous utilisons est suffisante pour comprendre notre univers. Cependant, certains modèles mathématiques représentent une approximation assez bonne (en termes de méthode scientifique) qui est utile pour tirer des conclusions sur un tel phénomène.
En tant qu'astrostatisticien (une race rare peut-être), je trouve la renommée du dicton de Box malheureuse. En sciences physiques, nous avons souvent un fort consensus pour comprendre les processus sous-jacents d’un phénomène observé, et ces processus peuvent souvent être exprimés par des modèles mathématiques issus des lois de la gravitation, de la mécanique quantique, de la thermodynamique, etc. Les objectifs statistiques consistent à estimer les propriétés physiques des paramètres de modèle les mieux adaptés, ainsi que la sélection et la validation du modèle. Un cas dramatique s'est récemment présenté lors de la publication, en mars 2013, de documents du satellite Planck de l'Agence spatiale européenne.Les mesures du fond micro-onde cosmique établissent de manière convaincante un modèle simple `LambdaCDM 'à 6 paramètres pour le Big Bang. Je doute que le dicton de Box s’applique n'importe où dans le large éventail de méthodes statistiques avancées utilisées dans ces 29 documents.
Je viens de reformuler la réponse ci-dessus en considérant les modèles de processus comme un point central. La déclaration peut être interprétée comme suit:
"Tous les modèles ont tort", c’est-à-dire que chaque modèle est faux car c’est une simplification de la réalité. Certains modèles ne sont qu'un peu faux. Ils ignorent certaines choses, par exemple: -> les exigences changeantes, -> l'ignorance du projet dans les délais, -> le fait de ne pas prendre en compte le niveau de qualité souhaité par le client, etc. de plus grandes choses. Les modèles de processus logiciels classiques ignorent beaucoup de choses comparés aux modèles de processus agiles qui en ignorent moins.
"Mais certains sont utiles" - des simplifications de la réalité peuvent être très utiles. Ils peuvent nous aider à expliquer, prévoir et comprendre le projet dans son ensemble et ses différentes composantes. Les modèles sont utilisés car leurs fonctionnalités correspondent à la plupart des programmes de développement logiciel.
Je voudrais donner une autre interprétation du terme "utile". Probablement pas celui auquel Box pensait.
Lorsque vous devez prendre des décisions et que toutes les informations seront finalement utilisées, vous devez mesurer votre succès sous une forme ou une autre. Quand on parle de décisions avec des informations incertaines, cette mesure est souvent appelée utilité.
Nous pouvons donc aussi penser aux modèles utiles comme à ceux qui nous permettent de prendre des décisions plus éclairées; pour atteindre nos objectifs plus efficacement.
Cela ajoute une autre dimension aux critères habituels, tels que la capacité d'un modèle à prédire correctement quelque chose: cela nous permet de comparer les différents aspects d'un modèle.
"Tous les modèles sont faux, mais certains sont utiles". Cela signifie peut-être que: nous devrions faire de notre mieux avec ce que nous savons + rechercher de nouveaux apprentissages?
Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.
Peut-être que ceci est plus utile.