J'ai lu le cygne noir il y a quelques années. L'idée de Black Swan est bonne et l'attaque contre l'erreur ludique (voir les choses comme s'il s'agissait de jeux de dés, avec des probabilités connues) est bonne, mais les statistiques sont scandaleusement faussées, le problème central étant la fausse affirmation selon laquelle toutes les statistiques s'effondrent si des variables ne sont pas normalement distribués. Cet aspect m'a suffisamment ennuyé pour écrire à Taleb la lettre ci-dessous:
Cher Dr Taleb
J'ai récemment lu "Le Cygne Noir". Comme vous, je suis un fan de Karl Popper, et je suis tombé d’accord avec beaucoup de ce qu’il contient. Je pense que votre exposé de la fausseté ludique est fondamentalement valable et attire l’attention sur un problème réel et commun. Cependant, je pense qu’une grande partie de la partie III déprécie votre argumentation globale, au point de discréditer éventuellement le reste du livre. C'est une honte, car je pense que les arguments concernant les cygnes noirs et les "inconnus inconnus" reposent sur leurs mérites sans s'appuyer sur certaines des erreurs de la partie III.
La principale question sur laquelle je souhaite attirer votre attention - et sur votre réponse, en particulier si j’ai mal compris les problèmes - est votre représentation erronée du domaine des statistiques appliquées. À mon avis, les chapitres 14, 15 et 16 reposent en grande partie sur un argument de paille, sur une présentation erronée des statistiques et de l'économétrie. Le domaine de l'économétrie que vous décrivez n'est pas celui qui m'a été enseigné lorsque j'ai étudié la statistique appliquée, l'économétrie et la théorie du risque actuariel (à l'Australian National University, mais en utilisant des textes qui semblaient plutôt standard). Les questions que vous soulevez (telles que les limitations des distributions gaussiennes) sont bien comprises et enseignées, même au premier cycle.
Par exemple, vous allez trop loin pour montrer comment la distribution des revenus ne suit pas une distribution normale et présentez ceci comme un argument contre la pratique statistique en général. Aucun statisticien compétent ne prétendrait le faire et les moyens de traiter ce problème sont bien établis. En utilisant simplement des techniques du niveau de base "d'économétrie de première année", par exemple, transformer la variable en prenant son logarithme rendrait vos exemples numériques beaucoup moins convaincants. Une telle transformation invaliderait en réalité une grande partie de ce que vous dites, car la variance de la variable initiale augmente à mesure que sa moyenne augmente.
Je suis sûr que certains économétriciens incompétents font des régressions MLS, etc. avec une variable de réponse non transformée, comme vous le dites, mais cela les rend simplement incompétents et utilise des techniques bien établies pour être inappropriées. Ils auraient certainement échoué même dans les cours de premier cycle, qui passent beaucoup de temps à chercher des moyens plus appropriés de modéliser des variables telles que le revenu, reflétant la distribution réelle observée (non gaussienne).
La famille des modèles linéaires généralisés est un ensemble de techniques développées en partie pour résoudre les problèmes que vous soulevez. De nombreuses familles de distributions exponentielles (par exemple les distributions gamma, exponentielle et de Poisson) sont asymétriques et ont une variance qui augmente à mesure que le centre de la distribution augmente, ce qui contourne le problème que vous indiquez avec l'utilisation de la distribution gaussienne. Si cela reste trop limitatif, il est possible de supprimer une "forme" préexistante et de spécifier simplement une relation entre la moyenne d'une distribution et sa variance (par exemple, en permettant à la variance d'augmenter proportionnellement au carré de la moyenne), en utilisant la méthode d'estimation "quasi-vraisemblance".
Bien sûr, vous pourriez soutenir que cette forme de modélisation est encore trop simpliste et constitue un piège intellectuel qui nous incite à penser que l'avenir sera comme le passé. Vous avez peut-être raison, et je pense que la force de votre livre est de faire réfléchir les gens comme moi. Mais vous avez besoin d'arguments différents de ceux que vous utilisez aux chapitres 14 à 16. Le grand poids que vous accordez au fait que la variance de la distribution gaussienne soit constante quelle que soit sa moyenne (ce qui pose des problèmes d’évolutivité), par exemple, n’est pas valide. Vous insistez donc sur le fait que les distributions réelles ont tendance à être asymétriques plutôt que des courbes en cloche.
Fondamentalement, vous avez simplifié à l'extrême l'approche la plus élémentaire de la statistique (modélisation naïve de variables brutes ayant des distributions gaussiennes) et montré, de manière approfondie, (correctement) les inconvénients d'une telle approche trop simplifiée. Vous l'utiliserez ensuite pour faire le vide afin de discréditer tout le champ. C'est soit un grave manque de logique, soit une technique de propagande. C’est regrettable, car cela nuit à votre argumentation générale, que j’ai trouvée en grande partie (comme je l’ai dit) valide et convaincante.
Je serais intéressé d'entendre ce que vous dites en réponse. Je doute que je sois le premier à avoir soulevé cette question.
Cordialement
PE