Quels sont les biais les plus courants chez l'homme lors de la collecte ou de l'interprétation de données?


39

Je suis un écon / stat majeur. Je suis conscient que les économistes ont essayé de modifier leurs hypothèses sur le comportement humain et la rationalité en identifiant des situations dans lesquelles les gens ne se comportent pas de manière rationnelle. Par exemple, supposons que je vous offre 100% de chances d'une perte de 1 000 $ ou 50% d'une perte de 2 500 $ , les utilisateurs choisissent l' option de 2 500 $ même si la valeur attendue de cette dernière est supérieure à une perte de 1 000 $ garantie. perte. Ceci est connu comme "l'aversion à la perte". Les économistes du comportement étudient maintenant ces modèles et tentent de déterminer en quoi les humains s'écartent des axiomes normalement supposés constituer un comportement "rationnel". Ici, je suppose qu’il est rationnel de préférer la perte la moins attendue.

Je me demandais si les statisticiens avaient identifié des modèles communs de collecte de données qui produisaient des résultats biaisés dans la façon dont les gens interprètent les données. S'il existait essentiellement un moyen "rationnel" de collecter des données, je suppose qu'il existe des exemples dans lesquels des êtres humains s'en écartent et présentent un "biais". Si tel est le cas, quels sont les biais les plus courants que les humains font lorsqu'ils collectent ou interprètent des données?


5
Il existe un excellent article de Podsakoff et al. qui passe en revue les préjugés de méthode commune et propose les remèdes statistiques et de procédure: ln.edu.hk/mkt/staff/gcui/CommonMethodBias.pdf un coup d' oeil au tableau 2.
Ayhan


10
Vous avez une présomption irrationnelle d'irrationalité. Vous ne parvenez pas à appliquer une fonction utilitaire au résultat. Dans votre exemple, supposez que la personne dispose de 1 000 dollars et qu’elle l’utilise pour rembourser un prêt à un gangster dans une minute, sinon il sera tué par le gangster. Les 100% de chances de perdre 1 000 $ entraînent 100% de chances d'être tués, alors que les 50% de chances de perdre 2 500 $ n'entraînent que 50% de chances d'être tués. En tant qu'écon majeur, vous devez être à l'écoute de l'utilité avant de déclarer l'irrationalité.
Mark L. Stone

3
Les statisticiens ne font généralement pas ce genre de recherche. Je me demande si ce Q est plus approprié pour le site SE de Psychology & Neuroscience .
gung - Réintégrer Monica

3
Je pense que l' effet de l'éclairage public - rechercher les clés perdues (données) sous le poteau lumineux parce que c'est là que la lumière est la nuit - est extrêmement courant, surtout maintenant, avec autant de données faciles à utiliser. // Il n'y a pas de "moyen rationnel" de collecter des données car vous, le chercheur qui les collecte, n'êtes pas randomisé.
AS

Réponses:


23

Je pense qu'en milieu universitaire, les valeurs prédictives sont très souvent mal interprétées. Les gens ont tendance à oublier que la valeur p exprime une probabilité conditionnelle. Même si une expérience a été parfaitement menée et que toutes les conditions du test statistique choisi sont remplies, le taux de fausses découvertes est généralement beaucoup plus élevé que le niveau de signification alpha. Le taux de fausses découvertes augmente avec une diminution de la puissance statistique et de la prévalence de vrais positifs (Colquhoun, 2014; Nuzzo, 2014).

De plus, les personnes ont tendance à considérer leurs estimations comme la vérité et les paramètres qu’elles estiment aléatoires (Haller & Kraus, 2002). Par exemple, lorsqu'ils disent que «dans 95% des cas, cet intervalle de confiance identifié couvre le paramètre» ...

La confusion entre corrélation et causalité est probablement aussi une erreur très courante d'interprétation des données.

En termes de collecte de données, je pense qu'une erreur commune est de prendre l'échantillon le plus facilement accessible plutôt que l'échantillon le plus représentatif.

Colquhoun, D. (2014). Une enquête sur le taux de fausse découverte et la mauvaise interprétation des valeurs de P. Royal Society Open Science, 1–15.

Nuzzo, R. (2014). Erreurs statistiques: les valeurs P, «l'étalon-or» de la validité statistique, ne sont pas aussi fiables que le supposent de nombreux scientifiques. Nature, 506, 150-152.

Haller, H. & Kraus, S. (2002): Mauvaise interprétation de l'importance: un problème que les élèves partagent avec leurs enseignants? Méthodes de recherche psychologique en ligne, Vol.7, No.1


19

Je dirais une incapacité générale à comprendre à quoi ressemble le véritable caractère aléatoire. Les gens semblent s'attendre à ce qu'il y ait trop peu de schémas parasites erronés par rapport à des séquences d'événements aléatoires. Cela se vérifie également lorsque nous essayons de simuler le hasard nous-mêmes.

Un autre problème assez courant est de ne pas comprendre l’indépendance, comme dans l’erreur du joueur. Nous pensons parfois que des événements antérieurs peuvent affecter des événements futurs, même lorsque cela est clairement impossible, comme le précédent jeu de cartes mélangées ayant une incidence sur un futur.


7

Il a déjà été souligné que de nombreux comportements et processus de pensée qualifiés "d'irrationnels" ou de "biais" par les économistes (comportementaux) sont en réalité très adaptatifs et efficaces dans le monde réel. Néanmoins, la question de OP est intéressante. Je pense toutefois qu’il pourrait être utile de faire référence à des connaissances descriptives plus fondamentales sur nos processus cognitifs, plutôt que de rechercher des "biais" spécifiques qui correspondent à ceux discutés dans la littérature économique (par exemple, aversion aux pertes, effet de dotation, etc.). négliger la négligence, etc.).

Par exemple, l’ évaluabilité est certainement un problème dans l’analyse des données. La théorie de l'évaluabilité stipule que nous surpondérons les informations que nous trouvons faciles à interpréter ou à évaluer. Prenons le cas d'un coefficient de régression. Évaluer les conséquences "réelles" d'un coefficient peut être un travail difficile. Nous devons également tenir compte des unités de la variable indépendante et de la variable dépendante afin de déterminer si un coefficient a une pertinence pratique. Évaluer la signification d'un coefficient, en revanche, est simple: je compare simplement sa valeur p à mon niveau alpha. Compte tenu de la plus grande évaluabilité de la valeur p par rapport au coefficient lui-même, il n’est guère surprenant que les valeurs p soient si nombreuses.

(La normalisation augmente l'évaluabilité d'un coefficient, mais elle peut également accroître l' ambiguïté : le sentiment que des informations pertinentes sont indisponibles ou masquées, car la forme "originale" des données que nous traitons ne nous est pas disponible.)

Un "biais" cognitif associé est le principe de concrétude, la tendance à surpondérer une information qui est "juste là" dans un contexte décisionnel, et ne nécessite pas de récupération de la mémoire. (Le principe de concrétude stipule également que nous utiliserons probablement les informations dans le format dans lequel elles sont données et évitent généralement de procéder à des transformations.) L'interprétation d'une valeur p peut être effectuée simplement en regardant le résultat de la régression; cela ne nécessite pas que je récupère des connaissances de fond sur la chose que je modélise.

Je m'attends à ce que de nombreux biais dans l'interprétation des données statistiques puissent être attribués à la compréhension générale que nous allons probablement choisir la voie la plus facile lorsque nous résolvons un problème ou formons un jugement (voir "avarie cognitive", "rationalité limitée", etc.). . De manière connexe, faire quelque chose "facilement" augmente généralement la confiance avec laquelle nous entretenons les convictions ( théorie de la fluidité ). (On pourrait aussi envisager la possibilité que des données plus faciles à articuler- pour nous-mêmes ou pour les autres - sont surpondérés dans nos analyses). Je pense que cela devient particulièrement intéressant lorsque nous examinons les exceptions possibles. Certaines recherches psychologiques suggèrent, par exemple, que si nous pensons qu'un problème devrait être difficile à résoudre, nous pourrions privilégier des approches et des solutions moins concrètes et plus difficiles, par exemple, choisir une méthode plus obscure que simple.


7

Le facteur le plus important auquel je peux penser est généralement appelé "biais de confirmation". Après avoir déterminé ce que mon étude va montrer, j’accepte sans discernement les données qui conduisent à cette conclusion, tout en faisant des excuses pour tous les points de données qui semblent les réfuter. Je peux inconsciemment rejeter comme "erreur évidente d'instrument" (ou un équivalent) tout point de données qui ne correspond pas à ma conclusion. Dans certains cas, ce ne sera pas aussi flagrant; Plutôt que de rejeter entièrement ces points de données, je vais concocter une formule pour supprimer "l'erreur", ce qui orientera commodément les résultats vers la confirmation de ma conclusion préalable.

Cela n’a rien de particulièrement néfaste; c'est juste comment notre cerveau fonctionne. Il faut déployer beaucoup d'efforts pour éliminer ce biais et c'est l'une des raisons pour lesquelles les scientifiques aiment réaliser des études en double aveugle, de sorte que la personne qui effectue les mesures ne sait pas ce que l'expérience veut prouver. Il faut alors une énorme discipline pour ne pas modifier ce qu'il a fidèlement mesuré.


1
Je pense que c'est en réalité le biais le plus dangereux, car il peut déjà se produire au stade de la collecte de données, par exemple la collecte de données dans un sous-échantillon minuscule susceptible de confirmer vos attentes ou l'utilisation de questions de sondage.
Stijn

1
Les biais de confirmation peuvent être vraiment mauvais entre les disciplines, où même la prétendue base fondamentale des disciplines est différente, affirmant que "X est impossible dans (utilisant) votre discipline (avec ses méthodes de détection), mais est évident dans le mien (nous pouvons sens X) ". Par exemple, les pommes sont destinées à pendre dans les arbres ou à se coucher sur le sol; ils ne peuvent pas "tomber" d'eux-mêmes. Souvent, dans les sciences physiques, il y a un changement de base mathématique qui cache la confusion.
Philip Oakley

6

Linéarité .

Je pense qu’un biais courant lors de l’interprétation / analyse des données est que les gens sont généralement prompts à assumer des relations linéaires. Mathématiquement, un modèle de régression suppose que sa composante déterministe est une fonction linéaire des prédicteurs; Malheureusement, ce n'est pas toujours vrai. Je suis récemment allé à une conférence sur les affiches pour les étudiants de premier cycle et la quantité de tendances carrément quadratiques ou non linéaires que je voyais être ajustées avec un modèle linéaire m'inquiétait pour le moins.

(Cela s’ajoute aux mentions de l’erreur du joueur, de la mauvaise interprétation de la valeur et de l’ aléatoire véritable ; +1 à tous les messages pertinents.)p


2

Un cas intéressant est celui des discussions sur la Gamacy's Fallacy.

Les données existantes doivent-elles être incluses ou exclues? Si je suis déjà en tête avec 6 six, faut-il les inclure dans une douzaine d'essais? Soyez clair sur les données antérieures.

Quand devrais-je passer des nombres absolus aux ratios? Il faut beaucoup de temps pour que l'avantage acquis lors d'une série de victoires initiales revienne à zéro (marche aléatoire).

0,1% d'un million de dollars n'est peut-être pas grand chose pour une grande entreprise, mais perdre 1 000 dollars pourrait être la vie ou la mort d'un trafiquant individuel (c'est pourquoi les investisseurs veulent que les personnes «motivées» investissent). Pouvoir passer à des pourcentages peut être un parti pris.

Même les statisticiens ont des préjugés.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.