Forensics statistiques: Benford et au-delà


23

Quelles méthodes générales existe-t-il pour détecter la fraude, les anomalies, les falsifications, etc. dans les travaux scientifiques produits par un tiers? (J'étais motivé à le demander par la récente affaire Marc Hauser .) Habituellement, pour les fraudes électorales et comptables, une variante de la loi de Benford est citée. Je ne sais pas comment cela pourrait être appliqué, par exemple, à l'affaire Marc Hauser, car la loi de Benford exige que les chiffres soient approximativement uniformes.

À titre d'exemple concret, supposons qu'un article cite les valeurs de p pour un grand nombre de tests statistiques. Peut-on les transformer pour enregistrer l'uniformité, puis appliquer la loi de Benford? Il semble qu'il y aurait toutes sortes de problèmes avec cette approche ( par exemple, certaines des hypothèses nulles pourraient légitimement être fausses, le code statistique pourrait donner des valeurs de p qui sont approximativement correctes, les tests pourraient seulement donner des valeurs de p qui sont uniformes sous le nul asymptotiquement, etc.)


2
Cette question a désespérément besoin d'une réponse qui fournirait des exemples réels de criminalistique statistique! La réponse acceptée ne fait rien du tout. Il existe de grands exemples récents, comme par exemple Simonsohn 2013 , Carlisle 2012 (et suivi 2015 ), Pitt et Hill 2013 , et peut-être plus.
Amoeba dit Réintègre Monica le

Réponses:


11

Grande question!

Dans le contexte scientifique, il existe différents types de signalements problématiques et de comportements problématiques:

  • Fraude : Je définirais la fraude comme une intention délibérée de la part de l'auteur ou de l'analyste de déformer les résultats et lorsque la fausse déclaration est de nature suffisamment grave. L'exemple principal étant la fabrication complète de données brutes ou de statistiques récapitulatives.
  • Erreur : les analystes de données peuvent commettre des erreurs à de nombreuses phases de l'analyse des données, de la saisie des données à la manipulation des données, aux analyses, aux rapports et à l'interprétation.
  • Comportement inapproprié : Il existe de nombreuses formes de comportement inapproprié. En général, elle peut être résumée par une orientation qui cherche à confirmer une position particulière plutôt qu'à rechercher la vérité.

Voici des exemples courants de comportements inappropriés:

  • Examiner une série de variables dépendantes possibles et déclarer uniquement celle qui est statistiquement significative
  • Sans mentionner les violations importantes des hypothèses
  • Effectuer des manipulations de données et des procédures de suppression des valeurs aberrantes sans le mentionner, en particulier lorsque ces procédures sont à la fois inappropriées et choisies uniquement pour améliorer les résultats
  • Présenter un modèle comme confirmation qui est en fait exploratoire
  • Omettre des résultats importants qui vont à l'encontre de l'argument souhaité
  • Choisir un test statistique uniquement sur la base qu'il rend les résultats plus beaux
  • Exécution d'une série de cinq ou dix études sous-alimentées où une seule est statistiquement significative (peut-être à p = 0,04), puis rapporter l'étude sans mentionner les autres études

En général, je ferais l'hypothèse que l' incompétence est liée aux trois formes de comportement problématique. Un chercheur qui ne comprend pas comment faire de la bonne science mais qui souhaite par ailleurs réussir sera plus incité à déformer ses résultats et sera moins susceptible de respecter les principes de l'analyse éthique des données.

Les distinctions ci-dessus ont des implications pour la détection d'un comportement problématique. Par exemple, si vous parvenez à discerner qu'un ensemble de résultats signalés est erroné, il reste à vérifier si les résultats sont dus à une fraude, une erreur ou un comportement inapproprié. De plus, je suppose que diverses formes de comportement inapproprié sont beaucoup plus courantes que la fraude.

En ce qui concerne la détection des comportements problématiques, je pense que c'est en grande partie une compétence qui vient de l'expérience de travail avec les données , de travail avec un sujet et de travail avec les chercheurs. Toutes ces expériences renforcent vos attentes quant à l'apparence des données. Ainsi, des écarts importants par rapport aux attentes amorcent le processus de recherche d'une explication. L'expérience des chercheurs vous donne une idée des types de comportements inappropriés qui sont plus ou moins courants. En combinaison, cela conduit à la génération d'hypothèses. Par exemple, si je lis un article de revue et que je suis surpris des résultats, l'étude est sous-alimentée et la nature de l'écriture suggère que l'auteur est déterminé à faire valoir un point, je génère l'hypothèse que les résultats ne devraient peut-être pas être de confiance.

Autres ressources


4

En fait, la loi de Benford est une méthode incroyablement puissante. Cela est dû au fait que la distribution de fréquence du premier chiffre de Benford est applicable à toutes sortes d'ensembles de données qui se produisent dans le monde réel ou naturel.

Vous avez raison de ne pouvoir utiliser la loi de Benford que dans certaines circonstances. Vous dites que les données doivent avoir une distribution uniforme des journaux. Techniquement, c'est absolument correct. Mais, vous pourriez décrire l'exigence d'une manière beaucoup plus simple et clémente. Tout ce dont vous avez besoin, c'est que la plage de l'ensemble de données croise au moins un ordre de grandeur. Disons de 1 à 9 ou 10 à 99 ou 100 à 999. S'il traverse deux ordres de grandeur, vous êtes en affaires. Et, la loi de Benford devrait être assez utile.

La beauté de la loi de Benford est qu'elle vous aide à affiner votre enquête très rapidement sur la ou les aiguilles de la pile de données. Vous recherchez les anomalies selon lesquelles la fréquence du premier chiffre est très différente des fréquences de Benford. Une fois que vous remarquez qu'il y a deux nombreux 6, vous utilisez ensuite la loi de Benford pour vous concentrer uniquement sur les 6; mais, vous le prenez maintenant aux deux premiers chiffres (60, 61, 62, 63, etc ...). Maintenant, vous découvrez peut-être qu'il y a beaucoup plus de 63 que ce que suggère Benford (vous le feriez en calculant la fréquence de Benford: log (1 + 1/63) qui vous donne une valeur proche de 0%). Donc, vous utilisez Benford aux trois premiers chiffres. Au moment où vous découvrez qu'il y a beaucoup trop de 632 (ou quoi que ce soit en calculant la fréquence de Benford: log (1 + 1/632)) que prévu, vous êtes probablement sur quelque chose. Toutes les anomalies ne sont pas des fraudes. Mais,

Si l'ensemble de données que Marc Hauser a manipulé sont des données naturelles sans contrainte avec une plage connexe suffisamment large, alors la loi de Benford serait un très bon outil de diagnostic. Je suis sûr qu'il existe d'autres bons outils de diagnostic qui détectent également des modèles improbables et en les combinant avec la loi de Benford, vous auriez très probablement pu enquêter efficacement sur l'affaire Marc Hauser (en tenant compte des exigences de données mentionnées dans la loi de Benford).

J'explique un peu plus la loi de Benford dans cette courte présentation que vous pouvez voir ici: http://www.slideshare.net/gaetanlion/benfords-law-4669483

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.