Si vous avez lu les bulletins communautaires récemment, vous avez probablement vu The Hunting of the Snark, un article sur le blog officiel StackExchange de Joel Spolsky, PDG du réseau StackExchange. Il discute d'une analyse statistique réalisée sur un échantillon de commentaires SE pour évaluer leur «convivialité» du point de vue d'un utilisateur extérieur. Les commentaires ont été échantillonnés au hasard à partir de StackOverflow et les analystes de contenu étaient membres de la communauté Mechanical Turk d'Amazon, un marché du travail qui relie les entreprises aux travailleurs qui effectuent de petites et courtes tâches pour des frais abordables.
Il n'y a pas si longtemps, j'étais un étudiant diplômé en sciences politiques et l'une des classes que j'ai suivies était l'analyse du contenu statistique . Le projet final de la classe, en fait tout son objectif, était de mener une analyse détaillée des reportages de guerre du New York Times, afin de vérifier si de nombreuses hypothèses que les Américains font sur la couverture des informations pendant les guerres étaient exactes (spoiler: des preuves suggèrent qu'elles sont ne pas). Le projet était énorme et assez amusant, mais de loin sa section la plus douloureuse était la «phase de formation et de test de fiabilité», qui s'est produite avant que nous puissions effectuer une analyse complète. Il avait deux objectifs (voir page 9 du document lié pour une description détaillée, ainsi que des références aux normes de fiabilité des intercodeurs dans la littérature statistique sur l'analyse de contenu):
Confirmer que tous les codeurs, c'est-à-dire les lecteurs du contenu, ont été formés aux mêmes définitions qualitatives. Dans l'analyse de Joel, cela signifiait que tout le monde saurait exactement comment le projet définissait «amical» et «hostile».
Confirmez que tous les codeurs ont interprété ces règles de manière fiable, c'est-à-dire que nous avons échantillonné notre échantillon, analysé le sous-ensemble, puis démontré statistiquement que nos corrélations par paires sur les évaluations qualitatives étaient assez similaires.
Les tests de fiabilité ont fait mal parce que nous avons dû le faire trois ou quatre fois. Jusqu'à ce que -1- soit verrouillé et -2- présente des corrélations par paires suffisamment élevées, nos résultats pour l'analyse complète étaient suspects. Ils n'ont pas pu être démontrés valides ou invalides. Plus important encore, nous avons dû faire des tests pilotes de fiabilité avant le jeu d'échantillons final.
Ma question est la suivante: l'analyse statistique de Joel n'avait pas de test de fiabilité pilote et n'a pas établi de définitions opérationnelles de «convivialité». Les données finales étaient-elles suffisamment fiables pour dire quoi que ce soit sur la validité statistique de ses résultats?
Pour une perspective, considérons cet amorce sur la valeur de la fiabilité de l'intercodeur et des définitions opérationnelles cohérentes. De plus profond dans la même source, vous pouvez lire sur les tests de fiabilité des pilotes (point 5 dans la liste).
Selon la suggestion d'Andy W. dans sa réponse, j'essaie de calculer une variété de statistiques de fiabilité sur l'ensemble de données, qui est disponible ici, en utilisant cette série de commandes dans R (mise à jour lorsque je calcule de nouvelles statistiques).
Les statistiques descriptives sont ici
Accord en pourcentage (avec tolérance = 0): 0,0143
Accord en pourcentage (avec tolérance = 1): 11,8
Alpha de Krippendorff: 0,1529467
J'ai également essayé un modèle de réponse à l'item pour ces données dans une autre question.