Intervalles de confiance lorsque la taille de l'échantillon est très grande

14

Ma question pourrait être reformulée comme "comment évaluer une erreur d'échantillonnage en utilisant les mégadonnées", en particulier pour une publication de journal. Voici un exemple pour illustrer un défi.

À partir d'un très grand ensemble de données (> 100 000 patients uniques et leurs médicaments prescrits provenant de 100 hôpitaux), je souhaitais estimer une proportion de patients prenant un médicament spécifique. Il est simple d'obtenir cette proportion. Son intervalle de confiance (par exemple, paramétrique ou bootstrap) est incroyablement étroit / étroit, car n est très grand. Bien qu'il soit chanceux d'avoir un échantillon de grande taille, je cherche toujours un moyen d'évaluer, de présenter et / ou de visualiser certaines formes de probabilités d'erreur. Bien qu'il semble inutile (sinon trompeur) de mettre / visualiser un intervalle de confiance (par exemple, IC à 95%: .65878 - .65881), il semble également impossible d'éviter certaines déclarations sur l'incertitude.

S'il vous plait, faite moi part de votre avis. J'apprécierais toute littérature sur ce sujet; façons d'éviter une confiance excessive dans les données même avec un échantillon de grande taille.

confidence-interval large-data reporting

— so2015
source

7

Vous pouvez éviter une confiance excessive en rappelant que les erreurs non dues à l'échantillonnage restent intactes. S'il y a des biais dans l'échantillonnage et la mesure, ils sont toujours là. De plus, que vous comptiez des patients uniques (je dirais plutôt «distincts») ou des observations définies d'une autre manière, il existe (je présume) des structures en grappes reliant les médicaments pour le même patient et les médicaments qui sont administrés ensemble de toute façon, ce qui ne sont pas pris en compte par les calculs d'intervalle de confiance les plus simples. Je n'ai aucune solution sur la façon de quantifier cela au-delà de la comparaison avec d'autres ensembles de données et de la documentation de la production de données.

— Nick Cox

10

Ce problème est également apparu dans certaines de mes recherches (en tant que modélisateur d'épidémie, j'ai le luxe de créer mes propres ensembles de données, et avec des ordinateurs suffisamment grands, ils peuvent être essentiellement de taille arbitraire. Quelques réflexions:

En termes de reporting, je pense que vous pouvez signaler des intervalles de confiance plus précis, bien que l'utilité de cela soit légitimement un peu discutable. Mais ce n'est pas faux, et avec des ensembles de données de cette taille, je ne pense pas qu'il y ait beaucoup d'appel pour que les deux intervalles de confiance de la demande soient signalés et se plaignent ensuite que nous aimerions tous qu'ils soient arrondis à deux chiffres, etc.
Pour éviter l'excès de confiance, je pense que la clé est de se rappeler que la précision et l' exactitude sont des choses différentes, et d'éviter d'essayer de confondre les deux. Il est très tentant, lorsque vous avez un grand échantillon, de vous faire une idée de la précision de l'effet estimé et de ne pas penser qu'il pourrait aussi être faux. Je pense que c'est la clé - un ensemble de données biaisé aura ce biais à N = 10, ou 100, ou 1000 ou 100 000.

Le but principal de grands ensembles de données est de fournir des estimations précises, donc je ne pense pas que vous ayez besoin de vous dérober à cette précision. Mais vous devez vous rappeler que vous ne pouvez pas améliorer les mauvaises données simplement en collectant des volumes plus importants de mauvaises données.

— Fomite
source

Je pense qu'un grand volume de mauvaises données est encore mieux qu'un petit volume de mauvaises données.

— Aksakal presque sûrement binaire

@Aksakal Pourquoi? Une réponse précisément fausse est toujours fausse.

— Fomite

@Fomite - oui, mais vous êtes plus confiant que c'est mal :)

— Duncan

6

Ce problème est apparu dans mes propres manuscrits.

1. Options de rapport: si vous n'avez qu'un ou quelques CI à signaler, le rapport "(par exemple, IC à 95%: .65878 - .65881)" n'est pas trop verbeux et met en évidence la précision du CI. Cependant, si vous avez de nombreux CI, une déclaration générale peut être plus utile au lecteur. Par exemple, je signale généralement quelque chose comme «avec cette taille d'échantillon, la marge d'erreur de confiance à 95% pour chaque proportion était inférieure à +/- 0,010». Je signale généralement quelque chose comme ça dans la méthode, ou dans la légende du tableau ou de la figure, ou dans les deux.

2. Éviter la «confiance excessive» même avec un échantillon de grande taille: avec un échantillon de 100 000, le théorème de la limite centrale vous gardera en sécurité lors de la déclaration des IC pour les proportions. Donc, dans la situation que vous avez décrite, vous devriez être d'accord, à moins qu'il n'y ait d'autres violations d'hypothèses dont je ne suis pas au courant (par exemple, violé iid).

— Anthony
source

0

Ne signalez pas les intervalles de confiance. Indiquez plutôt la taille exacte de l'échantillon et les proportions. Le lecteur pourra calculer ses propres CI de la manière qu'il souhaite.

— Aksakal presque sûrement binaire
source

4

Pourquoi ce raisonnement ne devrait-il pas s'appliquer à tous les rapports de données quantitatives?

— whuber

@whuber, bonne question. Je suis pour la recherche reproductible, je souhaite que tout le monde publie ses jeux de données.

— Aksakal presque sûrement binaire

6

Je ne voulais pas que ce soit pris comme une suggestion. Même si tout le monde publiait ses ensembles de données, il renoncerait à ses devoirs scientifiques s'il n'en fournissait pas une analyse - et cela inclut une analyse de l'incertitude. Vous semblez aller dans une direction qui se terminerait logiquement par la suggestion que les scientifiques ne font que publier des données, sans aucune analyse! Cela finit par être un acte d'accusation contre la recommandation que les IC ne soient pas signalés. Cela indique au contraire qu'une sorte d'analyse statistique devrait être proposée dans tous les cas, quelle que soit la taille de l'échantillon.

— whuber

0

Considérez la possibilité que les proportions de 100 hôpitaux différents ne convergent pas vers la même valeur moyenne. Avez-vous testé la variance entre les groupes? S'il existe une différence mesurable entre les hôpitaux, l'hypothèse selon laquelle les échantillons sont générés à partir d'une distribution normale commune n'est pas prise en charge et vous ne devez pas les regrouper.

Cependant, si vos données proviennent vraiment d'un grand échantillon normalement distribué, vous ne trouverez pas de "déclarations sur l'incertitude" utiles en tant que propriété des données, mais en réfléchissant à pourquoi ou pourquoi vos statistiques ne devraient pas généraliser - en raison de certains préjugés inhérents à la collecte, ou le manque de stationnarité, etc. que vous devez signaler.

— John Mark
source