Ma question pourrait être reformulée comme "comment évaluer une erreur d'échantillonnage en utilisant les mégadonnées", en particulier pour une publication de journal. Voici un exemple pour illustrer un défi.
À partir d'un très grand ensemble de données (> 100 000 patients uniques et leurs médicaments prescrits provenant de 100 hôpitaux), je souhaitais estimer une proportion de patients prenant un médicament spécifique. Il est simple d'obtenir cette proportion. Son intervalle de confiance (par exemple, paramétrique ou bootstrap) est incroyablement étroit / étroit, car n est très grand. Bien qu'il soit chanceux d'avoir un échantillon de grande taille, je cherche toujours un moyen d'évaluer, de présenter et / ou de visualiser certaines formes de probabilités d'erreur. Bien qu'il semble inutile (sinon trompeur) de mettre / visualiser un intervalle de confiance (par exemple, IC à 95%: .65878 - .65881), il semble également impossible d'éviter certaines déclarations sur l'incertitude.
S'il vous plait, faite moi part de votre avis. J'apprécierais toute littérature sur ce sujet; façons d'éviter une confiance excessive dans les données même avec un échantillon de grande taille.