Un bon exemple de données est nécessaire avec une covariable affectée par les traitements

19

J'ai examiné de nombreux ensembles de données R, des publications dans DASL et ailleurs, et je ne trouve pas de très bons exemples d'ensembles de données intéressants illustrant l'analyse de la covariance pour les données expérimentales. Il existe de nombreux ensembles de données "jouets" avec des données artificielles dans les manuels de statistiques.

J'aimerais avoir un exemple où:

Les données sont réelles, avec une histoire intéressante
Il existe au moins un facteur de traitement et deux covariables
Au moins une covariable est affectée par un ou plusieurs des facteurs de traitement, et une n'est pas affectée par les traitements.
Expérimental plutôt qu'observatoire, de préférence

Contexte

Mon véritable objectif est de trouver un bon exemple à mettre dans la vignette de mon package R. Mais un objectif plus large est que les gens doivent voir de bons exemples pour illustrer certaines préoccupations importantes dans l'analyse de covariance. Considérez le scénario inventé suivant (et veuillez comprendre que ma connaissance de l'agriculture est au mieux superficielle).

Nous faisons une expérience où les engrais sont randomisés en parcelles et une culture est plantée. Après une période de croissance appropriée, nous récoltons la récolte et mesurons une caractéristique de qualité - c'est la variable de réponse. Mais nous enregistrons également les précipitations totales pendant la période de croissance et l'acidité du sol au moment de la récolte - et, bien sûr, quel engrais a été utilisé. Nous avons donc deux covariables et un traitement.

La manière habituelle d'analyser les données résultantes serait d'adapter un modèle linéaire avec le traitement comme facteur et des effets additifs pour les covariables. Ensuite, pour résumer les résultats, on calcule des «moyennes ajustées» (AKA moindres carrés), qui sont des prédictions du modèle pour chaque engrais, à la pluviométrie moyenne et à l'acidité moyenne du sol3. Cela met tout sur un pied d'égalité, car lorsque nous comparons ces résultats, nous maintenons les précipitations et l'acidité constantes.

Mais c'est probablement la mauvaise chose à faire - car l'engrais affecte probablement l'acidité du sol ainsi que la réponse. Cela rend les moyens ajustés trompeurs, car l'effet du traitement inclut son effet sur l'acidité. Une façon de gérer cela serait de retirer l'acidité du modèle, puis les moyennes ajustées en fonction des précipitations fourniraient une comparaison équitable. Mais si l'acidité est importante, cette équité a un coût élevé, dans l'augmentation de la variation résiduelle.

Il existe des moyens de contourner ce problème en utilisant une version ajustée de l'acidité dans le modèle au lieu de ses valeurs d'origine. La prochaine mise à jour de mon package R lsmeans rendra cela très simple. Mais je veux avoir un bon exemple pour l'illustrer. Je serai très reconnaissant envers toute personne qui pourra m'orienter vers de bons ensembles de données illustratifs et en tiendra dûment compte.

dataset ancova predictor

— rvl
source

1

Bien qu'il s'agisse sans aucun doute d'une question à la fois importante et intéressante, il semble que cela puisse tomber à l'encontre des règles concernant le sujet : "Les questions sur l'obtention d'ensembles de données particuliers sont hors sujet (elles sont trop spécialisées). "

— Glen_b -Reinstate Monica

3

La méta-question: demande de jeu de données non spécifique - toujours pas casher?

— Nick Stauner

1

Mon impression des réponses jusqu'à présent est que nous sommes prudents de donner à d'autres questions comme celle-ci un chèque en blanc en statuant fermement en sa faveur, mais que nous sommes principalement en faveur de cette question particulière et même un peu impatient de voir ce que types de réponses que vous pourriez obtenir (peut-être que ce bit est juste moi). Ce que nous ne voudrions pas, ce sont des imitations mal écrites de cette question qui demandent des ensembles de données avec lesquels prouver des points avec des statistiques mais pas des statistiques. C'est-à-dire que c'est une chose de demander de l'aide pour démontrer un principe statistique, mais ce serait une autre de demander des ensembles de données spécifiques à un domaine ...

— Nick Stauner

3

OK, ça sonne comme une bonne idée. J'ai fait des choses bien pires dans le passé pour réduire ma réputation ...

— rvl

2

@SteveS Je suis d'accord que c'est un bon candidat pour une prime; en fait, je suis juste venu ici pour en mettre un moi - même , seulement pour découvrir que Russ l'avait déjà fait. S'il n'y a pas de bonnes réponses dans une semaine, je pourrais envisager d'y mettre une deuxième prime. Russ: les primes sur des questions intéressantes ont tendance à attirer suffisamment l'attention pour que les votes positifs qui en découlent paient souvent presque de toute façon, de sorte que la perte de réputation est souvent beaucoup moins abrupte qu'il n'y paraît à première vue.

— Glen_b -Reinstate Monica

6

Vous voudrez peut-être consulter le mediationpackage R. Il comprend des données expérimentales comme jobset framingoù la variable de traitement affecte à la fois une variable de réponse et des covariables (c.-à-d. Des médiateurs de l'effet du traitement), ainsi que des covariables non affectées par le traitement.

J'ai examiné la littérature sur la médiation parce que je pensais que vous décriviez exactement une étude de médiation: l'effet des engrais sur la qualité des cultures est médié par son effet sur l'acidité du sol. Même si les ensembles de données du mediationpackage ne vous satisfont pas, vous pouvez en trouver un si vous consultez la littérature sur la médiation.

— Masato Nakazawa
source

Merci. J'ai installé le paquet et le regarderai. Et l'occasion d'apprendre quelque chose de nouveau.

— rvl

Il est intéressant de noter que les données sur les emplois ont été mentionnées dans deux des trois discussions lors d'une session JSM à laquelle je viens d'assister ...

— rvl

1

Eh bien, j'aimerais pouvoir partager la prime d'une manière ou d'une autre. Mais ce paquet a des jeux de données prêts qui sont très adaptés à ce que j'ai demandé, donc @MasatoNakazawa obtient la prime. Merci beaucoup. En utilisant les framingdonnées, les graphiques d'interaction des moyennes (basés sur un modèle logistique) lorsque la variable médiatrice est maintenue fixe sont radicalement différents de ceux où elle est définie sur des valeurs prédites par les traitements et autres covariables, montrant ainsi combien il est important de prendre la médiation variable en compte.

— rvl

1

Merci Dr Lenth. En fait, j'ai cité vos articles dans ma thèse. Je suis honoré d'avoir pu en aucune façon aider un statisticien établi comme vous.

— Masato Nakazawa

4

J'ai pensé montrer comment une analyse aboutit avec l'un des ensembles de données du package de médiation . Dans framing, une expérience est réalisée où les sujets ont la possibilité d'envoyer un message au Congrès concernant l'immigration. Cependant, certains sujets ( treat=1) ont d'abord vu une nouvelle qui décrit les Latinos de manière négative. Outre la réponse binaire (qu'ils aient ou non envoyé un message), nous avons également mesuré empl'état émotionnel des sujets après l'application du traitement. Il existe également diverses variables démographiques.

Commençons par charger les packages nécessaires dans R et modifions les étiquettes pour educdes chaînes plus courtes.

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

Adapter maintenant un modèle de régression logistique

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

Voici un affichage des moyens ajustés classiques, où les prévisions sont faites avec les covariables age, incomeet emofixés à leurs valeurs moyennes:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(Diagramme d'interaction des «moyennes ajustées» conventionnelles, transformées en échelle de réponse)

C'est un résultat curieux car les effets de traitement affichés sont inverses pour les femmes comme pour les hommes, et l'effet de l'éducation n'est pas monotone comme on pourrait s'y attendre.

Remarque, cependant, emoest une mesure de post-traitement. Cela signifie que le traitement aurait pu l'affecter, c'est emo-à- dire une covariable médiatrice; et ainsi il peut ne pas être significatif de comparer les prédictions de la variable de réponse tout en restant emoconstante. Au lieu de cela, regardons les prédictions où emoest défini ses valeurs prédites données treatet les variables démographiques.

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(Diagramme d'interaction des prédictions tenant compte des effets de médiation)

Ce résultat est assez différent, suggérant qu'il emojoue un rôle de médiation fort. (Le module de médiation a des fonctions pour estimer la force de ces effets.) Les prédictions ci-dessus suggèrent que, compte tenu de la réponse émotionnelle, les sujets masculins exposés à la nouvelle négative sont plus susceptibles d'envoyer le message que les femmes ou ceux qui ne voient pas le histoire de nouvelles négatives. De plus, l'effet de educest (presque) monotone.

Merci encore à @MasatoNakagawa de m'avoir montré cet exemple intéressant et de m'avoir mis au courant de quelques recherches récentes sur la causalité.

— rvl
source

3

Recherchez les études GWAS sur l'interaction gène-environnement. L'analyse statistique qu'ils effectuent est essentiellement ce que vous avez décrit. La question est: votre environnement est-il important pour un phénotype (caractéristique observable)? Une école de pensée ignore généralement toutes les informations environnementales et dit que votre constitution génétique décrit votre phénotype. Ceci est en contraste complet avec les études écologiques où l'histoire est l'environnement est tout et ils ignorent les gènes. Étant donné que les deux parties tentent de comprendre le même problème, il y a eu récemment des tentatives de fusionner les deux.

Disons que nous étudions l'IMC. Nous considérons les premiers composants principaux de la matrice génétique comme les effets fixes dus aux gènes. Nous ajustons l'éducation avec un indice 1 pour les personnes bien éduquées et 0 pour les personnes peu instruites comme effet fixe. Il existe une corrélation raisonnablement forte entre l'indice d'éducation et la richesse de la communauté dont la personne est originaire. On pourrait donc soutenir que les collectivités à faible revenu sont plus susceptibles d'avoir plus de restaurants-minute. Le fast-food agit comme un déclencheur obésogène.

La simulation de telles données n'est pas un problème. Chercher

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

Cela vous permet de simuler des données GWAS (considérées comme des unités génétiques) responsables d'un symptôme. Sinon, il en générera 1000 avec le symptôme et 1000 contrôles. La norme dans ces simulations que j'utilise est que 9990 SNP ne provoquent pas le symptôme et 10 SNP le font. Lisez les instructions sur la façon dont celles-ci sont simulées.

La sortie sera 1 si la personne est obèse et 0 si elle ne l'est pas. Simuler des facteurs de scolarité (études collégiales terminées / études collégiales non terminées) en fonction d'une corrélation raisonnable avec les niveaux d'obésité.

J'espère que cela t'aides!!!

— Sid
source

Merci. Toujours en attente de certaines données réelles ... De plus, je ne suis pas sûr de ce qu'est une étude GWAS. DUH, vient de le découvrir en suivant le lien.

— rvl

Même si j'ai donné la prime à un autre répondant, j'apprécie cette suggestion et j'ai l'intention de la suivre. Merci.

— rvl

1

Je recommanderais de lire Freakonomics, de trouver les documents sur lesquels leur travail est basé et de voir si vous pouvez récupérer ces données. Ils ont un travail vraiment intéressant sur des ensembles de données vraiment intéressants, et dans certains cas, ils trouvent des moyens très intelligents pour tester des hypothèses malgré les limites des données.

— Nir Friedman
source