J'ai examiné de nombreux ensembles de données R, des publications dans DASL et ailleurs, et je ne trouve pas de très bons exemples d'ensembles de données intéressants illustrant l'analyse de la covariance pour les données expérimentales. Il existe de nombreux ensembles de données "jouets" avec des données artificielles dans les manuels de statistiques.
J'aimerais avoir un exemple où:
- Les données sont réelles, avec une histoire intéressante
- Il existe au moins un facteur de traitement et deux covariables
- Au moins une covariable est affectée par un ou plusieurs des facteurs de traitement, et une n'est pas affectée par les traitements.
- Expérimental plutôt qu'observatoire, de préférence
Contexte
Mon véritable objectif est de trouver un bon exemple à mettre dans la vignette de mon package R. Mais un objectif plus large est que les gens doivent voir de bons exemples pour illustrer certaines préoccupations importantes dans l'analyse de covariance. Considérez le scénario inventé suivant (et veuillez comprendre que ma connaissance de l'agriculture est au mieux superficielle).
- Nous faisons une expérience où les engrais sont randomisés en parcelles et une culture est plantée. Après une période de croissance appropriée, nous récoltons la récolte et mesurons une caractéristique de qualité - c'est la variable de réponse. Mais nous enregistrons également les précipitations totales pendant la période de croissance et l'acidité du sol au moment de la récolte - et, bien sûr, quel engrais a été utilisé. Nous avons donc deux covariables et un traitement.
La manière habituelle d'analyser les données résultantes serait d'adapter un modèle linéaire avec le traitement comme facteur et des effets additifs pour les covariables. Ensuite, pour résumer les résultats, on calcule des «moyennes ajustées» (AKA moindres carrés), qui sont des prédictions du modèle pour chaque engrais, à la pluviométrie moyenne et à l'acidité moyenne du sol3. Cela met tout sur un pied d'égalité, car lorsque nous comparons ces résultats, nous maintenons les précipitations et l'acidité constantes.
Mais c'est probablement la mauvaise chose à faire - car l'engrais affecte probablement l'acidité du sol ainsi que la réponse. Cela rend les moyens ajustés trompeurs, car l'effet du traitement inclut son effet sur l'acidité. Une façon de gérer cela serait de retirer l'acidité du modèle, puis les moyennes ajustées en fonction des précipitations fourniraient une comparaison équitable. Mais si l'acidité est importante, cette équité a un coût élevé, dans l'augmentation de la variation résiduelle.
Il existe des moyens de contourner ce problème en utilisant une version ajustée de l'acidité dans le modèle au lieu de ses valeurs d'origine. La prochaine mise à jour de mon package R lsmeans rendra cela très simple. Mais je veux avoir un bon exemple pour l'illustrer. Je serai très reconnaissant envers toute personne qui pourra m'orienter vers de bons ensembles de données illustratifs et en tiendra dûment compte.