Quand utiliser la régression Deming

Je travaille actuellement sur un moyen de transformer deux valeurs différentes de test de phosphore l'une dans l'autre.

Contexte

Il existe de nombreuses méthodes (d'extraction) pour mesurer le phosphore disponible des plantes dans le sol. Différents pays appliquent des méthodes différentes.Par conséquent, pour comparer la fécondité P d'un pays à l'autre, il est nécessaire de calculer la valeur du test P x sur la base de la valeur du test P y et vice versa. La réponse et la covariable sont donc interchangeables.

Quantité de P dans l'extracteur 1 = P_CAL dans [mg / 100 g de sol]

Quantité de P dans l'extracteur 2 = P_DL dans [mg / 100 g de sol]

Pour établir une telle «équation de transformation», la teneur en P de 136 échantillons de sol a été analysée avec des extraits CAL et DL. Des paramètres supplémentaires tels que le pH du sol, le carbone organique total, l'azote total, l'argile et le carbonate ont également été mesurés. L'objectif est de dériver un modèle de régression simple. Dans un deuxième temps également un modèle multiple.

Pour donner un aperçu des données, je vous montre deux diagrammes de dispersion avec une ligne de régression linéaire simple (OLS).

Des questions:

À ma connaissance, la régression de déming convient si la réponse (y) et la variable explicative (x) ont toutes deux des erreurs (de mesure) et sont interchangeables. La régression de Deming suppose que le rapport de variance est connu. Comme je n'ai pas de détails sur la précision des mesures d'extraction de P, existe-t-il une autre façon de déterminer le rapport de variance? Quelle variance veut-on dire ici? Je suppose que ce n'est PAS calculé var(DL_P)/var(CAL_P)?

Q1: Comment puis-je déterminer le rapport de variance pour la régression de deming?

Un cas particulier de régression de deming est la régression orthogonale. Il suppose un rapport de variance = 1.

Q2: Existe-t-il un moyen de diagnostiquer si l'hypothèse δ = 1 est "à peu près" correcte ou si l'hypothèse (fausse) comporte des erreurs de prédiction élevées?

Si je suppose que δ = 1, la régression orthogonale fournit la sortie (arrondie) suivante

library(MethComp) deming <- Deming(y=P_CAL, x=P_DL, vr=1)

Interception: 0,75; Pente: 0,71; sigma P_DL: 3,17; sigma P_CAL: 3.17

Le tracé de la ligne de régression du déming dans les graphiques ci-dessus montre que la régression du déming est très proche de la régression a) CAL-P = f (DL-P), mais très différente de b) la DL-P = f (CAL-P) équation.

Q3: est-il exact que dans la régression orthogonale CAL-P = f (DL-P) et DL-P = f (CAL-P) sont exprimés avec la même équation? Sinon, comment puis-je obtenir des équations correctes pour les deux? Qu'est-ce que je manque ici?

En raison des propriétés des deux solutions d'extraction, les valeurs DL-P ont tendance à être environ 25% plus élevées que les valeurs CAL-P, donc CAL-P = f (DL-P) devrait avoir une pente plus élevée que DL-P = f (CAL -P). Cependant, cela ne s'exprime pas dans la régression de Deming lorsqu'il n'y a qu'une seule pente. Ce qui me laisse avec ma dernière question.

Q4: La régression du deming est-elle une approche valable pour mon objectif?

regression total-least-squares

— asugila
source

Le rapport des deux écarts-types est supposé dans la régression de Deming pour décider où déposer la perpendiculaire à la ligne. Si le rapport est de 1, les variances sont supposées égales et la distance mesurée à partir d'un angle de 45 degrés. Vous ne pouvez pas déterminer ce ratio à partir des données.

— Michael R. Chernick

Pour répondre à une partie de vos préoccupations ici: la régression de Deming semble offrir un mauvais ajustement dans le panneau de tracé B, mais c'est parce que le tracé est incorrect. Un moyen rapide d'évaluer si cela a été fait correctement consiste à examiner les valeurs X et Y le long de la ligne de régression de Deming. Pour toute valeur DL-P dans le panneau A, elle doit avoir une valeur CAL-P correspondante qui est identique dans les deux panneaux (PAS vrai pour OLS, et la différence fondamentale entre eux). Mais dans ces parcelles, où DL-P = 20, CAL-P dans le panneau A est ~ 15 et dans le panneau B ~ 27.

L'erreur semble être que la ligne de régression de Deming a été tracée en échangeant simplement les termes CAL-P et DL-P dans l'équation. L'équation pour le panneau A est:

CAL-P = 0,75 + 0,71 * DL-P

Réorganiser, cela implique que l'équation pour le panneau B devrait être:

DL-P = (CAL-P - 0,75) / 0,71

Et pas:

DL-P = 0,75 + 0,71 * CAL-P (qui est ce qui a été tracé)

— mkt - Réintégrer Monica
source