Régression des erreurs dans les variables: est-il valable de regrouper les données de trois sites?


15

Récemment, un client est venu me voir pour faire une analyse bootstrap parce qu'un examinateur de la FDA a dit que la régression des erreurs dans les variables n'était pas valide car lors de la mise en commun des données des sites, l'analyse inclut la mise en commun des données de trois sites où deux sites comprenaient des échantillons qui étaient le même.

CONTEXTE

Le client disposait d'une nouvelle méthode de dosage qu'il voulait montrer équivalente à une méthode approuvée existante. Leur approche consistait à comparer les résultats des deux méthodes appliquées aux mêmes échantillons. Trois sites ont été utilisés pour effectuer les tests. Des erreurs dans les variables (régression de Deming) ont été appliquées aux données de chaque site. L'idée est que si la régression montrait que le paramètre de pente était proche de 1 et l'ordonnée à l'origine près de 0, cela montrerait que les deux techniques de dosage donnaient presque les mêmes résultats et donc la nouvelle méthode devrait être approuvée. Au site 1, ils avaient 45 échantillons, ce qui leur a valu 45 observations par paires. Le site 2 comptait 40 échantillons et le site 3, 43 échantillons. Ils ont effectué trois régressions de Deming distinctes (en supposant un rapport de 1 pour les erreurs de mesure pour les deux méthodes). L'algorithme a donc minimisé la somme des distances perpendiculaires au carré.

Dans sa soumission, le client a souligné que certains des échantillons utilisés aux sites 1 et 2 étaient les mêmes. Dans l'examen, le réviseur de la FDA a déclaré que la régression de Deming n'était pas valide car des échantillons communs ont été utilisés, ce qui provoque une «interférence» qui invalide les hypothèses du modèle. Ils ont demandé qu'un ajustement bootstrap soit appliqué aux résultats de Deming pour tenir compte de cette interférence.

À ce moment-là, puisque le client ne savait pas comment faire le bootstrap, j'ai été amené. Le terme interférence était étrange et je ne savais pas exactement à quoi le critique voulait en venir. J'ai supposé que le fait était que, parce que les données regroupées avaient des échantillons communs, il y aurait une corrélation pour les échantillons communs et, par conséquent, les termes d'erreur du modèle ne seraient pas tous indépendants.

L'ANALYSE DU CLIENT

Les trois régressions distinctes étaient très similaires. Chacun avait des paramètres de pente proches de 1 et des intersections près de 0. L'intervalle de confiance à 95% contenait respectivement 1 et 0 pour la pente et l'ordonnée à l'origine. La principale différence était une variance résiduelle légèrement plus élevée au site 3. De plus, ils ont comparé cela aux résultats de l'OLS et les ont trouvés très similaires (dans un seul cas, l'intervalle de confiance pour la pente basée sur l'OLS ne contenait pas 1). Dans le cas où l'IC OLS pour la pente ne contenait pas 1, la limite supérieure de l'intervalle était quelque chose comme 0,99.

Les résultats étant si similaires sur les trois sites, la mise en commun des données du site semblait raisonnable. Le client a effectué une régression de Deming groupée qui a également conduit à des résultats similaires. Compte tenu de ces résultats, j'ai rédigé un rapport pour le client contestant l'affirmation selon laquelle les régressions n'étaient pas valides. Mon argument est que, comme il y a des erreurs de mesure similaires dans les deux variables, le client a eu raison d'utiliser la régression de Deming comme moyen de montrer son accord / désaccord. Les régressions de sites individuels n'ont eu aucun problème d'erreurs corrélées car aucun échantillon n'a été répété dans un site donné. Mise en commun des données pour obtenir des intervalles de confiance plus serrés.

Cette difficulté pourrait être corrigée en regroupant simplement les données avec les échantillons communs du site 1, disons exclus. Les trois modèles de sites individuels n'ont pas non plus le problème et sont valides. Cela me semble fournir une preuve solide d'accord même sans la mise en commun. De plus, les mesures ont été prises indépendamment aux sites 1 et 2 pour les sites communs. Je pense donc que même l'analyse groupée utilisant toutes les données est valide parce que les erreurs de mesure pour un échantillon sur le site 1 ne sont pas corrélées avec les erreurs de mesure dans l'échantillon correspondant sur le site 2. Cela revient vraiment à répéter un point dans la conception espace qui ne devrait pas être un problème. Il ne crée pas de corrélation / "interférence".

Dans mon rapport, j'ai écrit qu'une analyse bootstrap n'était pas nécessaire car il n'y a pas de corrélation à ajuster. Les trois modèles de site étaient valides (aucune «interférence» possible au sein des sites) et une analyse groupée pourrait être effectuée en supprimant les échantillons communs au site 1 lors de la mise en commun. Une telle analyse groupée ne pouvait pas poser de problème d'interférence. Un ajustement bootstrap ne serait pas nécessaire car il n'y a pas de biais à ajuster.

CONCLUSION

Le client était d'accord avec mon analyse mais avait peur de la porter à la FDA. Ils veulent quand même que je fasse le réglage du bootstrap.

MES QUESTIONS

A) Êtes-vous d'accord avec (1) mon analyse des résultats du client et (2) mon argument selon lequel le bootstrap n'est pas nécessaire.

B) Étant donné que je dois amorcer la régression de Deming, y a-t-il des procédures SAS ou R qui me sont disponibles pour effectuer la régression de Deming sur les échantillons de bootstrap?

EDIT: Compte tenu de la suggestion de Bill Huber, je prévois d'examiner les limites de la régression des erreurs dans les variables par régression à la fois y sur x et x sur y. Nous savons déjà que pour une version d'OLS, la réponse est essentiellement la même que les erreurs dans les variables lorsque les deux variances d'erreur sont supposées égales. Si cela est vrai pour l'autre régression, je pense que cela montrera que la régression de Deming donne une solution appropriée. Êtes-vous d'accord?

Afin de répondre à la demande du client, je dois faire l'analyse de bootstrap demandée qui a été vaguement définie. D'un point de vue éthique, je pense qu'il serait erroné de simplement fournir le bootstrap car cela ne résout pas vraiment le vrai problème du client, qui est de justifier sa procédure de mesure de dosage. Je vais donc leur donner à la fois des analyses et demander au moins qu'ils disent à la FDA qu'en plus de faire le bootstrap, j'ai fait une régression inverse et j'ai délimité les régressions de Deming qui, je pense, sont plus appropriées. Je pense également que l'analyse montrera que leur méthode est équivalente à la référence et que la régression de Deming est donc également adéquate.

J'ai l'intention d'utiliser le programme R que @whuber a suggéré dans sa réponse pour me permettre d'amorcer la régression de Deming. Je ne connais pas très bien R mais je pense que je peux le faire. J'ai installé R avec R Studio. Est-ce que ce sera assez facile pour un novice comme moi?

J'ai également SAS et je suis plus à l'aise dans la programmation en SAS. Donc, si quelqu'un connaît un moyen de le faire dans SAS, j'apprécierais de le savoir.


2
Je ne connais pas la réponse à cette question, mais, sur une base purement politique, ne vaudrait-il pas mieux faire ce que la FDA veut et montrer (au moins, vraisemblablement), que les résultats sont similaires? (Bonne question, BTW, +1)
Peter Flom - Réintègre Monica

1
Oui @PeterFlom Je suis d'accord que faire l'analyse pour la FDA et la montrer n'a pas d'importance. Mais je pense que le fait de signaler diplomatiquement les résultats des régressions et leurs implications et de faire la mise en commun sans les échantillons qui se chevauchent renforce l'argument. Je vais faire le bootstrap mais je pourrais utiliser l'aide pour trouver les logiciels disponibles pour faire la régression de Deming moi-même sans le coder indépendamment.
Michael R. Chernick

2
Michael, la possibilité d '"échantillons" communs aux "sites" remet en question certaines interprétations naturelles de ce que ces termes (abstraits) pourraient signifier. Par exemple, j'ai d'abord pensé aux «sites» comme des emplacements géographiques différents et aux «échantillons» comme des entités distinctes associées à ces emplacements, chacune soumise à des mesures indépendantes. Dans ce modèle, il est impossible que les échantillons soient communs à différents sites. Pourriez-vous préciser ce que vous entendez par ces termes?
whuber

3
@whuber les sites sont des emplacements différents. Les échantillons sont du plasma citraté d'individus. Les tests en laboratoire sont effectués sur les différents sites à différents moments. Les comparaisons concernent deux appareils de mesure de dosage destinés à remplir la même fonction. Aux sites 1 et 2, certains des échantillons ont été réutilisés, mais les appareils fonctionnaient indépendamment au site 1 et au site 2. C'est pourquoi je dis que les erreurs de mesure sont vraiment indépendantes même si les mêmes échantillons (ou parties des mêmes échantillons) sont utilisés .
Michael R. Chernick

1
a) a convenu que la suppression de l'échantillon dupliqué de l'analyse groupée dissipe les préoccupations concernant le manque d'indépendance. b) Très peu d'utilisateurs SAS trouveront "facile" d'utiliser R pour des analyses de bootstrap impliquant des méthodes de régression peu communes. Les analyses de bootstrap nécessitent vraiment le mode de pensée de programmation fonctionnelle, et ce n'est pas un mode que SAS encourage.
DWin

Réponses:


10

Il s'agit d'un problème d'étalonnage mutuel: c'est-à-dire de comparer quantitativement deux appareils de mesure indépendants.

Il semble y avoir deux problèmes principaux. La première (qui n'est qu'implicite dans la question) est de formuler le problème: comment déterminer si une nouvelle méthode est "équivalente" à une méthode approuvée? La seconde concerne la façon d'analyser les données dans lesquelles certains échantillons peuvent avoir été mesurés plus d'une fois.

Cadrer la question

La meilleure solution (et peut-être évidente) au problème posé est d'évaluer la nouvelle méthode en utilisant des échantillons avec des valeurs connues avec précision obtenues à partir de milieux comparables (tels que le plasma humain). (Cela se fait généralement en enrichissant les échantillons réels avec des matériaux standard de concentration connue.) Parce que cela n'a pas été fait, supposons que ce n'est pas possible ou ne serait pas acceptable pour les régulateurs (pour une raison quelconque). Ainsi, nous en sommes réduits à comparer deux méthodes de mesure, dont l'une est utilisée comme référence car elle est réputée précise et reproductible (mais sans précision parfaite).

En effet, le client demandera à la FDA d'autoriser la nouvelle méthode comme proxy ou substitut de la méthode approuvée. À ce titre, leur fardeau est de démontrer que les résultats de la nouvelle méthode prédiront, avec une précision suffisante, ce que la méthode approuvée aurait déterminé si elle avait été appliquée. L'aspect subtil de ceci est que nous n'essayons pas de prédire les vraies valeurs elles-mêmes - nous ne les connaissons même pas. Ainsi, la régression des erreurs dans les variables n'est peut-être pas le moyen le plus approprié pour analyser ces données.

OuiXXOuiOuiXOuiX. (D'après mon expérience, cette approche a tendance à être rigoureusement conservatrice: ces intervalles peuvent être étonnamment grands à moins que les deux mesures soient très précises, précises et linéairement liées.)

Traitement des échantillons en double

Les concepts pertinents ici sont des exemples de support et des composantes de variance. "Exemple de support" fait référence à la partie physique d'un sujet (un être humain ici) qui est réellement mesurée. Une fois qu'une partie du sujet a été prise, elle doit généralement être divisée en sous-échantillons adaptés au processus de mesure. Nous pourrions être préoccupés par la possibilité de variation entre les sous-échantillons. Dans un échantillon liquide qui est bien mélangé, il n'y a essentiellement aucune variation de la quantité sous-jacente (telle qu'une concentration d'un produit chimique) dans l'échantillon, mais dans les échantillons de solides ou semi-solides (qui pourraient inclure du sang), une telle variation peut être substantiel. Étant donné que les laboratoires n'ont souvent besoin que de microlitres de solution pour effectuer une mesure, nous devons nous préoccuper de la variation presque à l'échelle microscopique. Cela pourrait être important.

La possibilité d'une telle variation à l' intérieurun échantillon physique indique que la variation des résultats de mesure devrait être divisée en «composantes de variance» distinctes. L'une des composantes est la variance par rapport à la variation intra-échantillon, et d'autres sont des contributions à la variance de chaque étape indépendante du processus de mesure suivant. (Ces étapes peuvent comprendre l'acte physique de sous-échantillonnage, le traitement chimique et physique supplémentaire de l'échantillon - comme l'ajout de stabilisants ou la centrifugation -, l'injection de l'échantillon dans l'instrument de mesure, les variations à l'intérieur de l'instrument, les variations entre les instruments et d'autres variations dues à des changements dans le fonctionnement de l'instrument, à une éventuelle contamination ambiante dans les laboratoires, etc. J'espère que cela montre clairement que pour faire un très bon travail de réponse à cette question, le statisticien a besoin d'une compréhension approfondie de l'ensemble du processus d'échantillonnage et d'analyse. Tout ce que je peux faire, c'est donner des conseils généraux.)

Ces considérations s'appliquent à la question posée car un "échantillon" mesuré sur deux "sites" différents est en réalité deux échantillons physiques obtenus de la même personne et ensuite répartis entre les laboratoires. La mesure par la méthode approuvée utilisera un morceau d'un échantillon divisé et la mesure simultanée par la nouvelle méthode utilisera un autre morceau de l'échantillon divisé. En considérant les composantes de la variance que ces divisions impliquent, nous pouvons régler le problème principal de la question. Il devrait maintenant être clair que les différences entre ces mesures appariées doivent être attribuées à deux choses: premièrement, les différences réelles entre les procédures de mesure - c'est ce que nous essayons d'évaluer - et deuxièmement, les différences dues à toute variation au sein del'échantillon ainsi que les variations provoquées par les processus physiques d'extraction des deux sous-échantillons à mesurer. Si un raisonnement physique sur l'homogénéité de l'échantillon et le processus de sous-échantillonnage peut établir que la deuxième forme de variance est négligeable, alors il n'y a en effet pas d '"interférence" comme le prétend l'examinateur. Sinon, ces composantes de la variance pourraient devoir être explicitement modélisées et estimées dans l'analyse de régression inverse.


1
Merci pour une très belle analyse suggérant la meilleure façon de résoudre ce problème. Cependant, dans ma situation particulière, le client a choisi l'approche de régression de Deming et ne recherche pas une méthode différente. L'injection de la FDA à la régression de Deming semble être uniquement due à l'interférence et leur suggestion pour contourner le problème est un certain type de correction de bootstrap. Je n'ai été amené que parce qu'ils ne savent pas faire du bootstrap. Ils n'ont pas de statisticiens impliqués et n'ont pas présenté d'analyse statistique des résultats comme je l'ai indiqué dans mon rapport.
Michael R. Chernick

2
J'apprécie les contraintes (et j'aurais dû être explicite à ce sujet). En général, cependant, un bon cadre pour résoudre des questions comme celle-ci est de prendre un modèle approprié comme point de départ. Si vous essayez de raisonner votre chemin vers une solution en utilisant une approche inappropriée et un modèle invalide (pour satisfaire un client), vous ne ferez qu'aggraver les erreurs et vous ne pourrez pas trouver de solution clairement défendable. Ce que vous pourriez considérer maintenant, c'est comment la régression de Deming varie de la régression inverse, ainsi que la façon dont la régression de Deming pourrait être adaptée pour s'adapter à plusieurs composantes de la variance.
whuber

1
Vous pouvez être motivé à démontrer que la régression de Deming, telle qu'elle a déjà été appliquée, est suffisamment proche de ce que produirait une méthode plus habituelle ou appropriée: une telle démonstration pourrait être la meilleure résolution possible dans votre situation.
whuber

Au lieu de cela, ils ont simplement décrit le problème et la façon dont les données ont été collectées et affichent les résultats de la régression de Deming. Si un statisticien avait été impliqué, il aurait pu y avoir moins de problèmes statistiques concernant la régression de Deming. Tout ce que je peux faire pour le clinet est de fournir un cas pour l'analyse qui a été effectuée (qui comprenait une explication de la raison pour laquelle la majeure partie de la régression pouvait être analysée sans se soucier des interférences d'échantillonnage répété provenant d'une source commune) et de fournir le bootstrap demandé ajustement pour la variance résiduelle dans le modèle groupé.
Michael R. Chernick

Je ne peux pas pour l'instant leur dire de faire une régression inverse. Si une méthode de mesure est approuvée, je pense qu'elle peut être considérée comme la référence et la charge pour l'entreprise est de montrer que la nouvelle méthode fait essentiellement le même travail que la référence. Pour cela, je pense que la régression de Deming peut convenir et au moins être acceptable pour la FDA. Il l'aurait probablement été si le problème des échantillons répétés ne s'était pas posé. Ce problème ne se serait pas posé s'ils avaient quitté l'un de nos échantillons répétés lors de la mise en commun.
Michael R. Chernick
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.