Indépendance des résidus dans une expérience / simulation informatique?


17

J'ai effectué une évaluation informatisée des différentes méthodes d'ajustement d'un type particulier de modèle utilisé dans les sciences paléo. J'avais un ensemble d'entraînement de grande taille et j'ai donc mis au hasard (échantillonnage aléatoire stratifié) un ensemble de tests de côté. J'ai adapté différentes méthodes aux échantillons de l'ensemble d'apprentissage et en utilisant les m modèles résultants, j'ai prédit la réponse pour les échantillons de l'ensemble de test et calculé un RMSEP sur les échantillons de l'ensemble de test. Il s'agit d'une seule exécution .mm

J'ai ensuite répété ce processus un grand nombre de fois, chaque fois que j'ai choisi un ensemble d'entraînement différent en échantillonnant au hasard un nouvel ensemble de tests.

Cela fait, je veux rechercher si l'une des méthodes a des performances RMSEP meilleures ou pires. Je voudrais également faire plusieurs comparaisons des méthodes par paires.m

Mon approche a consisté à adapter un modèle à effets mixtes linéaires (LME), avec un seul effet aléatoire pour Run . J'ai utilisé à lmer()partir du package lme4 pour adapter mon modèle et les fonctions du package multcomp pour effectuer les comparaisons multiples. Mon modèle était essentiellement

lmer(RMSEP ~ method + (1 | Run), data = FOO)

methodest un facteur indiquant quelle méthode a été utilisée pour générer les prédictions du modèle pour l'ensemble de test et Runest un indicateur pour chaque cycle particulier de mon "expérience".

Ma question concerne les résidus du LME. Compte tenu de l'effet aléatoire pour Run je suppose que les valeurs de RMSEP pour cette course sont corrélées à un certain degré , mais ne sont pas corrélés entre les courses, sur la base de la corrélation induite par les effets de PROCURE de hasard.

Cette hypothèse d'indépendance entre les courses est-elle valable? Sinon, existe-t-il un moyen de tenir compte de cela dans le modèle LME ou devrais-je chercher à utiliser un autre type d'analyse statique pour répondre à ma question?


Les résidus sont-ils conditionnels aux effets aléatoires prédits ou inconditionnels et dans les simulations les effets aléatoires prédits sont-ils constants ou variables? N'oubliez pas d'essayer d'avoir une idée de cela pour les méthodes de simulation par défaut dans LME4 et de ne pas pouvoir (mais le projet a été annulé avant de le trier).
phaneron

Je ne suis pas sûr de bien suivre, mais les différentes séries de formation de dessin -> modèles d'ajustement -> calcul RMSEP sont toutes effectuées avant le LME. L'effet aléatoire est pour l'analyse car chaque analyse aura une interception différente (RMSEP) car différentes combinaisons d'échantillons de test sont choisies, mais celle-ci est constante dans l'analyse. Quant au bit conditionnel / inconditionnel, je ne suis pas sûr / clair de ce que vous voulez dire. Merci pour ton commentaire.
Rétablir Monica - G. Simpson

Réponses:


4

Vous effectuez essentiellement une certaine forme de validation croisée ici pour chacune de vos méthodes m et souhaitez ensuite voir quelle méthode fonctionne mieux. Les résultats entre les courses seront certainement dépendants, car ils sont basés sur les mêmes données et vous avez un chevauchement entre vos trains / ensembles de tests. La question est de savoir si cela devrait être important lorsque vous comparez les méthodes.

Supposons que vous effectuiez une seule exécution et que vous trouviez qu'une méthode est meilleure que les autres. Vous vous poseriez alors la question - est-ce simplement dû au choix spécifique de l'ensemble de test? C'est pourquoi vous répétez votre test pour de nombreux trains / ensembles de tests différents. Ainsi, afin de déterminer qu'une méthode est meilleure que d'autres méthodes, vous l'exécutez plusieurs fois et à chaque exécution, vous la comparez aux autres méthodes (vous avez différentes options pour regarder l'erreur / le rang / etc.). Maintenant, si vous trouvez qu'une méthode fait mieux sur la plupart des exécutions, le résultat est ce qu'il est. Je ne suis pas sûr qu'il soit utile de donner une valeur de p à cela. Ou, si vous voulez donner une valeur de p, demandez-vous quel est le modèle d'arrière-plan ici?


Merci pour vos pensées. Je pense que vos dernières lignes résument à peu près où je suis maintenant. En prévision de cela, j'ai un suivi où je pose des questions sur les moyens appropriés d'analyser ce type de données. J'aime aussi votre point sur "c'est ce que c'est"; qui tourbillonnait récemment sur les bords de mon processus de pensée.
Rétablir Monica - G. Simpson

Un problème que j'ai avec la partie "résultat est ce qu'il est" est que les RMSEP sont assez variables d'une exécution à l'autre. Donc, en moyenne, une ou deux méthodes sont meilleures, mais sont-elles vraiment meilleures étant donné la variabilité des RMSEP? D'où mon essai d'un LME avec effet aléatoire pour Run. Pour modifier cette approche, j'aurais besoin de savoir qui a corrélé chaque ensemble de données. Il semblerait que tout test statistique que je ferais devrait être modifié de la sorte. Par conséquent, j'ai encore du mal à interpréter les moyens des 50 analyses pour chaque méthode et si je peux tirer des conclusions ...?
Rétablir Monica - G. Simpson

1
La façon dont je le vois, évaluer vos méthodes sur toutes les partitions de train / test possibles de vos données aurait été l'évaluation la plus complète. Comme cela est impossible, vous estimez cela avec des exécutions aléatoires. Imaginons que vous puissiez évaluer toutes les partitions de train / test - il vous resterait la question de savoir quelle méthode est la meilleure. Il s'agit donc plutôt de savoir comment définir ce qu'est un «bien». Cela signifie-t-il un score moyen élevé? Ou cela signifie-t-il que dans de nombreuses exécutions, une méthode obtient un score plus élevé que les autres (personnellement, je pense que ce serait une meilleure version)?
Bitwise

1

Peut ne pas vraiment comprendre ce que vous avez fait, mais

pour l'analyse, je suppose que les valeurs RMSEP pour cette analyse sont corrélées dans une certaine mesure

Oui, cela reflète la difficulté de l'ensemble de test lors de cette exécution

mais ne sont pas corrélés entre les essais

Non, étant donné la façon dont vous avez échantillonné les ensembles de tests, certains seront plus chevauchés que d'autres (certainement pas des réplications indépendantes)

Vous devrez en quelque sorte modéliser la dépendance en fonction du chevauchement ou concevoir l'évaluation de sorte que les exécutions soient indépendantes. Je lirais la littérature statistique sur la validation croisée ;-)


+1 Merci pour la réponse. Hmm, je vois ce que tu veux dire. Plus les ensembles de tests sont similaires, plus leurs valeurs RMSEP seront similaires. D'accord, c'est comme si les données étaient corrélées spatialement ou temporairement. La façon dont je génère les ensembles d'entraînement / ensembles de test devrait signifier qu'en moyenne, ils sont tous aussi différents les uns des autres. Je ne sais pas quel CV m'amènerait ici - et dans un sens, je le fais de toute façon via une approche de rééchantillonnage. Va probablement demander à un autre Q alors comment résoudre le vrai problème.
Rétablir Monica - G. Simpson

Je laisserai cela ouvert jusqu'à la fin de la période de prime pour voir si quelqu'un d'autre mord, mais j'apprécie vos réflexions ici et accepterai et attribuerai la prime si aucune autre réponse n'est à venir.
Rétablir Monica - G. Simpson
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.