Comment comparer des modèles sans ajustement?

La régression et l'apprentissage automatique sont utilisés en sciences naturelles pour tester des hypothèses, estimer des paramètres et faire des prédictions en ajustant des modèles aux données. Cependant, quand j'ai un modèle a priori , je ne veux faire aucun ajustement --- par exemple, un modèle d'un système physique déterministe calculé à partir des premiers principes. Je veux simplement savoir dans quelle mesure mon modèle correspond aux données, puis comprendre quelles parties du modèle contribuent de manière significative à la correspondance. Quelqu'un pourrait-il m'orienter vers une manière statistiquement rigoureuse de procéder?

En termes plus spécifiques, supposons que j'ai un système physique pour lequel j'ai mesuré une variable dépendante $y_i$ ( $i$ va de 1 à $n$ , la taille de l'échantillon) dans des conditions variables décrites par trois variables indépendantes $x_{1,i}$ , $x_{2,i}$ , et $x_{3,i}$ . Bien que le système réel qui a généré les données soit compliqué, j'ai fait quelques hypothèses simplificatrices pour dériver un modèle théorique $f$ pour le système, de telle sorte que

$y_i = f(x_{1,i}, x_{2,i}, x_{3,i}) + \epsilon_i$ ,

où $f$ est une fonction non linéaire (et non linéarisable) des variables indépendantes et $\epsilon_i$ est la différence entre les valeurs prédites par le modèle et les valeurs mesurées. $f$ est complètement prédéfini; aucun ajustement n'est effectué et aucun paramètre n'est estimé. Mon premier objectif est de déterminer si $f$ est un modèle raisonnable pour le processus qui a produit les valeurs mesurées $y_i$ .

J'ai également développé des modèles simplifiés $g(x_{1,i}, x_{2,i})$ et $h(x_{1,i})$ , qui sont imbriqués dans $f$ (si cela est important dans ce cas). Mon deuxième objectif est de déterminer si $f$ correspond bien mieux aux données que $g$ ou $h$ , suggérant que les caractéristiques qui différencient le modèle $f$ à partir de modèles $g$ et $h$ jouer un rôle important dans le processus qui génère $y_i$ .

Idées jusqu'ici

Peut-être que s'il y avait un moyen de déterminer le nombre de paramètres ou le nombre de degrés de liberté pour mon modèle mathématique, il serait possible d'utiliser des procédures existantes comme un test de rapport de vraisemblance ou une comparaison AIC. Cependant, étant donné la forme non linéaire de $f$ et l'absence de paramètres évidents, je ne sais pas s'il est raisonnable d'assigner des paramètres ou de supposer ce qui constitue un degré de liberté.

J'ai lu que les mesures de la qualité de l'ajustement, telles que le coefficient de détermination ( $R^2$ ), peut être utilisé pour comparer les performances du modèle. Cependant, je ne sais pas quel est le seuil pour une différence significative entre $R^2$ les valeurs peuvent être. De plus, comme je n'adapte pas le modèle aux données, la moyenne des résidus n'est pas nulle et peut être différente pour chaque modèle. Ainsi, un modèle bien adapté qui a tendance à sous-estimer les données pourrait donner une valeur $R^2$ comme un modèle non biaisé mais mal adapté aux données.

J'ai également lu un peu sur les tests d'adéquation (par exemple, Anderson-Darling), mais comme les statistiques ne sont pas mon domaine, je ne sais pas si ce type de test convient à mon objectif. Tout conseil serait apprécié.

— jbacks
source

Existe-t-il des valeurs de paramètre pour la fonction non linéaire f()qui doivent être déterminées à partir d'un ajustement aux données, ou la fonction est-elle f()complètement prédéfinie?

— EdM

@EdM Merci pour ça! Modifié la question pour clarifier ce qui fest complètement pré-spécifié. C'est comme une boîte noire qui produit la réponse ydes variables d'entrée, et je veux savoir à quel point cela fonctionne par rapport aux boîtes noires concurrentes. Une situation analogue pourrait être d'essayer d'évaluer l'adéquation entre la sortie d'une simulation numérique et les mesures effectuées dans le système physique réel.

— jbacks

Réponses:

Dans cette situation, vous comparez essentiellement les distributions des $\epsilon_i$ parmi les 3 modèles. Vous devez donc examiner des questions telles que:

Les valeurs moyennes de la $\epsilon_i$ différent parmi les 3 modèles, et l'une de ces valeurs moyennes est-elle différente de 0? (Autrement dit, y a-t-il un biais dans l'un des modèles et les 3 modèles diffèrent-ils en biais?)
Existe-t-il une relation systématique entre $\epsilon_i$ aux valeurs prédites à partir du modèle correspondant, ou aux valeurs des variables indépendantes $x_{1,i},x_{2,i}, x_{3,1}$ ? Vous devriez considérer les trois variables indépendantes ici même si le modèle particulier n'en a utilisé qu'une ou deux.
Existe-t-il des différences significatives dans les variances $\epsilon_i$ parmi les 3 modèles?

Les détails sur la meilleure façon d'aborder ces questions dépendront de la nature de vos données. Par exemple, si les valeurs de $y_i$ sont nécessairement positifs et présentent des erreurs de mesure typiques proportionnelles à leurs valeurs (comme c'est souvent le cas en pratique), il pourrait être judicieux de faire cette analyse sur les différences entre les log-transformés $y_i$ et les prévisions transformées en journaux de chacun de vos modèles.

Analyse visuelle des distributions des $\epsilon_i$ parmi les 3 modèles, par exemple avec des parcelles de densité, serait une première étape importante.

Selon la nature des données, des tests statistiques paramétriques ou non paramétriques standard pour les différences de valeurs moyennes, appliqués aux $\epsilon_i$ pour les 3 modèles, aborderait le problème 1.

La question 2 est essentiellement ce qui est fait pour examiner la qualité de tout modèle ajusté; dans votre cas, cette analyse peut montrer les domaines des variables indépendantes sur lesquelles un ou plusieurs de vos modèles prédéfinis ne fonctionnent pas bien. Parcelles de $\epsilon_i$ par rapport aux valeurs prédites et aux valeurs de variables indépendantes, avec des courbes de loess pour mettre en évidence les tendances, pour chacun de vos modèles serait utile.

S'il n'y a aucun biais dans les modèles et que l'analyse de la question 2 ne montre aucun problème, la question 3 restante est de savoir si l'un des modèles est supérieur en termes de précision / variance. Dans le cas idéal avec normalement distribué $\epsilon_i$ au sein de chaque modèle, les tests F pourraient tester l'égalité des variances.

— EdM
source

Penser la distribution résiduelle comme objet de comparaison est un changement de perspective utile! a) Connaissez-vous des analyses publiées utilisant une méthode similaire? J'ai l'impression que ma situation est inhabituelle. Tout précédent publié serait utile. b) La moyenne de chaque distribution résiduelle est non nulle et visiblement différente pour deux de mes modèles, et je m'attends à ce que l'ANOVA le confirme. Sachant cela, serait-il toujours judicieux d'examiner les différences entre la variance de chaque distribution résiduelle (numéro 3)? Les modèles exposés via le problème 2 pourraient-ils invalider une comparaison des variances?

— jbacks

@jbacks Je ne connais pas de précédent publié, mais je ne pense pas que cette approche serait difficile à vendre s'il existe une base théorique solide pour vos modèles. Dans cette analyse théorique, concentrez-vous sur les raisons du biais systématique (erreur moyenne non nulle, problème I) entre les prévisions et les observations. Cela semblerait obtenir le plus directement la valeur relative des modèles. Le problème II (tout modèle d'amplitude / direction d'erreur lié à des valeurs de variables indépendantes ou à des valeurs prédites) devrait illustrer où vos modèles s'égarent. Les comparaisons des variances du modèle sont moins intéressantes.

— EdM

@jbacks envisage également de travailler avec des observations / prédictions à une échelle transformée telle que logarithmique. Un biais en termes d'erreur dans une échelle non transformée peut être réduit ou supprimé après la transformation. Notez que l'utilisation de pourcentages d'erreurs, suggérée dans une autre réponse, équivaut à examiner les différences entre les prévisions et les observations transformées en logarithme. Vous devrez juger si cela conviendrait à cette situation.

— EdM

Cela semble plausible et je vais essayer. Merci encore pour votre perspicacité.

— jbacks

Une comparaison probabiliste des modèles, impliquant par exemple une certaine probabilité calculée à partir $\epsilon$ avec certaines données (et dérivées de cet AIC ou test de rapport), n'a pas beaucoup de sens.

Ceci est dû au fait

Vous savez déjà avec certitude que le modèle va se tromper.
Les résidus avec lesquels vous vous retrouvez n'ont aucun rapport avec la distribution hypothétique des erreurs que vous utilisez pour tester différentes hypothèses. (vous n'avez pas de modèle statistique / probabiliste)
Votre objectif n'est pas de tester une hypothèse (science fondamentale / pure), mais de caractériser les performances de prédiction d'un modèle simplifié (science appliquée).

Le plus souvent, les gens décrivent les modèles en termes de pourcentage d'erreur pour les prédictions.

Exemples:

Prédiction des chutes de pression d'écoulement dans les tuyaux de boues à l'aide de corrélations composées de facteurs de frottement de loi de puissance composites basés sur différents nombres de Reynolds non newtoniens

Il est démontré que ces corrélations peuvent être utilisées pour prévoir une chute de pression à ± 20% près pour une concentration de boues et des conditions de fonctionnement données.
Prédire la viscosité effective des nanofluides basée sur la rhéologie des suspensions de particules solides

Le modèle actuel convient aux valeurs de viscosité 501 avec des écarts moyens inférieurs à 5% et 75% d'entre eux se situent dans le coefficient de corrélation 0,78-1.
Application de l'intelligence artificielle à la modélisation de la viscosité asphalte-caoutchouc

La figure 2 présente une comparaison entre la viscosité mesurée ( $\rho$ ) et la viscosité calculée par le modèle d'Einstein. Une différence entre les valeurs calculées et mesurées confirme qu'il existe une interaction physique élevée entre la base d'asphalte et les particules de caoutchouc.
Méthode de contribution des obligations pour estimer les constantes de la loi de Henry

Un coefficient de corrélation (r2) de 0,94 a été déterminé pour la relation entre les LWAPC connus (log coefficients de partage eau-air) et les LWAPC estimés par liaison pour l'ensemble de données composé 345.

Fondamentalement, vous pouvez rechercher sur Google n'importe quel modèle qui est une simplification de la réalité et vous trouverez des personnes décrivant leur écart avec la réalité en termes de coefficients de corrélation, ou pourcentage de variation.

Je veux tester l'hypothèse que le "phénomène A" impliquant x_3,i contribue de façon mesurable à la production de y. Le modèle fintègre le phénomène A pendant g que hce n'est pas le cas, donc si mon hypothèse était vraie, je prédirais que le modèle ffonctionne beaucoup mieux que l'un g ou l' autre h.

Pour une telle comparaison, vous pouvez considérer la performance mesurée comme un échantillon, un échantillon prélevé sur une population plus large (hypothétique) de performance.

Donc, vous voulez en quelque sorte décrire les paramètres de la distribution de la population des erreurs $\epsilon$ et les comparer. Cela pourrait être considéré comme probabiliste. Par exemple, vous pouvez le dire comme «l'erreur moyenne du modèle est $y \pm x$ ' . Votre hypothèse concerne les paramètres qui décrivent la distribution des erreurs.

Cependant, cette vue est un peu problématique, car souvent «l'échantillon» qui est utilisé pour mesurer les performances, n'est pas vraiment une sélection aléatoire (par exemple, il s'agit de mesures le long d'une plage prédéterminée ou parmi un ensemble pratique d'éléments sélectionnés). Ensuite, toute quantification de l'erreur dans l'estimation de la performance générale ne devrait pas être basée sur un modèle de sélection aléatoire (par exemple en utilisant la variance dans l'échantillon pour décrire l'erreur de l'estimation). Il est donc peu logique d'utiliser un modèle probabiliste pour décrire les comparaisons. Il pourrait être suffisant de simplement énoncer des données descriptives et de faire votre "estimation" de la généralisation sur la base d'arguments logiques.

— Sextus Empiricus
source

Ces exemples sont utiles! Je suis un peu confus cependant par votre affirmation selon laquelle mon objectif n'implique pas un test d'hypothèse. Pendant que je le formule, je veux tester l'hypothèse que le "phénomène A" impliquant x_3,icontribue de façon mesurable à la production de y. Le modèle fintègre le phénomène A pendant gque hce n'est pas le cas, donc si mon hypothèse était vraie, je prédirais que le modèle ffonctionne beaucoup mieux que l'un gou l' autre h.

— jbacks

@jbacks pour une telle comparaison, vous pouvez considérer les performances mesurées comme un échantillon prélevé sur une large population de performances. Donc, vous souhaitez en quelque sorte décrire les paramètres de la distribution de la population des erreurs

ϵ

$\epsilon$ et les comparer. Cela pourrait être considéré comme probabiliste. Par exemple, vous pouvez le dire comme «l'erreur moyenne du modèle est

x \pm y

$x \pm y$ '. Votre hypothèse concerne ces paramètres.

— Sextus Empiricus

Merci d'avoir développé ce commentaire avec votre modification. Entre cette perspective et l'autre réponse, je pense avoir une voie plausible. Très appréciée!

— jbacks