La régression et l'apprentissage automatique sont utilisés en sciences naturelles pour tester des hypothèses, estimer des paramètres et faire des prédictions en ajustant des modèles aux données. Cependant, quand j'ai un modèle a priori , je ne veux faire aucun ajustement --- par exemple, un modèle d'un système physique déterministe calculé à partir des premiers principes. Je veux simplement savoir dans quelle mesure mon modèle correspond aux données, puis comprendre quelles parties du modèle contribuent de manière significative à la correspondance. Quelqu'un pourrait-il m'orienter vers une manière statistiquement rigoureuse de procéder?
En termes plus spécifiques, supposons que j'ai un système physique pour lequel j'ai mesuré une variable dépendante ( va de 1 à , la taille de l'échantillon) dans des conditions variables décrites par trois variables indépendantes , , et . Bien que le système réel qui a généré les données soit compliqué, j'ai fait quelques hypothèses simplificatrices pour dériver un modèle théorique pour le système, de telle sorte que
,
où est une fonction non linéaire (et non linéarisable) des variables indépendantes et est la différence entre les valeurs prédites par le modèle et les valeurs mesurées. est complètement prédéfini; aucun ajustement n'est effectué et aucun paramètre n'est estimé. Mon premier objectif est de déterminer si est un modèle raisonnable pour le processus qui a produit les valeurs mesurées .
J'ai également développé des modèles simplifiés et , qui sont imbriqués dans (si cela est important dans ce cas). Mon deuxième objectif est de déterminer si correspond bien mieux aux données que ou , suggérant que les caractéristiques qui différencient le modèle à partir de modèles et jouer un rôle important dans le processus qui génère .
Idées jusqu'ici
Peut-être que s'il y avait un moyen de déterminer le nombre de paramètres ou le nombre de degrés de liberté pour mon modèle mathématique, il serait possible d'utiliser des procédures existantes comme un test de rapport de vraisemblance ou une comparaison AIC. Cependant, étant donné la forme non linéaire de et l'absence de paramètres évidents, je ne sais pas s'il est raisonnable d'assigner des paramètres ou de supposer ce qui constitue un degré de liberté.
J'ai lu que les mesures de la qualité de l'ajustement, telles que le coefficient de détermination (), peut être utilisé pour comparer les performances du modèle. Cependant, je ne sais pas quel est le seuil pour une différence significative entreles valeurs peuvent être. De plus, comme je n'adapte pas le modèle aux données, la moyenne des résidus n'est pas nulle et peut être différente pour chaque modèle. Ainsi, un modèle bien adapté qui a tendance à sous-estimer les données pourrait donner une valeur comme un modèle non biaisé mais mal adapté aux données.
J'ai également lu un peu sur les tests d'adéquation (par exemple, Anderson-Darling), mais comme les statistiques ne sont pas mon domaine, je ne sais pas si ce type de test convient à mon objectif. Tout conseil serait apprécié.
f
est complètement pré-spécifié. C'est comme une boîte noire qui produit la réponse y
des variables d'entrée, et je veux savoir à quel point cela fonctionne par rapport aux boîtes noires concurrentes. Une situation analogue pourrait être d'essayer d'évaluer l'adéquation entre la sortie d'une simulation numérique et les mesures effectuées dans le système physique réel.
f()
qui doivent être déterminées à partir d'un ajustement aux données, ou la fonction est-ellef()
complètement prédéfinie?