Comment évaluer la qualité de l'ajustement d'un modèle non linéaire particulier? [fermé]

10

J'ai un modèle non linéaire , où est le cdf de la distribution normale standard et f est non linéaire (voir ci-dessous). Je veux tester la qualité de l'ajustement de ce modèle avec le paramètre à mes données , après avoir utilisé l'estimation du maximum de vraisemblance pour trouver . Quel serait un test approprié? Je voudrais utiliser ce test pour étiqueter un mauvais ajustement comme mauvais et déterminer si davantage de données doivent être collectées. $y=\Phi(f(x,a)) + \varepsilon$ $\Phi$ $a$ $(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)$ $a$

J'ai étudié l'utilisation de la déviance, qui compare ce modèle au modèle saturé, avec son test de qualité d'ajustement correspondant en utilisant la . Serait-ce approprié? La plupart de ce que j'ai lu sur la déviance l'applique aux GLM, ce qui n'est pas ce que j'ai. Si le test de déviance est approprié, quelles hypothèses doivent être retenues pour rendre le test valide? $\chi^2_{n-1}$

Mise à jour: pour au cas où cela aiderait. $f = \frac{x-1}{a\sqrt{x^2+1}}$ $x>1,a>0$

nonlinear-regression goodness-of-fit deviance

— sac à dos
source

1

La réponse dépend du but de l'analyse et du modèle de probabilité sous-jacent que vous avez utilisé; il n'y a pas de réponse mathématique unique ou meilleure. Par exemple, nous mesurerions la qualité de l'ajustement différemment pour un modèle de la forme que pour l'un de la forme (avec des erreurs iid ).

y = Φ (f (x, a) + ε)

$y=\Phi(f(x,a)+\varepsilon)$

y = Φ (f (x, a)) + ε

$y=\Phi(f(x,a))+\varepsilon$

ε

$\varepsilon$

— whuber

Merci. J'ai clarifié ma question. Je suis conscient qu'il n'y a pas de meilleure réponse, cependant, j'aimerais toujours savoir si la déviance est appropriée pour tester la qualité de l'ajustement ici, et sinon, quel est un autre test qui serait approprié pour marquer un ajustement comme très faible et dire que davantage de données doivent être collectées (en supposant que le modèle est correct) ou dire que le modèle ne décrit pas les données.

— spadequack

1

Votre variable cible est-elle ou est-elle continue? Si c'est le premier, vous pouvez encadrer le modèle comme au lieu d'avoir le terme d'erreur additif, et comparer la prévision avec et réels pour obtenir les taux vrais et faux positifs, ou comparer à un modèle de base où , ou déviance, ou plusieurs autres alternatives. Dans ce dernier cas, quelle est la distribution que vous supposez pour le résidu?

y \in 0, 1

$y \in {0,1}$

p (y = 1) = Φ (f (x, a))

$p(y=1) = \Phi(f(x,a))$

y = 0

$y=0$

y = 1

$y=1$

p (y = 1) = \bar{y}

$p(y=1) = \bar{y}$

— jbowman

1

Voter pour clore car la demande d'éclaircissements est restée sans réponse.

— whuber

1

Utilisez le package "npcmstest" dans la bibliothèque "NP" si vous utilisez la plateforme R. Avertissement: La fonction peut prendre plusieurs minutes pour évaluer votre modèle.

Vous pouvez également envisager une comparaison théorique de l'information de la distribution de la réponse et de la distribution prédictive (c.-à-d. Divergence KL, entropie croisée, etc.)

— Ram Ahluwalia
source

Il semble que la méthode nécessite un modèle de lmou glm. Comment cela fonctionnerait-il pour un modèle non linéaire? (Oui, j'utilise R.) J'ai ajouté ce que est à ma question au cas où cela aiderait.

f

$f$

— spadequack

@ utilisez-vous gamou similaire ( mgcvpackage)? Sinon, vous devriez le vérifier.

— suncoolsu

1

Voici comment je le ferais, essentiellement un test de rapport de vraisemblance. Mais rappelez-vous qu'ils "clé" pour comprendre un test d'adéquation, c'est de comprendre la classe d'alternatives que vous testez. Maintenant, nous avons la probabilité pour chaque point de données individuel que:

p (y_{i} | x_{i}, a, I) = g (ϵ_{i}) = g (y_{i} - f_{i})

$p(y_i|x_i,a,I)=g(\epsilon_i)=g(y_i-f_i)$

Où est la probabilité du terme d'erreur dans votre modèle, et est la prédiction du modèle pour le ième point de données, étant donné et . Maintenant, pour chaque point de données nous pouvons choisir un tel que - le "modèle saturé" comme vous l'appelez. Donc, votre est approprié ici, si vous ne voulez tester que des alternatives dans la classe de ceux avec la même probabilité d'erreur, , et vous avez l'indépendance de chacune des probabilités (c'est-à-dire connaître un autre ne serait d'aucune aide pour prédire $g(\epsilon)$ $f_i=\frac{x_i-1}{a\sqrt{x^2_i+1}}$ $x_i$ $a$ $(x_i,y_i)$ $a$ $f_i=y_i$ $\chi^2$ $g(\epsilon)$ $x_j,y_j$ $y_i$ , étant donné ). $a$

— probabilitéislogique
source

1

Cela ne fonctionnera pas, car les degrés de liberté du test du rapport de vraisemblance croissent avec pour le modèle saturé.

O (n)

$O(n)$

— StasK

0

Dans un contexte de régression linéaire, les tests de qualité de l'ajustement sont souvent menés contre une alternative plus compliquée. Vous avez une régression linéaire - ajoutez quelques termes polynomiaux pour tester si la forme linéaire est suffisante. Puisque vous avez déjà une forme fonctionnelle non linéaire, l'alternative compliquée que vous devrez considérer devrait être celle de la régression non paramétrique . Je n'essaierai pas de fournir une introduction au sujet, car il nécessite un état d'esprit qui lui est propre, et cela vaut une introduction appropriée distincte. Pour le test des régressions paramétriques vs non paramétriques, Wooldridge (1992) ou Hardle et Mammen (1993) , ils font des choses très similaires. Hardle a également écrit un excellent livre sur le sujet.

— StasK
source