Mesures de la complexité du modèle


19

Comment comparer la complexité de deux modèles avec le même nombre de paramètres?

Edit 19/19 : Pour clarifier, la complexité du modèle est une mesure de la difficulté d'apprendre à partir de données limitées. Lorsque deux modèles correspondent aussi bien aux données existantes, un modèle avec une complexité moindre donnera moins d'erreurs sur les données futures. Lorsque des approximations sont utilisées, cela peut techniquement ne pas toujours être vrai, mais c'est OK si cela a tendance à être vrai dans la pratique. Diverses approximations donnent différentes mesures de complexité


pouvez-vous donner plus d'informations sur les attributs disponibles sur les modèles?
shabbychef

C'est une sorte de question ouverte, donc ma question serait - de quel type d'attributs ai-je besoin pour mesurer la complexité? Au niveau le plus élémentaire, un modèle de probabilité est un ensemble de distributions de probabilité, et j'adapte le modèle aux données en sélectionnant le membre le mieux adapté
Yaroslav Bulatov

3
Qu'est-ce que la «complexité», précisément? (Ce n'est pas une question désinvolte!) En l'absence d'une définition formelle, nous ne pouvons pas espérer faire des comparaisons valables de quelque chose.
whuber

C'est ce que je demande essentiellement
Yaroslav Bulatov

2
Mais ne pouvez-vous pas au moins nous donner une idée de quel aspect d'un modèle vous essayez de saisir dans le mot «complexité»? Sans cela, cette question est juste trop ambiguë pour admettre une réponse raisonnable.
whuber

Réponses:


12

Outre les diverses mesures de la longueur de description minimale (par exemple, la probabilité maximale normalisée, l'approximation des informations de Fisher), il existe deux autres méthodes qui méritent d'être mentionnées:

  1. Bootstrap paramétrique . C'est beaucoup plus facile à mettre en œuvre que les mesures MDL exigeantes. Un bon article est rédigé par Wagenmaker et ses collègues:
    Wagenmakers, E.-J., Ratcliff, R., Gomez, P., et Iverson, GJ (2004). Évaluation du mimétisme du modèle à l'aide du bootstrap paramétrique . Journal of Mathematical Psychology , 48, 28-50.
    L'abstrait:

    Nous présentons une procédure d'échantillonnage générale pour quantifier le mimétisme du modèle, définie comme la capacité d'un modèle à prendre en compte les données générées par un modèle concurrent. Cette procédure d'échantillonnage, appelée méthode de cross-fit paramétrique bootstrap (PBCM; cf. Williams (JR Statist. Soc. B 32 (1970) 350; Biometrics 26 (1970) 23)), génère des distributions des différences de qualité de l'ajustement attendus dans chacun des modèles concurrents. Dans la version informée des données du PBCM, les modèles générateurs ont des valeurs de paramètres spécifiques obtenues en ajustant les données expérimentales considérées. Les distributions des différences basées sur les données peuvent être comparées à la différence observée de qualité de l'ajustement pour permettre une quantification de l'adéquation du modèle. Dans la version non informée des données du PBCM, les modèles générateurs ont une gamme relativement large de valeurs de paramètres basées sur des connaissances antérieures. L'application à la fois des données informées et des données non informées PBCM est illustrée par plusieurs exemples.

    Mise à jour: Évaluation du mimétisme du modèle en anglais simple. Vous prenez l'un des deux modèles concurrents et choisissez au hasard un ensemble de paramètres pour ce modèle (données informées ou non). Ensuite, vous produisez des données à partir de ce modèle avec l'ensemble de paramètres choisi. Ensuite, vous laissez les deux modèles s'adapter aux données produites et vérifiez lequel des deux modèles candidats donne le meilleur ajustement. Si les deux modèles sont également flexibles ou complexes, le modèle à partir duquel vous avez produit les données devrait mieux correspondre. Cependant, si l'autre modèle est plus complexe, il pourrait donner un meilleur ajustement, bien que les données aient été produites à partir de l'autre modèle. Vous répétez cela plusieurs fois avec les deux modèles (c.-à-d. Que les deux modèles produisent des données et regardent lequel des deux correspond le mieux). Le modèle qui "sur-adapte" les données produites par l'autre modèle est le plus complexe.

  2. Validation croisée : elle est également assez facile à mettre en œuvre. Voir les réponses à cette question . Cependant, notez que le problème est que le choix parmi la règle de prélèvement d'échantillons (laisser-un-dehors, plier en K, etc.) est sans principe.


Je ne comprends pas vraiment le «mimétisme des modèles», mais la validation croisée semble simplement reporter la tâche d'évaluation de la complexité. Si vous utilisez des données pour choisir vos paramètres et votre modèle comme dans la validation croisée, la question pertinente devient comment estimer la quantité de données nécessaires pour que ce "méta-installateur" fonctionne bien
Yaroslav Bulatov

@Yaroslaw: Je ne comprends pas vraiment votre problème avec la validation croisée, mais pour être honnête, je n'y suis pas expert. Cependant, je voudrais vraiment faire un point pour mesurer le mimétisme du modèle. Par conséquent, consultez ma réponse mise à jour.
Henrik

4

Je pense que cela dépend de la procédure d'ajustement du modèle réel. Pour une mesure d'application générale, vous pouvez considérer les degrés de liberté généralisés décrits dans Ye 1998 - essentiellement la sensibilité du changement des estimations du modèle à la perturbation des observations - qui fonctionne assez bien comme mesure de la complexité du modèle.


Hm ... l'article est tout au sujet de la régression, je me demande si cela peut être utilisé pour une estimation de probabilité discrète. De plus, je ne comprends pas vraiment la motivation qu'il donne pour cela - gdf est un degré de sensibilité des paramètres aux petits changements dans les données, mais pourquoi est-ce important? Je pourrais choisir un paramétrage différent où de petits changements de paramètres dans le paramétrage d'origine correspondent à de grands changements dans le nouveau paramétrage, donc cela semblera plus sensible aux données, mais c'est le même modèle
Yaroslav Bulatov

Yaroslav:> * Je pourrais choisir un paramétrage différent où de petits changements de paramètres dans le paramétrage d'origine correspondent à de grands changements dans le nouveau paramétrage, donc cela semblera plus sensible aux données * pouvez-vous donner un exemple (impliquant un estimateur équivariant affine)? Merci,
user603

1
La DoF en régression linéaire fonctionne jusqu'à la trace de la matrice du chapeau ou de la somme des sensibilités - donc la motivation / le concept ne sont pas si éloignés. Tibshirani & Knight ont proposé un critère d'inflation de covariance qui examine les covariances des estimations du modèle plutôt que les sensibilités. GDF semble avoir été appliqué dans un certain nombre de procédures de modèle comme le seuil de panier et d'ondelettes (l'article de Ye sur la sélection adaptative de modèles a plus de détails), et dans les méthodes d'ensemble pour contrôler la complexité, mais je ne connais aucun cas d'estimation discrète. Peut - être la peine d' essayer ...
ars

Je ne connais pas les «estimateurs équivariants affins», mais supposons que nous nous appuyons plutôt sur l'estimateur du maximum de vraisemblance. Soit q = f (p) où f est une bijection. Soit p0, q0 représente l'estimation MLE dans le paramétrage correspondant. p0, q0 vont avoir des variances asymptotiques différentes, mais en termes de données de modélisation, elles sont équivalentes. La question se résume donc à - dans quel paramétrage la sensibilité des paramètres est-elle représentative du risque attendu?
Yaroslav Bulatov,

4

La longueur minimale de description (MDL) et la longueur minimale de message (MML) valent certainement la peine d'être vérifiées.

En ce qui concerne MDL, un article simple qui illustre la procédure de probabilité maximale normalisée (NML) ainsi que l'approximation asymptotique sont les suivants:

S. de Rooij et P. Grünwald. Une étude empirique de la sélection d'un modèle de longueur de description minimale avec une complexité paramétrique infinie. Journal of Mathematical Psychology, 2006, 50, 180-192

Ici, ils examinent la complexité du modèle d'une distribution géométrique vs une distribution de Poisson. Un excellent tutoriel (gratuit) sur MDL peut être trouvé ici .

Alternativement, un article sur la complexité de la distribution exponentielle examinée avec MML et MDL peut être trouvé ici . Malheureusement, il n'y a pas de tutoriel à jour sur MML, mais le livre est une excellente référence et fortement recommandé.


1
J'ai lu ce document et il semble que la complexité stochastique résout le problème de ne pas pouvoir distinguer entre les modèles de mêmes dimensions, mais introduit un problème de ne pas pouvoir parfois distinguer les modèles de différentes dimensions. La distribution géométrique se voit attribuer une complexité infinie, sûrement pas ce à quoi nous nous attendions pour un modèle aussi simple!
Yaroslav Bulatov

Très bon point sur la complexité stochastique infinie (SC). Des solutions au problème de la SC infinie existent, mais ne sont pas très élégantes; La renormalisation de Rissanen fonctionne bien dans les modèles linéaires, mais n'est pas facile à faire pour le problème Poisson / Géométrique. Le codage MML (ou SMML) des données Poisson / Géométriques est cependant très bien.
emakalic

3

Description minimale La longueur peut être une avenue à explorer.


2
Juste une note rapide: la longueur de description minimale est très puissante et utile, mais l'obtention de résultats peut prendre du temps, en particulier lors de l'utilisation d'une probabilité maximale normalisée avec des ensembles de données légèrement plus volumineux. Une fois, j'ai mis 10 jours à exécuter le code FORTRAN pour l'obtenir pour un seul modèle
Dave Kellen

2

Par «complexité du modèle», on entend généralement la richesse de l'espace du modèle. Notez que cette définition ne dépend pas des données. Pour les modèles linéaires, la richesse de l'espace du modèle est mesurée de manière triviale avec la diminution de l'espace. C'est ce que certains auteurs appellent les "degrés de liberté" (bien qu'historiquement, les degrés de liberté soient réservés à la différence entre l'espace modèle et l'espace échantillon). Pour les modèles non linéaires, la quantification de la richesse de l'espace est moins triviale. Les degrés de liberté généralisés (voir la réponse de l'ars) sont une telle mesure. Il est en effet très général et peut être utilisé pour n'importe quel espace modèle "bizarre" tel que les arbres, KNN et autres. La dimension VC est une autre mesure.

Comme mentionné ci-dessus, cette définition de la "complexité" est indépendante des données. Ainsi, deux modèles avec le même nombre de paramètres auront généralement la même "complexité".


1

Des commentaires de Yaroslav à la réponse de Henrik:

mais la validation croisée semble simplement reporter la tâche d'évaluation de la complexité. Si vous utilisez des données pour choisir vos paramètres et votre modèle comme dans la validation croisée, la question pertinente devient comment estimer la quantité de données nécessaires pour que ce "méta" installateur fonctionne bien

kkkCV(k)kk

Vous pouvez même donner une saveur «significative» à cela, car le résultat de la procédure est directement en termes (unités) de différence dans l'erreur de prévision hors échantillon.


1
Je conviens que la validation croisée résout le problème de la mesure de la complexité d'un modèle. Peut-être que je pose la mauvaise question, car une question pratique est la complexité de l'échantillon de la procédure d'ajustement. L'apprenant à validation croisée essaierait différents modèles et choisirait celui avec l'erreur de validation croisée la plus faible. Maintenant, la question est - cet apprenant est-il plus susceptible de sur-adapter qu'un modèle qui correspond à un modèle unique par probabilité maximale?
Yaroslav Bulatov,

Yaroslav Bulatov:> oui mais vous ne pouvez utiliser ML que pour comparer les modèles imbriqués. Dans la mesure où vous avez spécifié (dans votre question) des modèles avec le même nombre de paramètres, ils ne peuvent pas être imbriqués.
user603

Un autre problème est que la validation croisée n'ajoute pas à notre compréhension de la complexité du modèle. Des mesures comme AIC / BIC montrent clairement que de nombreux paramètres encouragent le sur-ajustement. Maintenant, la question devient - quels aspects du modèle en plus de la dimension augmentent la capacité à s'adapter?
Yaroslav Bulatov,

Yaroslav:> Encore une fois, très bon point.
user603

Si le sur-ajustement est la tendance d'une procédure d'ajustement de modèle à adapter le bruit en plus du signal, alors nous pouvons examiner une procédure donnée pour voir où de telles tendances pourraient se produire. Peut-être en raison d'un manque d'imagination ou de connaissances, tout en considérant quelques procédures différentes, je ne pouvais pas résumer cela à quelque chose qui ne peut pas être reformulé en "nombre de paramètres" (ou "nombre effectif de paramètres"). Nous pourrions retourner cela sur sa tête et demander: toutes choses égales par ailleurs, que se passe-t-il lorsque nous introduisons du bruit dans nos données? Ensuite, nous arrivons à des mesures telles que le GDF de Ye.
ars

0

Qu'en est-il du critère d'information pour la comparaison des modèles? Voir par exemple http://en.wikipedia.org/wiki/Akaike_information_criterion

La complexité du modèle est ici le nombre de paramètres du modèle.


L'AIC n'est pas une mesure de la complexité du modèle.
Sven Hohenstein

@SvenHohenstein, d'après sa dernière phrase, je suppose qu'il ne suggère pas que l'AIC lui - même est une mesure de la complexité du modèle. Brause42, notez que la question concerne spécifiquement les modèles avec le même nombre de paramètres. Ainsi, l'AIC se réduira à l'ESS ou à la déviance, ou autre.
gung - Rétablir Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.