Que veut-on dire quand on dit qu'on a un modèle saturé?
Que veut-on dire quand on dit qu'on a un modèle saturé?
Réponses:
Un modèle saturé est un modèle dans lequel il existe autant de paramètres estimés que de points de données. Par définition, cela conduira à un ajustement parfait, mais sera peu utile statistiquement, car il ne vous reste aucune donnée pour estimer la variance.
Par exemple, si vous avez 6 points de données et adaptez un polynôme d'ordre 5 aux données, vous aurez un modèle saturé (un paramètre pour chacune des 5 puissances de votre variable indépendante et un pour le terme constant).
Un modèle saturé est un modèle surparamétrisé au point qu'il ne fait qu'interpoler les données. Dans certains contextes, tels que la compression et la reconstruction d'image, ce n'est pas nécessairement une mauvaise chose, mais si vous essayez de créer un modèle prédictif, c'est très problématique.
En bref, les modèles saturés conduisent à des prédicteurs de variance extrêmement élevés que le bruit pousse davantage que les données réelles.
En tant qu'expérience théorique, imaginez que vous ayez un modèle saturé et qu'il y ait du bruit dans les données, puis imaginez d'ajuster le modèle plusieurs centaines de fois, à chaque fois avec une réalisation différente du bruit, puis de prédire un nouveau point. Vous êtes susceptible d'obtenir des résultats radicalement différents à chaque fois, à la fois pour votre ajustement et votre prédiction (et les modèles polynomiaux sont particulièrement flagrants à cet égard); autrement dit, la variance de l'ajustement et du prédicteur est extrêmement élevée.
En revanche, un modèle qui n'est pas saturé donnera (s'il est construit de manière raisonnable) des ajustements plus cohérents les uns avec les autres, même en cas de bruit différent, et la variance du prédicteur sera également réduite.
Un modèle est saturé si et seulement si il a autant de paramètres que de points de données (observations). Autrement dit, dans les modèles non saturés, les degrés de liberté sont supérieurs à zéro.
Cela signifie fondamentalement que ce modèle est inutile, car il ne décrit pas les données avec plus de parcimonie que les données brutes (et la description de données avec parcimonie est généralement l’idée derrière l’utilisation d’un modèle). De plus, les modèles saturés peuvent (mais pas nécessairement) fournir un ajustement parfait (inutile) car ils ne font qu'interpoler ou itérer les données.
Prenons par exemple la moyenne comme modèle pour certaines données. Si vous n'avez qu'un seul point de données (par exemple, 5), utiliser la moyenne (c.-à-d. 5; notez que la moyenne est un modèle saturé pour un seul point de données) n'aide en rien. Cependant, si vous avez déjà deux points de données (5 et 7, par exemple), la moyenne (6) est utilisée comme modèle pour vous fournir une description plus parcimonieuse que les données d'origine.
Comme tout le monde l’a déjà dit, cela signifie que vous avez autant de paramètres que vous avez de points de données. Donc, pas de test d'adéquation. Mais cela ne signifie pas que "par définition", le modèle peut parfaitement s’adapter à n’importe quel point de données. Je peux vous dire par expérience personnelle de travailler avec certains modèles saturés qui ne pourraient pas prédire des points de données spécifiques. C'est assez rare, mais possible.
Un autre problème important est que saturé ne signifie pas inutile. Par exemple, dans les modèles mathématiques de la cognition humaine, les paramètres de modèle sont associés à des processus cognitifs spécifiques fondés sur une base théorique. Si un modèle est saturé, vous pouvez tester son adéquation en effectuant des expériences ciblées avec des manipulations qui ne doivent affecter que des paramètres spécifiques. Si les prévisions théoriques correspondent aux différences observées (ou à l'absence de) des estimations de paramètres, on peut dire que le modèle est valide.
Un exemple: imaginons par exemple un modèle comportant deux jeux de paramètres, un pour le traitement cognitif et un autre pour les réponses motrices. Imaginez maintenant que vous avez une expérience avec deux conditions, l'une dans laquelle la capacité de réponse des participants est altérée (ils ne peuvent utiliser qu'une seule main au lieu de deux) et l'autre condition, il n'y a pas d'incapacité. Si le modèle est valide, les différences d'estimation des paramètres pour les deux conditions ne doivent apparaître que pour les paramètres de réponse du moteur.
Sachez également que même si un modèle est non saturé, il peut rester non identifiable, ce qui signifie que différentes combinaisons de valeurs de paramètres produisent le même résultat, ce qui compromet l’adéquation du modèle.
Si vous souhaitez trouver plus d'informations sur ces questions en général, vous pouvez consulter ces documents:
Bamber, D. et van Santen, JPH (1985). Combien de paramètres un modèle peut-il avoir et peut-il toujours être testable? Journal of Mathematical Psychology, 29, 443-473.
Bamber, D. et van Santen, JPH (2000). Comment évaluer la testabilité et l'identifiabilité d'un modèle. Journal of Mathematical Psychology, 44, 20-40.
à votre santé
C'est également utile si vous devez calculer l'AIC pour un modèle de quasi-vraisemblance. L'estimation de la dispersion devrait provenir du modèle saturé. Vous diviseriez la LR que vous ajustez par la dispersion estimée à partir du modèle saturé dans le calcul de l'AIC.
Dans le contexte de SEM (ou analyse de chemin), un modèle saturé ou un modèle qui vient d'être identifié est un modèle dans lequel le nombre de paramètres libres correspond exactement au nombre de variances et de covariances uniques. Par exemple, le modèle suivant est un modèle saturé car il y a 3 * 4/2 points de données (variances et covariances uniques) ainsi que 6 paramètres libres à estimer: