Méthodes pénalisées pour les données catégorielles: combiner les niveaux dans un facteur


10

Les modèles pénalisés peuvent être utilisés pour estimer les modèles où le nombre de paramètres est égal ou même supérieur à la taille de l'échantillon. Cette situation peut se produire dans les modèles log-linéaires de grandes tables clairsemées de données catégorielles ou de dénombrement. Dans ces paramètres, il est souvent également souhaitable ou utile de réduire les tableaux en combinant les niveaux d'un facteur où ces niveaux ne se distinguent pas en termes d'interaction avec d'autres facteurs. Deux questions:

  1. Existe-t-il un moyen d'utiliser des modèles pénalisés tels que LASSO ou un filet élastique pour tester la pliabilité des niveaux au sein de chaque facteur?
  2. Si la réponse à la première question est oui, cela peut-il et devrait-il être organisé de telle sorte que l'effondrement des niveaux et l'estimation des coefficients du modèle se produisent en une seule étape?

1
Cet article, doi.org/10.1177/1471082X16642560 , donne un bon aperçu de ce qui a été fait dans ce domaine au cours de la dernière décennie.
Jorne Biccler

1
Remarque: la pénalité dont je parle ci-dessous est l'équation 3.4 dans le lien de @JorneBiccler. (Il est intéressant de voir que cette question a déjà été considérée!)
user795305


Comment peut-on appeler cela un double d'une question qui l'a précédé?
Michael R. Chernick

Réponses:


4

C'est possible. Pour ce faire, nous pouvons utiliser une variante du lasso fusionné .

Nous pouvons utiliser l'estimateur

β^=argminβ1ni=1n(yiβTxieβTxi)+factors gλg(jg|βj|+12j,kg|βjβk|).

Notez que est la fonction de perte pour log-linear des modèles.1ni=1n(yiβTxieβTxi)

Cela encourage les coefficients au sein d'un groupe à être égaux. Cette égalité de coefficients équivaut à réduire ensemble les niveaux et du facteur. Dans le cas où , cela revient à réduire le niveau avec le niveau de référence. Les paramètres de réglage peuvent être traités comme constants, mais s'il n'y a que quelques facteurs, il pourrait être préférable de les traiter séparément.jthkthβ^j=0jthλg

L'estimateur est un minimiseur d'une fonction convexe, il peut donc être calculé efficacement via des solveurs arbitraires. Il est possible que si un facteur a de très nombreux niveaux, ces différences par paires deviendront incontrôlables --- dans ce cas, il sera nécessaire de connaître plus de structure sur les modèles possibles d'effondrement.

Notez que tout cela est accompli en une seule étape! C'est ce qui rend les estimateurs de type lasso si cool!


Une autre approche intéressante consiste à utiliser l'estimateur OSCAR, qui est comme ci-dessus sauf la pénalité est remplacée par .[11][βiβj]1[βiβj]

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.