Explication du modèle Tobit

13

Nous avons 100 participants dans deux groupes, dans chaque groupe. Nous avons utilisé une évaluation de la capacité de fonctionnement de base à 4 moments. L'évaluation comprend 6 questions, chacune ayant une note de 0 à 5. Nous n'avons pas de notes individuelles pour chaque question, juste des notes totales allant de 0 à 30. Des notes plus élevées indiquent un meilleur fonctionnement. Le problème est que l'évaluation est très basique et a un effet plafond significatif. Les résultats sont très négativement biaisés. La majorité des participants ont marqué près de 30, en particulier aux 3 points de suivi. Il est probable que tous les participants qui ont obtenu un score aux limites supérieures ne sont pas vraiment égaux en capacité: certains des participants étaient sur le point de marquer 30 et d'autres ont obtenu 30 avec facilité et auraient obtenu un score beaucoup plus élevé si c'était possible et les données sont donc censuré d'en haut. $n=50$

Je veux comparer les deux groupes et dans le temps mais évidemment c'est très difficile compte tenu de la nature des résultats. Les transformations de toute nature ne font aucune différence. On m'a informé que le modèle Tobit est le mieux équipé pour cette évaluation et je peux exécuter l'analyse dans R à l'aide d'exemples tirés de l'article d'Arne Henningen, Estimation des modèles de régression censurés dans R à l'aide du package censReg .

Cependant, je n'ai qu'une connaissance de base des statistiques et j'ai trouvé les informations sur le modèle Tobit assez compliquées. Je dois être en mesure d'expliquer ce modèle en langage clair et je ne trouve pas d'explication en langage clair, écrous et boulons sur ce que fait réellement le modèle Tobit et comment. Quelqu'un peut-il expliquer le modèle Tobit ou me diriger vers une référence lisible sans explications statistiques et mathématiques compliquées?

Extrêmement reconnaissant pour toute aide

tobit-regression

— Adam
source

8

Le wiki décrit le modèle Tobit comme suit:

y_{i} = {\begin{cases} y_{i}^{*} & if y_{i}^{*} > 0 \\ 0 & if y_{i}^{*} \leq 0 \end{cases}

$y_i = \begin{cases} y_i^* &\text{if} \quad y_i^* > 0 \\ \ 0 &\text{if} \quad y_i^* \le 0 \end{cases}$

y_{i}^{*} = β x_{i} + u_{i}

$y_i^* = \beta x_i + u_i$

u_{i} \sim N (0, σ^{2})

$u_i \sim N(0,\sigma^2)$

J'adapterai le modèle ci-dessus à votre contexte et offrirai une interprétation en anglais simple des équations qui peuvent être utiles.

y_{i} = {\begin{cases} y_{i}^{*} & if y_{i}^{*} \leq 30 \\ 30 & if y_{i}^{*} > 30 \end{cases}

$y_i = \begin{cases}\ y_i^* &\text{if} \quad y_i^* \le 30 \\ 30 &\text{if} \quad y_i^* > 30 \end{cases}$

y_{i}^{*} = β x_{i} + u_{i}

$y_i^* = \beta x_i + u_i$

u_{i} \sim N (0, σ^{2})

$u_i \sim N(0,\sigma^2)$

$y_i^*$

$y_i = 30 \quad \text{if} \quad y_i^* > 30$
$y_i = y_i^* \quad \text{if} \quad y_i^* \le 30$
$y_i^*$ $x_i$

J'espère que cela vous sera utile. Si un aspect n'est pas clair, n'hésitez pas à demander dans les commentaires.

— varty
source

Varty, j'ai beaucoup apprécié votre réponse. Cela a été très utile et très rapide! Je ne suis pas sûr que je me sentirais à l'aise de l'expliquer, mais je continuerai à lire. Si vous connaissez des textes lisibles sur Tobit, n'hésitez pas à les transmettre. Merci encore

— Adam

4

Il y a un article de Berk dans l'édition 1983 de l'American Sociological Review (3e numéro) - c'est ainsi que j'ai appris la censure. L'explication concerne spécifiquement le biais de sélection, mais elle est absolument pertinente pour votre problème. Le biais de sélection, comme Berk en parle, est juste une censure via le processus de sélection des échantillons, dans votre cas, la censure est le résultat d'un instrument insensible. Il y a de beaux graphiques qui vous montrent exactement comment vous pouvez vous attendre à ce que votre ligne de régression soit biaisée lorsque Y est censuré de différentes manières. En général, l'article est logique et intuitif plutôt que mathématique (oui je les traite comme séparés, préférant les premiers). Tobit est considéré comme une solution au problème.

Plus généralement, il semble que tobit soit le bon outil pour le travail à accomplir. Fondamentalement, la façon dont cela fonctionne consiste à estimer la probabilité d'être censuré, puis à l'intégrer dans l'équation prédisant le score. Il existe une autre approche proposée par Heckman utilisant le probit et le rapport inverse des usines qui est fondamentalement la même chose mais vous permet d'avoir différentes variables prédisant la probabilité de censure et le score au test - ce ne serait évidemment pas approprié pour la situation que vous avoir.

Une autre recommandation - vous pourriez envisager un modèle hiérarchique d'orbite où les observations sont imbriquées dans les individus. Cela expliquerait correctement la tendance à associer les erreurs au sein des individus. Ou si vous n'utilisez pas de modèle hiérarchique, assurez-vous au moins d'ajuster vos erreurs standard pour le regroupement des observations au sein des individus. Je sais que tout cela peut être fait dans Stata et je suis convaincu que R avec toute sa polyvalence peut le faire aussi .. mais en tant qu'utilisateur passionné de Stata, je ne peux pas vous fournir de conseils sur la façon de procéder dans R.

— Volonté
source

Je suppose que c'est la citation complète de l'article auquel @Will fait référence: Berk, RA (1983). Une introduction à l'échantillon de biais de sélection dans les données sociologiques. American Sociological Review, 48, 386-398. doi: 10.2307 / 2095230 Il existe plusieurs versions librement disponibles de ce document, que vous trouverez sur Google Scholar, par exemple.

— crsh