Puis-je ignorer les coefficients des niveaux de facteurs non significatifs dans un modèle linéaire?

15

Après avoir demandé des éclaircissements sur les coefficients du modèle linéaire ici, j'ai une question de suivi concernant les coefficients de niveaux de facteur non significatifs (valeur p élevée).

Exemple: si mon modèle linéaire comprend un facteur à 10 niveaux et que seulement 3 de ces niveaux ont des valeurs de p significatives qui leur sont associées, lors de l'utilisation du modèle pour prédire Y, puis-je choisir de ne pas inclure le terme de coefficient si le sujet tombe dans l'un des le niveau non significatif?

Plus radicalement, serait-il mal de regrouper les 7 niveaux non significatifs en un seul niveau et de ré-analyser?

— Arbres4laForêt
source

2

Eh bien, vous pourriez obtenir une inférence biaisée en faisant cela - par exemple, si vous formez des intervalles de prédiction, les probabilités de couverture seraient probablement erronées pour les individus dans l'un des 7 niveaux insignifiants.

— Macro

1

Vous avez obtenu de bonnes réponses ici, mais vous pourriez également vous demander pourquoi il est inapproprié de supprimer des facteurs avec des valeurs de p élevées. Il convient de souligner que cela équivaut logiquement à une procédure de sélection automatique de modèle, même si vous le faites vous-même, au lieu que l'ordinateur le fasse pour vous. La lecture de cette question et des réponses proposées peut aider à comprendre pourquoi ces choses sont vraies.

— gung - Rétablir Monica

1

Ce Q a un double exact de novembre 2012: stats.stackexchange.com/questions/18745/… . Il y a aussi un peu d'informations qui suscitent la réflexion.

— rolando2

2

C'est une question tellement importante, et pourtant il n'y a pas de réponse étayant l'argument avec la théorie. En l'état, ce ne sont que des opinions. Même le livre lié dans l'une des réponses (dont la conclusion diffère des autres réponses) ne fournit pas de références. Dans l'état actuel des choses, je ne fais confiance à aucun d'entre eux et je préférerais donc ne rien faire (c'est-à-dire conserver toutes les catégories / facteurs).

— luchonacho

13

Si vous insérez une variable prédictive à plusieurs niveaux, vous insérez la variable ou non, vous ne pouvez pas choisir les niveaux. Vous voudrez peut-être restructurer les niveaux de votre variable de prédiction pour diminuer le nombre de niveaux (si cela a du sens dans le contexte de votre analyse.) Cependant, je ne suis pas sûr que cela entraînerait un certain type d'invalidation statistique si vous êtes l'effondrement des niveaux car vous voyez qu'ils ne sont pas significatifs.

De plus, juste une note, vous dites que les petites valeurs de sont insignifiantes. Je suppose que vous vouliez dire que les petites valeurs de sont significatives, c'est-à-dire qu'une valeur de de .0001 est significative et donc vous rejetez la valeur nulle (en supposant un niveau ?). $p$ $p$ $p$ $\alpha$ $> .0001$

— Ellie
source

(Correction de ma faute de valeur p.) Bons points ici. Ainsi, l'effondrement des niveaux, à condition qu'il soit basé sur une raison réelle et logique justifiable dans le contexte de l'étude (qui pourrait également arriver à les analyser le long de la rupture de signification) est raisonnable, mais pas seulement les regrouper arbitrairement en fonction de leur signification . Je l'ai.

— Trees4theForest

15

La réponse d'Ellie est bonne.

Si vous insérez une variable avec un certain nombre de niveaux, vous devez conserver tous ces niveaux dans votre analyse. Choisir et choisir en fonction du niveau de signification biaisera vos résultats et fera des choses très étranges à votre inférence, même si, par miracle, vos estimations parviennent à rester les mêmes, car vous aurez des trous béants dans vos effets estimés à différents niveaux de la variable.

J'envisagerais d'examiner graphiquement vos estimations pour chaque niveau du prédicteur. Voyez-vous une tendance à mesure que vous montez des niveaux, ou est-ce erratique?

D'une manière générale, je suis également opposé au recodage des variables basé sur des tests statistiques - ou basé uniquement sur des moments statistiques. Les divisions de votre variable doivent être basées sur quelque chose de plus ferme - des points de coupure logiquement significatifs, un intérêt de terrain pour un point de transition particulier, etc.

— Fomite
source

8

En approfondissant les deux bonnes réponses que vous avez déjà obtenues, examinons cela de manière approfondie. Supposons que votre variable dépendante soit (disons) le revenu et votre variable indépendante soit (disons) l'ethnicité, avec des niveaux, selon les définitions du recensement (Blanc, Noir / Afr. Am., Am. Indien / Alaska natif, Asiatique, Native Hawaï / Pac Islander, autre et multiraciale). Disons que vous le codez fictivement avec White comme catégorie de référence et vous obtenez

$Income = b_0 + b_1BAA + b_2AIAN + b_3AS + b_4NHPI + b_5O + b_6MR$

Si vous effectuez cette étude à New York, vous obtiendrez probablement très peu de Hawaïens autochtones / Insulaires du Pacifique. Vous pourriez décider de les inclure (s'il y en a) avec les autres. Cependant, vous ne pouvez pas utiliser l'équation complète et simplement ne pas inclure ce coefficient. L'ordonnée à l'origine sera alors erronée, de même que toute valeur prédite pour le revenu.

Mais comment combiner les catégories?

Comme l'ont dit les autres, cela doit avoir du sens .

— Peter Flom - Réintégrer Monica
source

4

Pour donner un avis différent: pourquoi ne pas l'inclure comme effet aléatoire? Cela devrait pénaliser ces niveaux avec un faible support et s'assurer que leur taille d'effet est minimale. De cette façon, vous pouvez les garder tous sans vous soucier d'obtenir des prévisions stupides.

Et oui, cela est plus motivé par une vision bayésienne des effets aléatoires que par l'ensemble de la vue "échantillon de tous les niveaux possibles" des effets aléatoires.

— Parkes de karité
source

0

Je me demandais également si je pouvais combiner des catégories non significatives avec la catégorie de référence. Les déclarations suivantes dans le livre "Exploration de données pour la Business Intelligence: Concepts, Techniques et Applications dans Microsoft Office Excel® avec XLMiner®, 2e édition par Galit Shmueli, Nitin R. Patel, Peter C. Bruce", p87-89 (Dimension Section de réduction) ( Résultat de recherche Google ) semble soutenir la deuxième phrase de la réponse de @ Ellie:

"Les modèles de régression ajustés peuvent également être utilisés pour combiner davantage des catégories similaires: les catégories qui ont des coefficients qui ne sont pas statistiquement significatifs (c'est-à-dire qui ont une valeur p élevée) peuvent être combinées avec la catégorie de référence car leur distinction de la catégorie de référence ne semble pas avoir effet significatif sur la variable de sortie "
"Les catégories qui ont des valeurs de coefficient similaires (et le même signe) peuvent souvent être combinées car leur effet sur la variable de sortie est similaire"

Cependant, je prévois de vérifier avec des experts en la matière si la combinaison des catégories est logique (comme impliqué dans les réponses / commentaires précédents, par exemple @Fomite, @gung).

— user1420372
source

Cette réponse est contredite par les autres réponses ici.

— kjetil b halvorsen