Masquer un modèle de régression au professeur (cuirassé de régression) [fermé]

11

Je travaille sur un devoir où mon professeur aimerait que nous créons un vrai modèle de régression, simulons un échantillon de données et il va essayer de trouver notre vrai modèle de régression en utilisant certaines des techniques que nous avons apprises en classe. Nous devrons également faire de même avec un ensemble de données qu'il nous a donné.

Il dit qu'il a été en mesure de produire un modèle assez précis pour toutes les tentatives passées pour essayer de le tromper. Il y a eu des étudiants qui ont créé un modèle fou, mais il a sans doute été capable de produire un modèle plus simple qui était juste suffisant.

Comment puis-je développer un modèle difficile à trouver pour lui? Je ne veux pas être super bon marché en faisant 4 termes quadratiques, 3 observations et une variance massive? Comment puis-je produire un ensemble de données apparemment inoffensif avec un petit modèle difficile en dessous?

Il a simplement 3 règles à suivre:

Votre jeu de données doit avoir une variable "Y" et 20 variables "X" étiquetées "Y", "X1", ..., "X20".
Votre variable de réponse doit provenir d'un modèle de régression linéaire qui satisfait: où et . $Y$

$Y_{i}^{'} = β_{0} + β_{1} X_{i 1}^{'} + \dots + β_{p - 1} X_{i, p - 1}^{'} + ϵ_{i}$ $Y_i^\prime = \beta_0 + \beta_1 X_{i1}^\prime + \ldots + \beta_{p-1}X_{i,p-1}^\prime + \epsilon_i$ $\epsilon_i \sim N(0,\sigma^2)$ $p \leq 21$
Toutes variables qui ont été utilisées pour créer sont contenues dans votre jeu de données. $X$ $Y$

Il convient de noter que les 20 variables X ne doivent pas toutes être dans votre modèle réel

Je pensais utiliser quelque chose comme le modèle Fama-French 3 Factor et lui demander de commencer avec les données sur les actions (SPX et AAPL) et devoir transformer ces variables en rendements continuellement composés afin de les obséder un peu plus. Mais cela me laisse avec des valeurs manquantes dans la première observation et c'est une série chronologique (dont nous n'avons pas encore discuté en classe).

Je ne sais pas si c'est le bon endroit pour publier quelque chose comme ça. J'avais l'impression que cela pourrait générer de bonnes discussions.

Edit: je ne demande pas non plus de modèles "pré-construits" en particulier. Je suis plus curieux de connaître les sujets / outils de Statistics qui permettraient à quelqu'un de s'y prendre.

— dylanjm
source

4

Ça va être dur s'il vous limite à un modèle linéaire ...

— Frank H.

4

Si votre professeur gagne si vos vrais coefficients se situent dans les intervalles de confiance à 95%, alors la multicolinéarité n'aidera pas, car la multicolinéarité gonfle énormément les IC. Si, d'autre part, une évaluation est effectuée sur la différence entre les données prédites et réelles sur les nouveaux prédicteurs (les données "réelles" ayant été générées à l'aide de votre vrai DGP), alors la multicolinéarité sera une bien meilleure approche. Conclusion: découvrez quelle est la fonction cible et adaptez votre approche. (Cela s'applique plus généralement dans la vie ...)

— Stephan Kolassa

4

@dylanjm Pourriez-vous définir précisément vos conditions de victoire?

— Matthew Gunn

11

Le but d'un tel exercice est que vous appreniez en essayant de penser à quelque chose vous-même . Si vous opposez des experts ici contre lui, votre opportunité d'étirer votre cerveau en consolidant différentes informations qui vous ont été données sur la régression est considérablement réduite (tout en étant injuste pour le professeur). De plus, dans toute institution réputée qui lui présente du travail comme étant le vôtre alors qu'il a été fait en partie par quelqu'un d'autre peut se situer quelque part entre l'inconduite scolaire et la fraude (en particulier si cela vaut une partie de votre note). Soyez très prudent sur la façon exacte dont vous posez cette question.

— Glen_b -Reinstate Monica

4

Malgré la popularité de cette question, je me sens obligé de la fermer à ce stade car même après des demandes répétées de clarifications concernant les règles du jeu (quels critères seront utilisés pour évaluer le succès, combien d'échantillons devez-vous fournir, etc.) cet important aucune information n'est encore apparue dans la question. Nos objectifs sont plus étroits et plus ciblés que «générer une discussion»: veuillez consulter notre centre d'aide pour les types de questions que nous pouvons aborder sur ce site.

— whuber

6

Faites simplement un terme d'erreur beaucoup plus grand que la partie expliquée. Par exemple: , où , et . Bien sûr, vous devez vous rappeler quelle était votre graine, afin de pouvoir prouver à votre professeur que vous aviez raison et qu'il avait tort. $y_i=X_{i1}+\epsilon_i$ $X_{ij}=\sin(i+j)$ $i=1..1000$ $\sigma=1000000$

Bonne chance pour identifier la phase avec ce rapport bruit / signal.

— Aksakal
source

Cela ne semble pas fonctionner pour le critère de victoire CI, n'est-ce pas? Nous obtiendrons simplement d'énormes CI qui couvriront certainement 1. Et une certaine instabilité numérique, bien sûr.

— Stephan Kolassa

L'instabilité ne sera pas un problème, je ne fais qu'enterrer le signal dans le bruit. Cela sortira comme un bruit blanc pur.

— Aksakal

4

cela a été considéré comme un modèle bon marché indésirable par l'OP

— Sextus Empiricus

5

Si son objectif est de récupérer le véritable processus de génération de données qui crée , tromper votre professeur est assez trivial. Pour vous donner un exemple, considérons les perturbations et les équations structurelles suivantes: $Y$ $\epsilon_i\sim N(0,1)$

X_{1} = ϵ_{1} + ϵ_{0} X_{2} = ϵ_{1} + ϵ_{2} y = X_{1} + ϵ_{2}

$X_1 = \epsilon_1 + \epsilon_0\\ X_2 =\epsilon_1 + \epsilon_2\\ y = X_1 + \epsilon_2$

Notez que le vrai DGP de , qui ne comprend que , satisfait trivialement la condition 2. La condition 3 est également satisfaite, car est la seule variable à créer et vous fournissez et . $Y$ $X_1$ $X_1$ $Y$ $X_1$ $X_2$

Pourtant, votre professeur ne peut pas dire s'il ne doit inclure que seulement ou et pour récupérer le vrai DGP de (si vous finissez par utiliser cet exemple, changez le nombre de variables). Très probablement, il vous donnera simplement comme réponse la régression avec toutes les variables, car elles apparaîtront toutes comme des prédicteurs significatifs. Vous pouvez étendre cela à 20 variables si vous le souhaitez, vous pouvez vérifier cette réponse ici et une machine paradoxale Simpson ici. $X_1$ $X_2$ $X_1$ $X_2$ $Y$

Notez toutes les attentes conditionnelles , ou sont conditionnelles attentes spécifiées correctement, mais seulement reflète la véritable DGP de . Ainsi, après que votre professeur ait inévitablement échoué, il pourrait affirmer que son objectif était simplement de récupérer toute attente conditionnelle, ou d'obtenir la meilleure prédiction de etc. Vous pouvez affirmer que ce n'était pas ce qu'il a dit, car il déclare : $E[Y|X_1]$ $E[Y|X_2]$ $E[Y|X_1, X_2]$ $E[Y|X_1]$ $Y$ $Y$

la variable Y doit provenir d' un modèle de régression linéaire qui satisfait (...) les variables qui ont été utilisées pour créer Y (...) votre modèle réel (...)

Et vous pourriez déclencher une bonne discussion en classe sur la causalité, ce que signifie le vrai DGP et l'identifiabilité en général.

— Carlos Cinelli
source

vous proposez un modèle conforme au n ° 2 dans la publication

— Aksakal

3

Utilisez des variables avec la multicolinéarité et l'hétéroscédasticité comme le revenu par rapport à l'âge: effectuez une ingénierie des fonctionnalités douloureuse qui pose des problèmes de mise à l'échelle: donnez des NA pour certaines saupoudrées de rareté. La pièce de linéarité rend vraiment plus difficile, mais cela pourrait être douloureux. De plus, les valeurs aberrantes augmenteraient le problème pour lui dès le départ.

— David
source

Je pense que l'hétéroscédasticité est en dehors de la portée du problème, mais je suis tout à fait d'accord pour dire que la multicolinéarité est l'un des meilleurs moyens de rendre la véritable spécification difficile à trouver.

— JDL

2

Les termes d'interaction sont-ils autorisés? Si c'est le cas, définissez tous les coefficients d'ordre inférieur à 0 et construisez le modèle entier à partir des interactions du N-ordre (par exemple, des termes comme ). Pour 20 régresseurs, le nombre d'interactions possibles est astronomiquement important et il serait très difficile de trouver uniquement celles que vous avez incluses. $X_5X_8X_{12}X_{13}$

— Ruben van Bergen
source

0

Choisissez n'importe quel modèle linéaire. Donnez-lui un ensemble de données où la plupart des échantillons sont autour de x = 0. Donnez-lui quelques échantillons autour de x = 1 000 000.

La bonne chose ici que les échantillons autour de x = 1 000 000 ne sont pas des valeurs aberrantes. Ils sont générés à partir de la même source. Cependant, comme les échelles sont si différentes, les erreurs autour de 1M ne correspondront pas aux erreurs autour de 0.

Prenons un exemple. Notre modèle est simplement

Y_{i}^{'} = β_{0} + β_{1} X_{i 1}^{'} + ϵ_{i}

$Y_i^\prime = \beta_0 +\beta_1 X_{i1}^\prime + \epsilon_i$

Nous avons un ensemble de données de n échantillons, près de x = 0. Nous choisirons 2 points supplémentaires dans des valeurs "suffisamment éloignées". Nous supposons que ces deux points ont une erreur.

Une valeur "suffisamment éloignée" est telle que l'erreur pour une estimation qui ne passe pas directement dans ces deux points est beaucoup plus grande que l'erreur du reste de l'ensemble de données.

Par conséquent, la régression linéaire choisira des coefficients qui passeront en ces deux points et manqueront le reste de l'ensemble de données et seront différents du modèle de soulignement.

Voir l'exemple suivant. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

Ceci est au format de la série WolfarmAlpha. Dans chaque paire, le premier élément est x et le second a été généré dans Excel en utilisant la formule = A2 + NORMINV (RAND (), 0,2000).

Par conséquent, et nous ajoutons un bruit aléatoire normalement distribué avec une moyenne de 0 et un écart-type de 2000. C'est beaucoup de bruit près de zéro mais un petit près de million. $\beta_0=1, \beta_1=1$

En utilisant Wolfram Alpha, vous obtenez la régression linéaire suivante , ce qui est assez différent de la distribution de soulignement de $y= 178433. x - 426805$ $y=x$

— DaL
source

Comment cela devrait-il fonctionner exactement et quel effet est-il censé créer?

— Richard Hardy

Cela fonctionne car le bruit et la précision fonctionneront différemment dans les différentes échelles. Dans les nombres élevés, en allant à l'extrême et en considérant un seul point, la ligne devrait passer directement par elle ou subir beaucoup de coûts. Un peu de bruit suffit pour manquer les bonnes valeurs. Autour de zéro, là encore à l'extrême - pas d'intéception, vous vous retrouvez avec le bruit.

— DaL

Utilisez une petite valeur pour la variable avec le mauvais coefficient et vous payez le coût.

— DaL

Oui, mais pourquoi serait-il difficile pour le professeur de découvrir le modèle qui a généré cela? Cela semble être une tâche particulièrement facile quand il y a tellement de variations dans le régresseur donné.

— Richard Hardy

Parce qu'aucun modèle ne conviendra bien aux deux groupes.

— DaL