Régression avec un échantillon de très petite taille


9

Je veux exécuter une régression avec 4 à 5 variables explicatives, mais je n'ai que 15 observations. Ne pouvant supposer que ces variables sont normalement distribuées, existe-t-il une méthode de régression non paramétrique ou toute autre méthode de régression valide?


5
Il n'y a aucune hypothèse que l'une des variables explicatives est normale. Il n'y a pas non plus d'hypothèse sur la distribution marginale de la réponse. Si vous effectuez des IC ou des tests d'hypothèse, l'inférence habituelle suppose une normalité conditionnelle de la réponse. Les hypothèses de linéarité et de variance constante sont plus importantes. En quoi consiste votre réponse (/ pourquoi ne serait-ce pas normal)?
Glen_b -Reinstate Monica

3
Non, vous n'avez pas assez de données. Il s'agit d'une analyse exploratoire. Vous pourriez bien voir des relations suggestives. Mais vous devez éviter les valeurs de p, les intervalles de confiance et les tests d'hypothèse.
charles

Réponses:


10

@Glen_b a raison sur la nature de l'hypothèse de normalité dans la régression 1 .

Je pense que votre plus gros problème sera que vous n'avez pas suffisamment de données pour prendre en charge 4 à 5 variables explicatives. La règle générale standard 2 est que vous devez avoir au moins 10 données par variable explicative, c'est-à-dire 40 ou 50 données dans votre cas (et c'est pour les situations idéales où il n'y a aucun doute sur les hypothèses). Parce que votre modèle ne serait pas complètement saturé 3(vous avez plus de données que de paramètres à ajuster), vous pouvez obtenir des estimations de paramètres (pente, etc.) et, dans des circonstances idéales, les estimations sont asymptotiquement non biaisées. Cependant, il est fort probable que vos estimations soient très éloignées des vraies valeurs et vos SE / CI seront très grandes, vous n'aurez donc aucun pouvoir statistique. Notez que l'utilisation d'une analyse de régression non paramétrique ou d'une autre alternative ne vous permettra pas de résoudre ce problème.

Ce que vous devrez faire ici, c'est choisir une seule variable explicative (avant de regarder vos données!) En fonction des théories antérieures dans votre domaine ou de vos intuitions, ou vous devez combiner vos variables explicatives. Une stratégie raisonnable pour cette dernière option consiste à exécuter une analyse en composantes principales (ACP) et à utiliser la première composante principale comme variable explicative.

Références:
1. Que se passe-t-il si les résidus sont normalement distribués mais Y ne l'est pas?
2. Règles générales pour la taille minimale de l'échantillon pour la régression multiple
3. Nombre maximum de variables indépendantes pouvant être entrées dans une équation de régression multiple

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.