Régression multiple avec de petits ensembles de données


8

J'ai un ensemble de données d'études de cas de projet pour un nouveau type de méthode de recherche pour les agences gouvernementales pour soutenir les activités de prise de décision. Ma tâche consiste à développer une méthode d'estimation basée sur l'expérience passée pour de futurs projets à des fins d'estimation.

Mon jeu de données est limité à 50 cas. J'ai plus de 30 prédicteurs (potentiels) enregistrés et une variable de réponse (c.-à-d. Heures prises pour terminer le projet).

Tous les prédicteurs ne sont pas significatifs, en utilisant des techniques de sélection pas à pas, je m'attends à ce que le nombre de variables de prédiction soit probablement compris entre 5 et 10. Bien que j'aie du mal à obtenir un ensemble de prédicteurs en utilisant les approches standard dans des outils comme PASW (SPSS).

Je connais bien tout le matériel qui parle des règles empiriques pour les tailles d'échantillon et les ratios variables / prédicteurs. Mon dilemme est qu'il a fallu près de 10 ans pour collecter 50 cas, c'est donc à peu près aussi bon que possible.

Ma question est que dois-je faire pour tirer le meilleur parti de ce petit ensemble d'échantillons?

Y a-t-il de bonnes références pour traiter les petits ensembles de smaple? Changements dans la signification de la valeur p? Changements dans les approches de sélection par étapes? Utilisation de transformations telles que centrage ou log?

Tout conseil est apprécié.

Réponses:


3

Comme vous voulez sélectionner quelques prédicteurs de votre ensemble de données, je suggère une régression linéaire simple avec L1pénalité ou en utilisant le LASSO (régression linéaire pénalisée). Votre cas est adapté à la régression avec une pénalité LASSO comme taille d'échantillon,n=50et le nombre de prédicteurs, p=30. La modification du paramètre de réglage sélectionne le nombre de prédicteurs que vous souhaitez choisir.

Si vous pouvez donner des détails sur la distribution de vos variables, je peux être plus précis.

Je n'utilise pas SPSS, mais cela peut être fait facilement en Rutilisant la glmnetfonction dans le package du même nom. Si vous regardez dans le manuel, il contient un exemple générique (tout premier, pour le cas gaussien ) qui résoudra votre problème. Je suis sûr qu'une solution similaire doit exister dans SPSS.


La réponse est très biaisée. Avec la majesté des projets autour de 2500 heures et une queue s'étendant sur quelques projets de 10 000 à 14 000 heures. Les prédicteurs continus (échelle) sont un mélange de distributions tandis que certains prédicteurs sont catégoriques (nominaux). Quels types de distributions sont nécessaires pour LASSO (ou que devez-vous savoir d'autre de moi)? - btw merci pour la réponse!
Shane

@Shane, le LASSO est un concept général de pénalisation avec ||(module ou valeur absolue). Il est indépendant de toute distribution. Si vous cochez le glmnetpaquet (voir fonction:) glmnet, il vous donne des options pour ajuster le glm(la régression linéaire est un cas spécial) avecL1pénalité pour diverses distributions. C'est assez rapide et incroyable à la fois.
suncoolsu

La vérification de SPSS l'aide à parler d'une fonctionnalité appelée «Régularisation de régression catégorique» ou CATREG. Il semble aborder les méthodes Lasso et Ridge. Pour une raison quelconque, il n'est pas activé dans ma version. Si quelqu'un sait pourquoi je serais reconnaissant.
Shane

@Shane Si ma mémoire ne me manque pas, j'ai vu @AndyW publier un code SPSS sophistiqué . Ça (code) m'impressionne tout le temps!
suncoolsu

@Shane, il semble que la commande CATREG existe depuis plusieurs versions de SPSS, mais vous avez probablement besoin de modules / licences de régression avancés pour l'utiliser. Dans l'édition actuelle, vous avez besoin de la suite de statistiques "premium" pour obtenir cette fonctionnalité. Je suggérerais simplement de vérifier les packages R mentionnés par suncoolsu (c'est gratuit!).
Andy W
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.