Réponses:
Un modèle parcimonieux est un modèle qui accomplit le niveau souhaité d'explication ou de prédiction avec le moins de variables prédictives possible.
Pour l'évaluation du modèle, il existe différentes méthodes selon ce que vous voulez savoir. Il existe généralement deux façons d'évaluer un modèle: en fonction des prévisions et en fonction de la qualité de l'ajustement sur les données actuelles. Dans le premier cas, vous voulez savoir si votre modèle prédit adéquatement de nouvelles données, dans le second, vous voulez savoir si votre modèle décrit correctement les relations dans vos données actuelles. Ce sont deux choses différentes.
La meilleure façon d'évaluer les modèles utilisés pour la prédiction est la validation croisée. Très brièvement, vous coupez votre jeu de données par exemple. 10 pièces différentes, utilisez-en 9 pour construire le modèle et prédire les résultats pour le dixième ensemble de données. Une simple différence quadratique moyenne entre les valeurs observées et prédites vous donne une mesure de la précision de la prédiction. En répétant cette opération dix fois, vous calculez la différence quadratique moyenne sur les dix itérations pour arriver à une valeur générale avec un écart-type. Cela vous permet à nouveau de comparer deux modèles sur leur précision de prédiction à l'aide de techniques statistiques standard (t-test ou ANOVA).
Une variante du thème est le critère PRESS (Prediction Sum of Squares), défini comme
Où Y i ( - i ) est la valeur prédite pour l'observation i en utilisant un modèle basé sur les observations moins la valeur de i. Ce critère est particulièrement utile si vous n'avez pas beaucoup de données. Dans ce cas, le fractionnement de vos données comme dans l'approche de validation croisée peut entraîner des sous-ensembles de données trop petits pour un ajustement stable.
Permettez-moi d'abord de dire que cela diffère vraiment en fonction du cadre de modèle que vous utilisez. Par exemple, un test de rapport de vraisemblance peut fonctionner pour les modèles mixtes additifs généralisés lors de l'utilisation du gaussien classique pour les erreurs, mais n'a aucun sens dans le cas de la variante binomiale.
Vous avez d'abord les méthodes les plus intuitives pour comparer les modèles. Vous pouvez utiliser le critère d'information Aikake (AIC) ou le critère d'information bayésien (BIC) pour comparer la qualité de l'ajustement pour deux modèles. Mais rien ne vous dit que les deux modèles diffèrent vraiment.
Un autre est le critère Cp de Mallow. Cela vérifie essentiellement les éventuels biais dans votre modèle, en comparant le modèle avec tous les sous-modèles possibles (ou une sélection rigoureuse d'entre eux). Voir également http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf
Si les modèles que vous souhaitez comparer sont des modèles imbriqués (c'est-à-dire que tous les prédicteurs et interactions du modèle le plus parcimonieux se produisent également dans le modèle le plus complet), vous pouvez utiliser une comparaison formelle sous la forme d'un test de rapport de vraisemblance (ou d'un chi carré). ou un test F dans les cas appropriés, par exemple lors de la comparaison de modèles linéaires simples ajustés en utilisant les moindres carrés). Ce test contrôle essentiellement si les prédicteurs supplémentaires ou les interactions améliorent vraiment le modèle. Ce critère est souvent utilisé dans les méthodes pas à pas avant ou arrière.
Vous avez des défenseurs et vous avez des ennemis de cette méthode. Personnellement, je ne suis pas en faveur de la sélection automatique des modèles, surtout pas lorsqu'il s'agit de décrire des modèles, et ce pour plusieurs raisons:
Donc, fondamentalement, je vois plus en comparant un ensemble sélectionné de modèles choisis au préalable. Si vous ne vous souciez pas de l'évaluation statistique du modèle et des tests d'hypothèse, vous pouvez utiliser la validation croisée pour comparer la précision prédictive de vos modèles.
Mais si vous recherchez vraiment la sélection de variables à des fins prédictives, vous voudrez peut-être jeter un œil à d'autres méthodes de sélection de variables, telles que les machines à vecteurs de support, les réseaux de neurones, les forêts aléatoires et autres. Celles-ci sont beaucoup plus souvent utilisées en médecine, par exemple, pour découvrir laquelle des mille protéines mesurées peut prédire adéquatement si vous avez ou non un cancer. Juste pour donner un (célèbre) exemple:
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
Toutes ces méthodes ont également des variantes de régression pour les données continues.
) peut parfois être utile. Cela fonctionne simplement parce qu'il ne supprimera pas de nombreuses variables.
Utiliser la sélection vers l'arrière ou vers l'avant est une stratégie courante, mais pas celle que je peux recommander. Les résultats d'une telle construction de modèles sont tous faux. Les valeurs de p sont trop faibles, les coefficients sont biaisés loin de 0 et il y a d'autres problèmes liés.
Si vous devez faire une sélection automatique de variables, je recommanderais d'utiliser une méthode plus moderne, comme LASSO ou LAR.
J'ai écrit une présentation SAS à ce sujet, intitulée "Arrêt par étapes: pourquoi les méthodes par étapes et similaires sont mauvaises et ce que vous devez utiliser"
Mais, si possible, j'éviterais complètement ces méthodes automatisées et je compterais sur une expertise en la matière. Une idée est de générer une dizaine de modèles raisonnables et de les comparer sur la base d'un critère d'information. @Nick Sabbe en a énuméré plusieurs dans sa réponse.
La réponse à cela dépendra grandement de votre objectif. Vous pouvez rechercher des coefficients statistiquement significatifs, ou vous pouvez éviter autant de classifications erronées que possible lors de la prévision du résultat de nouvelles observations, ou vous pouvez simplement être intéressé par le modèle avec le moins de faux positifs; peut-être voulez-vous simplement la courbe la plus "proche" des données.
Dans tous les cas ci-dessus, vous avez besoin d'une sorte de mesure pour ce que vous recherchez. Certaines mesures populaires avec différentes applications sont AUC, BIC, AIC, erreur résiduelle, ...
Vous calculez la mesure qui correspond le mieux à votre objectif pour chaque modèle, puis comparez les «scores» pour chaque modèle. Cela conduit au meilleur modèle pour votre objectif.
Certaines de ces mesures (par exemple, AIC) mettent un accent supplémentaire sur le nombre de coefficients non nuls dans le modèle, car en utiliser trop pourrait simplement sur-ajuster les données (de sorte que le modèle est inutile si vous l'utilisez pour de nouvelles données, encore moins pour la population). Il peut y avoir d'autres raisons d'exiger qu'un modèle contienne «aussi peu que possible» des variables, par exemple s'il est simplement coûteux de les mesurer toutes pour la prédiction. La «simplicité» ou le «petit nombre de variables dans» un modèle est généralement appelé sa parcimonie.
Donc, en bref, un modèle parcimonieux est un modèle «simple», ne contenant pas trop de variables.
Comme souvent avec ce type de questions, je vous renvoie à l'excellent livre Elements of Statistical Learning pour des informations plus approfondies sur le sujet et les questions connexes.
J'ai trouvé la discussion ici intéressante, en particulier le débat entre parcimonie et modèle avec plus de nombre de coefficients et de variables.
Mon prof. Le défunt Dr. Steve avait l'habitude de mettre l'accent sur un modèle parcimonieux avec un faible R ^ 2 par rapport à un autre modèle avec de meilleurs ajustements / un grand R ^ 2.
Merci pour tous les poissons ici!
Akash