J'ai les données sur le vin d' ici qui se composent de 11 variables numériques indépendantes avec une note dépendante associée à chaque entrée avec des valeurs comprises entre 0 et 10. Cela en fait un excellent ensemble de données pour utiliser un modèle de régression pour étudier la relation entre les variables et les associées évaluation. Cependant, une régression linéaire serait-elle appropriée, ou est-il préférable d'utiliser une régression logistique multinomiale / ordonnée?
La régression logistique semble meilleure étant donné des catégories spécifiques, c'est-à-dire pas une variable dépendante continue mais (1) il y a 11 catégories (un peu trop?) Et (2) lors de l'inspection, il n'y a que des données pour 6-7 de ces catégories, c'est-à-dire les autres 5-4 catégories n'ont aucun exemple dans l'ensemble de données.
D'un autre côté, la régression linéaire devrait estimer linéairement une cote entre 0-10 qui semble plus proche de ce que j'essaie de découvrir; pourtant, la variable dépendante n'est pas continue dans l'ensemble de données.
Quelle est la meilleure approche? Remarque: j'utilise R pour l'analyse
Modifier, en abordant certains des points mentionnés dans les réponses:
- Il n'y a pas d'objectif commercial car il s'agit en fait d'un cours universitaire. La tâche consiste à analyser un ensemble de données de choix, quelle que soit la manière que je juge appropriée.
- La distribution des notes semble normale (histogramme / qq-plot). Les valeurs réelles dans l'ensemble de données se situent entre 3-8 (même si techniquement 0-10).