J'ai quatre variables numériques. Tous sont des mesures de la qualité du sol. Plus la variable est élevée, plus la qualité est élevée. La gamme pour chacun d'eux est différente:
Var1 de 1 à 10
Var2 de 1000 à 2000
Var3 de 150 à 300
Var4 de 0 à 5
Je dois combiner quatre variables en un seul score de qualité du sol qui réussira à classer l'ordre.
Mon idée est très simple. Standardisez les quatre variables, résumez-les et tout ce que vous obtenez est le score qui doit être classé. Voyez-vous un problème avec l'application de cette approche? Y a-t-il une autre (meilleure) approche que vous recommanderiez?
Merci
Modifier:
Merci les gars. Beaucoup de discussions ont porté sur "l'expertise du domaine" ... Des trucs agricoles ... Alors que je m'attendais à plus de statistiques. En termes de technique que j'utiliserai ... Ce sera probablement une simple sommation du score z + une régression logistique comme expérience. Parce que la grande majorité des échantillons a une qualité médiocre à 90%, je vais combiner 3 catégories de qualité en une seule et avoir essentiellement un problème binaire (qualité contre non-qualité). Je tue deux oiseaux avec une pierre. J'augmente mon échantillon en termes de taux d'événements et je fais appel à des experts en les faisant classifier mes échantillons. Des échantillons classés experts seront ensuite utilisés pour adapter le modèle log-reg afin de maximiser le niveau de concordance / discordance avec les experts .... Comment cela vous semble-t-il?