J'ai posé cette question sur le site matemathics stackexchange et on m'a recommandé de la poser ici.
Je travaille sur un projet de passe-temps et j'aurais besoin d'aide pour résoudre le problème suivant.
Un peu de contexte
Disons qu'il existe une collection d'articles avec une description des fonctionnalités et un prix. Imaginez une liste de voitures et de prix. Toutes les voitures ont une liste de fonctionnalités, par exemple la taille du moteur, la couleur, la puissance, le modèle, l'année, etc. Pour chaque marque, quelque chose comme ceci:
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
Pour aller encore plus loin, la liste des voitures avec prix est publiée avec un certain intervalle de temps, ce qui signifie que nous avons accès aux données de prix historiques. Pourrait ne pas toujours inclure exactement les mêmes voitures.
Problème
Je voudrais comprendre comment modéliser les prix de toute voiture sur la base de ces informations de base, surtout les voitures qui ne figurent pas dans la liste initiale.
Ford, v6, red, automatic, 130hp, 2009
Pour la voiture ci-dessus, c'est presque la même que celle de la liste, légèrement différente en puissance et en année. Pour fixer le prix, que faut-il?
Ce que je recherche, c'est quelque chose de pratique et de simple, mais j'aimerais aussi entendre des approches plus complexes sur la façon de modéliser quelque chose comme ça.
Ce que j'ai essayé
Voici ce que j'ai expérimenté jusqu'à présent:
1) en utilisant des données historiques pour rechercher la voiture X. S'il n'est pas trouvé, aucun prix. Ceci est bien sûr très limité et on ne peut l'utiliser qu'en combinaison avec une certaine décroissance temporelle pour modifier les prix des voitures connues au fil du temps.
2) en utilisant un système de pondération des caractéristiques de la voiture avec un exemple de voiture au prix. Fondamentalement, il existe un prix de base et les fonctionnalités modifient simplement cela avec un certain facteur. Sur cette base, le prix de toute voiture est dérivé.
Le premier s'est avéré insuffisant et le second s'est avéré ne pas toujours être correct et je n'aurais peut-être pas eu la meilleure approche pour utiliser les poids. Cela semble également être un peu lourd pour maintenir les poids, c'est pourquoi j'ai pensé qu'il y avait peut-être un moyen d'utiliser les données historiques comme statistiques d'une manière ou d'une autre pour obtenir des poids ou obtenir autre chose. Je ne sais pas par où commencer.
Autres aspects importants
- intégrer dans un projet logiciel que j'ai. Soit en utilisant les bibliothèques existantes ou en écrivant moi-même un algorithme.
- recalcul rapide lorsque de nouvelles données historiques arrivent.
Des suggestions sur la manière d'aborder un problème comme celui-ci? Toutes les idées sont les bienvenues.
Merci beaucoup à l'avance et j'ai hâte de lire vos suggestions!