Je suis en train de développer une application de prévision dont le but est de permettre à un importateur de prévoir la demande de ses produits à partir de son réseau client de distributeurs. Les chiffres des ventes sont un assez bon indicateur de la demande, tant qu'il existe un stock suffisant pour répondre à la demande. Cependant, lorsque l'inventaire est ramené à zéro (la situation que nous cherchons à aider notre client à éviter), nous ne savons pas grand-chose que nous avons raté l'objectif. Combien de ventes le client aurait-il réalisé s'il avait un approvisionnement suffisant? Les approches standard basées sur la régression ML qui utilisent Sales comme une simple variable cible produiront des estimations incohérentes de la relation entre le temps, mes variables descriptives et la demande.
La modélisation Tobit est la façon la plus évidente d'aborder le problème: http://en.wikipedia.org/wiki/Tobit_model . Je m'interroge sur les adaptations ML des forêts aléatoires, des GBMS, des SVM et des réseaux de neurones qui représentent également une structure censurée gaucher des données.
En bref, comment puis-je appliquer des outils d'apprentissage automatique à des données de régression censurées à gauche pour obtenir des estimations cohérentes des relations entre mes variables dépendantes et indépendantes? La première préférence serait pour les solutions disponibles dans R, suivi de Python.
À votre santé,
Aaron