Je n'arrive pas à interpréter ce graphique. Ma variable dépendante est le nombre total de billets de cinéma qui seront vendus pour un spectacle. Les variables indépendantes sont le nombre de jours restants avant le spectacle, les variables factices saisonnières (jour de la semaine, mois de l'année, vacances), le prix, les billets vendus jusqu'à la date, la cote du film, le type de film (thriller, comédie, etc., sous forme de variables muettes ). Veuillez également noter que la capacité de la salle de cinéma est fixe. Autrement dit, il ne peut héberger un maximum de x nombre de personnes que. Je crée une solution de régression linéaire et elle ne correspond pas à mes données de test. J'ai donc pensé à commencer par les diagnostics de régression. Les données proviennent d'une seule salle de cinéma pour laquelle je souhaite prédire la demande.
Le est un ensemble de données multivarié. Pour chaque date, il y a 90 lignes en double, représentant des jours avant le spectacle. Ainsi, pour le 1er janvier 2016, il y a 90 enregistrements. Il y a une variable 'lead_time' qui me donne le nombre de jours avant le show. Donc, pour le 1er janvier 2016, si lead_time a une valeur de 5, cela signifie qu'il aura des billets vendus jusqu'à 5 jours avant la date du spectacle. Dans la variable dépendante, le nombre total de billets vendus, j'aurai la même valeur 90 fois.
De plus, comme remarque secondaire, existe-t-il un livre qui explique comment interpréter le tracé résiduel et améliorer le modèle par la suite?