Je veux étudier le comportement de fixation des prix des compagnies aériennes - en particulier la façon dont les compagnies aériennes réagissent aux prix des concurrents.
Comme je dirais que mes connaissances sur l'analyse plus complexe sont assez limitées, j'ai principalement utilisé toutes les méthodes de base pour recueillir une vue d'ensemble des données. Cela inclut des graphiques simples qui aident déjà à identifier des modèles similaires. J'utilise également SAS Enterprise 9.4.
Cependant, je recherche une approche plus basée sur les nombres.
Base de données
L'ensemble de données (auto) collectées que j'utilise contient environ 54 000 tarifs. Tous les tarifs ont été collectés dans un délai de 60 jours, sur une base quotidienne (tous les soirs à 00h00).
Par conséquent, chaque tarif dans cette fenêtre horaire se produit fois sous réserve de la disponibilité du tarif ainsi que de la date de départ du vol, lorsqu'il est dépassé par la date de perception du tarif. (Vous ne pouvez pas percevoir de tarif pour un vol lorsque la date de départ du vol est passée)
Le non formaté qui ressemble essentiellement à ceci: (fausses données)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
"DaysBeforeDeparture" est calculé via où
- I & intervalle (jours avant le départ)
- s & date du prix (départ du vol)
- c & date à laquelle le tarif a été perçu
Voici un exemple d'ensemble de données groupées par I (DaysBeforeDep.) (Fausses données!):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
Ce que j'ai trouvé jusqu'à présent
En regardant les graphiques linéaires, je peux déjà estimer que plusieurs lignes auront un facteur de corrélation élevé. Par conséquent, j'ai essayé d'utiliser l'analyse de corrélation d'abord sur les données groupées. Mais est-ce la bonne façon? En gros j'essaye maintenant de faire des corrélations sur les moyennes plutôt que sur les prix individuels? Y a-t-il un autre moyen?
Je ne sais pas quel modèle de régression convient ici, car les prix ne se déplacent sous aucune forme linéaire et semblent non linéaires. Aurais-je besoin d'adapter un modèle à chacune des évolutions de prix d'une compagnie aérienne
PS: Ceci est un long mur de texte. Si j'ai besoin de clarifier quoi que ce soit, faites le moi savoir. Je suis nouveau dans ce sous-marin.
Quelqu'un un indice? :-)