À mon humble avis, celui qui a omis pour la première fois le calendrier précis des changements number of cars
est le premier responsable de tout résultat trompeur. Si vous aviez cette information (même si elle était mesurée avec erreur), ce time
serait une variable continue appropriée, pas nécessairement une variable continue groupée (voir Anderson, 1984). Vous seriez libre de regrouper les observations dans des hour
bacs basés sur si vous le vouliez vraiment, à quel point vous assumeriez la responsabilité de dériver des résultats trompeurs. Sinon, en conservant des heures d'arrivée précises, vous pourriez représenter graphiquement number of cars
des séries chronologiquessur continue time
avec précision.
Quoi qu'il en soit, en supposant que vous êtes coincé avec number of cars
parhour
, Je suis d'accord avec @John, vous devriez tracer une ligne reliant vos observations horaires. Si vous manquez d'informations sur le moment où chaque changement incrémentiel s'est produit, il est plutôt difficile de dire que vous induisez quelqu'un en erreur, sauf si vous ne décrivez pas les limites des informations représentées graphiquement. De même, si vous représentez graphiquement vos données horaires avec un simple graphique à barres sans ligne reliant les bacs, vous n'êtes pas vraiment coupable d'induire en erreur quiconque si vous ne prétendez pas que les changements entre les observations horaires se produisent exactement comme illustré, à l'heure, tout à la fois. Si quelqu'un se méprend (comme cela se produira probablement avec toute statistique ou donnée suffisamment publiée), il ne sera pas vrai que vous l'ayez induit en erreur, surtout si vous décrivez vos données et votre procédure de collecte de manière suffisamment détaillée. Cela ne devrait pas être difficile à faire.
Étant donné la clarté et la minutie de base des descriptions de données et de graphiques, il ne devrait y avoir aucun inconvénient à tracer une ligne pour connecter vos bacs. L' avantage de connecter vos bacs est en fait ce que vous semblez être l'inconvénient: tracer ces lignes imite une équation à mi-chemin décente pour le number of cars
en fonction de continue time
, même si elle est basée sur des observations horaires discrètes. Vous pouvez utiliser une ligne droite entre les observations pour représenter une hypothèse assez raisonnable que le changement se produit linéairement sur chacune hour
, pas toutes à la fois. Sur la base d'une telle hypothèse, tout lecteur peut faire une estimation décente de ce qui, minute
après une mesure donnée hour
, verra la prochaine voiture arriver ou partir par cette procédure en quatre étapes assez sensée:
- Trouver le point sur la ligne où l' observation précédente
number of cars
= 1 +hour
- Tracez une ligne droite vers le bas à partir de ce point pour trouver son intersection avec l'
hour
axe
- Mesurer le
distance
de ce point sur l' hour
axe du point de l'observation précédente
distance
÷ distance between observations
× 60 = minute
après l' hour
arrivée de la prochaine voiture.
Bien sûr, on peut également estimer l'arrivée de la prochaine voiture à la seconde près, et vous ne pouvez pas empêcher les lecteurs de le faire en ne fournissant pas la ligne - dessiner la ligne devient simplement la première des cinq étapes. Ainsi, si quelqu'un veut vraiment savoir combien de voitures étaient là dans l'intervalle ... eh bien, ils ne le peuvent pas, car les informations ne sont pas disponibles, mais ils peuvent estimer. Si vous supprimez une étape du processus pour eux, j'imagine qu'ils vous en seront reconnaissants.
Faire cela pour vos lecteurs avec des lignes simples et droites n'implique que votre confort avec l'hypothèse que le changement se produit linéairement entre les observations horaires, ou plus péjorativement, votre désintérêt pour toute inexactitude dans cette hypothèse. Les inexactitudes ne sont pas difficiles à imaginer. Premièrement, le changement se produit nécessairement comme une fonction non linéaire, gonflée par zéro de time
. Ce n'est pas linéaire car l'événement de changement est ternaire : soit une voiture arrive, part, soit aucune - les voitures n'arrivent pas ou ne partent pas par incréments fractionnaires. Il est gonflé à zéro car la plupart des moments ne verront pas une voiture arriver ou partir. Vous pouvez contourner cela en traitant la ligne comme décrivant probability
que les voitures arriveront ou partiront à tout moment pour atteindre le nombre entier le plus proche.
Une autre inexactitude de l'hypothèse derrière les lignes droites entre les observations horaires subsiste. Vous pouvez vous attendre à ce que le taux de changement (en termes de probability
comme ci-dessus) change plus en douceur au fil du temps que vos lignes droites tracées séparément entre les points impliquent. En termes plus mathématiques, vous souhaiterez peut-être que la dérivée de votre fonction number of cars
( hour
) soit continue sur hour
s. Vous pourriez être en mesure de le faire en adaptant une fonction polynomiale à vos données, mais si votre objectif est prédictif, méfiez-vous dessurajustement.
Un autre avantage des lignes par rapport aux barres de style histogramme (c'est-à-dire sans espacement intermédiaire pour les valeurs adjacentes de hour
... sans parler des graphiques avec des barres qui ne se "touchent" pas) découle de votre lot
variable polytomique . Vous pouvez superposer vos séries chronologiques distinctes pour chaque lot sur le même graphique afin de faciliter les comparaisons, ce qui vous aidera à voir si votre lot
variable est intéressante. Voici une démonstration avec quelques données inventées:
Bravo à McCown !
Je ne vais même pas essayer de comprendre comment le faire de manière cohérente avec les barres; Je laisse cela à @ ChristianStade-Schuldt;) Pour être honnête, il est encore plus facile de ne pas connecter ces points comme il l'a suggéré, mais l'ajout de lignes aide à lever l'ambiguïté des points correspondant à des séries chronologiques distinctes les unes des autres. Au final, ça va quand même être un peu subjectif, alors jugez par vous-même:
Pour ma part, je me retrouve à dessiner les lignes dans mon esprit de toute façon. BTW, si vous sentez que les lignes de la première figure nuisent à l'impact visuel des points exacts, n'oubliez pas que vous pouvez toujours augmenter la taille des points, changer leur forme ou présenter leurs valeurs numériquement dans un tableau séparé .
Référence
Anderson, JA (1984). Régression et variables catégorielles ordonnées. Journal de la Royal Statistical Society B, 46 , 1–30.