Mise à l'échelle des données selon différents ordres de grandeur pour le traçage


9

En regardant l'ensemble de données suivant:

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

On m'a demandé de tracer cela sur un graphique, en utilisant la date a l'axe X et le reste des données sur l'axe Y. Le problème est que l'échelle des données est radicalement différente. où les visites se comptent par milliers et les commandes créées sont en dizaines, les données ne sont pas bien tracées sur un graphique.

Je me demandais ce que ferait un statisticien dans ce scénario, je pourrais diviser les Visites par 1000 puis mettre la description (Visites (K)), mais ensuite je commence à avoir le même problème avec les chariots créés, car ils sont dans les centaines et tout le reste est dans les basses dizaines.

Quel genre de chose se fait dans ce scénario?

Réponses:


14

Il n'est pas déraisonnable au départ de tracer les graphiques linéaires comme une série de petits multiples, avec des échelles différentes pour l'axe Y mais avec l'axe X (dates) alignés. entrez la description de l'image ici

Je pense que c'est un bon début, car cela permet d'examiner les données brutes et de comparer les tendances entre différents graphiques en courbes. OMI, vous devez d'abord regarder les données brutes, puis réfléchir aux conversions ou aux moyens de normaliser les graphiques pour qu'ils soient comparables après avoir examiné les données brutes.

Comme King l'a déjà mentionné, il semble que vos variables aient un ordre naturel basé sur les noms et les nombres, et en supposant que cela soit approprié, j'ai créé trois nouvelles variables en fonction du pourcentage converti à chaque état. Les nouvelles variables sont;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

Faire des pourcentages est un moyen de rapprocher la série d'une échelle commune, mais même en plaçant toutes les lignes sur un graphique (comme ci-dessous), il est toujours difficile de visualiser efficacement la série. Le niveau et la variation des commandes créées et des chariots convertis nainent ceux des autres séries. Vous ne pouvez voir aucune variation dans les séries de chariots créés à cette échelle (et je soupçonne que c'est celle qui vous intéresse le plus). entrez la description de l'image ici

Encore une fois, l'OMI une meilleure façon d'examiner cela est d'utiliser différentes échelles. Vous trouverez ci-dessous le graphique en pourcentage utilisant différentes échelles.

entrez la description de l'image ici

Avec ces graphiques, il ne me semble pas y avoir de réelle corrélation significative entre les séries, mais vous avez beaucoup de variations intéressantes au sein de chaque série (en particulier la proportion convertie). Qu'est-ce qui se passe 2011-11-13? Vous aviez une proportion beaucoup plus faible de commandes créées, mais chacune des commandes créées était un panier converti. Avez-vous eu d'autres interventions qui pourraient expliquer les tendances des visites sur place ou la proportion ou le pourcentage de chariots créés?

Ce n'est qu'une analyse exploratoire des données, et pour prendre d'autres mesures, j'aurais besoin de plus d'informations sur les données (j'espère que c'est un bon début cependant). Vous pouvez normaliser les graphiques linéaires par d'autres moyens pour pouvoir les tracer sur une échelle comparable, mais c'est une tâche difficile, et je pense qu'il est possible de choisir aussi efficacement des échelles arbitraires basées sur ce qui est informatif compte tenu des données plutôt que d'en choisir quelques-unes. schémas de normalisation par défaut. Une autre application intéressante de voir de nombreux graphiques en ligne est à la fois des graphiques d'horizon , mais qui est plus pour l' affichage de nombreux graphiques en ligne à la fois.


Merci pour le détail de votre réponse, j'avais à l'origine plusieurs graphiques. Mon patron a décidé qu'il aimerait toutes les séries sur le graphique (je pense que c'est probablement trop de séries mais ce n'est pas moi qui le regarderai :)) Je pense que je vais envisager de normaliser les données, peut-être en 0 - 1. Ils veulent uniquement utiliser le graphique pour afficher les tendances, les données du tableau sont généralement affichées sous le graphique.
Mike

@Mike, c'est une demande raisonnable. La normalisation de la série ne devrait pas changer la tendance (juste le niveau et la variation de chaque série). J'espère que vous obtiendrez des réponses plus perspicaces sur la façon de normaliser la série de manière efficace, mais toujours significative. Juste un mot d'avertissement cependant, en général, vous ne voulez tracer que 3 à 5 lignes sur un graphique, il est beaucoup plus difficile de faire toutes ces comparaisons (de petits multiples sont cependant une solution à ce problème).
Andy W

1
@Mike Oui, dans ce cas (il suffit de visualiser des données sans chiffres), vous pouvez simplement exprimer vos données sur une échelle min / max, comme cela se fait dans les affichages parallèles . L'affichage des nombres sous le tableau est également une bonne idée.
chl

1
Juste une note supplémentaire sur la normalisation à une échelle min / max bien que @chl le suggère. Il est bon de voir d'abord les données brutes, si vous avez une valeur aberrante importante, vous voudrez peut-être envisager de ne pas inclure cette valeur dans le processus de normalisation (bien que cela devrait être apparent si vous le faites dans le graphique normalisé, par exemple si vous avez un graphique linéaire) avec une valeur haute / basse et le reste est plat). Je pense que Michael Friendly serait également d'accord pour inclure le tableau sous le graphique.
Andy W

2

Vous pouvez avoir 2 axes Y séparés, Visites (k) et Chariots créés dans l'un, les 2 autres dans un autre (ou selon la manière qui convient à votre objectif).

Ce n'est certainement pas une méthode élégante, mais je me souviens l'avoir fait il y a des années quand je voulais simplement comparer les tendances dans le temps.

OU

Vous pouvez simplement tracer la variation en pourcentage dans le temps si cela convient à votre objectif.


J'ai considéré l'itinéraire que vous avez mentionné avec les 2 axes Y différents, mais ce que je n'ai pas aimé à ce sujet était: si une nouvelle série était introduite qui ne cadrait pas sur l'un des deux axes Y, je serais probablement coincé. merci pour la suggestion, et peut-être une autre fois je considérerais cela plus :)
Mike

Qu'en est-il de la deuxième suggestion concernant l'utilisation du pourcentage? c'est-à-dire tout indexer à 100 à la date de début (ou n'importe quelle date qui rend votre graphique joli). Vous pouvez ajouter autant de nouvelles séries que vous le souhaitez!
King

C'est une option, je suis actuellement sur Excel essayant de comprendre comment normaliser ces données et si cela fonctionne. à défaut, je vais essayer l'idée de pourcentage :)
Mike

2

À la fin, j'ai décidé de normaliser les données en divisant chaque valeur par la valeur maximale, puis en multipliant par 100.

  1. Trouvez la valeur maximale:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. Divisez chaque nombre par le maximum puis multipliez par 100:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. J'ai ensuite tracé cela sur le graphique, évidemment cela ne fait que montrer la tendance et l'utilisateur a le tableau de données en bas de la page.


0

Ce serait aussi mon approche - - pour ajuster les différentes dimensions à la même échelle en divisant par X, mais j'utiliserais la valeur moyenne, pas la valeur max ou min. La raison en est que - lorsque vous ajoutez des données au fil du temps, votre max ou min changera probablement, puis ce qui était à 100% dans le dernier graphique est autre chose cette fois - le graphique n'est pas aussi facilement conciliable avec les graphiques précédents - - si vous utilisez avg alors les changements ne sont pas aussi drastiques.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.