Médianes, modes, centiles et OLAP


9

Je suis novice, j'essaie de comprendre OLAP et j'ai quelques questions.

  • Question 1: un cube OLAP peut-il stocker des médianes, des modes, des centiles?
  • Question 2: Une requête MDX écrite par l'utilisateur peut-elle renvoyer un résumé des données de niveau ligne? (ex:% transactions> 100 $). Ou le concepteur de cube doit-il l'ajouter au cube?
  • Question 3: Existe-t-il des produits OLAP qui proposent désormais des mécanismes d'accès aux données de niveau ligne? Lequel?

Notre service informatique recherche des commentaires sur le type de problèmes rencontrés avec un cube ROLAP MS Analsis Services particulier. Nous n'avons pas accès à la base de données relationnelle qui se trouve derrière et nous devons effectuer des calculs qui ne sont pas actuellement disponibles en tant que mesures dans le cube.

Laissez-moi voir si j'ai ce droit.

  1. Un cube peut fournir des statistiques sur les nombres, les moyennes, les proportions et les écarts-types.
  2. Si une statistique particulière n'a pas été prise en compte dans une mesure fournie par le concepteur de cube, pouvons-nous écrire une requête MDX pour l'obtenir? Ou doivent-ils modifier le cube afin de le pré-calculer à partir des données de niveau ligne?
  3. Un cube ne peut pas fournir de statistiques telles que les médianes, les modes ou les centiles, car ces statistiques ne s'agrègent pas correctement.

Je lis la grammaire graphique de Leland Wilkinson et dans son chapitre sur l'exploration de données et OLAP, dit-il

Ces [opérations de cube] fonctionnent bien avec des statistiques comme les nombres, les moyennes, les proportions et les écarts-types. Des agrégations simples sur des sous-classes peuvent être calculées en opérant sur des sommes, des sommes de carrés et d'autres termes qui sont combinés en fonctions linéaires pour produire des statistiques sommaires de base.

Ils ne fonctionnent pas correctement avec des statistiques comme la médiane, le mode et les centiles car l'agrégat de ces statistiques n'est pas la statistique de leurs agrégats. La médiane des médianes n'est pas la médiane de l'agrégat, par exemple.

Il ajoute:

Cependant, un modèle ROLAP plus sophistiqué a récemment vu le jour. Il est possible, grâce à plusieurs technologies, de donner aux algorithmes statistiques l'accès aux données brutes à travers le modèle relationnel en temps réel. Cette approche est plus prometteuse que les agrégations rigides offertes par des structures telles que les cubes de données.

Dans la forme la plus élégante de cette architecture, les applications peuvent demander des connexions à distance pour fournir des informations sur leurs méthodes de traitement des données et prendre les mesures appropriées en fonction des informations renvoyées. Sous cette forme, l'architecture des composants peut réaliser la véritable promesse de l'informatique distribuée: conception et exécution indépendantes du site, du système d'exploitation ou du langage.

Cela a été écrit vers 2005. Quelqu'un connaît-il des produits utilisant cette méthodologie pour permettre l'accès aux données au niveau des lignes?


1
Pas de preneurs? Des suggestions sur la façon d'améliorer la question pour obtenir une réponse?
Tommy O'Dell,

Réponses:


5

Pour répondre à vos questions dans l'ordre:

  1. Le cube ne stocke pas de médianes, de modes (ou même de moyennes), mais vous pouvez écrire des requêtes qui les calculent et les incorporer en tant que mesures calculées dans le cube. La possibilité d'intégrer ce type de calcul est l'un des principaux arguments de vente uniques de la technologie OLAP.
  2. Si vous avez une dimension qui peut identifier des lignes individuelles (qui pourrait être une dimension dégénérée ou «factuelle» dérivée d'un identifiant sur la table de faits), vous pouvez effectuer une requête basée sur des lignes individuelles. Cependant, OLAP fonctionne en termes de dimensions et d'agrégats, vous devez donc disposer d'une dimension capable d'identifier des lignes individuelles (avec un agrégat composé d'une valeur).
  3. N'importe quel outil OLAP peut faire ce qui est décrit dans (2), et il prend généralement en charge un mécanisme appelé `` accès au détail '' dans lequel le cube renvoie un bordereau des données transactionnelles sous-jacentes à une tranche donnée dans laquelle vous explorez.

Si vous souhaitez effectuer des calculs qui ne sont pas directement disponibles dans le script de cube, de nombreux outils OLAP tels que le dernier regretté ProClarity vous permettront de formuler des requêtes impliquant des calculs personnalisés basés sur MDX. À moins que le cube ne dispose pas des informations dont vous avez besoin pour effectuer les calculs réels, les calculs MDX personnalisés devraient pouvoir prendre en charge tous les calculs dont vous avez besoin.

Bien que les requêtes OLAP soient traditionnellement associées à des requêtes statistiques dans leur ensemble, si vous avez une dimension qui permet d'explorer les détails dont vous avez besoin, il est certainement possible de formuler des requêtes qui calculent les médianes, les centiles ou les requêtes d'histogramme à partir desquelles les modes peuvent être déduits ou calculés.

Par exemple, cela contient un exemple de requête d' analyse pareto , basée sur des classements.

De nombreux produits de cube peuvent fonctionner en mode OLAP hybride ou relationnel où ils ne conservent pas les données elles-mêmes mais les interrogent à partir d'une base de données sous-jacente. De plus, les outils ROLAP purs tels que Business Objects, Report Builder ou Discoverer peuvent interroger à partir d'une base de données sous-jacente et travailler ligne par ligne. Cependant, ils ont tendance à manquer de sophistication des produits OLAP dédiés, et ils n'ont pas beaucoup de capacité d'analyse statistique prête à l'emploi.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.