Aux États-Unis, les référentiels de données sur la santé publique s'acheminent vers un format d'année échelonné sur cinq ans, en raison de l'impact de la réglementation HIPAA concernant l'aveuglement et le masquage intentionnels de données pour des raisons de confidentialité.
Compte tenu du défi posé par ce qui était dans le passé (avant HIPAA), un élément de données de niveau de mesure assez proportionnel basé sur la différence entre la date de naissance et la date de décès, il peut être nécessaire de reconsidérer AGE en tant que variable d'échelle pouvant être décrit paramétriquement du tout dans les ensembles de données de santé publique, en faveur des modèles décrivant AGE de manière non paramétrique, en tant que niveau de mesure ordinal. Je sais que cela peut paraître "exagéré" pour de nombreuses factions au sein de la communauté informatique biomédicale, mais cette idée peut avoir un certain mérite en termes d '"interprétation" comme décrit dans les commentaires ci-dessus.
Qu'en est-il de tout le pouvoir analytique disponible pour les approches non paramétriques? Oui, il est vrai que chacun d’entre nous essaiera presque universellement d’appliquer les techniques GLM (modèle linéaire général) à une variable qui se présente à nous dans des distributions qui se comportent comme AGE.
Dans le même temps, il convient de prendre en compte la forme de cette distribution et la manière dont cette forme est déterminée par les effets d'interaction de plusieurs dimensions sur les centroïdes multidimensionnels et les centroïdes de sous-groupes présents dans la distribution. Que faire avec ces ensembles de données très complexes?
Lorsqu'un élément de données ne répond pas aux "hypothèses du modèle", nous balayons progressivement (j'ai dit dans l'ensemble, pas dans le bas; nous devrions être des employeurs de la méthode de l'égalité des chances, chaque outil provient de l'usine avec des règles de formulaire suivant la fonction) la liste d’autres modèles possibles pour trouver ceux qui «n’échouent pas» aux tests d’hypothèses.
Dans le format actuel des ensembles de données de santé publique, nous avons vraiment besoin (en tant que communauté de visualisation de données) de mettre au point un modèle plus standard de traitement de l’âge par tranche de cinq ans (5YI). Mon vote pour la visualisation des données de AGE (étant donné le nouveau format 5YI) consiste à utiliser des histogrammes et des diagrammes à boîtes et à moustaches. Oui, cela signifie la médiane. (Sans jeu de mots!)
Parfois, une image vaut vraiment mille mots, et un résumé est un résumé de mille mots. Le graphique en boîtes et moustaches montre la "forme" de la distribution en tant que représentation symbolique significative de l'histogramme à un niveau de résolution presque emblématique. Comparer les répartitions par tranches d’âge de cinq ans en affichant des tracés de boîtes à coques et de moustaches "côte à côte" permettant de comparer visuellement les motifs du 75e au le monde. Pour ceux d'entre nous qui continuent à apprécier le frisson de la représentation des données grâce à la mécanique textuelle de l'affichage tabulaire, le diagramme "tige et feuille" peut également être utile lorsqu'il est utilisé comme élément graphique visuel animé dans un "graphique sparkline".
AGE est arrivé à maturité. Il reste à explorer plus avant avec les algorithmes de calcul plus puissants qui sont maintenant disponibles.