Comment mesurer la «distance» statistique entre deux distributions de fréquences?

J'entreprends un projet d'analyse de données qui consiste à enquêter sur les temps d'utilisation du site Web au cours de l'année. Ce que je voudrais faire, c'est comparer la "cohérence" des modèles d'utilisation, par exemple, leur proximité avec un modèle qui implique de l'utiliser une heure par semaine, ou un qui implique de l'utiliser pendant 10 minutes à la fois, 6 fois par semaine. Je connais plusieurs choses qui peuvent être calculées:

Entropie de Shannon: mesure à quel point la «certitude» du résultat diffère, c'est-à-dire à quel point une distribution de probabilité diffère d'une distribution uniforme;
Divergence de Kullback-Liebler: mesure à quel point une distribution de probabilité diffère d'une autre
Divergence Jensen-Shannon: similaire à la divergence KL, mais plus utile car elle renvoie des valeurs finies
Test de Smirnov-Kolmogorov : un test pour déterminer si deux fonctions de distribution cumulative pour des variables aléatoires continues proviennent du même échantillon.
Test du chi carré: un test d'ajustement pour déterminer dans quelle mesure une distribution de fréquence diffère d'une distribution de fréquence attendue.

Ce que je voudrais faire, c'est comparer la différence entre les durées d'utilisation réelles (bleu) et les temps d'utilisation idéaux (orange) dans la distribution. Ces distributions sont discrètes et les versions ci-dessous sont normalisées pour devenir des distributions de probabilité. L'axe horizontal représente le temps (en minutes) qu'un utilisateur a passé sur le site Web; cela a été enregistré pour chaque jour de l'année; si l'utilisateur n'est pas du tout allé sur le site Web, cela compte comme une durée nulle, mais ceux-ci ont été supprimés de la distribution de fréquence. À droite, la fonction de distribution cumulative.

Mon seul problème est que, même si je peux obtenir la divergence JS pour retourner une valeur finie, lorsque je regarde différents utilisateurs et compare leurs distributions d'utilisation à l'idéal, j'obtiens des valeurs qui sont pour la plupart identiques (ce qui n'est donc pas un bon indicateur de leur différence). De plus, beaucoup d'informations sont perdues lors de la normalisation des distributions de probabilité plutôt que des distributions de fréquence (par exemple, un étudiant utilise la plate-forme 50 fois, puis la distribution bleue doit être mise à l'échelle verticalement de sorte que le total des longueurs des barres soit égal à 50, et la barre orange doit avoir une hauteur de 50 plutôt que 1). Une partie de ce que nous entendons par «cohérence» est de savoir si la fréquence à laquelle un utilisateur visite le site Web affecte le montant qu'il en retire; si le nombre de fois où ils visitent le site Web est perdu, la comparaison des distributions de probabilité est un peu douteuse; même si la distribution de probabilité de la durée d'un utilisateur est proche de l'utilisation "idéale", cet utilisateur peut n'avoir utilisé la plate-forme que pendant une semaine au cours de l'année, ce qui n'est sans doute pas très cohérent.

Existe-t-il des techniques bien établies pour comparer deux distributions de fréquences et calculer une sorte de métrique qui caractérise leur similitude (ou leur dissemblance)?

— omegaSQU4RED
source

Vous voudrez peut-être commencer par vous demander quelle est votre fonction de perte (c'est-à-dire, en quoi le modèle d'utilisation diffère-t-il du mauvais idéal, et comment la quantité de mal dépend-elle du type de divergence qui existe), et concevoir votre métrique autour de ça.

— Accumulation le

Réponses:

Vous pouvez être intéressé par la distance du moteur de la Terre , également connue sous le nom de métrique Wasserstein . Il est implémenté en R (regardez le emdistpaquet) et en Python . Nous avons également un certain nombre de discussions dessus .

L'EMD fonctionne pour les distributions continues et discrètes. Le emdistpackage pour R fonctionne sur des distributions discrètes.

$\chi^2$

— Stephan Kolassa
source

Pourquoi cette distance particulière? Il semble être conçu pour toute distribution continue. OP a une distribution de fréquence, alors pourquoi pas une distance plus "discrète" comme le chi carré?

— user2974951

@ user2974951: assez juste. Voir mon montage.

— Stephan Kolassa

L_{p}

$L_p$

L^{p}

$L^p$

Si vous échantillonnez au hasard un individu de chacune des deux distributions, vous pouvez calculer une différence entre elles. Si vous répétez cela (avec remplacement) plusieurs fois, vous pouvez générer une distribution des différences qui contient toutes les informations que vous recherchez. Vous pouvez tracer cette distribution et la caractériser avec les statistiques récapitulatives que vous désirez - moyennes, médianes, etc.

— mkt - Réintégrer Monica
source

Y a-t-il un nom pour une telle procédure?

— user2974951

Je me demande comment on pourrait expliquer le fait de base que la distribution des différences pour une distribution arbitraire et elle-même sera différente pour différentes distributions arbitraires; pensez U (0,1) vs lui-même par rapport à N (0,1) vs lui-même. Par conséquent, la distribution des différences que vous obtiendriez en comparant deux distributions différentes serait difficile à évaluer en l'absence d'une ligne de base unique. Le problème disparaît si les observations sont appariées, alors la ligne de base serait une masse unitaire à zéro.

— Richard Hardy

@ user2974951 J'en suis sûr, car c'est assez simple et clairement lié au bootstrap. Mais je ne sais pas comment l'appeler précisément.

— mkt

@mkt, merci pour votre clarification. Sans vouloir argumenter juste pour le plaisir, je pense toujours que sans référence unique, nous n'avons pas vraiment de règle. Mais je vais en rester là. Il y a quand même quelque chose de bien dans votre idée.

— Richard Hardy

@RichardHardy J'apprécie l'échange ici, et vous pourriez bien avoir raison. Je vais devoir y réfléchir davantage.

— mkt

L'une des mesures est la distance de Hellinger entre deux distributions qui sont caractérisées par des moyennes et des écarts-types. L'application se trouve dans l'article suivant.

https://www.sciencedirect.com/science/article/pii/S1568494615005104

— user9003011
source

Merci pour ça. J'ai vu qu'il y a toute une famille de divergences (divergences f) qui font ce que je veux, mais un rapide survol de la littérature ne semble pas indiquer ce qui est le mieux quand ... connaissez-vous une bonne littérature sur cette?

— omegaSQU4RED