Quantifier la similitude entre deux ensembles de données


12

Résumé : essayer de trouver la meilleure méthode résume la similitude entre deux ensembles de données alignés de données en utilisant une seule valeur.

Détails :

Ma question est mieux expliquée avec un diagramme. Les graphiques ci-dessous montrent deux ensembles de données différents, chacun avec des valeurs étiquetées nfet nr. Les points le long de l'axe x représentent où les mesures ont été prises et les valeurs sur l'axe y sont la valeur mesurée résultante.

Pour chaque graphique, je veux un nombre unique pour résumer la similitude nfet les nrvaleurs à chaque point de mesure. Dans cet exemple, il est visuellement évident que les résultats des premiers graphiques sont moins similaires à ceux du deuxième graphique. Mais j'ai beaucoup d'autres données où la différence est moins évidente, donc être capable de classer cela quantitativement serait utile.

Je pensais qu'il pourrait y avoir une technique standard qui est généralement utilisée. La recherche de similitudes statistiques a donné beaucoup de résultats différents, mais je ne sais pas ce qu'il y a de mieux à choisir ou si les choses que j'ai préparées s'appliquent à mon problème. J'ai donc pensé que cette question méritait d'être posée ici au cas où il y aurait une réponse simple.

entrez la description de l'image ici


1
Vous voudrez peut-être consulter ce document qui contient une pléthore de mesures. ( users.uom.gr/~kouiruki/sung.pdf ) Si le lien ne fonctionne pas, son intitulé "Enquête complète sur les mesures de distance / similitude entre les fonctions de densité de probabilité" par Sung-Hyuk Cha dans le Journal international des modèles et méthodes mathématiques dans Applied Science qui passe en revue une pléthore de mesures de similitude.
arie64

La déformation temporelle dynamique est utilisée pour mesurer la similitude entre deux séries chronologiques. Cette technique peut faire la tâche ici. Consultez ce lien: en.wikipedia.org/wiki/Dynamic_time_warping
Aman Anand

Réponses:


6

L'espace entre 2 courbes peut vous donner la différence. La somme (nr-nf) (somme de toutes les différences) sera donc une approximation de l'aire entre 2 courbes. Si vous voulez le rendre relatif, sum (nr-nf) / sum (nf) peut être utilisé. Ceux-ci vous donneront une valeur unique indiquant la similitude entre 2 courbes pour chaque graphique.

Edit: La méthode de somme des différences ci-dessus sera utile même s'il s'agit de points ou d'observations séparés et non de lignes ou courbes connectées, mais dans ce cas, la moyenne des différences peut également être un indicateur et peut être meilleure car elle prendrait en compte la nombre d'observations.


1
Je vais essayer ça et voir comment ça marche. J'espère toujours pouvoir le relier à une technique plus formelle. J'ai lu sur la distance euclidienne et il semble que c'est assez similaire à la technique ici. De plus, même si mon graphique comporte des lignes de connexion, je ne me soucie que des points individuels. Je ne compare pas vraiment les courbes, juste les valeurs mesurées. Je ne sais pas si cela était clair dans ma question.
Gabriel Southern

Cela devrait fonctionner même si les points ne sont pas connectés.
rnso

1

Vous devez définir davantage ce que vous entendez par «similitude». La magnitude est-elle importante? Ou seulement la forme?

Si seule la forme compte, vous voudrez normaliser les deux séries temporelles par leur valeur maximale (elles sont donc toutes les deux de 0 à 1).

Si vous recherchez une corrélation linéaire, une simple corrélation de Pearson fonctionnera bien - qui mesure essentiellement la covariance.

Il existe d'autres techniques, par exemple, qui pourraient adapter une ligne ou un polynôme à la série temporelle (essentiellement le lisser), puis comparer les polynômes lisses.

Si vous recherchez une similitude périodique (c.-à-d. Que la série chronologique a une certaine composante sinusoïdale ou saisonnalité), envisagez d'utiliser une décomposition de série chronologique dans la tendance et les composantes saisonnières en premier. Ou en utilisant quelque chose comme FFT pour comparer les données dans le domaine fréquentiel.

C'est à peu près tout ce que je sais sans plus de définition de ce que "similaire" devrait être. J'espère que cela aide.


0

Vous pouvez utiliser (nr-nf) pour chaque point de mesure, plus le nombre (valeur absolue) est petit, plus la valeur est similaire. Pas exactement l'approche la plus scientifique, veuillez me pardonner, je n'ai pas vraiment de formation formelle dans ce genre de choses. Si vous cherchez juste une représentation numérique du visuel, cela devrait le faire.


1
Merci pour votre suggestion. J'y ai pensé aussi, mais le problème est qu'il sera pondéré par la différence absolue plutôt que par la différence relative. Dans l'exemple que j'ai inclus, les ensembles de données plus similaires avaient également des valeurs absolues plus petites, mais si la situation était inversée, vous pourriez obtenir une interprétation incorrecte en utilisant cette technique. J'ai besoin de résumer la similitude / différence relative plutôt qu'une différence absolue.
Gabriel Southern

Est-ce que (nr-nf) / nf fonctionnerait? Cela vous rendrait parent. Je suis vraiment intéressé à voir la vraie réponse car je suis moi-même confronté au même genre de situation.
Mike G

S'ils sont tous à une échelle comparable, le fait que vos valeurs similaires soient généralement inférieures ne concerne pas les valeurs relatives, c'est l'interprétation de la similitude. Si les valeurs du deuxième graphique variaient de 101 à 104, cela changerait-il l'interprétation de leur similitude? Si oui, vous devez expliquer cela. Plus de détails sur la nature exacte de la variable y seraient nécessaires.
John

@John c'est un bon point. Je suppose que je dois y penser davantage. Les valeurs sur y sont des valeurs d'accélération pour une référence et j'essaie de comparer la similitude entre une variété de configurations différentes. Donc je suppose que la suggestion dans cette réponse pourrait fonctionner, je pourrais l'essayer juste pour voir à quoi ressemblent les chiffres. Je préférerais quand même utiliser une technique statistique plus formellement acceptée (s'il y en a une pour mon problème).
Gabriel Southern
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.