Une métrique est une fonction qui génère une distance entre 2 éléments d'un ensemble et répond à certains critères stricts (certaines fonctions de «distance» ne sont pas des métriques).
J'ai lu que "la distance euclidienne n'est pas une bonne distance dans les grandes dimensions". Je suppose que cette déclaration a quelque chose à voir avec la malédiction de la dimensionnalité, mais quoi au juste? En outre, qu'est-ce que les «grandes dimensions»? J'appliquais la classification hiérarchique en utilisant la distance …
Je me demandais, étant donné deux distributions normales avec et σ 2 , μ 2σ1, μ 1σ1, μ1\sigma_1,\ \mu_1σ2, μ 2σ2, μ2\sigma_2, \ \mu_2 Comment puis-je calculer le pourcentage de régions qui se chevauchent de deux distributions? Je suppose que ce problème a un nom spécifique, connaissez-vous un nom particulier …
J'ai lu des définitions de rappel et de précision, bien que ce soit chaque fois dans le contexte de la recherche d'informations. Je me demandais si quelqu'un pourrait expliquer cela un peu plus dans un contexte de classification et peut-être illustrer quelques exemples. Disons par exemple que j'ai un classificateur …
Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …
Quelle est la différence pratique entre la métrique de Wasserstein et la divergence de Kullback-Leibler ? La métrique de Wasserstein est également appelée distance du moteur de la Terre . De Wikipédia: La métrique de Wasserstein (ou Vaserstein) est une fonction de distance définie entre les distributions de probabilité sur …
Est-il possible de contrôler le coût des erreurs de classification dans le package R randomForest ? Dans mon propre travail, les faux négatifs (par exemple, le fait de manquer par erreur qu'une personne peut avoir une maladie) sont beaucoup plus coûteux que les faux positifs. Le package rpart permet à …
Je me demandais si quelqu'un avait une idée ou une intuition derrière la différence entre la variation de l'information et l' indice Rand pour comparer les regroupements. J'ai lu l'article « Comparing Clusterings - An Information Based Distance » de Marina Melia (Journal of Multivariate Analysis, 2007), mais, à part …
La divergence de Kullback-Leibler est une métrique pour comparer deux fonctions de densité de probabilité, mais quelle métrique est utilisée pour comparer deux GP et ?YXXXYYY
Je sais que KL Divergence n'est pas symétrique et ne peut pas être strictement considéré comme une métrique. Si oui, pourquoi est-il utilisé lorsque JS Divergence satisfait les propriétés requises pour une métrique? Y a-t-il des scénarios où la divergence KL peut être utilisée mais pas la divergence JS ou …
En étudiant la distance de Kullback – Leibler, il y a deux choses que nous apprenons très rapidement, c'est qu'elle ne respecte ni l'inégalité du triangle ni la symétrie, propriétés requises d'une métrique. Ma question est de savoir s'il existe une métrique de fonctions de densité de probabilité qui remplit …
Pour le clustering hiérarchique, je vois souvent les deux "métriques" suivantes (elles ne parlent pas exactement) pour mesurer la distance entre deux variables aléatoires et Y : XXXOuiYY\newcommand{\Cor}{\mathrm{Cor}} L'un ou l'autre remplit-il l'inégalité du triangle? Si oui, comment dois-je le prouver autrement que simplement faire un calcul de force brute? …
Quelles sont les «meilleures» mesures pour les matrices de covariance, et pourquoi? Il est clair pour moi que Frobenius & c n'est pas approprié, et les paramétrisations d'angle ont aussi leurs problèmes. Intuitivement, on pourrait vouloir un compromis entre ces deux, mais j'aimerais aussi savoir s'il y a d'autres aspects …
Je voudrais coder un cluster kmeans en python à l'aide de pandas et de scikit learn. Afin de sélectionner le bon k, je voudrais coder la statistique de l'écart de Tibshirani et al 2001 ( pdf ). Je voudrais savoir si je pourrais utiliser le résultat inertie_ de scikit et …
Disons que nous définissons une distance, qui n'est pas une métrique , entre N éléments. Sur la base de cette distance, nous utilisons ensuite un regroupement hiérarchique agglomératif . Pouvons-nous utiliser chacun des algorithmes connus (liaison simple / maximale / moyenne, etc.) pour obtenir des résultats significatifs? Ou autrement dit, …
Je me rends donc compte que cela a déjà été demandé: par exemple, quels sont les cas d'utilisation liés à l'analyse de cluster de différentes métriques de distance? mais j'ai trouvé les réponses quelque peu contradictoires avec ce qui est suggéré devrait être possible dans la littérature. Récemment, j'ai lu …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.