Statistiques et Big Data euclidean

7

La distance euclidienne n'est généralement pas bonne pour les données rares?

J'ai vu quelque part que les distances classiques (comme la distance euclidienne) deviennent faiblement discriminantes lorsque nous disposons de données multidimensionnelles et rares. Pourquoi? Avez-vous un exemple de deux vecteurs de données clairsemés où la distance euclidienne ne fonctionne pas bien? Dans ce cas, quelle similarité devrions-nous utiliser?

72 machine-learning clustering data-mining sparse euclidean

6

Pourquoi l'algorithme de clustering k-means utilise-t-il uniquement la métrique de distance euclidienne?

Existe-t-il un objectif spécifique en termes d'efficacité ou de fonctionnalité pour lequel l'algorithme k-means n'utilise pas, par exemple, la similarité cosinus comme métrique de distance, mais ne peut utiliser que la norme euclidienne? En général, la méthode K-means sera-t-elle conforme et sera-t-elle correcte si d'autres distances que Euclidean sont considérées …

62 clustering k-means distance-functions euclidean

2

La similitude cosinus est-elle identique à la distance euclidienne normalisée en l2?

Identiques sens, qu'il produira des résultats identiques pour une similitude entre le classement d' un vecteur u et un ensemble de vecteurs V . J'ai un modèle d'espace vectoriel qui a comme paramètres la mesure de distance (distance euclidienne, similitude cosinus) et la technique de normalisation (aucun, l1, l2). D'après …

27 normalization natural-language euclidean cosine-distance cosine-similarity

1

Conversion de la matrice de similarité en matrice de distance (euclidienne)

Dans l'algorithme de forêt aléatoire, Breiman (auteur) construit la matrice de similarité comme suit: Envoyez tous les exemples d'apprentissage dans chaque arbre de la forêt Si deux exemples atterrissent dans le même incrément de feuille élément correspondant dans la matrice de similarité de 1 Normaliser la matrice avec le nombre …

27 random-forest distance similarities euclidean

5

Comment puis-je convertir la distance (euclidienne) en score de similarité

J'utilise means clustering pour regrouper les voix des locuteurs. Lorsque je compare un énoncé avec des données de haut-parleur groupées, j'obtiens une distorsion moyenne (basée sur la distance euclidienne). Cette distance peut être comprise entre . Je veux convertir cette distance en un score de similitude . Veuillez me guider …

13 clustering k-means distance euclidean

1

Avantages de la distance de Jeffries Matusita

Selon certains articles que je lis, la distance de Jeffries et Matusita est couramment utilisée. Mais je n'ai pas trouvé beaucoup d'informations à ce sujet, sauf pour la formule ci-dessous JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} Elle est similaire à la distance euclidienne à l'exception de la racine carrée E (x, y) …

11 classification k-nearest-neighbour euclidean

3

Quelle distance utiliser? par exemple, manhattan, euclidienne, Bray-Curtis, etc.

Je ne suis pas un écologiste communautaire, mais ces jours-ci, je travaille sur des données écologiques communautaires. Ce que je ne pouvais pas comprendre, à part les mathématiques de ces distances, ce sont les critères pour chaque distance à utiliser et dans quelles situations elle peut être appliquée. Par exemple, …

11 distance euclidean

1

Pourquoi Anova () et drop1 () ont-ils fourni des réponses différentes pour les GLMM?

J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou summary(model). Ces deux derniers donnent les mêmes réponses. En utilisant un …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

Mon réseau de neurones ne peut même pas apprendre la distance euclidienne

J'essaie donc de m'enseigner les réseaux de neurones (pour les applications de régression, pas pour classer les photos de chats). Mes premières expériences ont été la formation d'un réseau pour implémenter un filtre FIR et une transformée de Fourier discrète (formation sur les signaux "avant" et "après"), car ce sont …

9 machine-learning neural-networks optimization keras euclidean

1

Un moyen efficace pour calculer les distances entre les centroïdes à partir de la matrice de distance

Faisons matrice carrée symétrique des carrés des distances euclidiennes entre points et vecteur lengthed indiquant cluster ou appartenance à un groupe ( clusters) des points; un cluster peut consister en un point .DD\bf Dnnnnnnkkk≥1≥1\ge1 Quel est le moyen le plus efficace ou vraiment efficace (en termes de vitesse) pour calculer …

8 clustering mean distance euclidean

Questions marquées «euclidean»