J'étudie la reconnaissance des formes et les statistiques et presque tous les livres que j'ouvre sur le sujet me heurtent au concept de distance de Mahalanobis . Les livres donnent en quelque sorte des explications intuitives, mais elles ne sont toujours pas suffisantes pour que je puisse réellement comprendre ce …
Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
J'ai appris sur l'intuition qui se cache derrière la divergence KL, en quoi une fonction de distribution de modèle diffère de la distribution théorique / vraie des données. La source que je lis poursuit en disant que la compréhension intuitive de la « distance » entre ces deux distributions est …
Je joue la classification hiérarchique des données que j'ai recueillies et traitées de la décharge de données reddit sur Google BigQuery. Mon processus est le suivant: Recevez les 1000 derniers articles dans / r / politique Rassemblez tous les commentaires Traiter les données et calculer une n x mmatrice de …
Dans l'algorithme de forêt aléatoire, Breiman (auteur) construit la matrice de similarité comme suit: Envoyez tous les exemples d'apprentissage dans chaque arbre de la forêt Si deux exemples atterrissent dans le même incrément de feuille élément correspondant dans la matrice de similarité de 1 Normaliser la matrice avec le nombre …
Existe-t-il une formule sous forme fermée pour (ou une sorte de liaison sur) l'EMD entre x1∼N(μ1,Σ1)x1∼N(μ1,Σ1)x_1\sim N(\mu_1, \Sigma_1) et x2∼N(μ2,Σ2)x2∼N(μ2,Σ2)x_2 \sim N(\mu_2, \Sigma_2) ?
Le test de Mantel est généralement appliqué aux matrices de distance / différence symétriques. D'après ce que je comprends, une hypothèse du test est que la mesure utilisée pour définir les différences doit être au moins une semi-métrique (répondre aux exigences standard d'une métrique mais pas l'inégalité du triangle). L'hypothèse …
Je voudrais regrouper hiérarchiquement mes données, mais plutôt que d'utiliser la distance euclidienne, je voudrais utiliser la corrélation. De plus, comme le coefficient de corrélation varie de -1 à 1, -1 et 1 désignant la «corégulation» dans mon étude, je traite à la fois -1 et 1 comme d = …
Je veux effectuer un regroupement K-means sur les objets que j'ai, mais les objets ne sont pas décrits comme des points dans l'espace, c'est-à-dire par objects x featuresensemble de données. Cependant, je suis capable de calculer la distance entre deux objets quelconques (il est basé sur une fonction de similitude). …
J'ai deux fonctions de densité de probabilité de distributions normales: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } et f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Je recherche la fonction de densité de probabilité de la séparation entre x1x1x_1 …
La plupart des algorithmes de clustering et de réduction de dimensionnalité classiques (clustering hiérarchique, analyse des composants principaux, k-means, cartes auto-organisées ...) sont conçus spécifiquement pour les données numériques, et leurs données d'entrée sont considérées comme des points dans un espace euclidien. C'est un problème bien sûr, car de nombreuses …
Veuillez prouver que si nous avons deux variables (taille d'échantillon égale) et et que la variance dans est plus grande que dans , alors la somme des différences au carré (c'est-à-dire les distances euclidiennes au carré) entre les points de données dans est également supérieure à que , dans .YXXXOuiOuiYYXXXOuiOuiYYXXXOuiOuiY
J'ai besoin de calculer la distance de Mahalanobis échantillon dans R entre chaque paire d'observations dans une matrice n×pn×pn \times p de covariables. J'ai besoin d'une solution efficace, c'est-à-dire que seules n(n−1)/2n(n−1)/2n(n-1)/2 distances sont calculées et de préférence implémentées dans C / RCpp / Fortran etc. Je suppose que ΣΣ\Sigma …
J'utilise KL Divergence comme mesure de dissimilarité entre 2 P et Q .p.m.f.p.m.f.p.m.f. PPPQQQ =-∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) Si alors nous pouvons facilement calculer que P ( X i ) l n ( Q ( X i ) ) = 0 …
J'ai deux ensembles de données (données source et cible) qui suivent la distribution différente. J'utilise MMD - qui est une distribution de distance non paramétrique - pour calculer la distribution marginale entre les données source et cible. données source, Xs données cibles, Xt matrice d'adaptation A * Données projetées, Zs …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.