Statistiques et Big Data kernel-smoothing

2

Qu'est-ce qu'un "noyau" en anglais simplifié?

Il y a plusieurs usages distincts: estimation de la densité du noyau astuce du noyau lissage du noyau Veuillez expliquer ce que signifie le "noyau" en eux, en termes simples, avec vos propres mots.

73 kernel-trick kernel-smoothing

4

Bonnes méthodes pour les diagrammes de densité de variables non négatives dans R?

plot(density(rexp(100)) De toute évidence, toute densité à gauche de zéro représente un biais. Je cherche à résumer certaines données relatives aux non-statisticiens et à éviter de se demander pourquoi les données non négatives ont une densité inférieure à zéro. Les parcelles sont destinées à la vérification de la randomisation; Je …

36 r pdf gamma-distribution kernel-smoothing

2

Choisir une bande passante pour les estimateurs de densité du noyau

Pour les estimateurs univariés de densité de noyau (KDE), j'utilise la règle de Silverman pour calculer hhh : 0.9min(sd,IQR/1.34)×n−0.20.9min(sd,IQR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} Quelles sont les règles standard pour KDE multivarié (en supposant un noyau normal).

29 smoothing kernel-smoothing

1

«L'estimation de la densité du noyau» est une convolution de quoi?

J'essaie de mieux comprendre l'estimation de la densité du noyau. En utilisant la définition de Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^(x)=1n∑ni=1Kh(x−xi)=1nh∑ni=1K(x−xih)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) Prenons pour être une fonction rectangulaire qui donne si est compris entre et et sinon, et (taille de fenêtre) pour …

25 r kernel-smoothing convolution

2

Pouvez-vous expliquer l'estimation de la densité de la fenêtre de Parzen (noyau) en termes simples?

L'estimation de la densité de fenêtre de Parzen est décrite comme p(x)=1n∑i=1n1h2ϕ(xi−xh)p(x)=1n∑i=1n1h2ϕ(xi−xh) p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right) où est le nombre d'éléments dans le vecteur, x est un vecteur, p ( x ) est une densité de probabilité de x , h est la dimension de la fenêtre …

24 pdf kernel-smoothing intuition density-estimation

4

Comment projeter un nouveau vecteur sur l'espace PCA?

Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon vecteur par la matrice de rotation PCA. Les …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

Si le noyau Epanechnikov est théoriquement optimal lors de l'estimation de la densité du noyau, pourquoi n'est-il pas plus couramment utilisé?

J'ai lu (par exemple, ici ) que le noyau Epanechnikov est optimal, au moins dans un sens théorique, lors de l'estimation de la densité du noyau. Si cela est vrai, pourquoi le gaussien apparaît-il si fréquemment comme noyau par défaut, ou dans de nombreux cas le seul noyau, dans les …

18 nonparametric kernel-smoothing

2

Si les largeurs variables du noyau sont souvent bonnes pour la régression du noyau, pourquoi ne sont-elles généralement pas bonnes pour l'estimation de la densité du noyau?

Cette question est motivée par une discussion ailleurs . Les noyaux variables sont souvent utilisés dans la régression locale. Par exemple, le loess est largement utilisé et fonctionne bien comme un régulateur de régression, et est basé sur un noyau de largeur variable qui s'adapte à la rareté des données. …

17 nonparametric smoothing kernel-smoothing loess

1

Quelle est l'intuition derrière les échantillons échangeables sous l'hypothèse nulle?

Les tests de permutation (également appelés test de randomisation, test de re-randomisation ou test exact) sont très utiles et s'avèrent utiles lorsque l'hypothèse de distribution normale requise par exemple t-testn'est pas remplie et lorsque la transformation des valeurs par classement des un test non paramétrique comme Mann-Whitney-U-testcela entraînerait la perte …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

Aire sous le «pdf» dans l'estimation de la densité du noyau dans R

J'essaie d'utiliser la fonction « densité » dans R pour faire des estimations de densité du noyau. J'ai de la difficulté à interpréter les résultats et à comparer divers ensembles de données car il semble que l'aire sous la courbe ne soit pas nécessairement 1. Pour toute fonction de densité …

15 r estimation pdf kernel-smoothing auc

3

Comment calculer le chevauchement entre les densités de probabilité empiriques?

Je cherche une méthode pour calculer la zone de chevauchement entre deux estimations de densité de noyau dans R, comme mesure de similitude entre deux échantillons. Pour clarifier, dans l'exemple suivant, il me faudrait quantifier l'aire de la région de chevauchement violacé: library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), …

14 r probability pdf kernel-smoothing

1

Comment tirer des échantillons aléatoires d'une distribution estimée non paramétrique?

J'ai un échantillon de 100 points qui sont continus et unidimensionnels. J'ai estimé sa densité non paramétrique en utilisant les méthodes du noyau. Comment puis-je tirer des échantillons aléatoires de cette distribution estimée?

14 r sampling kernel-smoothing

1

Existe-t-il une bande passante optimale pour un estimateur de densité de noyau de dérivés?

J'ai besoin d'estimer la fonction de densité sur la base d'un ensemble d'observations à l'aide de l'estimateur de densité du noyau. Sur la base du même ensemble d'observations, j'ai également besoin d'estimer les première et deuxième dérivées de la densité en utilisant les dérivées de l'estimateur de densité du noyau. …

14 r nonparametric pdf kernel-smoothing

1

Bande passante du noyau: les règles de Scott contre Silverman

Quelqu'un pourrait-il expliquer en anglais simple quelle est la différence entre les règles empiriques de Scott et Silverman pour la sélection de la bande passante? Plus précisément, quand est-ce que l'un est meilleur que l'autre? Est-ce lié à la distribution sous-jacente? Nombre d'échantillons? PS Je fais référence au code dans …

14 kernel-smoothing

3

Où l'estimation de la densité est-elle utile?

Après avoir parcouru quelques mathématiques légèrement laconiques, je pense avoir une légère intuition de l'estimation de la densité du noyau. Mais je suis également conscient que l'estimation de la densité multivariée pour plus de trois variables pourrait ne pas être une bonne idée, en termes de propriétés statistiques de ses …

14 nonparametric pdf kernel-smoothing bivariate density-estimation

Questions marquées «kernel-smoothing»