Statistiques et Big Data algorithms

7

Trouvez des paires proches dans un espace de dimension très élevé avec des vecteurs clairsemés

J'ai (~ un million) de vecteurs de caractéristiques. Il y a (~ un million) d'entités binaires, mais dans chaque vecteur, seulement (~ un millier) d'entre elles seraient égales à , les autres étant . Je recherche les paires de vecteurs qui ont au moins (~ cent) traits en commun ( …

9 algorithms high-dimensional

4

Comment échantillonner lorsque vous ne connaissez pas la distribution

Je suis assez nouveau dans les statistiques (une poignée de cours Uni de niveau débutant) et je me posais des questions sur l'échantillonnage à partir de distributions inconnues. Plus précisément, si vous n'avez aucune idée de la distribution sous-jacente, existe-t-il un moyen de "garantir" que vous obtenez un échantillon représentatif? …

9 distributions estimation sampling sample-size algorithms

3

Algorithme Apriori en anglais simple?

J'ai lu un article wiki sur Apriori. J'ai du mal à comprendre le pruneau et l'étape Join. Quelqu'un peut-il m'expliquer comment l'algorithme Apriori fonctionne en termes simples (de telle sorte que les novices comme moi peuvent facilement comprendre)? Ce sera bien si quelqu'un explique le processus étape par étape qui …

9 data-mining algorithms frequentist

3

Cluster efficace dans l'espace

La plupart des algorithmes de clustering que j'ai vus commencent par créer des distances de chaque point entre tous les points, ce qui devient problématique sur des ensembles de données plus importants. Y en a-t-il un qui ne le fait pas? Ou le fait-il dans une sorte d'approche partielle / …

9 clustering algorithms large-data

3

Cyclisme dans l'algorithme k-means

Selon wiki, le critère de convergence le plus utilisé est "l'assignation n'a pas changé". Je me demandais si le cyclisme peut se produire si nous utilisons un tel critère de convergence? Je serais heureux si quelqu'un faisait référence à un article qui donne un exemple de cyclisme ou prouve que …

9 clustering algorithms k-means

2

Forcer un ensemble de nombres à une courbe en cloche gaussienne

( Cela concerne ma question de programmation sur Stack Overflow : Bell Curve Gaussian Algorithm (Python et / ou C #) .) Sur Answers.com, j'ai trouvé cet exemple simple: Trouver la moyenne arithmétique (moyenne) => Somme de toutes les valeurs de l'ensemble, divisée par le nombre d'éléments de l'ensemble Trouver …

9 algorithms normal-distribution

2

Calculer la courbe ROC pour les données

Donc, j'ai 16 essais dans lesquels j'essaie d'authentifier une personne à partir d'un trait biométrique en utilisant Hamming Distance. Mon seuil est fixé à 3,5. Mes données sont ci-dessous et seul l'essai 1 est un vrai positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

Différence entre recuit simulé et plusieurs gourmands

J'essaie de comprendre quelle est la différence entre le recuit simulé et l'exécution de plusieurs algorithmes gourmands d'escalade. D'après ma compréhension, l'algorithme gourmand poussera le score à un maximum local, mais si nous commençons avec plusieurs configurations aléatoires et appliquons gourmand à toutes, nous aurons plusieurs maximums locaux. Ensuite, nous …

8 machine-learning optimization algorithms

2

Conditions de convergence des politiques et des algorithmes d'itération de valeurs

Des algorithmes d'itération de politiques et de valeurs peuvent être utilisés pour résoudre des problèmes de processus de décision de Markov. J'ai du mal à comprendre les conditions nécessaires à la convergence. Si la politique optimale ne change pas pendant deux étapes (c'est-à-dire pendant les itérations i et i + …

8 algorithms markov-process convergence

3

Comment effectuer une SVD pour imputer des valeurs manquantes, un exemple concret

J'ai lu les excellents commentaires sur la façon de traiter les valeurs manquantes avant d'appliquer SVD, mais j'aimerais savoir comment cela fonctionne avec un exemple simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Étant donné la matrice …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

2

Pourquoi un modèle statistique serait-il surchargé s'il était doté d'un énorme ensemble de données?

Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification): id, age, income, gender, job category, monthly spend dans laquelle se monthly spendtrouve la variable …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

Une façon plus simple de calculer la moyenne mobile à pondération exponentielle?

Méthode proposée: Étant donné une série temporelle , je veux calculer une moyenne mobile pondérée avec une fenêtre de moyenne de points, où les pondérations favorisent les valeurs plus récentes par rapport aux valeurs plus anciennes.Xjexix_iNNN En choisissant les poids, j'utilise le fait familier qu'une série géométrique converge vers 1, …

8 time-series forecasting algorithms weighted-mean

2

Littérature sur l'algorithme de fractionnement optimal dans la croissance des arbres de classification

Dans ESL , Section 9.7, il y a un paragraphe indiquant que le temps de calcul d'une scission dans la croissance d'un arbre de classification (ou de régression) s'échelonne généralement comme où est le nombre de prédicteurs et est le nombre de échantillons.pNlogNpNlog⁡Np N \log NpppNNN Une approche naïve se …

8 algorithms cart

4

FA: Choix de la matrice de rotation, basée sur des «critères de structure simples»

L'une des questions les plus importantes dans l'utilisation de l'analyse factorielle est son interprétation. L'analyse factorielle utilise souvent la rotation des facteurs pour améliorer son interprétation. Après une rotation satisfaisante, la matrice des facteurs de chargement pivotée L » aura la même capacité à représenter la matrice de corrélation et …

8 r algorithms factor-analysis psychometrics matlab

Questions marquées «algorithms»