Statistiques et Big Data data-mining

1

Inférence variationnelle en anglais simple

Après avoir regardé des vidéos sur YouTube, j'ai l'impression que je ne peux pas vraiment définir ce qu'est l'inférence variationnelle. Je peux suivre les procédures pendant que je regarde les conférences vidéo à ce sujet. Mais difficile de définir ce qui est vraiment. J'espère en entendre parler.

11 machine-learning mathematical-statistics data-mining

1

Quand utiliser l'impureté Gini et quand utiliser le gain d'informations?

Quelqu'un peut-il m'expliquer quand utiliser l'impureté Gini et le gain d'informations pour les arbres de décision? Pouvez-vous me donner des situations / des exemples de la meilleure façon de les utiliser?

11 machine-learning classification data-mining cart

2

Y a-t-il sur-ajustement dans cette approche de modélisation

On m'a récemment dit que le processus que j'avais suivi (composante d'une thèse de maîtrise) pouvait être considéré comme trop adapté. Je cherche à mieux comprendre cela et à voir si d'autres sont d'accord. L'objectif de cette partie du document est de Comparez les performances des arbres de régression à …

11 machine-learning data-mining predictive-models

3

Tutoriel PCA pratique avec données

La recherche sur Internet du didacticiel PCA donne des milliers de résultats (même des vidéos). Beaucoup de tutoriels sont très bons. Mais je ne suis pas en mesure de trouver d'exemple pratique où PCA est expliqué en utilisant des ensembles de données que je peux utiliser pour la démonstration. J'ai …

11 data-visualization dataset pca data-mining

1

Trouver des règles appropriées pour de nouvelles données à l'aide d'arules

J'utilise R (et le package d'arules) pour extraire des transactions pour les règles d'association. Ce que je veux faire, c'est construire les règles, puis les appliquer à de nouvelles données. Par exemple, disons que j'ai de nombreuses règles, dont l'une est canonique {Beer=YES} -> {Diapers=YES}. Ensuite, j'ai de nouvelles données …

11 r data-mining association-rules

14

Combien d'informations pouvez-vous extraire d'un nom?

Un nom: d'abord, éventuellement un deuxième prénom, et un nom de famille. Je suis curieux de savoir combien d'informations vous pouvez extraire d'un nom, en utilisant des ensembles de données accessibles au public. Je sais que vous pouvez obtenir ce qui suit n'importe où entre une probabilité faible à élevée …

11 dataset data-mining census

1

R / mgcv: Pourquoi les produits tenseurs te () et ti () produisent-ils des surfaces différentes?

Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne comprends pas, c'est pourquoi te(x1, …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

5

Le clustering comme moyen de fractionner les données pour la régression logistique

J'essaie de prédire le succès ou l'échec des étudiants en fonction de certaines fonctionnalités avec un modèle de régression logistique. Pour améliorer les performances du modèle, j'ai déjà pensé à diviser les élèves en différents groupes en fonction de différences évidentes et à construire des modèles distincts pour chaque groupe. …

11 clustering data-mining logistic

3

Bons livres couvrant le prétraitement des données et les techniques de détection des valeurs aberrantes

Comme son titre l'indique, quelqu'un connaît-il un bon livre à jour qui couvre le prétraitement des données en général et en particulier les techniques de détection des valeurs aberrantes? Le livre n'a pas besoin de se concentrer exclusivement sur cela, mais il devrait traiter de manière exhaustive les sujets susmentionnés …

11 dataset data-mining references outliers

2

La f-mesure est-elle synonyme de précision?

Je comprends que la f-mesure (basée sur la précision et le rappel) est une estimation de la précision d'un classificateur. De plus, la mesure f est préférée à la précision lorsque nous avons un ensemble de données déséquilibré. J'ai une question simple (qui concerne plus l'utilisation d'une terminologie correcte que …

11 machine-learning classification data-mining unbalanced-classes accuracy

2

Quelles sont les bonnes mesures pour évaluer la qualité d'un ajustement PCA, afin de sélectionner le nombre de composants?

Quelle est une bonne mesure pour évaluer la qualité de l'analyse en composantes principales (ACP)? J'ai effectué cet algorithme sur un ensemble de données. Mon objectif était de réduire le nombre de fonctionnalités (l'information était très redondante). Je sais que le pourcentage de variance conservé est un bon indicateur de …

10 machine-learning pca data-mining information-theory

1

Techniques d'exploration de données dans la campagne d'Obama

Je suis tombé sur cet article sur l'équipe d'exploration de données dans la campagne de réélection d'Obama. Malheureusement, l'article est très flou sur le mécanisme réel des algorithmes statistiques. Cependant, il semblait que les techniques générales soient connues en sciences sociales et politiques. Étant donné que ce n'est pas mon …

10 data-mining social-network social-science

1

Pourquoi Anova () et drop1 () ont-ils fourni des réponses différentes pour les GLMM?

J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou summary(model). Ces deux derniers donnent les mêmes réponses. En utilisant un …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

D'où vient le terme «apprendre un modèle»

Souvent, j'ai entendu les mineurs de données ici utiliser ce terme. En tant que statisticien qui a travaillé sur des problèmes de classification, je connais le terme "former un classificateur" et je suppose que "apprendre un modèle" signifie la même chose. Cela ne me dérange pas le terme "former un …

10 classification data-mining terminology model

3

Concernant l'utilisation du modèle bigramme (N-gramme) pour créer un vecteur d'entités pour un document texte

Une approche traditionnelle de la construction d'entités pour l'exploration de texte est une approche par sac de mots, et peut être améliorée à l'aide de tf-idf pour configurer le vecteur d'entités caractérisant un document texte donné. À l'heure actuelle, j'essaie d'utiliser un modèle de langage bi-gram ou (N-gram) pour créer …

10 machine-learning data-mining text-mining natural-language language-models

Questions marquées «data-mining»