Statistiques et Big Data

1

Devrais-je normaliser les vecteurs de mots de word2vec avant de les utiliser?

Après avoir formé les vecteurs de mots avec word2vec, vaut-il mieux les normaliser avant de les utiliser pour certaines applications en aval? C'est-à-dire quels sont les avantages / inconvénients de les normaliser?

38 natural-language word2vec word-embeddings

5

Le fait que mon fils italien aille à l'école primaire modifiera-t-il le nombre d'enfants italiens attendus dans sa classe?

C’est une question qui découle d’une situation réelle, à propos de laquelle je suis vraiment perplexe quant à sa réponse. Mon fils doit commencer l'école primaire à Londres. Comme nous sommes italiens, j'étais curieuse de savoir combien d'enfants italiens fréquentaient déjà l'école. J'ai posé la question à l'agent d'admission lors …

37 probability self-study average

3

Variance des estimations de validation croisée multipliées par sous la forme : quel est le rôle de la «stabilité»?

TL, DR: Il semble que, contrairement aux conseils répétés, la validation croisée "une fois (LOO-CV)" (laissez-passer une fois) - c’est-à-direun CVfois, avec(le nombre de plis) égal à(le d’observations d’entraînement) - fournit des estimations de l’erreur de généralisation qui sont la moindre variable pour tout, et non la plus variable, en …

37 regression machine-learning variance cross-validation predictive-models

1

Pourquoi glmer n'atteint-il pas le maximum de vraisemblance (comme le prouve l'application d'une optimisation générique supplémentaire)?

Dériver numériquement les MLE de GLMM est difficile et, dans la pratique, je sais que nous ne devrions pas utiliser l'optimisation de la force brute (par exemple, en utilisant optimune méthode simple). Mais pour mon propre but éducatif, je veux l'essayer pour m'assurer de bien comprendre le modèle (voir le …

37 r maximum-likelihood optimization lme4-nlme

8

Quand faut-il inclure une variable dans une régression alors qu’elle n’est pas statistiquement significative?

Je suis un étudiant en économie avec une certaine expérience de l'économétrie et de R. J'aimerais savoir s'il existe une situation où nous devrions inclure une variable dans une régression alors qu'elle n'est pas statistiquement significative.

37 statistical-significance feature-selection

3

Comparaison SVM et régression logistique

Quelqu'un peut-il me donner s'il vous plaît une certaine intuition quant au moment de choisir SVM ou LR? Je veux comprendre l'intuition de la différence entre les critères d'optimisation d'apprentissage de l'hyperplan des deux, dont les objectifs respectifs sont les suivants: SVM: essayez de maximiser la marge entre les vecteurs …

37 regression logistic svm optimization

6

Teste si deux distributions binomiales sont statistiquement différentes l'une de l'autre

J'ai trois groupes de données, chacun avec une distribution binomiale (c'est-à-dire que chaque groupe a des éléments qui réussissent ou échouent). Je n'ai pas de probabilité de réussite prévue, mais je ne peux me fier qu'au taux de réussite de chacun comme approximation du taux de réussite réel. J'ai seulement …

37 statistical-significance binomial bernoulli-distribution

2

Intervalle de prédiction pour le modèle à effets mixtes lmer () dans R

Je veux obtenir un intervalle de prédiction autour d'une prédiction à partir d'un modèle lmer (). J'ai trouvé des discussions à ce sujet: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq mais ils semblent ne pas tenir compte de l'incertitude des effets aléatoires. Voici un exemple spécifique. Je cours des poissons d'or. J'ai des données sur …

37 r mixed-model prediction prediction-interval lme4-nlme

6

Améliorer la classification avec de nombreuses variables catégorielles

Je travaille sur un ensemble de données comprenant plus de 200 000 échantillons et environ 50 caractéristiques par échantillon: 10 variables continues et les 40 autres valeurs sont des variables catégorielles (pays, langues, domaines scientifiques, etc.). Pour ces variables catégorielles, vous avez par exemple 150 pays différents, 50 langues, 50 …

37 machine-learning classification categorical-data random-forest many-categories

8

Aidez-moi à calculer le nombre de personnes qui assisteront à mon mariage! Puis-je attribuer un pourcentage à chaque personne et les ajouter?

Je prépare mon mariage. Je souhaite estimer combien de personnes viendront à mon mariage. J'ai créé une liste de personnes et la possibilité qu'elles assistent en pourcentage. Par exemple Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% J'ai une liste d'environ 230 personnes avec des pourcentages. …

37 probability

2

Comment l'analyse factorielle explique-t-elle la covariance alors que l'ACP explique la variance?

Voici une citation du livre Bishop's "Pattern Recognition and Machine Learning", section 12.2.4 "Analyse factorielle": Selon la partie mis en évidence, l' analyse factorielle capture la covariance entre les variables dans la matriceWWW . Je me demande comment ? Voici comment je le comprends. Supposons que soit la variable dimensionnelle …

37 pca factor-analysis geometry

4

Une solide formation en mathématiques est-elle une condition préalable à la maîtrise du blanchiment?

Je commence à vouloir développer mes propres compétences et j'ai toujours été fasciné par l'apprentissage automatique. Cependant, il y a six ans, au lieu de poursuivre dans cette voie, j'ai décidé de passer à un autre niveau en informatique. Je développe des logiciels et des applications depuis environ 8 à …

37 machine-learning references mathematical-statistics

5

Comment tester une association non linéaire?

Pour le tracé 1, je peux tester l'association entre x et y en effectuant une simple corrélation. Pour le tracé 2, où la relation est non linéaire mais où il existe une relation claire entre x et y, comment puis-je tester l'association et nommer sa nature?

37 nonlinear-regression non-independent association-measure

3

SVM, Overfitting, malédiction de la dimensionnalité

Mon jeu de données est petit (120 échantillons), mais le nombre d’entités est important varie de (1000 à 200 000). Bien que je sois en train de sélectionner des fonctionnalités pour choisir un sous-ensemble de fonctionnalités, cela peut tout de même être excessif. Ma première question est la suivante: comment …

37 classification svm

2

Comment trouver un bon ajustement pour un modèle semi-sinusoïdal en R?

Je veux supposer que la température de surface de la mer Baltique est la même année après année, puis la décrire avec un modèle fonction / linéaire. L'idée que j'avais était de simplement entrer l'année sous forme de nombre décimal (ou num_months / 12) et de déterminer la température à …

37 r regression time-series lm