Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


5
Le fait que mon fils italien aille à l'école primaire modifiera-t-il le nombre d'enfants italiens attendus dans sa classe?
C’est une question qui découle d’une situation réelle, à propos de laquelle je suis vraiment perplexe quant à sa réponse. Mon fils doit commencer l'école primaire à Londres. Comme nous sommes italiens, j'étais curieuse de savoir combien d'enfants italiens fréquentaient déjà l'école. J'ai posé la question à l'agent d'admission lors …

3
Variance des estimations de validation croisée multipliées par sous la forme : quel est le rôle de la «stabilité»?
TL, DR: Il semble que, contrairement aux conseils répétés, la validation croisée "une fois (LOO-CV)" (laissez-passer une fois) - c’est-à-direun CVfois, avec(le nombre de plis) égal à(le d’observations d’entraînement) - fournit des estimations de l’erreur de généralisation qui sont la moindre variable pour tout, et non la plus variable, en …

1
Pourquoi glmer n'atteint-il pas le maximum de vraisemblance (comme le prouve l'application d'une optimisation générique supplémentaire)?
Dériver numériquement les MLE de GLMM est difficile et, dans la pratique, je sais que nous ne devrions pas utiliser l'optimisation de la force brute (par exemple, en utilisant optimune méthode simple). Mais pour mon propre but éducatif, je veux l'essayer pour m'assurer de bien comprendre le modèle (voir le …


3
Comparaison SVM et régression logistique
Quelqu'un peut-il me donner s'il vous plaît une certaine intuition quant au moment de choisir SVM ou LR? Je veux comprendre l'intuition de la différence entre les critères d'optimisation d'apprentissage de l'hyperplan des deux, dont les objectifs respectifs sont les suivants: SVM: essayez de maximiser la marge entre les vecteurs …


2
Intervalle de prédiction pour le modèle à effets mixtes lmer () dans R
Je veux obtenir un intervalle de prédiction autour d'une prédiction à partir d'un modèle lmer (). J'ai trouvé des discussions à ce sujet: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq mais ils semblent ne pas tenir compte de l'incertitude des effets aléatoires. Voici un exemple spécifique. Je cours des poissons d'or. J'ai des données sur …

6
Améliorer la classification avec de nombreuses variables catégorielles
Je travaille sur un ensemble de données comprenant plus de 200 000 échantillons et environ 50 caractéristiques par échantillon: 10 variables continues et les 40 autres valeurs sont des variables catégorielles (pays, langues, domaines scientifiques, etc.). Pour ces variables catégorielles, vous avez par exemple 150 pays différents, 50 langues, 50 …





3
SVM, Overfitting, malédiction de la dimensionnalité
Mon jeu de données est petit (120 échantillons), mais le nombre d’entités est important varie de (1000 à 200 000). Bien que je sois en train de sélectionner des fonctionnalités pour choisir un sous-ensemble de fonctionnalités, cela peut tout de même être excessif. Ma première question est la suivante: comment …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.