Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

4
Nombre d'entités vs nombre d'observations
Existe-t-il des articles / livres / idées sur la relation entre le nombre de caractéristiques et le nombre d'observations nécessaires pour former un classifieur "robuste"? Par exemple, supposons que j'ai 1000 fonctionnalités et 10 observations de deux classes en tant qu'ensemble de formation et 10 autres observations en tant qu'ensemble …




3
La relation entre la distribution gamma et la distribution normale
J'ai récemment trouvé nécessaire de dériver un pdf pour le carré d'une variable aléatoire normale avec une moyenne de 0. Pour une raison quelconque, j'ai choisi de ne pas normaliser la variance au préalable. Si je l'ai fait correctement, ce pdf est le suivant: N2(x;σ2)=1σ2π−−√x−−√e−x2σ2N2(x;σ2)=1σ2πxe−x2σ2 N^2(x; \sigma^2) = \frac{1}{\sigma \sqrt{2 …

5
Quelle est la différence mathématique entre les effets aléatoires et les effets fixes?
J'ai trouvé beaucoup de choses sur Internet concernant l'interprétation des effets aléatoires et fixes. Cependant, je n'ai pas pu obtenir une source épinglant ce qui suit: Quelle est la différence mathématique entre les effets aléatoires et les effets fixes? J'entends par là la formulation mathématique du modèle et la façon …





4
Quelle est l'utilisation appropriée de scale_pos_weight dans xgboost pour les jeux de données déséquilibrés?
J'ai un ensemble de données très déséquilibré. J'essaie de suivre les conseils de réglage et d'utilisation, scale_pos_weightmais je ne sais pas comment dois-je le régler. Je peux voir que cela RegLossObj.GetGradientfait: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight donc un gradient d'un échantillon positif aurait plus d'influence. Cependant, selon l' …

2
Est-il vrai que les méthodes bayésiennes ne conviennent pas?
Est-il vrai que les méthodes bayésiennes ne conviennent pas? (J'ai vu des articles et des tutoriels faisant cette affirmation) Par exemple, si nous appliquons un processus gaussien au MNIST (classification des chiffres manuscrits), mais que nous ne lui montrons qu'un seul échantillon, reviendra-t-il à la distribution précédente pour toutes les …


8
Les barres d'erreur sur les probabilités ont-elles un sens?
Les gens disent souvent qu'un événement a 50 à 60% de chances de se produire. Parfois, je vais même voir des gens donner des barres d'erreur explicites sur les affectations de probabilité. Ces déclarations ont-elles un sens ou ne sont-elles qu'une bizarrerie linguistique d'inconfort en choisissant un numéro spécifique pour …

5
Un modèle suréquipé est-il nécessairement inutile?
Supposons qu'un modèle a une précision de 100% sur les données de formation, mais une précision de 70% sur les données de test. L'argument suivant est-il vrai à propos de ce modèle? Il est évident qu'il s'agit d'un modèle sur-équipé. La précision du test peut être améliorée en réduisant le …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.