Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

2
Combiner les informations de plusieurs études pour estimer la moyenne et la variance des données normalement distribuées - approches bayésienne vs méta-analytique
J'ai examiné un ensemble d'articles, chacun indiquant la moyenne et l'écart-type observés d'une mesure de dans son échantillon respectif de taille connue, . Je veux faire la meilleure supposition possible sur la distribution probable de la même mesure dans une nouvelle étude que je suis en train de concevoir, et …



2
somme des variables aléatoires du chi carré non central
J'ai besoin de trouver la distribution de la variable aléatoire Y=∑i=1n(Xi)2Y=∑i=1n(Xi)2Y=\sum_{i=1}^{n}(X_i)^2 où Xi∼N(μi,σ2i)Xi∼N(μi,σi2)X_i\sim{\cal{N}}(\mu_i,\sigma^2_i) et tous les XiXiX_i s sont indépendants. Je sais qu'il est possible de trouver d 'abord le produit de toutes les fonctions génératrices de moments pour XiXiX_i s, puis de retransformer pour obtenir la distribution de YYYCependant, …

1
Conversion (normalisation) de très petites valeurs de vraisemblance en probabilités
J'écris un algorithme dans lequel, étant donné un modèle, je calcule les probabilités pour une liste d'ensembles de données, puis je dois normaliser (selon la probabilité) chacune des probabilités. Donc, quelque chose comme [0,00043, 0,00004, 0,00321] pourrait être converti en peut être comme [0,2, 0,03, 0,77]. Mon problème est que …

6
Quelle est la différence entre les statistiques descriptives et inférentielles?
Ma compréhension était que les statistiques descriptives décrivaient quantitativement les caractéristiques d'un échantillon de données, tandis que les statistiques inférentielles faisaient des inférences sur les populations dont les échantillons étaient tirés. Cependant, la page wikipedia pour l'inférence statistique indique: Pour l'essentiel, l'inférence statistique fait des propositions sur les populations, en …





1
Détection des valeurs aberrantes dans les données de comptage
J'ai ce que je pensais naïvement être un problème assez simple qui implique la détection de valeurs aberrantes pour de nombreux ensembles différents de données de comptage. Plus précisément, je veux déterminer si une ou plusieurs valeurs dans une série de données de comptage sont supérieures ou inférieures aux attentes …

1
Quelles sont les améliorations bien connues par rapport aux algorithmes MCMC manuels que les gens utilisent pour l'inférence bayésienne?
Lorsque je code une simulation Monte Carlo pour un problème et que le modèle est assez simple, j'utilise un échantillonnage Gibbs très basique. Lorsqu'il n'est pas possible d'utiliser l'échantillonnage de Gibbs, je code le manuel Metropolis-Hastings que j'ai appris il y a des années. La seule pensée que je lui …


5
Forêt aléatoire vs régression
J'ai exécuté un modèle de régression OLS sur un ensemble de données avec 5 variables indépendantes. Les variables indépendantes et les variables dépendantes sont à la fois continues et liées linéairement. Le carré R est d'environ 99,3%. Mais quand j'exécute la même chose en utilisant une forêt aléatoire dans R, …

4
Imputation multiple et sélection de modèle
L'imputation multiple est assez simple lorsque vous disposez d' un modèle linéaire a priori que vous souhaitez estimer. Cependant, les choses semblent être un peu plus délicates lorsque vous voulez réellement faire une sélection de modèle (par exemple trouver le "meilleur" ensemble de variables prédictives à partir d'un ensemble plus …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.