Statistiques et Big Data

2

Combiner les informations de plusieurs études pour estimer la moyenne et la variance des données normalement distribuées - approches bayésienne vs méta-analytique

J'ai examiné un ensemble d'articles, chacun indiquant la moyenne et l'écart-type observés d'une mesure de dans son échantillon respectif de taille connue, . Je veux faire la meilleure supposition possible sur la distribution probable de la même mesure dans une nouvelle étude que je suis en train de concevoir, et …

21 bayesian normal-distribution meta-analysis

5

Le postérieur bayésien doit-il être une distribution appropriée?

Je sais que les a priori n'ont pas besoin d'être appropriés et que la fonction de vraisemblance ne s'intègre pas non plus à 1. Mais le postérieur doit-il être une distribution appropriée? Quelles sont les implications si c'est / n'est pas?

21 distributions bayesian posterior

3

Comment vérifier la distribution normale à l'aide d'Excel pour effectuer un test t?

Je veux savoir comment vérifier la normalité d'un ensemble de données dans Excel, juste pour vérifier que les exigences pour l'utilisation d'un test t sont remplies . Pour la queue droite, est-il approprié de simplement calculer une moyenne et un écart-type, ajoutez 1, 2 et 3 écarts-types à la moyenne …

21 normal-distribution excel

2

somme des variables aléatoires du chi carré non central

J'ai besoin de trouver la distribution de la variable aléatoire Y=∑i=1n(Xi)2Y=∑i=1n(Xi)2Y=\sum_{i=1}^{n}(X_i)^2 où Xi∼N(μi,σ2i)Xi∼N(μi,σi2)X_i\sim{\cal{N}}(\mu_i,\sigma^2_i) et tous les XiXiX_i s sont indépendants. Je sais qu'il est possible de trouver d 'abord le produit de toutes les fonctions génératrices de moments pour XiXiX_i s, puis de retransformer pour obtenir la distribution de YYYCependant, …

21 distributions chi-squared random-variable saddlepoint-approximation

1

Conversion (normalisation) de très petites valeurs de vraisemblance en probabilités

J'écris un algorithme dans lequel, étant donné un modèle, je calcule les probabilités pour une liste d'ensembles de données, puis je dois normaliser (selon la probabilité) chacune des probabilités. Donc, quelque chose comme [0,00043, 0,00004, 0,00321] pourrait être converti en peut être comme [0,2, 0,03, 0,77]. Mon problème est que …

21 probability normalization likelihood c++ arithmetic

6

Quelle est la différence entre les statistiques descriptives et inférentielles?

Ma compréhension était que les statistiques descriptives décrivaient quantitativement les caractéristiques d'un échantillon de données, tandis que les statistiques inférentielles faisaient des inférences sur les populations dont les échantillons étaient tirés. Cependant, la page wikipedia pour l'inférence statistique indique: Pour l'essentiel, l'inférence statistique fait des propositions sur les populations, en …

21 terminology descriptive-statistics inference

6

Postérieure très différente de la précédente et de la vraisemblance

Si le prieur et la probabilité sont très différents l'un de l'autre, il se produit parfois une situation où le postérieur n'est semblable à aucun d'eux. Voir par exemple cette image, qui utilise des distributions normales. Bien que cela soit mathématiquement correct, cela ne semble pas correspondre à mon intuition …

21 bayesian prior posterior likelihood

3

Comment et quand utiliser l'ajustement Bonferroni

J'ai deux questions concernant le moment d'utiliser un ajustement Bonferroni: Est-il approprié d'utiliser un ajustement Bonferroni dans tous les cas de tests multiples? Si l'on effectue un test sur un ensemble de données, alors on divise cet ensemble de données en niveaux plus fins (par exemple, divise les données par …

21 multiple-comparisons bonferroni type-i-and-ii-errors

3

Avoir un conjugué avant: propriété profonde ou accident mathématique?

Certaines distributions ont des prieurs conjugués et d'autres non. Cette distinction n'est-elle qu'un accident? Autrement dit, vous faites le calcul, et cela fonctionne d'une manière ou d'une autre, mais cela ne vous dit vraiment rien d'important sur la distribution, sauf pour le fait lui-même? Ou la présence ou l'absence d'un …

21 bayesian mathematical-statistics conjugate-prior

5

Comment contrôler le coût des erreurs de classification dans les forêts aléatoires?

Est-il possible de contrôler le coût des erreurs de classification dans le package R randomForest ? Dans mon propre travail, les faux négatifs (par exemple, le fait de manquer par erreur qu'une personne peut avoir une maladie) sont beaucoup plus coûteux que les faux positifs. Le package rpart permet à …

21 r classification random-forest loss-functions metric

1

Détection des valeurs aberrantes dans les données de comptage

J'ai ce que je pensais naïvement être un problème assez simple qui implique la détection de valeurs aberrantes pour de nombreux ensembles différents de données de comptage. Plus précisément, je veux déterminer si une ou plusieurs valeurs dans une série de données de comptage sont supérieures ou inférieures aux attentes …

21 outliers count-data fitting

1

Quelles sont les améliorations bien connues par rapport aux algorithmes MCMC manuels que les gens utilisent pour l'inférence bayésienne?

Lorsque je code une simulation Monte Carlo pour un problème et que le modèle est assez simple, j'utilise un échantillonnage Gibbs très basique. Lorsqu'il n'est pas possible d'utiliser l'échantillonnage de Gibbs, je code le manuel Metropolis-Hastings que j'ai appris il y a des années. La seule pensée que je lui …

21 bayesian mcmc gibbs metropolis-hastings

5

Sources d'apprentissage (et pas seulement de fonctionnement) de statistiques / mathématiques via R

Je suis intéressé par des exemples de sources (code R, packages R, livres, chapitres de livre, articles, liens, etc.) pour apprendre des concepts statistiques et mathématiques via R (cela pourrait aussi se faire dans d'autres langues, mais R est ma saveur préférée). Le défi est que l'apprentissage du matériel repose …

21 r references mathematical-statistics

5

Forêt aléatoire vs régression

J'ai exécuté un modèle de régression OLS sur un ensemble de données avec 5 variables indépendantes. Les variables indépendantes et les variables dépendantes sont à la fois continues et liées linéairement. Le carré R est d'environ 99,3%. Mais quand j'exécute la même chose en utilisant une forêt aléatoire dans R, …

21 r regression random-forest

4

Imputation multiple et sélection de modèle

L'imputation multiple est assez simple lorsque vous disposez d' un modèle linéaire a priori que vous souhaitez estimer. Cependant, les choses semblent être un peu plus délicates lorsque vous voulez réellement faire une sélection de modèle (par exemple trouver le "meilleur" ensemble de variables prédictives à partir d'un ensemble plus …

21 multiple-regression multiple-imputation