Statistiques et Big Data

2

Qui a inventé la descente de gradient stochastique?

J'essaie de comprendre l'histoire de la descente de gradient et de la descente de gradient stochastique . La descente de gradient a été inventée à Cauchy en 1847. Méthode générale de résolution des systèmes d'équations simultanées . pp. 536–538 Pour plus d'informations à ce sujet, voir ici . Depuis lors, …

36 references gradient-descent history sgd

3

Pourquoi ne voit-on que les régularisations

Je suis juste curieux de savoir pourquoi il n’ya habituellement que des régularisations des normes L1L1L_1 et L2L2L_2 . Y a-t-il des preuves de la raison pour laquelle elles sont meilleures?

36 lasso regularization ridge-regression

1

Quelle est la différence entre l'échantillonnage Metropolis Hastings, Gibbs, Importance et Rejection?

J'ai essayé d'apprendre les méthodes MCMC et j'ai découvert l'échantillonnage de Hastings, Gibbs, Importance et Reject dans Metropolis. Certaines de ces différences sont évidentes, c’est-à-dire que Gibbs est un cas particulier de Metropolis Hastings lorsque nous avons les conditions complètes, alors que d’autres sont moins évidentes, comme lorsque nous voulons …

36 mcmc monte-carlo gibbs metropolis-hastings importance-sampling

6

Comment les scientifiques ont-ils calculé la forme de la fonction de densité de probabilité de distribution normale?

C’est probablement une question d’amateur, mais je voudrais savoir comment les scientifiques ont conçu la forme de la fonction de densité de probabilité de distribution normale. En gros, ce qui me dérange, c’est que, pour quelqu'un, il serait peut-être plus intuitif que la fonction de probabilité de données normalement distribuées …

36 normal-distribution history

6

Pourquoi le dénominateur de l'estimateur de covariance ne serait-il pas n-2 plutôt que n-1?

Le dénominateur de l'estimateur de variance (non biaisé) est car il y a observations et un seul paramètre est estimé.nn−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Dans le même esprit, je me demande pourquoi le dénominateur de la covariance ne serait pas lorsque deux paramètres sont estimés?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

36 self-study variance covariance descriptive-statistics unbiased-estimator

10

Pourquoi les temps de survie sont-ils supposés être distribués de manière exponentielle?

J'apprends l' analyse de survie de ce billet sur UCLA IDRE et je me suis fait avoir à la section 1.2.1. Le tutoriel dit: ... si on savait que les temps de survie étaient distribués de façon exponentielle , alors la probabilité d'observer un temps de survie ... Pourquoi les …

36 distributions survival assumptions exponential

2

Régression logistique vs LDA en tant que classificateurs à deux classes

J'essaie de comprendre la différence statistique entre l'analyse discriminante linéaire et la régression logistique . Ai-je bien compris que, pour un problème de classification à deux classes , LDA prédit deux fonctions de densité normales (une pour chaque classe) qui crée une limite linéaire à leur intersection, alors que la …

36 regression logistic classification discriminant-analysis

2

Dans quelle mesure les intervalles de confiance des objets lmer sont-ils fiables dans le paquet d'effets?

Effectspackage fournit un moyen très rapide et pratique pour tracer les résultats de modèle à effets mixtes linéaires obtenus par lme4package . leeffect fonction calcule très rapidement les intervalles de confiance (IC), mais dans quelle mesure ces intervalles de confiance sont-ils fiables? Par exemple: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- …

36 r mixed-model confidence-interval effects lme4-nlme

2

Intervalle de confiance autour de l'estimation binomiale de 0 ou 1

Quelle est la meilleure technique pour calculer un intervalle de confiance d’une expérience binomiale, si votre estimation est que (ou de la même manière ) et que la taille de l’échantillon est relativement petite, par exemple ?p=0p=0p=0p=1p=1p=1n=25n=25n=25

36 confidence-interval binomial

2

Comment savoir quelle méthode de validation croisée est la meilleure?

J'essaie de déterminer quelle méthode de validation croisée convient le mieux à ma situation. Les données suivantes ne sont qu'un exemple pour résoudre le problème (en R), mais mes Xdonnées réelles ( xmat) sont corrélées les unes avec les autres et à différents degrés avec la yvariable ( ymat). J'ai …

36 r regression cross-validation linear-model

4

Comment interpréter les coefficients d'un ajustement de modèle polynomial?

J'essaie de créer un ajustement polynomial du second ordre à certaines données que j'ai. Disons que je trace cette correspondance avec ggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) Je reçois: Ainsi, un ajustement de deuxième ordre fonctionne assez bien. Je le calcule avec R: summary(lm(data$bar ~ poly(data$foo, …

36 r regression interpretation regression-coefficients

5

La valeur p est-elle essentiellement inutile et dangereuse à utiliser?

Cet article du New York Times " Les chances, continuellement mises à jour" a attiré mon attention. Pour être bref, il est écrit que [Les statistiques bayésiennes] se révèlent particulièrement utiles pour aborder des problèmes complexes, y compris des recherches telles que celle utilisée par la Garde côtière en 2013 …

36 hypothesis-testing statistical-significance bayesian p-value reproducible-research

1

Alternatives à l'ANOVA unidirectionnelle pour les données hétéroscédastiques

J'ai des données de 3 groupes de biomasse d'algues ( , , ) qui contiennent des tailles d'échantillon inégales ( , , ) et j'aimerais comparer si ces groupes appartiennent à la même population.B C n A = 15 n B = 13 n C = 12UNEAABBBCCCnUNE= 15nA=15n_A=15nB= 13nB=13n_B=13nC= 12nC=12n_C=12 …

36 r anova data-transformation heteroscedasticity

3

Comment dériver une matrice de coefficients de variance-covariance en régression linéaire

Je lis un livre sur la régression linéaire et j’ai du mal à comprendre la matrice de variance-covariance de :bb\mathbf{b} Les éléments en diagonale sont assez faciles, mais les éléments en diagonale sont un peu plus difficiles. Ce qui me laisse perplexe, c'est que σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) …

36 regression

5

La signification de «dépendance positive» comme condition pour utiliser la méthode habituelle de contrôle FDR

Benjamini et Hochberg ont mis au point la première méthode (et toujours la plus largement utilisée, selon moi) pour contrôler le taux de fausses découvertes (FDR). Je veux commencer par un groupe de valeurs P, chacune pour une comparaison différente, et décider quelles sont suffisamment basses pour être appelées une …

36 multiple-comparisons non-independent false-discovery-rate