Statistiques et Big Data

4

Comment le coefficient de corrélation diffère-t-il de la pente de régression?

Je me serais attendu à ce que le coefficient de corrélation soit identique à une pente de régression (bêta). Cependant, juste après avoir comparé les deux, ils sont différents. En quoi diffèrent-ils - quelles informations donnent-ils?

69 regression correlation

2

Forme de l'intervalle de confiance pour les valeurs prédites dans la régression linéaire

J'ai remarqué que l'intervalle de confiance pour les valeurs prédites dans une régression linéaire tend à être étroit autour de la moyenne du prédicteur et de la graisse autour des valeurs minimale et maximale du prédicteur. Ceci peut être vu dans les graphiques de ces 4 régressions linéaires: Je pensais …

69 regression confidence-interval linear-model standard-error prediction-interval

5

Kendall Tau ou le rho de Spearman?

Dans quels cas doit-on préférer l'un à l'autre? J'ai trouvé quelqu'un qui revendique un avantage pour Kendall, pour des raisons pédagogiques , y a-t-il d'autres raisons?

69 correlation nonparametric spearman-rho kendall-tau

19

Quels sont quelques projets open source d’analyses statistiques précieux?

Quels sont quelques projets open source d’analyses statistiques valables disponibles actuellement? Edit: comme le souligne Sharpie, être utile peut vouloir dire vous aider à accomplir vos tâches plus rapidement ou à moindre coût.

69 software open-source

4

Comment accorder les hyperparamètres des arbres xgboost?

J'ai une classe de données déséquilibrées et je veux régler les hyperparamètres du tress renforcé à l'aide de xgboost. Des questions Existe-t-il un équivalent de gridsearchcv ou randomsearchcv pour xgboost? Si non, quelle est l'approche recommandée pour ajuster les paramètres de xgboost?

69 machine-learning cross-validation xgboost boosting

8

Qu'entend-on par «variable aléatoire»?

Que veulent-ils dire quand ils parlent de "variable aléatoire"?

69 mathematical-statistics random-variable intuition definition

7

Tous les termes d'interaction ont-ils besoin de leurs termes individuels dans un modèle de régression?

En fait, je suis en train de passer en revue un manuscrit où les auteurs comparent 5 à 6 modèles de régression logit et AIC. Cependant, certains modèles comportent des termes d'interaction sans inclure les termes de covariable individuels. Cela a-t-il un sens de faire cela? Par exemple (non spécifique …

68 regression modeling interaction aic

10

Quel est le problème avec l'extrapolation?

Je me souviens d'avoir assisté à des cours de statistiques en tant qu'étudiant de premier cycle sur pourquoi l'extrapolation était une mauvaise idée. En outre, de nombreuses sources en ligne commentent ce sujet. Il y a aussi une mention de cela ici . Quelqu'un peut-il m'aider à comprendre pourquoi l'extrapolation …

68 regression time-series forecasting

4

Comment "additionner" un écart type?

J'ai une moyenne mensuelle pour une valeur et un écart-type correspondant à cette moyenne. Je calcule maintenant la moyenne annuelle comme étant la somme des moyennes mensuelles. Comment puis-je représenter l'écart type de la moyenne cumulée? Par exemple, en considérant la production d'un parc éolien: Month MWh StdDev January 927 …

68 standard-deviation descriptive-statistics

6

Quels sont les bons poids initiaux dans un réseau de neurones?

Je viens d’entendre que c’est une bonne idée de choisir les poids initiaux d’un réseau de neurones dans la plage , où est le nombre d'entrées dans un neurone donné. On suppose que les ensembles sont normalisés - moyenne 0, variance 1 (je ne sais pas si cela compte).d(−1d√,1d√)(-1ré,1ré)(\frac{-1}{\sqrt d} …

68 neural-networks normalization

2

Régression multiple multivariée dans R

J'ai 2 variables dépendantes (DV) dont chacune des notes peut être influencée par l'ensemble des 7 variables indépendantes (IV). Les DV sont continus, alors que l'ensemble des IV consiste en un mélange de variables codées continues et binaires. (Dans le code ci-dessous, les variables continues sont écrites en majuscules et …

68 r multivariate-analysis manova multiple-regression multivariate-regression

7

Comment générer des points uniformément répartis sur la surface de la sphère unité 3-d?

Je me demande comment générer des points uniformément répartis sur la surface de la sphère d'unité 3D? Aussi, après avoir généré ces points, quel est le meilleur moyen de visualiser et de vérifier s’ils sont vraiment uniformes sur la surface ?x2+y2+z2=1x2+y2+z2=1x^2+y^2+z^2=1

68 random-generation

11

Pourquoi devrais-je être bayésien quand mon modèle est faux?

Modifications: j'ai ajouté un exemple simple: l'inférence de la moyenne du . J'ai également légèrement expliqué pourquoi les intervalles crédibles ne correspondant pas aux intervalles de confiance sont mauvais.XiXiX_i Je suis un Bayésien passionné, je suis en pleine crise de foi. Mon problème est le suivant. Supposons que je veuille …

68 bayesian modeling philosophical misspecification

6

La sélection de variables pour la modélisation prédictive est-elle vraiment nécessaire en 2016?

Cette question a été posée sur CV il y a quelques années. Cela semble mériter d'être republié compte tenu des technologies informatiques les plus performantes (par exemple, calcul parallèle, calcul haute performance, etc.) et de nouvelles techniques, par exemple [3]. Tout d'abord, un peu de contexte. Supposons que l'objectif ne …

68 machine-learning modeling feature-selection model-selection prediction

1

40 000 articles sur les neurosciences pourraient se tromper

Dans The Economist, j’ai lu un article sur un article apparemment dévastateur [1] qui mettait en doute «quelque chose comme 40 000 études [IRMf] publiées». L'erreur, disent-ils, est due à des "hypothèses statistiques erronées". J'ai lu le journal et je vois que c'est en partie un problème avec les corrections …

67 hypothesis-testing multiple-comparisons spatial neuroimaging neuroscience