Statistiques et Big Data definition

3

Qu'est-ce qu'une distribution exactement?

Je connais très peu de probabilités et de statistiques, et je souhaite apprendre. Je vois le mot «distribution» utilisé partout dans différents contextes. Par exemple, une variable aléatoire discrète a une «distribution de probabilité». Je sais ce que c'est. Une variable aléatoire continue a une fonction de densité de probabilité, …

16 distributions definition

4

La précision de la machine augmentant le gradient diminue à mesure que le nombre d'itérations augmente

J'expérimente l'algorithme de la machine de renforcement de gradient via le caretpackage en R. À l'aide d'un petit ensemble de données d'admission à l'université, j'ai exécuté le code suivant: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

5

Différence entre les termes «distribution conjointe» et «distribution multivariée»?

J'écris sur l'utilisation d'une «distribution de probabilité conjointe» pour un public qui serait plus susceptible de comprendre la «distribution multivariée», donc j'envisage d'utiliser la dernière. Cependant, je ne veux pas perdre de sens en faisant cela. Wikipédia semble indiquer qu'il s'agit de synonymes. Sont-ils? Sinon, pourquoi pas?

15 probability terminology joint-distribution definition

1

Quelle est la définition précise d'un «cas Heywood»?

J'avais utilisé le terme «Affaire Heywood» de manière quelque peu informelle pour faire référence à des situations où une estimation en ligne, «réponse finie» itérativement mise à jour de la variance devenait négative en raison de problèmes de précision numérique. (J'utilise une variante de la méthode de Welford pour ajouter …

15 variance factor-analysis definition online

2

Exemples d'une statistique qui n'est pas indépendante de la distribution de l'échantillon?

Ceci est la définition de la statistique sur wikipedia Plus formellement, la théorie statistique définit une statistique comme une fonction d'un échantillon où la fonction elle-même est indépendante de la distribution de l'échantillon; c'est-à-dire que la fonction peut être indiquée avant la réalisation des données. Le terme statistique est utilisé …

14 mathematical-statistics definition

1

Comment le «théorème fondamental de l'analyse factorielle» s'applique-t-il à l'ACP, ou comment les charges de l'ACP sont-elles définies?

Je passe actuellement par un jeu de diapositives que j'ai pour "l'analyse factorielle" (PCA pour autant que je sache). On y dérive le "théorème fondamental de l'analyse factorielle" qui prétend que la matrice de corrélation des données entrant dans l'analyse ( ) peut être récupérée en utilisant la matrice des …

14 pca factor-analysis terminology definition

1

Confondeur - définition

Selon M. Katz dans son livre Multivariable analysis (Section 1.2, page 6), " Un facteur de confusion est associé au facteur de risque et lié de manière causale au résultat. " Pourquoi le facteur de confusion doit-il être lié de manière causale au résultat? Serait-il suffisant que le confondant soit …

14 causality definition confounding

2

Rejetez-vous l'hypothèse nulle lorsque

Il s'agit clairement d'une question de définition ou de convention, et presque sans importance pratique. Si est réglé sur sa valeur traditionnelle de 0,05, une valeur de p de 0,0500000000000 ... est-elle considérée comme statistiquement significative ou non? La règle pour définir la signification statistique est-elle généralement considérée comme p …

14 hypothesis-testing statistical-significance definition

6

Quelle est la différence entre l'efficacité et l'efficacité pour déterminer le bénéfice de la thérapie «A» à la condition «B»?

Le contexte de cette question s'inscrit dans un cadre de santé c'est-à-dire en examinant une ou plusieurs thérapies dans le traitement d'une condition. Il semble que même des chercheurs très respectés confondent les termes efficacité et efficacité , en utilisant les termes de manière interchangeable. Comment penser l'efficacité par rapport …

14 epidemiology causality clinical-trials definition instrumental-variables

2

l'opérateur (x) signifie-t-il?

J'ai vu l' opérateur do(x)do(x)do(x) partout dans une revue de littérature que je fais sur la causalité (voir, par exemple, cette entrée wikipedia ). Cependant, je ne trouve pas de définition formelle et générale de cet opérateur. Quelqu'un peut-il me désigner une bonne référence à ce sujet? Je m'intéresse à …

14 references causality definition

2

Qu'est-ce que Thompson Sampling en termes simples?

Je n'arrive pas à comprendre Thompson Sampling et comment cela fonctionne. Je lisais sur Multi Arm Bandit et après avoir lu l'algorithme de limite de confiance supérieure, de nombreux textes suggéraient que l'échantillonnage de Thompson était plus performant que l'UCB. Qu'est-ce que Thompson Sampling, en termes simples ou simples? N'hésitez …

14 machine-learning definition multiarmed-bandit

2

Que signifie «invariant par permutation» dans le contexte des réseaux de neurones effectuant la reconnaissance d'images?

J'ai vu une version «invariante par permutation» de la tâche de reconnaissance des chiffres du MNIST. Qu'est-ce que ça veut dire?

14 machine-learning neural-networks terminology conv-neural-network definition

3

Définition et délimitation du modèle de régression

Une question embarrassante simple - mais il semble qu'elle n'a pas été posée sur Cross Validated avant: Quelle est la définition d'un modèle de régression? Aussi une question de support, Qu'est-ce qui n'est pas un modèle de régression? En ce qui concerne ce dernier, je suis intéressé par des exemples …

13 regression linear-model model terminology definition

2

Que sont les régularités et la régularisation?

J'entends ces mots de plus en plus alors que j'étudie l'apprentissage automatique. En fait, certaines personnes ont remporté la médaille Fields en travaillant sur les régularités des équations. Donc, je suppose que c'est un terme qui va de la physique statistique / mathématique à l'apprentissage automatique. Naturellement, un certain nombre …

12 machine-learning self-study terminology regularization definition

5

Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?

J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

Questions marquées «definition»