Statistiques et Big Data

4

Comment effectuer le test t de Student en ne connaissant que la taille de l'échantillon, la moyenne de l'échantillon et la moyenne de la population?

Le test ttt Student nécessite l'écart type de l'échantillon . Cependant, comment puis-je calculer pour lorsque seules la taille et la moyenne de l'échantillon sont connues?ssssss Par exemple, si la taille de l'échantillon est de et la moyenne de l'échantillon est de , j'essaierai alors de créer une liste de …

28 t-test standard-deviation small-sample

2

La standardisation avant Lasso est-elle vraiment nécessaire?

J'ai lu trois principales raisons de normaliser les variables avant quelque chose comme la Lassorégression: 1) Interprétabilité des coefficients. 2) Capacité de classer l'importance du coefficient en fonction de la magnitude relative des estimations du coefficient après retrait. 3) Pas besoin d'intercepter. Mais je m'interroge sur le point le plus …

28 normalization lasso standardization regularization shrinkage

5

Surajustement d'un modèle de régression logistique

Est-il possible d'ajuster un modèle de régression logistique? J'ai vu une vidéo disant que si ma zone sous la courbe ROC est supérieure à 95%, il est très probable qu'elle soit sur-ajustée, mais est-il possible de sur-adapter un modèle de régression logistique?

28 logistic overfitting regression-strategies

1

Deborah Mayo a-t-elle réfuté la preuve du principe de vraisemblance de Birnbaum?

Ceci est quelque peu lié à ma question précédente ici: Un exemple où le principe de vraisemblance * vraiment * importe? Apparemment, Deborah Mayo a publié un article dans Statistical Science réfutant la preuve de Birnbaum du principe de vraisemblance. Quelqu'un peut-il expliquer l'argument principal de Birnbaum et le contre-argument …

27 mathematical-statistics likelihood-principle

1

Pourquoi glmnet utilise-t-il un filet élastique «naïf» du papier original Zou & Hastie?

Le papier net élastique original Zou & Hastie (2005) Régularisation et sélection des variables via le filet élastique introduit la fonction de perte nette élastique pour la régression linéaire (ici, je suppose que toutes les variables sont centrées et mises à l'échelle de la variance unitaire): mais appelé "filet élastique …

27 regression regularization glmnet elastic-net shrinkage

1

Les degrés de liberté peuvent-ils être un nombre non entier?

Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

L'origine du terme «régularisation»

Lorsque je présente des concepts à mes élèves, je trouve souvent amusant de leur dire d'où vient la terminologie («régression», par exemple, est un terme avec une origine intéressante). Je n'ai pas pu retracer l'historique / le contexte du terme "régularisation" en statistique / apprentissage automatique. Alors, quelle est l'origine …

27 terminology regularization history tikhonov-regularization

2

Quelle quantité de cancer du poumon est réellement causée par le tabagisme? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé l'année dernière . Sur les produits du tabac, on peut souvent voir la statistique selon laquelle neuf …

27 epidemiology population-attributable-fraction

3

Ne peut-on pas dire maintenant que les modèles d'apprentissage profond sont interprétables? Les nœuds sont-ils des fonctionnalités?

Pour les modèles statistiques et d'apprentissage automatique, il existe plusieurs niveaux d'interprétabilité: 1) l'algorithme dans son ensemble, 2) des parties de l'algorithme en général 3) des parties de l'algorithme sur des entrées particulières, et ces trois niveaux divisés en deux parties chacun, un pour la formation et un pour la …

27 neural-networks deep-learning interpretation

3

Quels sont les impacts du choix de différentes fonctions de perte dans la classification pour approcher la perte 0-1

Nous savons que certaines fonctions objectives sont plus faciles à optimiser et certaines sont difficiles. Et il existe de nombreuses fonctions de perte que nous voulons utiliser mais difficiles à utiliser, par exemple une perte de 0-1. Nous trouvons donc des fonctions de perte de proxy pour faire le travail. …

27 machine-learning classification optimization loss-functions

9

Quand la corrélation peut-elle être utile sans causalité?

Un animal de compagnie disant de nombreux statisticiens est "La corrélation n'implique pas la causalité." C'est certainement vrai, mais une chose qui semble implicite ici est que la corrélation a peu ou pas de valeur. Est-ce vrai? Est-il inutile de savoir que deux variables sont corrélées? Je ne peux pas …

27 correlation predictive-models causality

3

Comment faire la différence entre les modèles de régression linéaire et non linéaire?

Je lisais le lien suivant sur la régression non linéaire SAS non linéaire . Ma compréhension de la lecture de la première section "Régression non linéaire vs régression linéaire" était que l'équation ci-dessous est en fait une régression linéaire, est-ce exact? Si oui, pourquoi? y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + …

27 regression multiple-regression nonlinear-regression multicollinearity

2

La similitude cosinus est-elle identique à la distance euclidienne normalisée en l2?

Identiques sens, qu'il produira des résultats identiques pour une similitude entre le classement d' un vecteur u et un ensemble de vecteurs V . J'ai un modèle d'espace vectoriel qui a comme paramètres la mesure de distance (distance euclidienne, similitude cosinus) et la technique de normalisation (aucun, l1, l2). D'après …

27 normalization natural-language euclidean cosine-distance cosine-similarity

2

Pourquoi les promenades aléatoires sont-elles intercorrélées?

J'ai observé qu'en moyenne, la valeur absolue du coefficient de corrélation de Pearson est une constante proche de n'importe quelle paire de marches aléatoires indépendantes, quelle que soit la longueur de la marche.0.560.42 Quelqu'un peut-il expliquer ce phénomène? Je m'attendais à ce que les corrélations diminuent à mesure que la …

27 time-series correlation stationarity random-walk

6

Que signifie «hautement non linéaire»?

Je lis souvent qu'une fonction est «hautement non linéaire». À ma connaissance, il y a «linéaire» et «non linéaire», alors de quoi s'agit-il «fortement»? Y a-t-il une différence formelle par rapport au non linéaire? Comment est-il défini?

27 terminology nonlinear mathematical-statistics