Statistiques et Big Data

2

Interprétation de l'intrigue (glm.model)

Quelqu'un peut-il me dire comment interpréter les graphiques «résidus vs ajustés», «q-q normal», «emplacement-échelle» et «résidus vs effet de levier»? Je pose un GLM binomial, l'enregistre puis le trace.

30 r logistic data-visualization generalized-linear-model qq-plot

2

Comment interpréter la valeur de p du test de Kolmogorov-Smirnov (python)?

J'ai deux échantillons que je veux tester (en utilisant python) s'ils sont tirés de la même distribution. Pour ce faire, j'utilise la fonction statistique ks_2samp de scipy.stats. Il renvoie 2 valeurs et j'ai du mal à les interpréter. Aidez-moi, s'il vous plaît!

30 python

7

Quelles sont les branches des statistiques?

En mathématiques, il existe des branches telles que l'algèbre, l'analyse, la topologie, etc. Dans l'apprentissage automatique, il y a l'apprentissage supervisé, non supervisé et par renforcement. Dans chacune de ces branches, il existe des branches plus fines qui divisent davantage les méthodes. J'ai du mal à établir un parallèle avec …

30 self-study classification

3

Etendre le paradoxe de l'anniversaire à plus de 2 personnes

Dans le paradoxe d'anniversaire traditionnel, la question est "quelles sont les chances que deux personnes ou plus dans un groupe de personnes partagent un anniversaire". Je suis coincé sur un problème qui en est une extension.nnn Au lieu de connaître la probabilité que deux personnes partagent un anniversaire, je dois …

29 probability combinatorics birthday-paradox

3

Si X et Y ne sont pas corrélés, X ^ 2 et Y sont-ils également non corrélés?

Si deux variables aléatoires et sont pas corrélées, peut-on également savoir que et non corrélées? Mon hypothèse est oui.YXXXX 2OuiYYX2X2X^2OuiYY E [ X Y ] = E [ X ] E [ Y ]X, YX,YX, Y non corrélé signifie , ouE[ XOui] = E[ X] E[ Oui]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] E[ XOui] = …

29 random-variable independence

7

Quel est l'analyse des séries temporelles?

Quel est l'analyse des séries temporelles? Il existe de nombreuses autres méthodes statistiques, telles que la régression et l'apprentissage automatique, qui ont des cas d'utilisation évidents: la régression peut fournir des informations sur la relation entre deux variables, tandis que l'apprentissage automatique est idéal pour la prédiction. Mais en attendant, …

29 time-series arima

4

Quand dois-je équilibrer les classes dans un ensemble de données d'entraînement?

J'ai suivi un cours en ligne, où j'ai appris, que des classes déséquilibrées dans les données de formation pouvaient entraîner des problèmes, car les algorithmes de classification optent pour la règle de la majorité, car cela donne de bons résultats si le déséquilibre est trop important. Dans une affectation, il …

29 machine-learning classification unbalanced-classes

6

Pourquoi ne pas utiliser la troisième dérivée pour l'optimisation numérique?

Si les Hessois sont si bons pour l'optimisation (voir par exemple la méthode de Newton ), pourquoi s'arrêter là? Utilisons les troisième, quatrième, cinquième et sixième dérivés? Pourquoi pas?

29 optimization gradient-descent hessian

5

Distinguer deux groupes en statistiques et en machine learning: test d'hypothèse vs classification vs clustering

Supposons que j'ai deux groupes de données, étiquetés A et B (contenant chacun par exemple 200 échantillons et 1 fonction), et je veux savoir s'ils sont différents. Je pourrais: a) effectuer un test statistique (par exemple un test t) pour voir s'ils sont statistiquement différents. b) utiliser l'apprentissage automatique supervisé …

29 machine-learning hypothesis-testing t-test unsupervised-learning supervised-learning

4

La revue Science a-t-elle approuvé le Garden of Forking Pathes Analyses?

L'idée de l'analyse adaptative des données est que vous modifiez votre plan d'analyse des données à mesure que vous en apprenez davantage. Dans le cas de l'analyse exploratoire des données (EDA), c'est généralement une bonne idée (vous recherchez souvent des tendances imprévues dans les données), mais pour une étude de …

29 hypothesis-testing overfitting eda out-of-sample differential-privacy

5

Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique

Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

3

Une méta-analyse d'études qui ne sont pas toutes «statistiquement significatives» peut-elle conduire à une conclusion «significative»?

Une méta-analyse comprend un tas d'études, qui ont toutes rapporté une valeur P supérieure à 0,05. Est-il possible que la méta-analyse globale rapporte une valeur P inférieure à 0,05? Dans quelles circonstances? (Je suis presque sûr que la réponse est oui, mais j'aimerais une référence ou une explication.)

29 statistical-significance meta-analysis combining-p-values

5

Y a-t-il une explication pour expliquer pourquoi tant de phénomènes naturels suivent une distribution normale?

Je pense que c'est un sujet fascinant et je ne le comprends pas pleinement. Quelle loi de la physique fait que tant de phénomènes naturels ont une distribution normale? Il semblerait plus intuitif qu'ils auraient une distribution uniforme. Il est si difficile pour moi de comprendre cela et je sens …

29 distributions normal-distribution normality-assumption uniform

1

Pourquoi devons-nous normaliser les images avant de les mettre dans CNN?

Je ne comprends pas la raison pour laquelle nous normalisons l'image pour CNN par (image - mean_image)? Merci!

29 deep-learning conv-neural-network image-processing

3

Méthodes statistiques pour les données où seule une valeur minimale / maximale est connue

Existe-t-il une branche des statistiques qui traite des données dont les valeurs exactes ne sont pas connues , mais pour chaque individu, nous connaissons un maximum ou un minimum lié à la valeur ? Je soupçonne que mon problème provient en grande partie du fait que j'ai du mal à …

29 biostatistics population bounds interval-censoring