Statistiques et Big Data

2

Dans quelle mesure la régression multiple peut-elle réellement «contrôler» les covariables?

Nous connaissons tous des études observationnelles qui tentent d'établir un lien de causalité entre un prédicteur X non randomisé et un résultat en incluant chaque facteur de confusion potentiel imaginable dans un modèle de régression multiple. En argumentant ainsi, en «contrôlant pour» tous les facteurs de confusion, nous isolons l'effet …

45 multiple-regression ancova observational-study

1

Comment interpréter une ANOVA et une MANOVA de types I, II et III?

Ma question principale est de savoir comment interpréter la sortie (coefficients, F, P) lors d’une analyse de variance de type I (séquentielle)? Mon problème de recherche spécifique est un peu plus complexe, je vais donc décomposer mon exemple en plusieurs parties. Premièrement, si je suis intéressé par l’effet de la …

45 r hypothesis-testing anova manova sums-of-squares

8

Quels sont les inconvénients de l'analyse bayésienne?

Quelles sont les objections pratiques à l’utilisation des méthodes statistiques bayésiennes dans n’importe quel contexte? Non, je ne parle pas de la discussion habituelle sur le choix de l’avant. Je serai ravi si cela ne donne pas de réponses.

45 bayesian

6

Comment effectuer un test en utilisant R pour voir si les données suivent la distribution normale

J'ai un ensemble de données avec la structure suivante: a word | number of occurrence of a word in a document | a document id Comment puis-je tester une distribution normale dans R? C'est probablement une question facile mais je suis un novice.

45 r distributions normality-assumption

6

Motivation pour la distance de Kolmogorov entre les distributions

Il existe de nombreuses façons de mesurer la similarité des deux distributions de probabilité. Parmi les méthodes qui sont populaires (dans différents cercles) figurent: la distance de Kolmogorov: la distance supérieure entre les fonctions de distribution; la distance de Kantorovich-Rubinstein: la différence maximale entre les attentes par rapport aux deux …

45 distributions probability hypothesis-testing mathematical-statistics

5

Que pouvons-nous dire de la population moyenne à partir d’un échantillon de 1?

Je me demande ce que nous pouvons dire, le cas échéant, sur la moyenne de la population, quand tout ce que j’ai, c’est une seule mesure, (taille de l’échantillon de 1). Évidemment, nous aimerions avoir plus de mesures, mais nous ne pouvons pas les obtenir.y 1μμ\muy1y1y_1 Il me semble que …

45 mean sample-size small-sample unbiased-estimator

8

Tous les modèles sont-ils inutiles? Un modèle exact est-il possible - ou utile?

Cette question me hante depuis plus d'un mois. Le numéro de février 2015 d' Amstat News contient un article du professeur Berkeley, Mark van der Laan, qui réprimande les gens pour l'utilisation de modèles inexacts. Il déclare qu'en utilisant des modèles, la statistique est alors un art plutôt qu'une science. …

45 machine-learning maximum-likelihood modeling nonparametric parametric

5

Régression lorsque les résidus OLS ne sont pas distribués normalement

Plusieurs sites de ce site discutent de la façon de déterminer si les résidus OLS sont distribués de manière asymptotique normalement. Un autre moyen d'évaluer la normalité des résidus avec le code R est fourni dans cette excellente réponse . Ceci est une autre discussion sur la différence pratique entre …

45 regression least-squares residuals assumptions normality-assumption

10

Qu'est-ce que le Big Data?

On m'a posé à plusieurs reprises la question: Qu'est-ce que le Big Data? À la fois par les étudiants et mes parents qui attirent l'attention sur les statistiques et ML. J'ai trouvé ce CV-post . Et je sens que je suis d’accord avec la seule réponse possible. La page Wikipedia …

44 large-data

6

Est-ce que l'inverse d'une probabilité représente quelque chose?

Je me demandais si l'inverse de P (X = 1) représente quelque chose en particulier?

44 probability

4

Pourquoi les statisticiens disent-ils qu'un résultat non significatif signifie «vous ne pouvez pas rejeter le zéro» plutôt que d'accepter l'hypothèse nulle?

Les tests statistiques traditionnels, tels que le test t à deux échantillons, visent à éliminer l'hypothèse selon laquelle il n'y a pas de différence entre une fonction de deux échantillons indépendants. Ensuite, nous choisissons un niveau de confiance et disons que si la différence de moyennes dépasse 95%, nous pouvons …

44 hypothesis-testing statistical-significance confidence-interval equivalence tost

4

Comment les noyaux sont-ils appliqués aux cartes de caractéristiques pour produire d'autres cartes de caractéristiques?

J'essaie de comprendre la partie convolution des réseaux de neurones convolutionnels. En regardant la figure suivante: Je n'ai aucun problème à comprendre la première couche de convolution où nous avons 4 noyaux différents (de taille ), que nous convolrons avec l'image d'entrée pour obtenir 4 cartes de caractéristiques.k×kk×kk \times k …

44 machine-learning neural-networks deep-learning conv-neural-network

6

Quel est votre graphique statistique préféré?

C'est l'un de mes favoris Cet exemple est dans une veine humoristique (Steven Gortmaker, ancien professeur à moi), mais je suis également intéressé par les graphiques que vous sentez magnifiquement capturer et communiquer une idée statistique ou une méthode, ainsi que vos idées à ce sujet. Une entrée par réponse. …

44 data-visualization

5

Statistiques publiées dans des articles académiques

J'ai lu de nombreux articles académiques sur l'évolution / l'écologie, parfois dans le but spécifique de voir comment les statistiques sont utilisées «dans le monde réel» en dehors du manuel. Je prends normalement les statistiques dans les papiers comme évangile et les utilise pour m'aider dans mon apprentissage statistique. Après …

44 publication-bias academia

1

Variance du produit de plusieurs variables aléatoires

Nous savons que la réponse pour deux variables indépendantes: Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2 {\rm Var}(XY) = E(X^2Y^2) − (E(XY))^2={\rm Var}(X){\rm Var}(Y)+{\rm Var}(X)(E(Y))^2+{\rm Var}(Y)(E(X))^2 Cependant, si nous prenons le produit de plus de deux variables, , quelle serait la réponse en termes de variance et de valeur attendue de chaque variable?Var(X1X2⋯Xn)Var(X1X2⋯Xn){\rm Var}(X_1X_2 \cdots X_n)

44 variance random-variable independence