Statistiques et Big Data

7

Quel est le problème avec les ajustements de Bonferroni?

J'ai lu l'article suivant: Perneger (1998) Qu'est-ce qui ne va pas avec les ajustements de Bonferroni . L'auteur a résumé en disant que l'ajustement de Bonferroni a, au mieux, des applications limitées dans la recherche biomédicale et ne devrait pas être utilisé lors de l'évaluation des preuves d'une hypothèse spécifique: …

23 hypothesis-testing multiple-comparisons bonferroni

5

Maintenant que j'ai rejeté l'hypothèse nulle, quelle est la prochaine étape?

J'ai à maintes reprises rejeté ou omis de rejeter l'hypothèse nulle. En cas de non-rejet du cas, vous concluez qu'il n'y a pas suffisamment de preuves pour le rejet et vous "continuez" (c.-à-d., Soit recueillir plus de données, mettre fin à l'expérience, etc.,) Mais lorsque vous "rejetez" l'hypothèse nulle, fournissant …

23 hypothesis-testing

1

Inverser la transformée de Fourier pour une distribution de Fisher

La fonction caractéristique de la distribution de Fisher est: où est la fonction hypergéométrique confluente . J'essaie de résoudre la transformée de Fourier inverse de la -convolution pour récupérer la densité d'une variable , soit: dans le but d'obtenir la distribution de la somme deC ( t ) = Γ …

23 probability random-variable f-distribution saddlepoint-approximation

1

L'analyse de puissance a priori est-elle essentiellement inutile?

J'ai assisté à une réunion de la Society for Personality and Social Psychology la semaine dernière où j'ai vu un discours d'Uri Simonsohn avec la prémisse que l'utilisation d'une analyse de puissance a priori pour déterminer la taille de l'échantillon était essentiellement inutile parce que ses résultats sont si sensibles …

23 hypothesis-testing power-analysis effect-size power methodology

2

Conséquences de la modélisation d'un processus non stationnaire à l'aide d'ARMA?

Je comprends que nous devrions utiliser ARIMA pour modéliser une série chronologique non stationnaire. De plus, tout ce que j'ai lu dit que l'ARMA ne devrait être utilisé que pour des séries chronologiques stationnaires. Ce que j'essaie de comprendre, c'est ce qui se passe dans la pratique lors d'une mauvaise …

23 r time-series arima stationarity

1

Les statistiques de validation croisée (CV) et de validation croisée généralisée (GCV)

J'ai trouvé des définitions potentiellement contradictoires pour la statistique de validation croisée (CV) et pour la statistique de validation croisée généralisée (GCV) associée à un modèle linéaire (avec un vecteur d'erreur homoscédastique normal ).εOui= Xβ + εOui=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilonεε\boldsymbol\varepsilon D'une part, Golub, Heath & Wahba définissent l'estimation GCV …

23 cross-validation

2

CHAID vs CRT (ou CART)

J'exécute une classification d'arbre de décision en utilisant SPSS sur un ensemble de données avec environ 20 prédicteurs (catégorique avec quelques catégories). CHAID (Détection automatique d'interaction chi carré) et CRT / CART (Arbres de classification et de régression) me donnent des arbres différents. Quelqu'un peut-il expliquer les mérites relatifs de …

23 spss cart

4

Quel est le problème avec (une) pseudo-randomisation

Je suis tombé sur une étude dans laquelle des patients, tous âgés de plus de 50 ans, étaient pseudo-randomisés par année de naissance. Si l'année de naissance était un nombre pair, soins habituels, si un nombre impair, intervention. C'est plus facile à mettre en œuvre, c'est plus difficile à renverser …

23 experiment-design clinical-trials random-allocation

2

Calcul de la taille de l'échantillon pour les modèles mixtes

Je me demande s'il existe des méthodes pour calculer la taille de l'échantillon dans les modèles mixtes? J'utilise lmeren R pour ajuster les modèles (j'ai des pentes et des interceptions aléatoires).

23 r mixed-model lme4-nlme power-analysis

3

Student t as mixture of gaussian

Utilisation de la distribution t de Student avec k>0k>0k > 0 degrés de liberté, paramètre de localisation et paramètre d'échelle ayant une densitéslllsss Γ(k+12)Γ(k2kπs2−−−−√){1+k−1(x−ls)}−(k+1)/2,Γ(k+12)Γ(k2kπs2){1+k−1(x−ls)}−(k+1)/2,\frac{\Gamma \left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\sqrt{k \pi s^2}\right)} \left\{ 1 + k^{-1}\left( \frac{x-l}{s}\right)\right\}^{-(k+1)/2}, comment montrer que la distribution Student peut être écrite comme un mélange de distributions gaussiennes en laissant , …

23 distributions mixture

2

Moyenne bayésienne au bâton avant

Je voulais poser une question inspirée d' une excellente réponse à la question sur l'intuition pour la distribution bêta. Je voulais mieux comprendre la dérivation de la distribution précédente de la moyenne au bâton. Il semble que David recule les paramètres de la moyenne et de la plage. En supposant …

23 bayesian prior

2

Stabilité des sujets dans les modèles de sujets

Je travaille sur un projet où je souhaite extraire des informations sur le contenu d'une série d'essais ouverts. Dans ce projet particulier, 148 personnes ont écrit des essais sur une organisation étudiante hypothétique dans le cadre d'une expérience plus vaste. Bien que dans mon domaine (psychologie sociale), la façon typique …

23 machine-learning model-selection small-sample topic-models dirichlet-process

2

Comment gérer la différence entre la distribution de l'ensemble de test et l'ensemble de formation?

Je pense qu'une hypothèse de base de l'apprentissage automatique ou de l'estimation des paramètres est que les données invisibles proviennent de la même distribution que l'ensemble d'apprentissage. Cependant, dans certains cas pratiques, la distribution de l'ensemble de test sera presque différente de l'ensemble de formation. Disons pour un problème de …

23 machine-learning classification skewness unbalanced-classes multi-class

4

Existe-t-il une implémentation de forêt aléatoire qui fonctionne bien avec des données très rares?

Existe-t-il une implémentation de forêt aléatoire R qui fonctionne bien avec des données très rares? J'ai des milliers ou des millions de variables d'entrée booléennes, mais seules des centaines environ seront VRAIES pour un exemple donné. Je suis relativement nouveau dans R et j'ai remarqué qu'il existe un package 'Matrix' …

23 r random-forest sparse

2

Nuage de points avec contour / superposition de chaleur

Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. J'ai vu ce complot dans le supplément d'un article récent et j'aimerais pouvoir le reproduire en utilisant R. C'est un nuage …

23 r data-visualization scatterplot