Statistiques et Big Data

3

Quelle est la somme des variables t au carré?

Soit titit_i tiré iid d'une distribution de Student t avec degrés de liberté, pour taille moyenne (disons inférieure à 100). Définir est-il distribué presque comme un chi carré avec degrés de liberté? Existe-t-il quelque chose comme le théorème de la limite centrale pour la somme des variables aléatoires au carré?nnnnnnT=∑1≤i≤kt2iT=∑1≤i≤kti2T …

20 chi-squared central-limit-theorem t-distribution

6

Bonne ressource pour comprendre l'ANOVA et l'ANCOVA?

Je mène des expériences pour un article et je suis à la recherche d'un livre / site Web intéressant pour bien comprendre comment fonctionnent l'ANOVA et l'ANCOVA. J'ai une bonne formation en mathématiques, donc je n'ai pas nécessairement besoin d'une explication vulgarisée. Je voudrais également savoir comment déterminer quand utiliser …

20 anova references ancova

2

Ajustement des covariables dans l'analyse de la courbe ROC

Cette question concerne l'estimation des scores de coupure sur un questionnaire de dépistage multidimensionnel pour prédire un critère d'évaluation binaire, en présence d'échelles corrélées. On m'a interrogé sur l'intérêt de contrôler les sous-scores associés lors de l'élaboration des scores de coupure sur chaque dimension d'une échelle de mesure (traits de …

20 epidemiology roc

2

Quelle est l'hypothèse NULL pour l'interaction dans une ANOVA bidirectionnelle?

Disons que nous avons deux facteurs (A et B), chacun avec deux niveaux (A1, A2 et B1, B2) et une variable de réponse (y). Lorsque vous effectuez une ANOVA bidirectionnelle du type: y~A+B+A*B Nous testons trois hypothèses nulles: Il n'y a pas de différence dans les moyennes du facteur A …

20 hypothesis-testing anova

14

Logiciel pour l'exploration de données simple mais robuste

Dans mes tentatives pour lutter contre le chaos des feuilles de calcul, je suis souvent évangélique en plaidant pour des outils plus robustes tels que de vrais logiciels de statistiques (R, Stata, etc.). Récemment, j'ai été contesté sur ce point de vue par quelqu'un qui a déclaré catégoriquement qu'il n'apprendrait …

20 data-visualization software

3

Appliquer le «truc du noyau» aux méthodes linéaires?

L' astuce du noyau est utilisée dans plusieurs modèles d'apprentissage automatique (par exemple SVM ). Il a été introduit pour la première fois dans le document "Fondements théoriques de la méthode de la fonction potentielle dans l'apprentissage par reconnaissance de formes" en 1964. La définition de wikipedia dit qu'il est …

20 machine-learning kernel-trick

3

Comment combiner des intervalles de confiance pour une composante de variance d'un modèle à effets mixtes lors de l'utilisation de l'imputation multiple

La logique de l'imputation multiple (MI) consiste à imputer les valeurs manquantes non pas une fois mais plusieurs (généralement M = 5), ce qui donne M ensembles de données terminés. Les M ensembles de données complétés sont ensuite analysés avec des méthodes de données complètes sur lesquelles les estimations M …

20 modeling confidence-interval mixed-model data-imputation

4

Algorithmes de Metropolis-Hastings utilisés dans la pratique

Je lisais aujourd'hui le blog de Christian Robert et j'aimais beaucoup le nouvel algorithme de Metropolis-Hastings dont il parlait. Cela semblait simple et facile à mettre en œuvre. Chaque fois que je code MCMC, j'ai tendance à m'en tenir à des algorithmes MH très basiques, tels que des mouvements indépendants …

20 mcmc metropolis-hastings

6

Mon météorologue est-il précis?

Une question qui me dérange depuis un certain temps, que je ne sais pas comment aborder: Chaque jour, mon météorologue donne un pourcentage de chance de pluie (supposons que son calculé à 9000 chiffres et il n'a jamais répété un nombre). Chaque jour suivant, il pleut ou ne pleut pas. …

20 hypothesis-testing forecasting

2

Comment la forêt aléatoire génère-t-elle la forêt aléatoire

Je ne suis pas un expert de la forêt aléatoire, mais je comprends clairement que le problème clé avec la forêt aléatoire est la génération d'arbres (aléatoire). Pouvez-vous m'expliquer comment les arbres sont générés? (c.-à-d. quelle est la distribution utilisée pour la génération d'arbres?) Merci d'avance !

20 machine-learning r algorithms cart random-forest

4

Quelles sont les valeurs correctes pour la précision et le rappel dans les cas de bord?

La précision est définie comme: p = true positives / (true positives + false positives) Est - il exact que, true positiveset false positivesapproche 0, la précision approche 1? Même question pour rappel: r = true positives / (true positives + false negatives) J'implémente actuellement un test statistique où j'ai …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

4

Qu'est-ce qu'une limite inférieure stricte sur le temps de collecte des coupons?

Dans le problème classique du collecteur de coupons , il est bien connu que le temps nécessaire pour terminer un ensemble de coupons choisis au hasard satisfait , , et .TTTnnnE[T]∼nlnnE[T]∼nln⁡nE[T] \sim n \ln n Var(T)∼n2Var(T)∼n2Var(T) \sim n^2Pr(T>nlnn+cn)<e−cPr(T>nln⁡n+cn)<e−c\Pr(T > n \ln n + cn) < e^{-c} Cette limite supérieure est …

20 probability probability-inequalities coupon-collector-problem

5

Post-hocs pour les tests intra-sujets?

Quelle est la méthode préférée pour effectuer des post-hocs pour les tests intra-sujets? J'ai vu des travaux publiés où le HSD de Tukey est utilisé, mais un examen de Keppel et Maxwell & Delaney suggère que la violation probable de la sphéricité dans ces conceptions rend le terme d'erreur incorrect …

20 r repeated-measures multiple-comparisons post-hoc sphericity

5

Quand pouvez-vous utiliser des critères basés sur des données pour spécifier un modèle de régression?

J'ai entendu dire que lorsque de nombreuses spécifications de modèle de régression (par exemple, dans OLS) sont considérées comme des possibilités pour un ensemble de données, cela pose de multiples problèmes de comparaison et les valeurs de p et les intervalles de confiance ne sont plus fiables. Un exemple extrême …

20 regression frequentist multiple-comparisons

4

Un modèle est-il adapté aux données ou les données sont-elles adaptées à un modèle?

Existe-t-il une différence conceptuelle ou procédurale entre l'ajustement d'un modèle aux données et l'ajustement des données au modèle? Un exemple de la première formulation peut être vu dans https://courses.washington.edu/matlab1/ModelFitting.html , et de la seconde dans https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .

20 terminology