Statistiques et Big Data

9

Comment obtenir la valeur p (vérification de la signification) d'un effet dans un modèle mixte lme4?

J'utilise lme4 in R pour s'adapter au modèle mixte lmer(value~status+(1|experiment))) où la valeur est continue, le statut et l'expérience sont des facteurs, et je reçois Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random …

56 r hypothesis-testing mixed-model p-value lme4-nlme

6

Quelle méthode peut être utilisée pour détecter la saisonnalité dans les données?

Je veux détecter la saisonnalité dans les données que je reçois. Il existe certaines méthodes que j'ai trouvées, telles que le graphe de sous-séries saisonnière et le graphe d'autocorrélation, mais je ne comprends pas comment lire le graphique. Quelqu'un peut-il aider? L'autre chose est, existe-t-il d'autres méthodes pour détecter la …

56 time-series seasonality

12

Logiciel nécessaire pour extraire les données du graphique [fermé]

Quelqu'un a-t-il une expérience avec un logiciel (de préférence gratuit, de préférence open source) qui prend une image de données tracées sur des coordonnées cartésiennes (un tracé standard quotidien) et extrait les coordonnées des points tracés sur le graphique? Il s’agit essentiellement d’un problème d’exploration de données et d’un problème …

56 data-visualization data-mining software

13

Quelles sont les avancées dans la statistique des 15 dernières années?

Je me souviens encore du document Annals of Statistics sur Boosting de Friedman-Hastie-Tibshirani, ainsi que des commentaires d'autres auteurs (dont Freund et Schapire) sur le même sujet. À l’époque, clairement, Boosting était perçu comme une avancée à bien des égards: réalisable sur le plan informatique, méthode d’ensemble, avec une performance …

56 mathematical-statistics history

8

Pourquoi continuer à enseigner et à utiliser les tests d'hypothèses (lorsque des intervalles de confiance sont disponibles)?

Pourquoi continuer à enseigner et à utiliser les tests d'hypothèses (avec tous ses concepts difficiles et lesquels comptent parmi les péchés les plus statistiques) pour des problèmes comportant un estimateur d'intervalle (confiance, bootstrap, crédibilité ou autre)? Quelle est la meilleure explication (le cas échéant) à donner aux étudiants? Seulement la …

56 hypothesis-testing confidence-interval teaching

2

Quelle est la différence entre une probabilité partielle, une probabilité de profil et une probabilité marginale?

Je vois que ces termes sont utilisés et que je continue à les mélanger. Existe-t-il une explication simple des différences entre eux?

56 estimation maximum-likelihood

4

Comment le minimum d'un ensemble de variables aléatoires est-il distribué?

Si sont des variables aléatoires indépendantes distribuées de manière identique, que peut-on dire de la distribution de en général?X1,...,XnX1,...,XnX_1, ..., X_nmin(X1,...,Xn)min(X1,...,Xn)\min(X_1, ..., X_n)

56 distributions random-variable minimum

6

Quelle implémentation de test de permutation dans R utiliser au lieu de tests t (appariés et non appariés)?

J'ai des données provenant d'une expérience que j'ai analysée à l'aide de tests t. La variable dépendante est mise à l'échelle par intervalles et les données sont soit non appariées (c'est-à-dire 2 groupes), soit appariées (c'est-à-dire intra-sujets). Par exemple (au sein des sujets): x1 <- c(99, 99.5, 65, 100, 99, …

56 r t-test nonparametric permutation-test

5

Quel est le lien entre un «modèle à effets aléatoires» en économétrie et des modèles mixtes extérieurs à l'économétrie?

J'avais l'habitude de penser que le "modèle à effets aléatoires" en économétrie correspond à un "modèle mixte avec interception aléatoire" en dehors de l'économétrie, mais je ne suis pas sûr à l'heure actuelle. Le fait-il? L'économétrie utilise des termes tels que "effets fixes" et "effets aléatoires", ce qui diffère quelque …

56 mixed-model econometrics panel-data lme4-nlme plm

8

Comment simuler des données qui satisfont à des contraintes spécifiques, telles que la moyenne et l’écart-type spécifiques?

Cette question est motivée par ma question sur la méta-analyse . Mais j'imagine que cela serait également utile dans les contextes pédagogiques dans lesquels vous souhaitez créer un jeu de données qui reflète exactement un jeu de données publié existant. Je sais comment générer des données aléatoires à partir d'une …

56 r dataset simulation random-generation

2

Pourquoi le retrait fonctionne-t-il?

Afin de résoudre les problèmes de sélection de modèle, un certain nombre de méthodes (LASSO, régression de crête, etc.) réduiront les coefficients des variables prédictives vers zéro. Je cherche une explication intuitive de la raison pour laquelle cela améliore la capacité de prédiction. Si le véritable effet de la variable …

55 lasso regularization ridge-regression intuition shrinkage

2

Une discussion plus définitive sur la sélection de variables

Contexte Je fais de la recherche clinique en médecine et j'ai suivi plusieurs cours de statistiques. Je n'ai jamais publié d'article sur la régression linéaire / logistique et souhaiterais effectuer une sélection de variables correctement. L’interprétabilité est importante, donc pas de techniques d’apprentissage automatique sophistiquées. J'ai résumé ma compréhension de …

55 regression feature-selection model-selection

10

Quels sont quelques exemples de pratiques anachroniques en statistique?

Je fais référence à des pratiques qui conservent toujours leur présence, même si les problèmes (généralement informatiques) auxquels elles étaient conçues étaient en grande partie résolus. Par exemple, la correction de continuité de Yates a été inventé pour rapprocher le test exact de Fisher avec test, mais il n'est pratique …

55 references philosophical

1

Test de Wald pour la régression logistique

Autant que je sache, le test de Wald dans le contexte de la régression logistique est utilisé pour déterminer si une certaine variable prédictive est significative ou non. Il rejette l'hypothèse nulle du coefficient correspondant égal à zéro.XXX Le test consiste à diviser la valeur du coefficient par l'erreur type …

55 logistic z-statistic

10

Qui sont fréquentistes?

Nous avions déjà un fil de discussion qui demandait qui étaient des Bayésiens et un autre qui demandait si les fréquentistes étaient bayésiens , mais aucun fil ne demandait directement qui étaient les fréquentistes . Ceci est une question qui a été posée par @whuber en tant que commentaire sur …

55 bayesian frequentist