Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données





8
Pourquoi continuer à enseigner et à utiliser les tests d'hypothèses (lorsque des intervalles de confiance sont disponibles)?
Pourquoi continuer à enseigner et à utiliser les tests d'hypothèses (avec tous ses concepts difficiles et lesquels comptent parmi les péchés les plus statistiques) pour des problèmes comportant un estimateur d'intervalle (confiance, bootstrap, crédibilité ou autre)? Quelle est la meilleure explication (le cas échéant) à donner aux étudiants? Seulement la …



6
Quelle implémentation de test de permutation dans R utiliser au lieu de tests t (appariés et non appariés)?
J'ai des données provenant d'une expérience que j'ai analysée à l'aide de tests t. La variable dépendante est mise à l'échelle par intervalles et les données sont soit non appariées (c'est-à-dire 2 groupes), soit appariées (c'est-à-dire intra-sujets). Par exemple (au sein des sujets): x1 <- c(99, 99.5, 65, 100, 99, …

5
Quel est le lien entre un «modèle à effets aléatoires» en économétrie et des modèles mixtes extérieurs à l'économétrie?
J'avais l'habitude de penser que le "modèle à effets aléatoires" en économétrie correspond à un "modèle mixte avec interception aléatoire" en dehors de l'économétrie, mais je ne suis pas sûr à l'heure actuelle. Le fait-il? L'économétrie utilise des termes tels que "effets fixes" et "effets aléatoires", ce qui diffère quelque …

8
Comment simuler des données qui satisfont à des contraintes spécifiques, telles que la moyenne et l’écart-type spécifiques?
Cette question est motivée par ma question sur la méta-analyse . Mais j'imagine que cela serait également utile dans les contextes pédagogiques dans lesquels vous souhaitez créer un jeu de données qui reflète exactement un jeu de données publié existant. Je sais comment générer des données aléatoires à partir d'une …

2
Pourquoi le retrait fonctionne-t-il?
Afin de résoudre les problèmes de sélection de modèle, un certain nombre de méthodes (LASSO, régression de crête, etc.) réduiront les coefficients des variables prédictives vers zéro. Je cherche une explication intuitive de la raison pour laquelle cela améliore la capacité de prédiction. Si le véritable effet de la variable …

2
Une discussion plus définitive sur la sélection de variables
Contexte Je fais de la recherche clinique en médecine et j'ai suivi plusieurs cours de statistiques. Je n'ai jamais publié d'article sur la régression linéaire / logistique et souhaiterais effectuer une sélection de variables correctement. L’interprétabilité est importante, donc pas de techniques d’apprentissage automatique sophistiquées. J'ai résumé ma compréhension de …


1
Test de Wald pour la régression logistique
Autant que je sache, le test de Wald dans le contexte de la régression logistique est utilisé pour déterminer si une certaine variable prédictive est significative ou non. Il rejette l'hypothèse nulle du coefficient correspondant égal à zéro.XXX Le test consiste à diviser la valeur du coefficient par l'erreur type …

10
Qui sont fréquentistes?
Nous avions déjà un fil de discussion qui demandait qui étaient des Bayésiens et un autre qui demandait si les fréquentistes étaient bayésiens , mais aucun fil ne demandait directement qui étaient les fréquentistes . Ceci est une question qui a été posée par @whuber en tant que commentaire sur …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.