Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


4
ANOVA vs régression linéaire multiple? Pourquoi l'ANOVA est-elle si couramment utilisée dans les études expérimentales?
ANOVA vs régression linéaire multiple? Je comprends que ces deux méthodes semblent utiliser le même modèle statistique. Cependant, dans quelles circonstances dois-je utiliser quelle méthode? Quels sont les avantages et les inconvénients de ces méthodes en comparaison? Pourquoi l'ANOVA est-elle si couramment utilisée dans les études expérimentales et je ne …

2
Sac de mots pour la classification de texte: pourquoi ne pas simplement utiliser des fréquences de mots au lieu de TFIDF?
Une approche courante de la classification des textes consiste à former un classificateur à partir d'un «sac de mots». L'utilisateur prend le texte à classer et compte les fréquences des mots dans chaque objet, suivi d'une sorte de recadrage pour conserver la matrice résultante d'une taille gérable. Souvent, je vois …

2
Le paradoxe des données iid (du moins pour moi)
En ce qui concerne ma connaissance globale (et rares) sur les permis de statistiques, je compris que si X1,X2,...,XnX1,X2,...,XnX_1, X_2,..., X_n sont des variables aléatoires iid, alors comme le terme l'indique, elles sont indépendantes et identiquement distribuées. Ce qui me préoccupe ici est l'ancienne propriété des échantillons iid, qui se …

3
Évaluation de la régression logistique et de l'interprétation de la qualité de l'ajustement Hosmer-Lemeshow
Comme nous le savons tous, il existe 2 méthodes pour évaluer le modèle de régression logistique et elles testent des choses très différentes Puissance prédictive: Obtenez une statistique qui mesure dans quelle mesure vous pouvez prédire la variable dépendante en fonction des variables indépendantes. Les Pseudo R ^ 2 bien …

2
Passer de la modélisation d'un processus à l'aide d'une distribution de Poisson pour utiliser une distribution binomiale négative?
\newcommand{\P}{\mathbb{P}} Nous avons un processus aléatoire qui peut ou mai ne pas se produire plusieurs fois dans une période de temps définie . Nous avons un flux de données à partir d'un modèle préexistant de ce processus, qui fournit la probabilité qu'un certain nombre d'événements se produisent dans la période …


4
Que pouvons-nous apprendre sur le cerveau humain des réseaux de neurones artificiels?
Je sais que ma question / titre n'est pas très précis, je vais donc essayer de le clarifier: Les réseaux de neurones artificiels ont des conceptions relativement strictes. Bien sûr, généralement, ils sont influencés par la biologie et tentent de construire un modèle mathématique de réseaux neuronaux réels, mais notre …

3
Pourquoi les transformations de puissance ou de journaux ne sont-elles pas beaucoup enseignées dans l'apprentissage automatique?
L'apprentissage automatique (ML) utilise fortement les techniques de régression linéaire et logistique. Elle repose également sur des techniques d'ingénierie (fonction feature transform, kerneletc.). Pourquoi rien au sujet variable transformation(par exemple power transformation) mentionné dans ML? (Par exemple, je n'ai jamais entendu parler de la prise de racine ou du journal …

1
Un multinomial (1 / n,…, 1 / n) peut-il être caractérisé comme un Dirichlet discrétisé (1, .., 1)?
Cette question est donc un peu compliquée, mais je vais inclure des graphiques colorés pour compenser cela! D'abord le contexte puis les questions. Contexte Supposons que vous ayez une distribution multinomiale à nnn dimensions avec des probailites égales sur les nnn catégories. Soit π= ( π1, … , Πn)π=(π1,…,πn)\pi = …

2
Les encodeurs automatiques ne peuvent pas apprendre de fonctionnalités significatives
J'ai 50 000 images comme celles-ci: Ils représentent des graphiques de données. Je voulais extraire des fonctionnalités de ces images, j'ai donc utilisé le code de l'encodeur automatique fourni par Theano (deeplearning.net). Le problème est que ces encodeurs automatiques ne semblent pas apprendre de fonctionnalités. J'ai essayé RBM et c'est …

4
Algorithmes pour la détection d'anomalies de séries chronologiques
J'utilise actuellement AnomalyDetection de Twitter dans R: https://github.com/twitter/AnomalyDetection . Cet algorithme fournit une détection d'anomalies de séries chronologiques pour les données avec saisonnalité. Question: existe-t-il d'autres algorithmes similaires à celui-ci (le contrôle de la saisonnalité n'a pas d'importance)? J'essaie de marquer autant d'algorithmes de séries temporelles que possible sur mes …

2
Lasso bayésien vs lasso ordinaire
Différents logiciels d'implémentation sont disponibles pour le lasso . Je sais que beaucoup de choses ont été discutées entre l'approche bayésienne et l'approche fréquentiste dans différents forums. Ma question est très spécifique au lasso - Quelles sont les différences ou les avantages du lasso baysian par rapport au lasso ordinaire …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.