Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


2
Stimuler les réseaux de neurones
Eh bien récemment, je travaillais sur l'apprentissage d'algorithmes de renforcement, tels que adaboost, gradient boost, et je savais que le plus faible apprenant utilisé était les arbres. Je veux vraiment savoir s'il existe des exemples récents de succès (je veux dire des articles ou des articles) pour utiliser les réseaux …


2
couverture des intervalles de confiance avec des estimations régularisées
Supposons que j'essaie d'estimer un grand nombre de paramètres à partir de données de grande dimension, en utilisant une sorte d'estimations régularisées. Le régularisateur introduit un certain biais dans les estimations, mais il peut toujours être un bon compromis car la réduction de la variance devrait plus que compenser. Le …

1
Bootstrapping vs Bayesian Bootstrapping conceptuellement?
J'ai du mal à comprendre ce qu'est un processus d'amorçage bayésien et en quoi cela différerait de votre amorçage normal. Et si quelqu'un pouvait proposer un examen intuitif / conceptuel et une comparaison des deux, ce serait formidable. Prenons un exemple. Disons que nous avons un ensemble de données X …



2
Pourquoi la normalité des résidus est-elle «à peine importante du tout» aux fins de l'estimation de la droite de régression?
Gelman et Hill (2006) écrivent à la p46 que: L'hypothèse de régression qui est généralement la moins importante est que les erreurs sont normalement distribuées. En fait, aux fins de l'estimation de la droite de régression (par rapport à la prévision de points de données individuels), l'hypothèse de normalité est …

1
Quand utiliser les GLM binomiaux Poisson vs géométrique vs négatif pour les données de comptage?
J'essaie de me présenter quand il convient d'utiliser quel type de régression (géométrique, Poisson, binôme négatif) avec les données de comptage, dans le cadre GLM (seules 3 des 8 distributions GLM sont utilisées pour les données de comptage, bien que la plupart de ce que J'ai lu des centres autour …


2
Techniques d'augmentation des données pour les ensembles de données générales?
Dans de nombreuses applications d'apprentissage automatique, les méthodes dites d'augmentation des données ont permis de construire de meilleurs modèles. Par exemple, supposons un ensemble de formation de images de chats et de chiens. En tournant, en miroir, en ajustant le contraste, etc., il est possible de générer des images supplémentaires …


2
Quelles sont les principales différences entre les cadres de causalité de Granger et Pearl?
Récemment, j'ai parcouru plusieurs articles et ressources en ligne qui mentionnent la causalité de Granger . Une brève navigation dans l'article Wikipédia correspondant m'a laissé l'impression que ce terme fait référence à la causalité dans le contexte des séries chronologiques (ou, plus généralement, des processus stochastiques ). De plus, la …

2
R au carré dans la régression quantile
J'utilise la régression quantile pour trouver des prédicteurs du 90e centile de mes données. Je fais cela dans R en utilisant le quantregpackage. Comment puis-je déterminer pour la régression quantile qui indiquera le degré de variabilité expliqué par les variables prédictives?r2r2r^2 Ce que je veux vraiment savoir: "Toute méthode que …

3
Répartition du plus gros fragment d'un bâton cassé (espacements)
Soit un bâton de longueur 1 cassé en k+1k+1k+1 fragments uniformément au hasard. Quelle est la distribution de la longueur du plus long fragment? Plus formellement, soit (U1,…Uk)(U1,…Uk)(U_1, \ldots U_k) soit IID U(0,1)U(0,1)U(0,1) , et soit (U(1),…,U(k))(U(1),…,U(k))(U_{(1)}, \ldots, U_{(k)}) les statistiques d'ordre associées, c'est-à - dire que nous commandons simplement …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.