Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données



5
Implémentations optimisées de l'algorithme Random Forest
J'ai remarqué qu'il existe quelques implémentations de forêt aléatoire telles que ALGLIB, Waffles et certains packages R tels que randomForest. Quelqu'un peut-il me dire si ces bibliothèques sont hautement optimisées? Sont-ils fondamentalement équivalents aux forêts aléatoires décrites dans Les éléments de l’apprentissage statistique ou ont-ils été complétés de nombreuses astuces? …


7
Références de réseaux de neurones (manuels, cours en ligne) pour débutants
Je veux apprendre les réseaux de neurones. Je suis un linguiste informatisé. Je connais des méthodes d’apprentissage statistique et peut coder en Python. Je cherche à commencer avec ses concepts et à connaître un ou deux modèles populaires qui pourraient être utiles du point de vue de la linguistique computationnelle. …


3
Les CDF sont-ils plus fondamentaux que les PDF?
Mon stat prof dit, en gros, si l’un des trois suivants est donné, vous pouvez trouver les deux autres: Fonction de distribution cumulative Fonction de génération de moment Fonction de densité de probabilité Mais mon professeur d'économétrie a déclaré que les CDF sont plus fondamentaux que les PDF car il …
43 probability  pdf  cdf  mgf 

3
Couche Softmax dans un réseau de neurones
J'essaie d'ajouter une couche softmax à un réseau de neurones formé à la rétropropagation, alors j'essaie de calculer son gradient. La sortie softmax est hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} oùjjjest le nombre de neurones de sortie. Si je le dérive alors je reçois ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Similaire à la régression logistique. Cependant, cela est …


2
Hypothèses de forêt aléatoires
Comme je suis un peu nouveau dans la forêt aléatoire, je suis toujours aux prises avec certains concepts de base. En régression linéaire, on suppose des observations indépendantes, une variance constante… Quelles sont les hypothèses de base que nous faisons lorsque nous utilisons une forêt aléatoire? Quelles sont les principales …

6
Caractéristiques pour la classification des séries chronologiques
Je considère le problème de la classification (multiclass) basée sur des séries temporelles de longueur variable TTT , c’est-à-dire que l’on cherche une fonction f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ \text{for } X_T = (x_1, \dots, x_T)\\ \text{with } x_t \in \mathbb{R}^d ~, parintermédiaireune représentation …

4
Compendium de techniques de validation croisée
Je me demande si quelqu'un est au courant d'un recueil de techniques de validation croisée avec une discussion des différences entre elles et un guide sur le moment d'utiliser chacune d'elles. Wikipedia a une liste des techniques les plus courantes, mais je suis curieux de savoir s'il existe d'autres techniques …

5
Faux nombres aléatoires uniformes: Plus uniformément distribués que de vraies données uniformes
Je cherche un moyen de générer des nombres aléatoires qui semblent distribués de manière uniforme - et chaque test montrera qu'ils sont uniformes - sauf qu'ils sont distribués de manière plus uniforme que les données véritablement uniformes . Le problème que j'ai avec les "vrais" aléas uniformes, c'est qu'ils vont …


3
Examen des statistiques dans les articles
Pour certains d'entre nous, l'arbitrage des documents fait partie du travail. Lors de l’arbitrage de documents de méthodologie statistique, je pense que des conseils provenant d’autres domaines sont plutôt utiles, à savoir l’ informatique et les mathématiques . Cette question concerne l'examen d'un plus grand nombre d'articles statistiques appliqués. J'entends …
43 journals  referee 

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.