Statistiques et Big Data

5

Quelle est la différence entre les algorithmes avant-arrière et Viterbi?

Je veux savoir quelles sont les différences entre l' algorithme avant-arrière et l' algorithme de Viterbi pour l'inférence dans les modèles de Markov cachés (HMM).

44 algorithms hidden-markov-model viterbi-algorithm forward-backward

4

Différence entre une forêt aléatoire et des arbres extrêmement randomisés

J'ai compris que Random Forest et Extremely Randomized Trees diffèrent en ce sens que les divisions des arbres de Random Forest sont déterministes, alors qu'elles sont aléatoires dans le cas d'arbres extrêmement aléatoires (pour être plus précis, la division suivante est la meilleure parmi les divisions uniformes aléatoires dans les …

44 machine-learning correlation references random-forest

5

Implémentations optimisées de l'algorithme Random Forest

J'ai remarqué qu'il existe quelques implémentations de forêt aléatoire telles que ALGLIB, Waffles et certains packages R tels que randomForest. Quelqu'un peut-il me dire si ces bibliothèques sont hautement optimisées? Sont-ils fondamentalement équivalents aux forêts aléatoires décrites dans Les éléments de l’apprentissage statistique ou ont-ils été complétés de nombreuses astuces? …

43 random-forest algorithms model-evaluation

4

Pourquoi les changements de log naturels sont-ils des pourcentages? Qu'en est-il des journaux qui rend cela si?

Quelqu'un peut-il expliquer comment les propriétés des journaux permettent de réaliser des régressions linéaires dans lesquelles les coefficients sont interprétés comme des pourcentages de variation?

43 regression logarithm mathematical-statistics

7

Références de réseaux de neurones (manuels, cours en ligne) pour débutants

Je veux apprendre les réseaux de neurones. Je suis un linguiste informatisé. Je connais des méthodes d’apprentissage statistique et peut coder en Python. Je cherche à commencer avec ses concepts et à connaître un ou deux modèles populaires qui pourraient être utiles du point de vue de la linguistique computationnelle. …

43 neural-networks deep-learning references natural-language computer-vision

13

L'apprentissage automatique peut-il décoder les hachages SHA256?

J'ai un hachage SHA256 de 64 caractères. J'espère former un modèle capable de prédire si le texte en clair utilisé pour générer le hachage commence par un 1 ou non. Peu importe si cela est "possible", quel algorithme serait la meilleure approche? Mes premières pensées Générez un grand échantillon de …

43 machine-learning logistic

3

Les CDF sont-ils plus fondamentaux que les PDF?

Mon stat prof dit, en gros, si l’un des trois suivants est donné, vous pouvez trouver les deux autres: Fonction de distribution cumulative Fonction de génération de moment Fonction de densité de probabilité Mais mon professeur d'économétrie a déclaré que les CDF sont plus fondamentaux que les PDF car il …

43 probability pdf cdf mgf

3

Couche Softmax dans un réseau de neurones

J'essaie d'ajouter une couche softmax à un réseau de neurones formé à la rétropropagation, alors j'essaie de calculer son gradient. La sortie softmax est hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} oùjjjest le nombre de neurones de sortie. Si je le dérive alors je reçois ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Similaire à la régression logistique. Cependant, cela est …

43 neural-networks

5

Que signifient «endogénéité» et «exogénéité»?

Je comprends que la définition de base de l'endogénéité est que n'est pas satisfait, mais qu'est-ce que cela signifie dans le sens du monde réel? J'ai lu l'article de Wikipedia, avec l'exemple de l'offre et de la demande, pour essayer de le comprendre, mais cela n'a pas vraiment aidé. J'ai …

43 regression causality instrumental-variables

2

Hypothèses de forêt aléatoires

Comme je suis un peu nouveau dans la forêt aléatoire, je suis toujours aux prises avec certains concepts de base. En régression linéaire, on suppose des observations indépendantes, une variance constante… Quelles sont les hypothèses de base que nous faisons lorsque nous utilisons une forêt aléatoire? Quelles sont les principales …

43 regression classification random-forest

6

Caractéristiques pour la classification des séries chronologiques

Je considère le problème de la classification (multiclass) basée sur des séries temporelles de longueur variable TTT , c’est-à-dire que l’on cherche une fonction f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ \text{for } X_T = (x_1, \dots, x_T)\\ \text{with } x_t \in \mathbb{R}^d ~, parintermédiaireune représentation …

43 time-series classification feature-selection signal-processing

4

Compendium de techniques de validation croisée

Je me demande si quelqu'un est au courant d'un recueil de techniques de validation croisée avec une discussion des différences entre elles et un guide sur le moment d'utiliser chacune d'elles. Wikipedia a une liste des techniques les plus courantes, mais je suis curieux de savoir s'il existe d'autres techniques …

43 cross-validation

5

Faux nombres aléatoires uniformes: Plus uniformément distribués que de vraies données uniformes

Je cherche un moyen de générer des nombres aléatoires qui semblent distribués de manière uniforme - et chaque test montrera qu'ils sont uniformes - sauf qu'ils sont distribués de manière plus uniforme que les données véritablement uniformes . Le problème que j'ai avec les "vrais" aléas uniformes, c'est qu'ils vont …

43 distributions random-generation uniform quasi-monte-carlo

9

De minuscules (réels) ensembles de données pour donner des exemples en classe?

Lorsqu'ils enseignent une classe d'initiation, les enseignants que je connais ont tendance à inventer des chiffres et une histoire pour illustrer la méthode qu'ils enseignent. Ce que je préférerais, c'est raconter une histoire vraie avec des chiffres réels. Cependant, ces récits doivent se rapporter à un très petit ensemble de …

43 dataset references teaching

3

Examen des statistiques dans les articles

Pour certains d'entre nous, l'arbitrage des documents fait partie du travail. Lors de l’arbitrage de documents de méthodologie statistique, je pense que des conseils provenant d’autres domaines sont plutôt utiles, à savoir l’ informatique et les mathématiques . Cette question concerne l'examen d'un plus grand nombre d'articles statistiques appliqués. J'entends …

43 journals referee