Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


3
PCA fonctionnerait-il pour les types de données booléens (binaires)?
Je souhaite réduire la dimensionnalité des systèmes d'ordre supérieur et capturer l'essentiel de la covariance sur un champ de préférence à 2 dimensions ou à 1 dimension. Je comprends que cela peut être fait via l’analyse en composantes principales et j’ai utilisé PCA dans de nombreux scénarios. Cependant, je ne …


2
Est-il inhabituel que MEAN surpasse ARIMA?
J'ai récemment appliqué diverses méthodes de prévision (MEAN, RWF, ETS, ARIMA et MLP) et j'ai constaté que MEAN était étonnamment performant. (MEAN: où toutes les prédictions futures sont prédites égales à la moyenne arithmétique des valeurs observées.) MEAN a même surperformé ARIMA sur les trois séries que j'ai utilisées. Ce …


3
Apprentissage en ligne ou hors ligne?
Quelle est la différence entre l' apprentissage hors ligne et en ligne ? Est-ce juste une question d’apprentissage sur l’ensemble du jeu de données (hors ligne) par opposition à un apprentissage incrémentiel (une instance à la fois)? Quels sont les exemples d'algorithmes utilisés dans les deux?

1
calculé manuellement ne correspond pas à randomForest () pour tester de nouvelles données
Je sais que cette question est assez spécifique R, mais je pense peut-être à la variance des proportions expliquée, , de manière incorrecte. Voici.R2R2R^2 J'essaie d'utiliser le Rpaquet randomForest. J'ai des données d'entraînement et des données de test. Lorsque j'adapte un modèle de forêt aléatoire, la randomForestfonction vous permet de …

3
Appliquer des mots incorporés à l'ensemble du document pour obtenir un vecteur de caractéristiques
Comment utiliser un mot incorporé pour mapper un document sur un vecteur de caractéristiques approprié pour une utilisation avec apprentissage supervisé? Un mot incorporant mappe chaque mot www à un vecteur v∈Rdv∈Rdv \in \mathbb{R}^d , où ddd est un nombre non trop grand (par exemple 500). Les mots les plus …


4
Qu'est-ce que l'invariance de la traduction dans la vision par ordinateur et le réseau de neurones convolutionnels?
Je n'ai pas de formation en vision par ordinateur. Pourtant, lorsque je lis des articles et des articles sur le traitement d'images et les réseaux de neurones convolutionnels, je suis constamment confronté au terme translation invariance, ou translation invariant. Ou j'ai lu beaucoup que l'opération de convolution fournit translation invariance? …

3
Quelles sont les différences entre 'epoch', 'batch' et 'minibatch'?
Autant que je sache, lors de l'adoption de l'algorithme d'apprentissage de Stochastic Gradient Descent, quelqu'un utilise 'epoch' pour l'ensemble de données complet, et 'batch' pour les données utilisées dans une seule étape de mise à jour, tandis qu'une autre utilise respectivement 'batch' et 'minibatch', et les autres utilisent 'epoch' et …

1
PCA et analyse de la correspondance dans leur relation avec Biplot
Biplot est souvent utilisé pour afficher les résultats de l' analyse en composantes principales (et des techniques associées). Il s’agit d’un diagramme de dispersion double ou superposé montrant les charges et les scores des composants simultanément. Aujourd'hui, @amoeba m'a informé qu'il avait donné une réponse partant de mon commentaire pour …

3
Nombre aléatoire-Set.seed (N) in R [dupliquer]
Cette question a déjà une réponse ici: Qu'est-ce qu'une graine dans un générateur de nombres aléatoires? 3 réponses Je me rends compte que l’on utilise set.seed()en R pour la génération de nombres pseudo-aléatoires. Je me rends également compte qu’utiliser le même numéro, comme pour set.seed(123)vous assurer de pouvoir reproduire les …


3
Calculer la variance du coefficient de régression dans la régression linéaire simple
Dans la régression linéaire simple, nous avons , où . J'ai dérivé l'estimateur: où et sont les exemples de moyennes de et .y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy Maintenant, je …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.