Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

Pourquoi la solution la moins carrée donne-t-elle de mauvais résultats dans ce cas?

Il y a une image à la page 204, chapitre 4 de "reconnaissance des formes et apprentissage automatique" par Bishop où je ne comprends pas pourquoi la solution du moindre carré donne de mauvais résultats ici: Le paragraphe précédent portait sur le fait que les solutions des moindres carrés manquent …

21 classification least-squares

Comment tester l'égalité des variances avec des données circulaires

Je souhaite comparer la quantité de variabilité au sein de 8 échantillons différents (chacun provenant d'une population différente). Je suis conscient que cela peut être fait par plusieurs méthodes avec des données de rapport: égalité de variance du test F, test de Levene, etc. Cependant, mes données sont circulaires / …

21 variance matlab f-test circular-statistics

Que se passe-t-il lorsque vous appliquez SVD à un problème de filtrage collaboratif? Quelle est la différence entre les deux?

Dans le filtrage collaboratif, nous avons des valeurs qui ne sont pas remplies. Supposons qu'un utilisateur n'a pas regardé un film, alors nous devons y mettre un «na». Si je vais prendre un SVD de cette matrice, je dois y mettre un certain nombre - disons 0. Maintenant, si je …

21 machine-learning svd recommender-system

Différence entre l'analyse de régression et l'analyse de la variance?

Cette question a été migrée à partir de Mathematics Stack Exchange car elle peut être répondue sur la validation croisée. Migré il y a 7 ans . J'apprends en ce moment sur l'analyse de régression et l'analyse de la variance. Dans l'analyse de régression, vous avez une variable fixe et …

21 regression

Diagnostics résiduels dans les modèles de régression basés sur MCMC

Je me suis récemment lancé dans l'ajustement de modèles mixtes de régression dans le cadre bayésien, en utilisant un algorithme MCMC (fonction MCMCglmm dans R en fait). Je crois avoir compris comment diagnostiquer la convergence du processus d'estimation (trace, tracé de geweke, autocorrélation, distribution postérieure ...). L'une des choses qui …

21 r bayesian mixed-model mcmc residuals

Comparaison et contraste, valeurs de p, niveaux de signification et erreur de type I

Je me demandais si quelqu'un pouvait donner un aperçu concis des définitions et des utilisations des valeurs de p, du niveau de signification et des erreurs de type I. Je comprends que les valeurs de p sont définies comme "la probabilité d'obtenir une statistique de test au moins aussi extrême …

21 hypothesis-testing probability statistical-significance p-value error

Qu'est-ce qu'une matrice de covariance définie non positive m'indique sur mes données?

J'ai un certain nombre d'observations multivariées et je voudrais évaluer la densité de probabilité à travers toutes les variables. On suppose que les données sont normalement distribuées. À un faible nombre de variables, tout fonctionne comme je m'y attendais, mais le passage à un plus grand nombre fait que la …

21 normal-distribution multivariate-analysis covariance

Comment puis-je aligner / synchroniser deux signaux?

Je fais des recherches mais je suis resté bloqué au stade de l'analyse (j'aurais dû prêter plus d'attention à mes conférences de statistiques). J'ai collecté deux signaux simultanés: débit intégré pour le volume et changement d'expansion thoracique. J'aimerais comparer les signaux et j'espère finalement tirer le volume du signal d'expansion …

21 r time-series signal-processing measurement

Modèles empilables / assemblables avec caret

Je me retrouve souvent à former plusieurs modèles prédictifs différents en utilisant caretR. Je vais tous les former sur les mêmes plis de validation croisée, en utilisant caret::: createFolds, puis en choisissant le meilleur modèle basé sur une erreur de validation croisée. Cependant, la prédiction médiane de plusieurs modèles surpasse …

21 r caret ensemble

Importance des prédicteurs dans la régression multiple: partiel vs coefficients standardisés

Je me demande quelle est la relation exacte entre le partiel et les coefficients dans un modèle linéaire et si je ne devrais utiliser qu'un seul ou les deux pour illustrer l'importance et l'influence des facteurs.R2R2R^2 Pour autant que je sache, avec summaryj'obtiens des estimations des coefficients, et avec anovala …

21 r regression multiple-regression regression-coefficients r-squared

Une nouvelle façon révolutionnaire d'exploration de données?

L'extrait suivant est tiré de Schwager's Hedge Fund Market Wizzards (mai 2012), une entrevue avec le gestionnaire de fonds de couverture à succès constant Jaffray Woodriff: À la question: "Quelles sont les pires erreurs que les gens commettent dans l'exploration de données?": Beaucoup de gens pensent qu'ils vont bien parce …

21 data-mining curve-fitting out-of-sample

PCA lorsque la dimensionnalité est supérieure au nombre d'échantillons

Je suis tombé sur un scénario où j'ai 10 signaux / personne pour 10 personnes (donc 100 échantillons) contenant 14000 points de données (dimensions) que je dois transmettre à un classificateur. Je voudrais réduire la dimensionnalité de ces données et l'ACP semble être le moyen de le faire. Cependant, je …

21 pca dimensionality-reduction svd

Première étape pour les mégadonnées (

Supposons que vous analysez un énorme ensemble de données à hauteur de milliards d'observations par jour, où chaque observation comporte quelques milliers de variables numériques et catégorielles éparses et peut-être redondantes. Disons qu'il y a un problème de régression, un problème de classification binaire déséquilibré et une tâche de «découvrir …

21 r machine-learning data-mining large-data

Quand est - ce champs aléatoires de Markov

Dans leur manuel, Modèles graphiques, familles exponentielles et inférence variationnelle , M. Jordan et M. Wainwright discutent du lien entre les familles exponentielles et les champs aléatoires de Markov (modèles graphiques non dirigés). J'essaie de mieux comprendre la relation entre eux avec les questions suivantes: Tous les MRF sont-ils membres …

21 mathematical-statistics graphical-model

Deux variables aléatoires peuvent-elles avoir la même distribution, mais être presque sûrement différentes?

Est-il possible que deux variables aléatoires aient la même distribution et pourtant elles sont presque sûrement différentes?

21 distributions probability

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.

Licensed under cc by-sa 3.0 with attribution required.