Statistiques et Big Data

2

Les bayésiens acceptent-ils les axiomes de Kolmogorov?

Habituellement, la théorie des probabilités est enseignée avec les axiomes de Kolgomorov. Les bayésiens acceptent-ils également les axiomes de Kolmogorov?

24 probability bayesian kolmogorov-axioms

5

Exemples d'ACP où les PC à faible variance sont «utiles»

Normalement, dans l'analyse en composantes principales (ACP), les premiers PC sont utilisés et les PC à faible variance sont abandonnés, car ils n'expliquent pas beaucoup la variation des données. Cependant, existe-t-il des exemples où les PC à faible variation sont utiles (c'est-à-dire qu'ils ont une utilisation dans le contexte des …

24 pca

1

Régression avec uniquement des variables catégorielles

Est-il possible d'effectuer une régression si toutes les variables dépendantes et indépendantes sont des variables catégorielles?

24 regression logistic categorical-data

5

Quel est l'avantage de traiter un facteur comme aléatoire dans un modèle mixte?

J'ai un problème à accepter les avantages d'étiqueter un facteur de modèle comme aléatoire pour plusieurs raisons. Il me semble que dans presque tous les cas, la solution optimale consiste à traiter tous les facteurs comme fixes. Premièrement, la distinction entre fixe et aléatoire est assez arbitraire. L'explication standard est …

24 model-selection random-effects-model aic fixed-effects-model mixed-model

4

Shapiro – Wilk est-il le meilleur test de normalité? Pourquoi pourrait-il être meilleur que d'autres tests comme Anderson-Darling?

J'ai lu quelque part dans la littérature que le test de Shapiro-Wilk est considéré comme le meilleur test de normalité car pour un niveau de signification donné, , la probabilité de rejeter l'hypothèse nulle si elle est fausse est plus élevée que dans le cas de l'autre tests de normalité.αα\alpha …

24 hypothesis-testing normal-distribution normality-assumption

2

Pourquoi l'algorithme de maximisation des attentes est-il garanti de converger vers un optimum local?

J'ai lu quelques explications sur l'algorithme EM (par exemple de Bishop's Pattern Recognition and Machine Learning et de Roger and Gerolami First Course on Machine Learning). La dérivation de EM est ok, je le comprends. Je comprends également pourquoi l'algorithme couvre quelque chose: à chaque étape, nous améliorons le résultat …

24 missing-data convergence expectation-maximization

2

Dans l'analyse de survie, pourquoi utilisons-nous des modèles semi-paramétriques (risques proportionnels de Cox) au lieu de modèles entièrement paramétriques?

Cette question a été migrée à partir de Mathematics Stack Exchange car il est possible d'y répondre sur la validation croisée. Migré il y a 6 ans . J'ai étudié le modèle des risques proportionnels de Cox, et cette question est passée sous silence dans la plupart des textes. Cox …

24 survival cox-model

3

Validation croisée ou amorçage pour évaluer les performances de classification?

Quelle est la méthode d'échantillonnage la plus appropriée pour évaluer la performance d'un classificateur sur un ensemble de données particulier et la comparer avec d'autres classificateurs? La validation croisée semble être une pratique standard, mais j'ai lu que des méthodes telles que le bootstrap .632 sont un meilleur choix. À …

24 machine-learning classification predictive-models cross-validation bootstrap

4

Étant donné les taux de vrais positifs, de faux négatifs, pouvez-vous calculer les faux positifs, les vrais négatifs?

J'ai des valeurs pour True Positive (TP)et False Negative (FN)comme suit: TP = 0.25 FN = 0.75 À partir de ces valeurs, pouvons-nous calculer False Positive (FP)et True Negative (TN)?

24 roc confusion-matrix sensitivity-specificity

2

De quelle taille un ensemble d'entraînement est-il nécessaire?

Existe-t-il une méthode courante pour déterminer le nombre d'échantillons d'apprentissage nécessaires pour former un classificateur (un LDA dans ce cas) afin d'obtenir une précision de généralisation de seuil minimum? Je pose la question parce que je voudrais minimiser le temps d'étalonnage habituellement requis dans une interface cerveau-ordinateur.

24 classification

2

Comment concevoir et mettre en œuvre une fonction de perte asymétrique pour la régression?

Problème En régression, on calcule généralement l' erreur quadratique moyenne (MSE) pour un échantillon: pour mesurer la qualité d'un prédicteur.MSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 En ce moment, je travaille sur un problème de régression où l'objectif est de prédire le prix que les clients sont prêts à payer …

24 regression error loss-functions

3

Déterminer différents clusters de données 1d à partir de la base de données

J'ai une table de base de données de transferts de données entre différents nœuds. Il s'agit d'une énorme base de données (avec près de 40 millions de transferts). L'un des attributs est le nombre de transferts d'octets (nbytes) qui vont de 0 octet à 2 tera octets. Je voudrais regrouper …

24 clustering k-means

4

Est-ce une méthode appropriée pour tester les effets saisonniers des données sur le nombre de suicides?

J'ai 17 ans (1995 à 2011) de données sur les certificats de décès liés aux décès par suicide pour un État aux États-Unis.Il y a beaucoup de mythologie au sujet des suicides et des mois / saisons, en grande partie contradictoires, et de la littérature I ' ve revu, je …

24 r chi-squared arima count-data seasonality

5

Quelle est la robustesse du test t d'échantillons indépendants lorsque les distributions des échantillons ne sont pas normales?

J'ai lu que le test t est "raisonnablement robuste" lorsque les distributions des échantillons s'écartent de la normalité. Bien sûr, c'est la distribution d'échantillonnage des différences qui est importante. J'ai des données pour deux groupes. L'un des groupes est fortement asymétrique sur la variable dépendante. La taille de l'échantillon est …

24 t-test assumptions normality-assumption robust

1

Intervalle de prédiction de régression linéaire

Si la meilleure approximation linéaire (en utilisant les moindres carrés) de mes points de données est la ligne , comment puis-je calculer l'erreur d'approximation? Si je calcule l'écart type des différences entre les observations et les prédictions , puis-je dire plus tard qu'une valeur réelle (mais non observée) appartient à …

24 regression normal-distribution least-squares prediction-interval