Statistiques et Big Data

11

Quels sont les podcasts liés à l'analyse statistique? J'ai trouvé des enregistrements audio de conférences universitaires sur ITunes U, mais je ne connais aucun podcast statistique. La chose la plus proche que je connaisse est un podcast de recherche opérationnelle The Science of Better . Il touche à des problèmes …

29 references

3

Le test de Kolmogorov-Smirnov est-il valide avec des distributions discrètes?

Je compare un échantillon et vérifie s'il est distribué comme une distribution discrète. Cependant, je ne suis pas sûr que Kolmogorov-Smirnov s'applique. Wikipédia semble impliquer que non. Si ce n'est pas le cas, comment puis-je tester la distribution de l'échantillon?

29 hypothesis-testing discrete-data kolmogorov-smirnov

4

Test exact de Fisher dans les tableaux de contingence supérieurs à 2x2

On m'a appris à appliquer uniquement le test exact de Fisher dans les tableaux de contingence qui étaient 2x2. Des questions: Fisher lui-même a-t-il jamais envisagé que ce test soit utilisé dans des tableaux de plus de 2x2 (je suis au courant de l'histoire de lui qui a conçu le …

29 spss stata contingency-tables fishers-exact

6

Comment puis-je tester l'équité d'un d20?

Comment puis-je tester l'équité d'un dé à vingt faces (d20)? Évidemment, je comparerais la distribution des valeurs à une distribution uniforme. Je me souviens vaguement d'avoir utilisé un test du chi carré au collège. Comment puis-je appliquer cela pour voir si un dé est juste?

29 hypothesis-testing chi-squared goodness-of-fit uniform dice

6

Procédure de sélection variable pour la classification binaire

Quelle est la sélection de variable / caractéristique que vous préférez pour la classification binaire quand il y a beaucoup plus de variables / caractéristique que d'observations dans l'ensemble d'apprentissage? Le but ici est de discuter de la procédure de sélection des caractéristiques qui réduit le mieux l'erreur de classification. …

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection

3

Comment effectuer une régression orthogonale (total des moindres carrés) via l'ACP?

J'utilise toujours lm()en R pour effectuer une régression linéaire de sur . Cette fonction renvoie un coefficient tel queyyyxxxββ\betay=βx.y=βx.y = \beta x. Aujourd'hui, j'ai appris le nombre total de moindres carrés et cette princomp()fonction (analyse en composantes principales, ACP) peut être utilisée pour l'exécuter. Cela devrait être bon pour moi …

29 r pca least-squares deming-regression total-least-squares

6

Test de variance finie?

Est-il possible de tester la finitude (ou l'existence) de la variance d'une variable aléatoire dans un échantillon? En tant que valeur nulle, soit {la variance existe et est finie} soit {la variance n'existe pas / est infinie} serait acceptable. Sur le plan philosophique (et sur le plan du calcul), cela …

29 hypothesis-testing variance central-limit-theorem

1

Quels sont les défauts de l'erreur moyenne absolue en pourcentage (MAPE)?

L' erreur moyenne absolue en pourcentage ( mape ) est une précision ou une mesure d'erreur courante pour les séries chronologiques ou d'autres prévisions, MAPE = 100n∑t = 1n| UNEt- Ft|UNEt% ,MAPE=100n∑t=1n|At−Ft|At%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, où sont des réels et des prévisions ou prédictions correspondantes.F tUNEtAtA_tFtFtF_t Le MAPE est un …

29 accuracy mape

3

Qu'est-ce qu'un collecteur?

Dans les techniques de réduction de dimensionnalité telles que l'analyse en composantes principales, LDA, etc., le terme collecteur est souvent utilisé. Qu'est-ce qu'une variété en termes non techniques? Si un point Xxx appartient à une sphère dont je veux réduire la dimension, et s'il y a un bruit yyy et …

29 terminology manifold-learning

1

Intervalle de prédiction de bootstrap

Existe-t-il une technique de bootstrap pour calculer les intervalles de prédiction pour les prédictions ponctuelles obtenues par exemple à partir d'une régression linéaire ou d'une autre méthode de régression (k-plus proche voisin, arbres de régression, etc.)? D'une certaine manière, je pense que la manière parfois proposée de simplement lancer la …

29 bootstrap prediction-interval

4

Interprétation du pseudo-R2 de McFadden

J'ai un modèle de régression logistique binaire avec un pseudo-R de McFadden de 0,192 avec une variable dépendante appelée paiement (1 = paiement et 0 = pas de paiement). Quelle est l'interprétation de ce pseudo R au carré? S'agit-il d'une comparaison relative pour les modèles imbriqués (par exemple, un modèle …

29 regression self-study logistic

2

Pourquoi utiliser la validation croisée stratifiée? Pourquoi cela n'endommage-t-il pas les avantages liés à la variance?

On m'a dit qu'il est avantageux d'utiliser la validation croisée stratifiée, en particulier lorsque les classes de réponse sont déséquilibrées. Si l'un des objectifs de la validation croisée est d'aider à rendre compte du caractère aléatoire de notre échantillon de données de formation d'origine, faire en sorte que chaque pli …

29 cross-validation resampling stratification

4

Comment traduire les résultats de lm () en une équation?

Nous pouvons utiliser lm()pour prédire une valeur, mais nous avons toujours besoin de l'équation de la formule de résultat dans certains cas. Par exemple, ajoutez l'équation aux graphiques.

29 r regression lm

1

Mesures d'erreur pour les modèles de Poisson à validation croisée

Je suis en train de valider un modèle qui essaie de prédire un nombre. S'il s'agissait d'un problème de classification binaire, je calculerais l'ASC hors pli, et s'il s'agissait d'un problème de régression, je calculerais le RMSE ou MAE hors pli. Pour un modèle de Poisson, quelles mesures d'erreur puis-je …

29 cross-validation poisson-distribution count-data deviance scoring-rules

3

Régression polynomiale avec scikit-learn

J'essaie d'utiliser scikit-learn pour la régression polynomiale. D'après ce que j'ai lu, la régression polynomiale est un cas particulier de régression linéaire. J'étais en train de sauter que peut-être l'un des modèles linéaires généralisés de scikit peut être paramétré pour s'adapter à des polynômes d'ordre supérieur, mais je ne vois …

29 regression machine-learning large-data polynomial scikit-learn