Statistiques et Big Data

2

La corrélation suppose-t-elle la stationnarité des données?

L'analyse inter-marchés est une méthode de modélisation du comportement des marchés par la recherche de relations entre différents marchés. Souvent, une corrélation est calculée entre deux marchés, par exemple le S&P 500 et les bons du Trésor américain à 30 ans. Ces calculs sont le plus souvent basés sur des …

27 correlation stationarity

3

Apprentissage non supervisé, supervisé et semi-supervisé

Dans le contexte de l'apprentissage automatique, quelle est la différence entre apprentissage non supervisé apprentissage supervisé et apprentissage semi-supervisé? Et quelles sont les principales approches algorithmiques à examiner?

27 machine-learning unsupervised-learning supervised-learning semi-supervised

9

Outils logiciels de statistiques et d'exploration de données pour gérer de grands ensembles de données

Actuellement, je dois analyser environ 20 millions d'enregistrements et créer des modèles de prédiction. Jusqu'à présent, j'ai essayé Statistica, SPSS, RapidMiner et R. Parmi ces Statistica semble être le plus approprié pour faire face à l'exploration de données et l'interface utilisateur de RapidMiner est également très pratique, mais il semble …

27 large-data software data-mining

1

Une interaction est-elle possible entre deux variables continues?

Toutes mes variables sont continues. Il n'y a pas de niveaux. Est-il possible d' avoir même une interaction entre les variables?

27 regression modeling interaction

3

Les probabilités / amplitudes de probabilité négatives ont-elles des applications en dehors de la mécanique quantique?

La mécanique quantique a généralisé la théorie des probabilités aux nombres négatifs / imaginaires, principalement pour expliquer les modèles d'interférence, la dualité onde / particule et des choses généralement étranges comme ça. Elle peut cependant être considérée de manière plus abstraite comme une généralisation non commutative de la probabilité bayésienne …

27 probability

5

D'un point de vue statistique, peut-on inférer la causalité en utilisant des scores de propension avec une étude observationnelle?

Question: Du point de vue du statisticien (ou d'un praticien), peut-on déduire la causalité en utilisant les scores de propension avec une étude observationnelle ( pas une expérience )? Je vous en prie, ne voulez pas déclencher une guerre des flammes ou un débat fanatique. Contexte: Dans notre programme de …

27 causality propensity-scores

6

Relation entre les distributions binomiale et bêta

Je suis plus programmeur que statisticien, donc j'espère que cette question n'est pas trop naïve. Cela se produit lors de l'échantillonnage des exécutions de programme à des moments aléatoires. Si je prends N = 10 échantillons aléatoires de l'état du programme, je pourrais voir la fonction Foo s'exécuter, par exemple, …

27 binomial beta-binomial beta-distribution

4

Probabilité de ne pas tirer un mot d'un sac de lettres en Scrabble

Supposons que vous ayez un sac avec tuiles, chacune avec une lettre dessus. Il y a tuiles avec la lettre 'A', avec 'B', et ainsi de suite, et 'wildcard' tuiles (nous avons ). Supposons que vous disposiez d'un dictionnaire avec un nombre fini de mots. Vous choisissez tuiles du sac …

27 sampling games probability

6

Pourquoi étudier l'optimisation convexe pour l'apprentissage machine théorique?

Je travaille sur l'apprentissage machine théorique - sur l'apprentissage par transfert, pour être précis - pour mon doctorat. Par curiosité, pourquoi devrais-je suivre un cours sur l'optimisation convexe? Quelles leçons tirer de l'optimisation convexe puis-je utiliser dans mes recherches sur le machine learning théorique?

27 machine-learning optimization convex transfer-learning

2

Aire sous courbe de rappel de précision (AUC de la courbe PR) et précision moyenne (AP)

La précision moyenne (AP) est-elle la zone sous la courbe de rappel de précision (ASC de la courbe PR)? MODIFIER: voici quelques commentaires sur la différence entre PR AUC et AP. L'AUC est obtenue par interpolation trapézoïdale de la précision. Une métrique alternative et généralement presque équivalente est la précision …

27 scikit-learn precision-recall auc average-precision

2

Pourquoi la pénalité de Lasso est-elle équivalente à la double exponentielle (Laplace) antérieure?

J'ai lu dans un certain nombre de références que l'estimation de Lasso pour le vecteur de paramètre de régression est équivalente au mode postérieur de dans lequel la distribution antérieure pour chaque est une distribution exponentielle double (également connue sous le nom de distribution de Laplace).BBBBBBBiBiB_i J'ai essayé de le …

27 regression bayesian lasso prior regularization

6

Pourquoi des poids plus petits donnent-ils des modèles de régularisation plus simples?

J'ai terminé le cours d'apprentissage automatique d'Andrew Ng il y a environ un an et j'écris maintenant mon exploration des mathématiques au lycée sur le fonctionnement de la régression logistique et des techniques pour optimiser les performances. Une de ces techniques est bien sûr la régularisation. L'objectif de la régularisation …

27 regression machine-learning optimization regularization overfitting

4

Ensemble de différents types de régresseurs utilisant scikit-learn (ou tout autre framework python)

J'essaie de résoudre la tâche de régression. J'ai découvert que 3 modèles fonctionnent parfaitement pour différents sous-ensembles de données: LassoLARS, SVR et Gradient Tree Boosting. J'ai remarqué que lorsque je fais des prédictions en utilisant tous ces 3 modèles, puis que je fais un tableau de la «sortie réelle» et …

27 regression scikit-learn ensemble

2

Comment utiliser les variables binaires et continues ensemble dans le clustering?

J'ai besoin d'utiliser des variables binaires (valeurs 0 et 1) dans k-means. Mais k-means ne fonctionne qu'avec des variables continues. Je sais que certaines personnes utilisent encore ces variables binaires dans k-means en ignorant le fait que k-means n'est conçu que pour des variables continues. C'est inacceptable pour moi. Des …

27 r clustering binary-data k-means mixed-type-data

1

Fonction Predict () pour les modèles d'effets mixtes lmer

Le problème: J'ai lu dans d'autres articles qui predictne sont pas disponibles pour les lmermodèles d' effets mixtes {lme4} dans [R]. J'ai essayé d'explorer ce sujet avec un jeu de données jouet ... Contexte: L'ensemble de données est adapté de cette source et disponible en ... require(gsheet) data <- read.csv(text …

27 r mixed-model lme4-nlme