Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

Comment choisir entre des algorithmes d'apprentissage

J'ai besoin de mettre en œuvre un programme qui classera les enregistrements en 2 catégories (vrai / faux) en fonction de certaines données de formation, et je me demandais quel algorithme / méthodologie je devrais examiner. Il semble y en avoir beaucoup parmi lesquels choisir - Réseau de neurones artificiels, …

21 machine-learning bayesian optimization genetic-algorithms

Introduction à la théorie de la mesure

Je souhaite en savoir plus sur les techniques bayésiennes non paramétriques (et connexes). J'ai une formation en informatique et bien que je n'aie jamais suivi de cours sur la théorie des mesures ou la théorie des probabilités, j'ai eu une formation limitée en probabilités et statistiques. Quelqu'un peut-il recommander une …

21 probability bayesian references theory

Comment interpréter l'intervalle de confiance de la différence de moyennes dans un échantillon de test T?

SPSS fournit la sortie «intervalle de confiance des moyennes de différence». J'ai lu à certains endroits que cela signifie "95 fois sur 100, notre différence moyenne d'échantillon sera entre entre ces limites" Je trouve cela peu clair. Quelqu'un peut-il suggérer une formulation plus claire pour expliquer «l'intervalle de confiance de …

21 confidence-interval

Comparaison entre MaxEnt, ML, Bayes et d'autres types de méthodes d'inférence statistique

Je ne suis en aucun cas un statisticien (j'ai suivi un cours de statistique mathématique mais rien de plus), et récemment, en étudiant la théorie de l'information et la mécanique statistique, j'ai rencontré ce truc appelé "mesure d'incertitude" / "entropie". J'ai lu la dérivation de Khinchin comme une mesure d'incertitude …

21 entropy inference

Comment mesurer / argumenter la qualité de l'ajustement d'une ligne de tendance à une loi de puissance?

J'ai quelques données auxquelles j'essaye d'adapter une ligne de tendance. Je crois que les données suivent une loi de puissance, et j'ai donc tracé les données sur des axes log-log à la recherche d'une ligne droite. Cela a abouti à une ligne (presque) droite et donc dans Excel, j'ai ajouté …

21 goodness-of-fit power-law

Mesurer la similitude des documents

Pour regrouper (texte) des documents, vous avez besoin d'un moyen de mesurer la similitude entre des paires de documents. Deux alternatives sont: Comparez les documents comme vecteurs de termes en utilisant la similitude cosinus - et TF / IDF comme pondérations pour les termes. Comparer la distribution de probabilité de …

21 information-retrieval

Coefficient de détermination (

Je veux saisir pleinement la notion de décrivant la quantité de variation entre les variables. Chaque explication Web est un peu mécanique et obtuse. Je veux "comprendre" le concept, pas seulement utiliser mécaniquement les chiffres.r2r2r^2 Par exemple: heures étudiées vs score au test rrr = 0,8 r2r2r^2 = 0,64 Qu'est-ce …

21 regression correlation variance

Comment améliorer la capacité de mon réseau neuronal à prédire les ondes sinusoïdales?

Ici, jetez un œil: vous pouvez voir exactement où se terminent les données d'entraînement. Les données d'entraînement vont de à .1- 1-1-1111 J'ai utilisé Keras et un réseau dense 1-100-100-2 avec activation tanh. Je calcule le résultat à partir de deux valeurs, p et q comme p / q. De …

21 regression neural-networks python keras

Génération de variables aléatoires binomiales corrélées

Je me demandais s'il serait possible de générer des variables binomiales aléatoires corrélées en suivant une approche de transformation linéaire? Ci-dessous, j'ai essayé quelque chose de simple en R et cela produit une certaine corrélation. Mais je me demandais s'il y avait un moyen de principe de le faire? X1 …

21 r correlation binomial random-generation bernoulli-distribution

Comment interpréter l'erreur quadratique moyenne (RMSE) par rapport à l'écart type?

Disons que j'ai un modèle qui me donne des valeurs projetées. Je calcule RMSE de ces valeurs. Et puis l'écart-type des valeurs réelles. Est-il judicieux de comparer ces deux valeurs (variances)? Ce que je pense, c'est que si RMSE et l'écart-type sont similaires / identiques, l'erreur / variance de mon …

21 standard-deviation standard-error rms

Avons-nous besoin d'un ensemble de test lors de l'utilisation de la validation croisée k-fold?

J'ai lu sur la validation k-fold, et je veux m'assurer de comprendre comment cela fonctionne. Je sais que pour la méthode d'exclusion, les données sont divisées en trois ensembles, et l'ensemble de test n'est utilisé qu'à la toute fin pour évaluer les performances du modèle, tandis que l'ensemble de validation …

21 cross-validation validation out-of-sample

Comment résumer des intervalles crédibles pour un public médical

Avec des forfaits Stan et frontend rstanarmou brmsje peux facilement analyser les données de la bayésien comme je l'ai fait avant avec-modèles mixtes tels que lme. Bien que j'ai la plupart du livre et des articles de Kruschke-Gelman-Wagenmakers-etc. sur mon bureau, ceux-ci ne me disent pas comment résumer les résultats …

21 statistical-significance bayesian stan credible-interval medicine

Une approche statistique pour déterminer si des données manquent au hasard

J'ai un grand ensemble de vecteurs de fonctionnalités que j'utiliserai pour attaquer un problème de classification binaire (en utilisant scikit learn en Python). Avant de commencer à penser à l'imputation, je voudrais essayer de déterminer à partir des parties restantes des données si les données manquantes sont «manquantes au hasard» …

21 missing-data randomness

Comment fonctionne la méthode de transformation inverse?

Comment fonctionne la méthode d'inversion? Disons que j'ai un échantillon aléatoire de densité f (x; \ theta) = {1 \ over \ theta} x ^ {(1- \ theta) \ over \ theta} over 0 <x <1 et donc avec cdf F_X (x) = x ^ {1 / \ theta} sur …

21 r distributions inference random-generation inverse-cdf

Pourquoi une variable aléatoire «binomiale négative» s'appelle-t-elle ainsi?

Je ne comprends pas pourquoi la variable aléatoire "binôme négatif" porte ce nom. Qu'est-ce qui est négatif? Qu'est-ce que le binôme? Quel est le binôme négatif à ce sujet?

21 distributions random-variable terminology negative-binomial

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.

Licensed under cc by-sa 3.0 with attribution required.