Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


1
Pourquoi utilisons-nous la divergence de Kullback-Leibler plutôt que l'entropie croisée dans la fonction objectif t-SNE?
Dans mon esprit, la divergence de KL entre la distribution de l'échantillon et la distribution vraie est simplement la différence entre l'entropie croisée et l'entropie. Pourquoi utilisons-nous l'entropie croisée comme fonction de coût dans de nombreux modèles d'apprentissage automatique, alors que nous utilisons la divergence de Kullback-Leibler dans t-sne? Y …

5
LDA vs word2vec
J'essaie de comprendre ce qu'est la similitude entre Latent Dirichlet Allocation et word2vec pour calculer la similarité de mots. Si je comprends bien, LDA mappe les mots sur un vecteur de probabilités de sujets latents , tandis que word2vec les mappe sur un vecteur de nombres réels (liés à la …

4
Réplication de l'option «robuste» de Stata dans R
J'ai essayé de reproduire les résultats de l'option Stata robustdans R. J'ai utilisé la rlmcommande du package MASS ainsi que la commande lmrobdu package "robustbase". Dans les deux cas, les résultats sont assez différents de l’option "robuste" de Stata. Quelqu'un peut-il suggérer quelque chose dans ce contexte? Voici les résultats …


3
Justification empirique de la règle d'erreur standard unique lors de l'utilisation de la validation croisée
Existe-t-il des études empiriques justifiant l’utilisation de la règle de l’erreur standard unique en faveur de la parcimonie? Cela dépend évidemment du processus de génération des données, mais tout ce qui analyse un grand corpus de jeux de données serait une lecture très intéressante. La "règle d'erreur standard unique" est …

3
Une standardisation est-elle nécessaire avant d'ajuster la régression logistique?
Ma question est la suivante: devons-nous normaliser l'ensemble de données pour nous assurer que toutes les variables ont la même échelle, entre [0,1], avant d'ajuster la régression logistique. La formule est la suivante: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} Mon ensemble de données a 2 variables, elles décrivent la même chose pour deux canaux, mais …

1
Rang en R - ordre décroissant [fermé]
Je cherche à classer des données qui, dans certains cas, la valeur la plus élevée a le rang 1. Je suis relativement nouveau en R, mais je ne vois pas comment je pourrais ajuster ce paramètre dans la fonction de classement. x <- c(23,45,12,67,34,89) rank(x) génère: [1] 2 4 1 …
39 r 

4
Statistiques d'ordre approximatif pour les variables aléatoires normales
Existe-t-il des formules bien connues pour les statistiques d'ordre de certaines distributions aléatoires? En particulier, les statistiques du premier et du dernier ordre d’une variable aléatoire normale, mais une réponse plus générale serait également appréciée. Edit: Pour clarifier, je cherche des formules approximatives qui peuvent être plus ou moins explicitement …




3
Pourquoi les arbres de décision ne sont-ils pas coûteux en calcul?
Dans Une introduction à l'apprentissage statistique avec applications en R , les auteurs écrivent que l'ajustement d'un arbre de décision est très rapide, mais cela n'a aucun sens pour moi. L'algorithme doit passer en revue toutes les fonctionnalités et les partitionner de toutes les manières possibles afin de trouver la …
38 cart 

6
Pourquoi ai-je un arbre de décision à 100% de précision?
Je reçois une précision de 100% pour mon arbre de décision. Qu'est-ce que je fais mal? Ceci est mon code: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.