Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Je suis sûr que je suis déjà tombé sur une fonction de ce type dans un package R, mais après une longue recherche sur Google, il me semble impossible de la trouver nulle part. La fonction à laquelle je pense a produit un résumé graphique pour une variable qui lui …
Dans mon esprit, la divergence de KL entre la distribution de l'échantillon et la distribution vraie est simplement la différence entre l'entropie croisée et l'entropie. Pourquoi utilisons-nous l'entropie croisée comme fonction de coût dans de nombreux modèles d'apprentissage automatique, alors que nous utilisons la divergence de Kullback-Leibler dans t-sne? Y …
J'essaie de comprendre ce qu'est la similitude entre Latent Dirichlet Allocation et word2vec pour calculer la similarité de mots. Si je comprends bien, LDA mappe les mots sur un vecteur de probabilités de sujets latents , tandis que word2vec les mappe sur un vecteur de nombres réels (liés à la …
J'ai essayé de reproduire les résultats de l'option Stata robustdans R. J'ai utilisé la rlmcommande du package MASS ainsi que la commande lmrobdu package "robustbase". Dans les deux cas, les résultats sont assez différents de l’option "robuste" de Stata. Quelqu'un peut-il suggérer quelque chose dans ce contexte? Voici les résultats …
Lorsque nous effectuons une régression linéaire pour être compatibles avec un groupe de points de données ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y ny=ax+by=ax+by=ax+b , l’approche classique minimise l’erreur au carré. Je …
Existe-t-il des études empiriques justifiant l’utilisation de la règle de l’erreur standard unique en faveur de la parcimonie? Cela dépend évidemment du processus de génération des données, mais tout ce qui analyse un grand corpus de jeux de données serait une lecture très intéressante. La "règle d'erreur standard unique" est …
Ma question est la suivante: devons-nous normaliser l'ensemble de données pour nous assurer que toutes les variables ont la même échelle, entre [0,1], avant d'ajuster la régression logistique. La formule est la suivante: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} Mon ensemble de données a 2 variables, elles décrivent la même chose pour deux canaux, mais …
Je cherche à classer des données qui, dans certains cas, la valeur la plus élevée a le rang 1. Je suis relativement nouveau en R, mais je ne vois pas comment je pourrais ajuster ce paramètre dans la fonction de classement. x <- c(23,45,12,67,34,89) rank(x) génère: [1] 2 4 1 …
Existe-t-il des formules bien connues pour les statistiques d'ordre de certaines distributions aléatoires? En particulier, les statistiques du premier et du dernier ordre d’une variable aléatoire normale, mais une réponse plus générale serait également appréciée. Edit: Pour clarifier, je cherche des formules approximatives qui peuvent être plus ou moins explicitement …
J'ai calculé AIC et AICc pour comparer deux modèles mixtes linéaires généraux; Les AIC sont positives, le modèle 1 ayant un AIC inférieur au modèle 2. Cependant, les valeurs pour AICc sont toutes les deux négatives (le modèle 1 est toujours <modèle 2). Est-il valide d'utiliser et de comparer des …
Supposons que j'ai deux distributions normales A et B avec les moyennes et et les variances et . Je veux prendre un mélange pondéré de ces deux distributions en utilisant les poids et où et . Je sais que la moyenne de ce mélange serait .μAμA\mu_AμBμB\mu_BσAσA\sigma_AσBσB\sigma_Bpppqqq0≤p≤10≤p≤10\le p \le 1q=1−pq=1−pq = …
Quelle est la différence entre une population et un échantillon? Quelles variables et statistiques communes sont utilisées pour chacune d’elles, et comment se rapportent-elles?
Dans Une introduction à l'apprentissage statistique avec applications en R , les auteurs écrivent que l'ajustement d'un arbre de décision est très rapide, mais cela n'a aucun sens pour moi. L'algorithme doit passer en revue toutes les fonctionnalités et les partitionner de toutes les manières possibles afin de trouver la …
Je reçois une précision de 100% pour mon arbre de décision. Qu'est-ce que je fais mal? Ceci est mon code: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split …
Il est évident que, souvent, on préfère un estimateur non biaisé. Mais existe-t-il des circonstances dans lesquelles nous pourrions préférer un estimateur biaisé à un estimateur non biaisé?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.