Questions marquées «normalization»

Habituellement, «normalisation» signifie ré-exprimer des données pour que les valeurs se trouvent dans une plage spécifiée.


1
Conversion (normalisation) de très petites valeurs de vraisemblance en probabilités
J'écris un algorithme dans lequel, étant donné un modèle, je calcule les probabilités pour une liste d'ensembles de données, puis je dois normaliser (selon la probabilité) chacune des probabilités. Donc, quelque chose comme [0,00043, 0,00004, 0,00321] pourrait être converti en peut être comme [0,2, 0,03, 0,77]. Mon problème est que …


1
Les données doivent-elles être centrées + mises à l'échelle avant d'appliquer t-SNE?
Certaines fonctionnalités de mes données ont de grandes valeurs, tandis que d'autres fonctionnalités ont des valeurs beaucoup plus petites. Est-il nécessaire de centrer + l'échelle des données avant d'appliquer t-SNE pour éviter un biais vers les valeurs plus grandes? J'utilise l'implémentation sklearn.manifold.TSNE de Python avec la métrique de distance euclidienne …

3
Que signifie «normalisation» et comment vérifier qu'un échantillon ou une distribution est normalisé?
J'ai une question dans laquelle il demande de vérifier si la distribution uniforme ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) ) est normalisée. D'une part, que signifie la normalisation d'une distribution? Et deuxièmement, comment procéder pour vérifier si une distribution est normalisée ou non? Je comprends en calculant X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} nous obtenons desdonnéesnormalisées, mais …


4
Normalisation avant validation croisée
La normalisation des données (pour avoir une moyenne nulle et un écart-type unitaire) avant d'effectuer une validation croisée multipliée par k a-t-elle des conséquences négatives telles qu'un sur-ajustement? Remarque: c'est pour une situation où #cases> total #features Je transforme certaines de mes données à l'aide d'une transformation de journal, puis …

1
Comment fonctionne la normalisation quantile?
Dans les études d'expression génique utilisant des puces à ADN, les données d'intensité doivent être normalisées afin que les intensités puissent être comparées entre les individus, entre les gènes. Sur le plan conceptuel et algorithmique, comment fonctionne la «normalisation quantile» et comment expliqueriez-vous cela à un non-statisticien?

3
Régularisation et mise à l'échelle des fonctionnalités dans l'apprentissage en ligne?
Disons que j'ai un classificateur de régression logistique. Dans l'apprentissage par lots normal, j'aurais un terme régularisateur pour éviter le surapprentissage et garder mes poids petits. Je normaliserais également et ferais évoluer mes fonctionnalités. Dans un environnement d'apprentissage en ligne, je reçois un flux continu de données. Je fais une …




5
Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?
J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


6
Une mesure robuste (non paramétrique) comme le coefficient de variation - IQR / médiane, ou alternative?
Pour un ensemble de données donné, l'écart est souvent calculé soit comme l'écart type, soit comme l'IQR (intervalle inter-quartile). Alors que a standard deviationest normalisé (z-scores, etc.) et peut donc être utilisé pour comparer la propagation de deux populations différentes, ce n'est pas le cas avec l'IQR car les échantillons …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.