Questions marquées «standardization»

Se réfère généralement à la «normalisation z» qui consiste à déplacer et à redimensionner les données pour s'assurer qu'elles ont une moyenne et une variance unitaires nulles. D'autres «standardisations» sont également possibles.

7
Lorsque vous effectuez une régression multiple, quand devriez-vous centrer vos variables prédictives et quand devriez-vous les normaliser?
Dans certaines publications, j'ai lu qu'une régression avec plusieurs variables explicatives, si différentes unités, devait être normalisée. (La normalisation consiste à soustraire la moyenne et à la diviser par l'écart type.) Dans quels autres cas dois-je normaliser mes données? Existe-t-il des cas dans lesquels je devrais seulement centrer mes données …



3
Effectuer la normalisation des fonctionnalités avant ou dans la validation du modèle?
Une bonne pratique courante en Machine Learning est de normaliser les caractéristiques ou de normaliser les données des variables prédites, centrer les données soustrayant la moyenne et les normaliser en les divisant par la variance (ou l’écart type). Pour nous maîtriser et pour autant que je sache, nous faisons cela …

1
Comment appliquer la normalisation / normalisation à la formation et aux tests si l'objectif est la prédiction?
Est-ce que je transforme toutes mes données ou mes plis (si CV est appliqué) en même temps? par exemple (allData - mean(allData)) / sd(allData) Est-ce que je transforme les trains et les tests séparément? par exemple (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Ou dois-je transformer la …

3
Une standardisation est-elle nécessaire avant d'ajuster la régression logistique?
Ma question est la suivante: devons-nous normaliser l'ensemble de données pour nous assurer que toutes les variables ont la même échelle, entre [0,1], avant d'ajuster la régression logistique. La formule est la suivante: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} Mon ensemble de données a 2 variables, elles décrivent la même chose pour deux canaux, mais …

2
Quand et comment utiliser des variables explicatives normalisées dans la régression linéaire
J'ai 2 questions simples sur la régression linéaire: Quand est-il conseillé de normaliser les variables explicatives? Une fois que l'estimation est réalisée avec des valeurs normalisées, comment peut-on prévoir avec de nouvelles valeurs (comment normaliser les nouvelles valeurs)? Quelques références seraient utiles.

3
l'opportunité de remettre à l'échelle l'indicateur / les prédicteurs binaires / fictifs pour LASSO
Pour le LASSO (et d'autres procédures de sélection de modèle), il est crucial de redimensionner les prédicteurs. La recommandation générale que je suis consiste simplement à utiliser une normalisation de 0 moyenne, 1 écart-type pour les variables continues. Mais que faire avec les nuls? Par exemple, certains exemples appliqués de …



3
Que signifie «normalisation» et comment vérifier qu'un échantillon ou une distribution est normalisé?
J'ai une question dans laquelle il demande de vérifier si la distribution uniforme ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) ) est normalisée. D'une part, que signifie la normalisation d'une distribution? Et deuxièmement, comment procéder pour vérifier si une distribution est normalisée ou non? Je comprends en calculant X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} nous obtenons desdonnéesnormalisées, mais …


2
Est-ce une bonne pratique de standardiser vos données dans une régression avec des données de panel / longitudinales?
En général, je standardise mes variables indépendantes en régressions, afin de comparer correctement les coefficients (de cette façon ils ont les mêmes unités: les écarts-types). Cependant, avec des données de panel / longitudinales, je ne sais pas comment je devrais standardiser mes données, surtout si j'évalue un modèle hiérarchique. Pour …

1
Besoin de centrer et de standardiser les données en régression
Considérez la régression linéaire avec une certaine régularisation: par exemple, trouver qui minimisexxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 Habituellement, les colonnes de A sont normalisées pour avoir une moyenne et une norme unitaire nul, tandis que est centrée pour avoir une moyenne nulle. Je veux m'assurer que ma compréhension de la raison de …

2
La forêt aléatoire a-t-elle besoin de variables d'entrée pour être mise à l'échelle ou centrée?
Mes variables d'entrée ont des dimensions différentes. Certaines variables sont décimales tandis que d'autres sont des centaines. Est-il essentiel de centrer (soustraire la moyenne) ou de mettre à l'échelle (diviser par l'écart-type) ces variables d'entrée afin de rendre les données sans dimension lors de l'utilisation d'une forêt aléatoire?

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.