J'ai besoin de générer des matrices non carrées aléatoires avec des lignes et des colonnes , des éléments distribués au hasard avec une moyenne = 0, et contraints de telle sorte que la longueur (norme L2) de chaque ligne soit et que la longueur de chaque colonne soit . De …
J'écris un algorithme dans lequel, étant donné un modèle, je calcule les probabilités pour une liste d'ensembles de données, puis je dois normaliser (selon la probabilité) chacune des probabilités. Donc, quelque chose comme [0,00043, 0,00004, 0,00321] pourrait être converti en peut être comme [0,2, 0,03, 0,77]. Mon problème est que …
Apparemment, dans un regroupement hiérarchique dans lequel la mesure de distance est la distance euclidienne, les données doivent d'abord être normalisées ou normalisées pour empêcher la covariable avec la variance la plus élevée de conduire le regroupement. Pourquoi est-ce? Ce fait n'est-il pas souhaitable?
Certaines fonctionnalités de mes données ont de grandes valeurs, tandis que d'autres fonctionnalités ont des valeurs beaucoup plus petites. Est-il nécessaire de centrer + l'échelle des données avant d'appliquer t-SNE pour éviter un biais vers les valeurs plus grandes? J'utilise l'implémentation sklearn.manifold.TSNE de Python avec la métrique de distance euclidienne …
J'ai une question dans laquelle il demande de vérifier si la distribution uniforme ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) ) est normalisée. D'une part, que signifie la normalisation d'une distribution? Et deuxièmement, comment procéder pour vérifier si une distribution est normalisée ou non? Je comprends en calculant X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} nous obtenons desdonnéesnormalisées, mais …
Supposons que nous ayons variables mesurables, , nous effectuons un nombre de mesures, puis souhaitons effectuer une décomposition en valeurs singulières sur les résultats pour trouver les axes de variance la plus élevée pour les points dans l'espace dimensionnel. ( Remarque: supposons que les moyennes de ont déjà été soustraites, …
La normalisation des données (pour avoir une moyenne nulle et un écart-type unitaire) avant d'effectuer une validation croisée multipliée par k a-t-elle des conséquences négatives telles qu'un sur-ajustement? Remarque: c'est pour une situation où #cases> total #features Je transforme certaines de mes données à l'aide d'une transformation de journal, puis …
Dans les études d'expression génique utilisant des puces à ADN, les données d'intensité doivent être normalisées afin que les intensités puissent être comparées entre les individus, entre les gènes. Sur le plan conceptuel et algorithmique, comment fonctionne la «normalisation quantile» et comment expliqueriez-vous cela à un non-statisticien?
Disons que j'ai un classificateur de régression logistique. Dans l'apprentissage par lots normal, j'aurais un terme régularisateur pour éviter le surapprentissage et garder mes poids petits. Je normaliserais également et ferais évoluer mes fonctionnalités. Dans un environnement d'apprentissage en ligne, je reçois un flux continu de données. Je fais une …
Je suis le cours d'apprentissage automatique d'Andrew Ng et je n'ai pas pu obtenir la réponse à cette question après plusieurs tentatives. Veuillez aider à résoudre ce problème, même si j'ai traversé le niveau. Supposons que étudiants aient suivi un cours et que la classe ait passé un examen à …
J'utilise un script. C'est pour les enregistrements de base. J'ai un dataframe qui montre les différentes compositions élémentaires dans les colonnes sur une profondeur donnée (dans la première colonne). Je veux effectuer un PCA avec et je suis confus quant à la méthode de standardisation que je dois choisir. L'un …
J'essaie de trouver la distribution caractéristique la plus appropriée des données de mesures répétées d'un certain type. Essentiellement, dans ma branche de la géologie, nous utilisons souvent la datation radiométrique des minéraux à partir d'échantillons (morceaux de roche) afin de savoir depuis combien de temps un événement s'est produit (la …
J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …
Je travaille sur un algorithme qui prend un vecteur du point de données le plus récent d'un certain nombre de flux de capteurs et compare la distance euclidienne aux vecteurs précédents. Le problème est que les différents flux de données proviennent de capteurs complètement différents, donc prendre une simple distance …
Pour un ensemble de données donné, l'écart est souvent calculé soit comme l'écart type, soit comme l'IQR (intervalle inter-quartile). Alors que a standard deviationest normalisé (z-scores, etc.) et peut donc être utilisé pour comparer la propagation de deux populations différentes, ce n'est pas le cas avec l'IQR car les échantillons …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.