Les demandes d'ensembles de données sont hors sujet sur ce site. Utilisez cette balise pour les questions concernant la création, le traitement ou la maintenance des jeux de données.
Je vois souvent des gens qui font d'une dimension / caractéristique d'un ensemble de données une moyenne nulle en supprimant la moyenne de tous les éléments. Mais je n'ai jamais compris pourquoi le faire? Quel effet cela fait-il en tant qu'étape de prétraitement? Améliore-t-il les performances de classification? Cela aide-t-il …
Je suis doctorant en psychologie expérimentale et je m'efforce d'améliorer mes compétences et mes connaissances sur la façon d'analyser mes données. Jusqu'à ma 5e année en psychologie, je pensais que les modèles de régression (par exemple, ANOVA) supposaient les choses suivantes: normalité des données homogénéité de la variance des données, …
Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 6 ans . J'utilise des fichiers texte pour stocker mes données pour R sans …
Remarque: cette question est une rediffusion, car ma question précédente a dû être supprimée pour des raisons juridiques. En comparant PROC MIXED de SAS avec la fonction lmedu nlmepackage dans R, je suis tombé sur des différences assez confuses. Plus précisément, les degrés de liberté dans les différents tests diffèrent …
Je soupçonne que la plupart des utilisateurs d'outils statistiques sont des utilisateurs auxiliaires (des gens qui ont peu ou pas de formation formelle en statistique). Il est très tentant pour les chercheurs et autres professionnels d'appliquer des méthodes statistiques à leurs données simplement parce qu'ils les ont vues «faites auparavant» …
Hadley Wickham a écrit un article stellaire intitulé "Tidy Data" ( lien ) dans JSS l'année dernière sur la manipulation des données et la mise en état "optimal" des données afin d'effectuer une analyse. Cependant, je me demandais quelles étaient les meilleures pratiques en termes de présentation de données tabulaires …
Je suis un étudiant en physique qui étudie l'apprentissage automatique / la science des données, donc je ne veux pas que cette question déclenche des conflits :) Cependant, une grande partie de tout programme de premier cycle en physique consiste à faire des laboratoires / expériences, ce qui signifie beaucoup …
Je recherche une méthode de binning optimale (discrétisation) d'une variable continue par rapport à une variable binaire de réponse (cible) donnée et avec un nombre maximum d'intervalles comme paramètre. exemple: J'ai un ensemble d'observations de personnes avec des variables "hauteur" (numéral continu) et "has_back_pains" (binaire). Je veux discrétiser la hauteur …
La recherche sur Internet du didacticiel PCA donne des milliers de résultats (même des vidéos). Beaucoup de tutoriels sont très bons. Mais je ne suis pas en mesure de trouver d'exemple pratique où PCA est expliqué en utilisant des ensembles de données que je peux utiliser pour la démonstration. J'ai …
Un nom: d'abord, éventuellement un deuxième prénom, et un nom de famille. Je suis curieux de savoir combien d'informations vous pouvez extraire d'un nom, en utilisant des ensembles de données accessibles au public. Je sais que vous pouvez obtenir ce qui suit n'importe où entre une probabilité faible à élevée …
J'ai une grande matrice (650K lignes * 62 colonnes) de données binaires (0-1 entrées uniquement). La matrice est généralement clairsemée: environ 8% est remplie. Je voudrais le regrouper en 5 groupes - disons nommés de 1 à 5. J'ai essayé le regroupement hiérarchique et il n'a pas pu gérer la …
Comme son titre l'indique, quelqu'un connaît-il un bon livre à jour qui couvre le prétraitement des données en général et en particulier les techniques de détection des valeurs aberrantes? Le livre n'a pas besoin de se concentrer exclusivement sur cela, mais il devrait traiter de manière exhaustive les sujets susmentionnés …
S'agit-il simplement de l'agrégation de points de données? Ou s'agit-il de la représentation de points de données pour différents éléments dans un format tabulaire arrangé avec les valeurs des différentes variables? En quoi est-ce différent des données brutes?
Ok, juste avertissement - c'est une question philosophique qui n'implique aucun chiffre. J'ai beaucoup réfléchi à la façon dont les erreurs se glissent dans les ensembles de données au fil du temps et à la façon dont les analystes devraient les traiter - ou si cela devrait vraiment avoir une …
Donc, par exemple, voici les définitions que j'obtiens des manuels standard Variable - caractéristique de la population ou de l'échantillon. ex. Prix d'un stock ou d'une note sur un test Données - valeurs réelles observées Donc, pour un rapport à deux colonnes [Nom | Revenu] les noms des colonnes seraient …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.