Questions marquées «dataset»

Les demandes d'ensembles de données sont hors sujet sur ce site. Utilisez cette balise pour les questions concernant la création, le traitement ou la maintenance des jeux de données.

3
L'idée de rendre les données ont une moyenne nulle
Je vois souvent des gens qui font d'une dimension / caractéristique d'un ensemble de données une moyenne nulle en supprimant la moyenne de tous les éléments. Mais je n'ai jamais compris pourquoi le faire? Quel effet cela fait-il en tant qu'étape de prétraitement? Améliore-t-il les performances de classification? Cela aide-t-il …

2
Pourquoi certaines personnes testent des hypothèses de modèle de régression sur leurs données brutes et d'autres les testent sur le résidu?
Je suis doctorant en psychologie expérimentale et je m'efforce d'améliorer mes compétences et mes connaissances sur la façon d'analyser mes données. Jusqu'à ma 5e année en psychologie, je pensais que les modèles de régression (par exemple, ANOVA) supposaient les choses suivantes: normalité des données homogénéité de la variance des données, …


1
Différences entre PROC Mixed et lme / lmer en R - degrés de liberté
Remarque: cette question est une rediffusion, car ma question précédente a dû être supprimée pour des raisons juridiques. En comparant PROC MIXED de SAS avec la fonction lmedu nlmepackage dans R, je suis tombé sur des différences assez confuses. Plus précisément, les degrés de liberté dans les différents tests diffèrent …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 


2
Meilleures pratiques pour créer des «données bien rangées»
Hadley Wickham a écrit un article stellaire intitulé "Tidy Data" ( lien ) dans JSS l'année dernière sur la manipulation des données et la mise en état "optimal" des données afin d'effectuer une analyse. Cependant, je me demandais quelles étaient les meilleures pratiques en termes de présentation de données tabulaires …
12 dataset  tables 

2
La division des données en ensembles de test et de formation est-elle purement «statistique»?
Je suis un étudiant en physique qui étudie l'apprentissage automatique / la science des données, donc je ne veux pas que cette question déclenche des conflits :) Cependant, une grande partie de tout programme de premier cycle en physique consiste à faire des laboratoires / expériences, ce qui signifie beaucoup …

2
Regroupement optimal par rapport à une variable de réponse donnée
Je recherche une méthode de binning optimale (discrétisation) d'une variable continue par rapport à une variable binaire de réponse (cible) donnée et avec un nombre maximum d'intervalles comme paramètre. exemple: J'ai un ensemble d'observations de personnes avec des variables "hauteur" (numéral continu) et "has_back_pains" (binaire). Je veux discrétiser la hauteur …

3
Tutoriel PCA pratique avec données
La recherche sur Internet du didacticiel PCA donne des milliers de résultats (même des vidéos). Beaucoup de tutoriels sont très bons. Mais je ne suis pas en mesure de trouver d'exemple pratique où PCA est expliqué en utilisant des ensembles de données que je peux utiliser pour la démonstration. J'ai …

14
Combien d'informations pouvez-vous extraire d'un nom?
Un nom: d'abord, éventuellement un deuxième prénom, et un nom de famille. Je suis curieux de savoir combien d'informations vous pouvez extraire d'un nom, en utilisant des ensembles de données accessibles au public. Je sais que vous pouvez obtenir ce qui suit n'importe où entre une probabilité faible à élevée …





2
Les types de données (nominaux / ordinaux / intervalle / ratio) devraient-ils vraiment être considérés comme des types de variables?
Donc, par exemple, voici les définitions que j'obtiens des manuels standard Variable - caractéristique de la population ou de l'échantillon. ex. Prix ​​d'un stock ou d'une note sur un test Données - valeurs réelles observées Donc, pour un rapport à deux colonnes [Nom | Revenu] les noms des colonnes seraient …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.