Statistiques et Big Data dataset

3

L'idée de rendre les données ont une moyenne nulle

Je vois souvent des gens qui font d'une dimension / caractéristique d'un ensemble de données une moyenne nulle en supprimant la moyenne de tous les éléments. Mais je n'ai jamais compris pourquoi le faire? Quel effet cela fait-il en tant qu'étape de prétraitement? Améliore-t-il les performances de classification? Cela aide-t-il …

12 data-mining dataset

2

Pourquoi certaines personnes testent des hypothèses de modèle de régression sur leurs données brutes et d'autres les testent sur le résidu?

Je suis doctorant en psychologie expérimentale et je m'efforce d'améliorer mes compétences et mes connaissances sur la façon d'analyser mes données. Jusqu'à ma 5e année en psychologie, je pensais que les modèles de régression (par exemple, ANOVA) supposaient les choses suivantes: normalité des données homogénéité de la variance des données, …

12 regression dataset residuals assumptions

4

Le meilleur moyen de simplement stocker des données pour l'analyse statistique dans R [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 6 ans . J'utilise des fichiers texte pour stocker mes données pour R sans …

12 r dataset

1

Différences entre PROC Mixed et lme / lmer en R - degrés de liberté

Remarque: cette question est une rediffusion, car ma question précédente a dû être supprimée pour des raisons juridiques. En comparant PROC MIXED de SAS avec la fonction lmedu nlmepackage dans R, je suis tombé sur des différences assez confuses. Plus précisément, les degrés de liberté dans les différents tests diffèrent …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

4

Exemples de conséquences coûteuses d'une mauvaise utilisation des outils statistiques

Je soupçonne que la plupart des utilisateurs d'outils statistiques sont des utilisateurs auxiliaires (des gens qui ont peu ou pas de formation formelle en statistique). Il est très tentant pour les chercheurs et autres professionnels d'appliquer des méthodes statistiques à leurs données simplement parce qu'ils les ont vues «faites auparavant» …

12 dataset methodology

2

Meilleures pratiques pour créer des «données bien rangées»

Hadley Wickham a écrit un article stellaire intitulé "Tidy Data" ( lien ) dans JSS l'année dernière sur la manipulation des données et la mise en état "optimal" des données afin d'effectuer une analyse. Cependant, je me demandais quelles étaient les meilleures pratiques en termes de présentation de données tabulaires …

12 dataset tables

2

La division des données en ensembles de test et de formation est-elle purement «statistique»?

Je suis un étudiant en physique qui étudie l'apprentissage automatique / la science des données, donc je ne veux pas que cette question déclenche des conflits :) Cependant, une grande partie de tout programme de premier cycle en physique consiste à faire des laboratoires / expériences, ce qui signifie beaucoup …

11 regression machine-learning cross-validation dataset experiment-design

2

Regroupement optimal par rapport à une variable de réponse donnée

Je recherche une méthode de binning optimale (discrétisation) d'une variable continue par rapport à une variable binaire de réponse (cible) donnée et avec un nombre maximum d'intervalles comme paramètre. exemple: J'ai un ensemble d'observations de personnes avec des variables "hauteur" (numéral continu) et "has_back_pains" (binaire). Je veux discrétiser la hauteur …

11 r dataset optimization discrete-data binning

3

Tutoriel PCA pratique avec données

La recherche sur Internet du didacticiel PCA donne des milliers de résultats (même des vidéos). Beaucoup de tutoriels sont très bons. Mais je ne suis pas en mesure de trouver d'exemple pratique où PCA est expliqué en utilisant des ensembles de données que je peux utiliser pour la démonstration. J'ai …

11 data-visualization dataset pca data-mining

14

Combien d'informations pouvez-vous extraire d'un nom?

Un nom: d'abord, éventuellement un deuxième prénom, et un nom de famille. Je suis curieux de savoir combien d'informations vous pouvez extraire d'un nom, en utilisant des ensembles de données accessibles au public. Je sais que vous pouvez obtenir ce qui suit n'importe où entre une probabilité faible à élevée …

11 dataset data-mining census

3

Quel algorithme dois-je utiliser pour regrouper un énorme ensemble de données binaires en quelques catégories?

J'ai une grande matrice (650K lignes * 62 colonnes) de données binaires (0-1 entrées uniquement). La matrice est généralement clairsemée: environ 8% est remplie. Je voudrais le regrouper en 5 groupes - disons nommés de 1 à 5. J'ai essayé le regroupement hiérarchique et il n'a pas pu gérer la …

11 clustering dataset k-means binary-data

3

Bons livres couvrant le prétraitement des données et les techniques de détection des valeurs aberrantes

Comme son titre l'indique, quelqu'un connaît-il un bon livre à jour qui couvre le prétraitement des données en général et en particulier les techniques de détection des valeurs aberrantes? Le livre n'a pas besoin de se concentrer exclusivement sur cela, mais il devrait traiter de manière exhaustive les sujets susmentionnés …

11 dataset data-mining references outliers

4

Qu'entend-on exactement par «ensemble de données»?

S'agit-il simplement de l'agrégation de points de données? Ou s'agit-il de la représentation de points de données pour différents éléments dans un format tabulaire arrangé avec les valeurs des différentes variables? En quoi est-ce différent des données brutes?

10 dataset terminology definition

1

Les erreurs de traitement des données sont-elles déjà «intégrées» à l'analyse statistique?

Ok, juste avertissement - c'est une question philosophique qui n'implique aucun chiffre. J'ai beaucoup réfléchi à la façon dont les erreurs se glissent dans les ensembles de données au fil du temps et à la façon dont les analystes devraient les traiter - ou si cela devrait vraiment avoir une …

10 dataset error

2

Les types de données (nominaux / ordinaux / intervalle / ratio) devraient-ils vraiment être considérés comme des types de variables?

Donc, par exemple, voici les définitions que j'obtiens des manuels standard Variable - caractéristique de la population ou de l'échantillon. ex. Prix d'un stock ou d'une note sur un test Données - valeurs réelles observées Donc, pour un rapport à deux colonnes [Nom | Revenu] les noms des colonnes seraient …

10 dataset ordinal-data categorical-data ratio

Questions marquées «dataset»