Questions marquées «eda»

EDA signifie «analyse exploratoire des données». Développé par Tukey pour contraster avec l'analyse de données de confirmation ou CDA (le test formel d'hypothèses). L'EDA se préoccupe généralement de décrire les données numériquement et graphiquement pour rendre les données plus faciles à comprendre et fournir de nouvelles informations.

5
Est-il préférable de faire une analyse exploratoire des données sur l'ensemble de données de formation uniquement?
Je fais l'analyse exploratoire des données (EDA) sur un ensemble de données. Ensuite, je sélectionnerai certaines fonctionnalités pour prédire une variable dépendante. La question est: dois-je faire l'EDA sur mon ensemble de données de formation uniquement? Ou dois-je joindre les ensembles de données de formation et de test ensemble, puis …




4
Meilleures façons d'agréger et d'analyser les données
Ayant récemment commencé à m'enseigner moi-même l'apprentissage automatique et l'analyse des données, je me retrouve à frapper un mur de briques sur la nécessité de créer et d'interroger de grands ensembles de données. Je voudrais prendre des données que j'ai agrégées dans ma vie professionnelle et personnelle et les analyser, …

2
Différence entre l'analyse factorielle exploratoire et confirmatoire pour déterminer l'indépendance du construit
Les chercheurs utilisent souvent deux mesures qui ont des éléments très similaires et affirment qu'ils mesurent des choses différentes (par exemple, "je m'inquiète toujours quand je suis près des voitures"; "j'ai peur des voitures"). Appelons les mesures hypothétiques la mesure de la peur des voitures et de l'anxiété à l'échelle …


1
Comment interpréter les tracés en boîte crantée
Tout en faisant un EDA, j'ai décidé d'utiliser un diagramme en boîte pour illustrer la différence entre deux niveaux d'un facteur. La façon dont ggplot a rendu le diagramme en boîte était satisfaisante, mais légèrement simpliste (premier tracé ci-dessous). Tout en recherchant les caractéristiques des parcelles en caissons, j'ai commencé …

2
Que veut dire "Laissez les données parler d'elles-mêmes"?
En lisant l' article suivant , je suis tombé sur l'énoncé suivant: Comme mentionné, il est souvent présenté sans référence aux modèles probabilistes, conformément à l'idée de Benzecri [1973] de «laisser les données parler d'elles-mêmes». (la citation est tirée de JP Benzécri. L'analyse des données. Tome II: L'analyse des correspondances. …
10 eda  quotation 


4
Trucs et astuces pour commencer la modélisation statistique?
Je travaille dans le domaine de l'exploration de données et j'ai eu très peu de formation formelle en statistique. Dernièrement, j'ai lu beaucoup de travaux qui se concentrent sur les paradigmes bayésiens pour l'apprentissage et l'exploitation minière, ce que je trouve très intéressant. Ma question est (en plusieurs parties), étant …

4
Pourquoi le fait qu'une médiane soit inférieure à une autre médiane ne signifie-t-il pas que la plupart dans le groupe 1 sont inférieurs à la plupart dans le groupe 2?
Je pensais que les boîtes à moustaches ci-dessous pouvaient être interprétées comme «la plupart des hommes sont plus rapides que la plupart des femmes» (dans cet ensemble de données), principalement parce que le temps médian des hommes était inférieur à celui des femmes médianes. Mais le cours EdX sur la …

2


2
Des transformations de données sur des données non normales sont-elles nécessaires pour une analyse factorielle exploratoire lors de l'utilisation de la méthode d'extraction factorisée par axe principal?
Je développe un questionnaire pour mesurer quatre facteurs qui constituent la spiritualité, et je voudrais poser la question suivante: Des transformations de données sur des données non normales sont-elles nécessaires pour une analyse factorielle exploratoire lors de l'utilisation de la méthode d'extraction factorisée par axe principal? J'ai terminé le filtrage …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.