Statistiques et Big Data

3

Pourquoi nous soucions-nous tant des termes d'erreur (et de l'homoscédasticité) normalement distribués dans la régression linéaire alors que nous n'en avons pas besoin?

Je suppose que je suis frustré chaque fois que j'entends quelqu'un dire que la non-normalité des résidus et / ou l'hétéroscédasticité enfreignent les suppositions de la méthode MCO. Pour estimer les paramètres dans un modèle MLS, aucune de ces hypothèses n'est nécessaire selon le théorème de Gauss-Markov. Je vois à …

52 regression assumptions normality-assumption robust teaching

3

Effectuer la normalisation des fonctionnalités avant ou dans la validation du modèle?

Une bonne pratique courante en Machine Learning est de normaliser les caractéristiques ou de normaliser les données des variables prédites, centrer les données soustrayant la moyenne et les normaliser en les divisant par la variance (ou l’écart type). Pour nous maîtriser et pour autant que je sache, nous faisons cela …

52 machine-learning normalization standardization multidimensional-scaling

4

Cumming (2008) affirme que la distribution des valeurs de p obtenues lors de réplications ne dépend que de la valeur de p d'origine. Comment cela peut-il être vrai?

Je lisais l'article de 2008 de Geoff Cumming sur Replication and Intervals: les valeurs ne prédisent que très vaguement l'avenir, mais les intervalles de confiance sont bien meilleurs pppppp p p[environ 200 citations dans Google Scholar] - et je suis dérouté par l'une de ses revendications centrales. C'est l'un des …

52 hypothesis-testing p-value power replicability

8

Successeur moderne de l'analyse exploratoire des données par Tukey?

J'ai lu le livre de Tukey "Exploratory Data Analysis". Écrit en 1977, le livre met l’accent sur les méthodes papier / crayon. Existe-t-il un successeur plus «moderne» qui prenne en compte le fait que nous pouvons maintenant tracer instantanément de grands ensembles de données?

52 data-visualization references descriptive-statistics eda

5

Réseaux de neurones vs machines à vecteurs de support: les deuxièmes sont-ils définitivement supérieurs?

De nombreux auteurs d'articles que j'ai lus affirment que les SVM sont une technique supérieure pour faire face à leur problème de régression / classification, sachant qu'ils ne pourraient pas obtenir de résultats similaires via les NN. Souvent, la comparaison indique que SVM, au lieu de NN, Avoir une théorie …

52 machine-learning svm neural-networks

6

Les prévisions d'un modèle de forêt aléatoire ont-elles un intervalle de prévision?

Si je lance un randomForestmodèle, je peux alors faire des prédictions basées sur ce modèle. Existe-t-il un moyen d’obtenir un intervalle de prévision de chacune des prévisions de sorte que je sache à quel point le modèle est sûr de sa réponse. Si cela est possible, est-il simplement basé sur …

52 r confidence-interval random-forest

2

Dérivation d'une solution de lasso sous forme fermée

Pour le problème de lasso tels que \ | \ beta \ | _1 \ leq t . Je vois souvent le résultat de seuillage souple \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text …

52 lasso

3

ANOVA hypothèse normalité / distribution normale des résidus

La page Wikipedia sur ANOVA énumère trois hypothèses , à savoir: Indépendance des cas - il s'agit d'une hypothèse du modèle qui simplifie l'analyse statistique. Normalité - les distributions des résidus sont normales. Égalité (ou "homogénéité") des variances, appelée homoscédasticité ... Le point d’intérêt ici est la deuxième hypothèse. Plusieurs …

52 anova residuals assumptions normality-assumption

2

Quelle est la relation entre un test du chi carré et un test de proportions égales?

Supposons que j'ai trois populations avec quatre caractéristiques mutuellement exclusives. Je prélève des échantillons aléatoires dans chaque population et crée un tableau croisé ou un tableau de fréquences pour les caractéristiques que je mesure. Ai-je raison de dire que: Si je voulais vérifier s'il existait une relation entre les populations …

52 chi-squared proportion contingency-tables z-test

8

Excel comme un atelier de statistiques

Il semble que beaucoup de personnes (y compris moi-même) aiment effectuer une analyse exploratoire de données dans Excel. Certaines limitations, telles que le nombre de lignes autorisées dans une feuille de calcul, sont pénibles, mais dans la plupart des cas, il n’est pas impossible d’utiliser Excel pour jouer avec les …

52 software computational-statistics excel

10

Clustering avec une matrice de distance

J'ai une matrice (symétrique) Mqui représente la distance entre chaque paire de nœuds. Par exemple, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 140 C 20 20 0 20 60 80 …

52 clustering

14

Quelle est la caractérisation la plus surprenante de la distribution gaussienne (normale)?

Une distribution gaussienne normalisée sur peut être définie en donnant explicitement sa densité: 1RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} ou sa fonction caractéristique. Comme rappelé dans cette question, il s'agit également de la seule distribution pour laquelle la moyenne et la variance de l'échantillon sont indépendantes. Quelles sont les autres caractérisations alternatives surprenantes des …

52 probability normal-distribution mathematical-statistics characteristic-function

6

Classification binaire avec des classes fortement déséquilibrées

J'ai un ensemble de données sous la forme de (fonctionnalités, sortie binaire 0 ou 1), mais 1 arrive assez rarement, donc juste en prédisant toujours 0, j'obtiens une précision comprise entre 70% et 90% (en fonction des données que je regarde) ). Les méthodes ML me donnent à peu près …

52 machine-learning classification binary-data unbalanced-classes

5

Est-il nécessaire de redimensionner la valeur cible en plus des fonctionnalités de redimensionnement pour l'analyse de régression?

Je construis des modèles de régression. En guise d’étape de prétraitement, j’adapte mes valeurs de caractéristiques à la moyenne 0 et à l’écart type 1. Faut-il normaliser également les valeurs cibles?

52 regression machine-learning

4

Dans quelles conditions les échelles de Likert doivent-elles être utilisées comme données ordinales ou à intervalles?

De nombreuses études en sciences sociales utilisent les échelles de Likert. Quand est-il approprié d'utiliser les données Likert comme ordinales et quand est-il approprié de les utiliser comme données d'intervalle?

52 ordinal-data likert scales measurement