Statistiques et Big Data

16

Quels termes statistiques mal utilisés méritent d'être corrigés?

La statistique est partout. L’usage courant de termes statistiques est cependant souvent flou. Les termes probabilité et probabilité sont utilisés de manière interchangeable en anglais profane malgré leurs expressions mathématiques bien définies et différentes. Ne pas séparer le terme probabilité de probabilité confond systématiquement les médecins qui tentent de quantifier …

104 terminology

5

Différences entre validation croisée et amorçage pour estimer l'erreur de prédiction

J'aimerais connaître votre avis sur les différences entre la validation croisée et l’amorçage pour estimer l’erreur de prédiction. Est-ce qu'on travaille mieux pour de petites tailles de données ou de grands ensembles de données?

103 cross-validation predictive-models bootstrap

19

Comment embêter un arbitre statistique?

J'ai récemment posé une question sur les principes généraux régissant l' examen des statistiques dans les journaux . Ce que je voudrais maintenant demander, c’est ce qui vous énerve particulièrement lorsque vous examinez un document, c’est-à-dire quel est le meilleur moyen d’ennuyer vraiment un arbitre de statistique! Un exemple par …

102 references referee

2

L'élimination du terme d'interception statistiquement significatif augmente dans le modèle linéaire

Dans un modèle linéaire simple avec une seule variable explicative, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Je trouve que la suppression du terme d'interception améliore grandement l'ajustement (la valeur de va de 0,3 à 0,9). Cependant, le terme d'interception semble être statistiquement significatif.R2R2R^2 Avec interception: Call: lm(formula = …

101 r linear-model interpretation r-squared intercept

3

Descente de gradient par lots et descente de gradient stochastique

Supposons que nous ayons un ensemble d’entraînement pour . Supposons également que nous exécutions un type d'algorithme d'apprentissage supervisé sur l'ensemble d'apprentissage. Les hypothèses sont représentées par . Nous devons trouver les paramètres qui minimisent la "distance" entre et . Soit(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots …

101 optimization gradient-descent sgd

8

ASA discute des limitations des valeurs - quelles sont les alternatives?

Nous avons déjà plusieurs threads étiquetés en tant que valeurs p qui révèlent beaucoup de malentendus à leur sujet. Il y a dix mois, nous avions un fil de discussion sur une revue psychologique qui "interdisait" les valeurs-ppp p ; à présent, l' American Statistical Association (2016) affirme qu'avec notre …

100 hypothesis-testing bayesian p-value frequentist

10

Quelle est la différence entre la corrélation et la régression linéaire simple?

Je parle en particulier du coefficient de corrélation produit-moment de Pearson.

99 correlation regression

14

Des livres pour l’analyse autodidacte de séries chronologiques?

J'ai commencé par Time Series Analysis de Hamilton, mais je suis désespérément perdu. Ce livre est vraiment trop théorique pour que je puisse l’apprendre par moi-même. Quelqu'un a-t-il une recommandation pour un manuel d'analyse de séries chronologiques qui convient à l'auto-apprentissage?

99 time-series self-study references

25

Localisation des échantillons de données disponibles gratuitement

Je travaille sur une nouvelle méthode d'analyse et d'analyse de jeux de données pour identifier et isoler les sous-groupes d'une population sans connaître à l'avance les caractéristiques d'aucun sous-groupe. Bien que la méthode fonctionne assez bien avec des échantillons de données artificiels (c'est-à-dire des ensembles de données créés spécifiquement dans …

98 dataset sample population teaching

9

Est-ce vraiment comme ça que p-values fonctionnent? Un million d'articles de recherche par an peuvent-ils être basés sur le hasard pur?

Je suis très novice en statistique et j'apprends à comprendre les bases, y compris les valeurs . Mais il y a un grand point d'interrogation dans mon esprit en ce moment et j'espère que ma compréhension est fausse. Voici mon processus de pensée:ppp Toutes les recherches dans le monde ne …

98 hypothesis-testing statistical-significance p-value

4

Comment expliquer intuitivement ce qu'est un noyau?

De nombreux classificateurs d'apprentissage machine (par exemple, les machines à vecteurs de support) permettent de spécifier un noyau. Quelle serait une manière intuitive d'expliquer ce qu'est un noyau? Un aspect auquel j'ai pensé est la distinction entre les noyaux linéaires et non linéaires. En termes simples, je pourrais parler de …

98 machine-learning svm references kernel-trick intuition

1

Arbres d'inférence conditionnels vs arbres de décision traditionnels

Quelqu'un peut-il expliquer les principales différences entre les arbres d'inférence conditionnels ( ctreedu partypaquet dans R) par rapport aux algorithmes d'arbre de décision plus traditionnels (comme rpartdans R)? Qu'est-ce qui différencie les arbres en CI? Forces et faiblesses? Mise à jour: J'ai examiné le document de Horthorn et al auquel …

97 r machine-learning cart

9

Quelle est la différence entre la régression linéaire sur y avec x et x avec y?

Le coefficient de corrélation de Pearson de x et y est le même, que vous calculiez pearson (x, y) ou pearson (y, x). Cela suggère que faire une régression linéaire de y étant donné x ou x étant donné y devrait être la même chose, mais je ne pense pas …

97 regression correlation linear-model pearson-r

6

Pourquoi la norme L1 pour les modèles épars

Je lis les livres sur la régression linéaire. Il y a quelques phrases sur les normes L1 et L2. Je les connais, mais je ne comprends pas pourquoi la norme L1 pour les modèles clairsemés. Quelqu'un peut utiliser donner une explication simple?

97 regression lasso regularization ridge-regression

3

Explication intuitive de la racine unitaire

Comment expliqueriez-vous intuitivement ce qu'est une racine unitaire dans le contexte du test de la racine unitaire? Je pense à des façons d’expliquer un peu ce que j’ai fondé dans cette question . Le cas de racine unitaire est que je sais (peu en passant) que le test de racine …

97 intuition unit-root