Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

16
Quels termes statistiques mal utilisés méritent d'être corrigés?
La statistique est partout. L’usage courant de termes statistiques est cependant souvent flou. Les termes probabilité et probabilité sont utilisés de manière interchangeable en anglais profane malgré leurs expressions mathématiques bien définies et différentes. Ne pas séparer le terme probabilité de probabilité confond systématiquement les médecins qui tentent de quantifier …
104 terminology 


19
Comment embêter un arbitre statistique?
J'ai récemment posé une question sur les principes généraux régissant l' examen des statistiques dans les journaux . Ce que je voudrais maintenant demander, c’est ce qui vous énerve particulièrement lorsque vous examinez un document, c’est-à-dire quel est le meilleur moyen d’ennuyer vraiment un arbitre de statistique! Un exemple par …

2
L'élimination du terme d'interception statistiquement significatif augmente dans le modèle linéaire
Dans un modèle linéaire simple avec une seule variable explicative, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Je trouve que la suppression du terme d'interception améliore grandement l'ajustement (la valeur de va de 0,3 à 0,9). Cependant, le terme d'interception semble être statistiquement significatif.R2R2R^2 Avec interception: Call: lm(formula = …

3
Descente de gradient par lots et descente de gradient stochastique
Supposons que nous ayons un ensemble d’entraînement pour . Supposons également que nous exécutions un type d'algorithme d'apprentissage supervisé sur l'ensemble d'apprentissage. Les hypothèses sont représentées par . Nous devons trouver les paramètres qui minimisent la "distance" entre et . Soit(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots …




25
Localisation des échantillons de données disponibles gratuitement
Je travaille sur une nouvelle méthode d'analyse et d'analyse de jeux de données pour identifier et isoler les sous-groupes d'une population sans connaître à l'avance les caractéristiques d'aucun sous-groupe. Bien que la méthode fonctionne assez bien avec des échantillons de données artificiels (c'est-à-dire des ensembles de données créés spécifiquement dans …

9
Est-ce vraiment comme ça que p-values ​​fonctionnent? Un million d'articles de recherche par an peuvent-ils être basés sur le hasard pur?
Je suis très novice en statistique et j'apprends à comprendre les bases, y compris les valeurs . Mais il y a un grand point d'interrogation dans mon esprit en ce moment et j'espère que ma compréhension est fausse. Voici mon processus de pensée:ppp Toutes les recherches dans le monde ne …


1
Arbres d'inférence conditionnels vs arbres de décision traditionnels
Quelqu'un peut-il expliquer les principales différences entre les arbres d'inférence conditionnels ( ctreedu partypaquet dans R) par rapport aux algorithmes d'arbre de décision plus traditionnels (comme rpartdans R)? Qu'est-ce qui différencie les arbres en CI? Forces et faiblesses? Mise à jour: J'ai examiné le document de Horthorn et al auquel …



3
Explication intuitive de la racine unitaire
Comment expliqueriez-vous intuitivement ce qu'est une racine unitaire dans le contexte du test de la racine unitaire? Je pense à des façons d’expliquer un peu ce que j’ai fondé dans cette question . Le cas de racine unitaire est que je sais (peu en passant) que le test de racine …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.