Statistiques et Big Data inference

4

Je travaille avec un petit ensemble de données (21 observations) et ai le graphe QQ normal suivant dans R: Voyant que l'intrigue ne soutient pas la normalité, que pourrais-je déduire de la distribution sous-jacente? Il me semble qu'une distribution plus biaisée à droite conviendrait mieux, n'est-ce pas? Aussi, quelles autres …

173 r data-visualization inference qq-plot

12

Qui sont les Bayésiens?

Au fur et à mesure que l'on s'intéresse aux statistiques, la dichotomie "Frequentist" vs "Bayesian" se banalise (et qui n'a pas lu Le signal et le bruit de Nate Silver , de toute façon?). Dans les causeries et les cours d'initiation, le point de vue est extrêmement fréquentiste ( MLE …

92 bayesian mathematical-statistics inference bayes frequentist

10

Comprendre intuitivement la «variance»

Quel est le moyen le plus simple et le plus simple d’expliquer le concept de variance à une personne? Qu'est-ce que cela signifie intuitivement? Si on doit expliquer cela à leur enfant, comment s'y prendrait-on? C’est un concept que j’ai du mal à articuler - en particulier lorsque l’on fait …

81 distributions variance standard-deviation inference intuition

8

Quel est un bon exemple convaincant dans lequel les valeurs-p sont utiles?

Ma question dans le titre est explicite, mais j'aimerais lui donner un contexte. L’ASA a publié une déclaration plus tôt cette semaine « sur les valeurs p: contexte, processus et but », décrivant diverses idées fausses courantes sur la valeur p et appelant à la prudence en ne l’utilisant pas …

64 hypothesis-testing bayesian p-value inference frequentist

12

Tests bilatéraux… Je ne suis tout simplement pas convaincu. À quoi ça sert?

L'extrait suivant est tiré de l'entrée Quelles sont les différences entre les tests unilatéraux et bilatéraux? , sur le site d'aide des statistiques de UCLA. ... considérer les conséquences de l'absence d'un effet dans l'autre sens. Imaginez que vous avez développé un nouveau médicament qui, à votre avis, constitue une …

58 hypothesis-testing statistical-significance inference

7

Pourquoi quelqu'un utiliserait-il une approche bayésienne avec un précédent non approprié «non informatif» au lieu de l'approche classique?

Si l’intérêt consiste simplement à estimer les paramètres d’un modèle (estimation ponctuelle et / ou par intervalle) et que les informations préalables ne sont pas fiables, faibles (je sais que cela est un peu vague, mais j’essaie d’établir un scénario où a priori est difficile) ... Pourquoi quelqu'un choisirait-il d'utiliser …

44 bayesian inference prior likelihood information

3

Tester l'égalité des coefficients de deux régressions différentes

Cela semble être un problème fondamental, mais je viens de me rendre compte que je ne sais pas comment tester l’égalité des coefficients de deux régressions différentes. Quelqu'un peut-il nous éclairer? Plus formellement, supposons que j’ai exécuté les deux régressions suivantes: et où fait référence à la matrice de de …

44 hypothesis-testing inference

6

Règle de base pour le nombre d'échantillons bootstrap

Je me demande si quelqu'un connaît des règles générales concernant le nombre d'échantillons bootstrap à utiliser, en fonction des caractéristiques des données (nombre d'observations, etc.) et / ou des variables incluses?

40 bootstrap inference monte-carlo

4

Quel est l'argument fiduciaire et pourquoi n'a-t-il pas été accepté?

L'une des dernières contributions de RA Fisher a été les intervalles de confiance et les arguments fondés sur des principes de base . Cette approche n’est cependant pas aussi populaire que les arguments de principe fréquentistes ou bayésiens. Quel est l'argument fiduciaire et pourquoi n'a-t-il pas été accepté?

33 inference philosophical fiducial

3

Pourquoi les tests d'hypothèses de base portent-ils sur la moyenne et non sur la médiane?

Dans les cours de statistiques de base pour les étudiants du premier cycle, on apprend (généralement?) À tester des hypothèses pour la moyenne d'une population. Pourquoi se concentre-t-il sur la moyenne et non sur la médiane? Mon hypothèse est qu'il est plus facile de tester la moyenne en raison du …

32 hypothesis-testing mean inference median

2

Effectuer un test statistique après avoir visualisé des données - dragage de données?

Je proposerai cette question au moyen d'un exemple. Supposons que j'ai un ensemble de données, comme l'ensemble de données sur les prix des logements de Boston, dans lequel j'ai des variables continues et catégoriques. Ici, nous avons une variable "qualité", de 1 à 10, et le prix de vente. Je …

31 hypothesis-testing data-visualization p-value dataset inference

3

Compréhension des vues enchâssées sur les valeurs p

Parfois, dans les rapports, j'inclus un avertissement concernant les valeurs de p et d'autres statistiques inférentielles que j'ai fournies. Je dis que puisque l'échantillon n'était pas aléatoire, de telles statistiques ne s'appliqueraient pas strictement. Ma formulation spécifique est généralement donnée dans une note de bas de page: "Alors que, strictement …

31 inference p-value

7

Inférence vs estimation?

Quelles sont les différences entre "inférence" et "estimation" dans le contexte de l'apprentissage automatique ? En tant que débutant, je pense que nous déduisons des variables aléatoires et estimons les paramètres du modèle. Ma compréhension est-elle juste? Sinon, quelles sont exactement les différences et quand dois-je les utiliser? De plus, …

30 machine-learning inference terminology

5

Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique

Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

3

Et si votre échantillon aléatoire n'est clairement pas représentatif?

Que se passe-t-il si vous prenez un échantillon aléatoire et que vous pouvez voir qu'il n'est clairement pas représentatif, comme dans une question récente . Par exemple, que se passe-t-il si la distribution de la population est censée être symétrique autour de 0 et que l'échantillon que vous tirez au …

28 sampling experiment-design inference sample

Questions marquées «inference»