Statistiques et Big Data

4

En tant que biologiste, bon nombre des projets de recherche sur lesquels je travaille à un moment donné impliquent une collaboration avec un statisticien, que ce soit pour de simples conseils ou pour mettre en œuvre et tester un modèle pour mes données. Mes collègues des statistiques admettent qu'ils collaborent …

25 academia

2

Comment faire face à l'analyse des données exploratoires et au dragage des données dans les études en petits échantillons?

L'analyse exploratoire des données (EDA) conduit souvent à explorer d'autres «pistes» qui n'appartiennent pas nécessairement à l'ensemble initial d'hypothèses. Je suis confronté à une telle situation dans le cas d'études avec une taille d'échantillon limitée et beaucoup de données collectées à travers différents questionnaires (données socio-démographiques, échelles neuropsychologiques ou médicales …

25 multiple-comparisons epidemiology small-sample eda

2

Détecter les schémas de tricherie lors d'un examen à plusieurs questions

QUESTION: J'ai des données binaires sur les questions d'examen (correctes / incorrectes). Certaines personnes peuvent avoir eu accès auparavant à un sous-ensemble de questions et à leurs réponses correctes. Je ne sais pas qui, combien ou quoi. S'il n'y avait pas de triche, supposons que je modélise la probabilité d'une …

25 r clustering classification psychometrics

8

Comment estimer le nombre de personnes qui ont assisté à un événement (disons, un rassemblement politique)?

Un étudiant m'a demandé aujourd'hui: "Comment savent-ils combien de personnes ont assisté à un événement de grand groupe, par exemple, le Rallye Stewart / Colbert pour restaurer la santé mentale à Washington DC?" Les agences de presse font état d'estimations par dizaines de milliers, mais quelles méthodes sont utilisées pour …

25 estimation sampling

4

Question d'entretien de Amoeba

On m'a posé cette question lors d'une interview pour un poste de trading avec une société de trading propriétaire. J'aimerais beaucoup connaître la réponse à cette question et l'intuition qui la sous-tend. Question sur les amibes: Une population d'amibes commence par 1. Après 1 période pendant laquelle l'amibe peut se …

25 probability

3

Gradient de perte de charnière

J'essaie d'implémenter une descente de gradient de base et je la teste avec une fonction de perte de charnière, c'est-à-dire . Cependant, je suis confus quant au gradient de la perte de charnière. J'ai l'impression que c'estlhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) ∂∂wlhinge={−y x0if y x⋅w<1if y x⋅w≥1∂∂wlhinge={−y xif y …

25 loss-functions

2

Fiabilité inter-évaluateur pour les données ordinales ou d'intervalle

Quelles méthodes de fiabilité inter-évaluateurs sont les plus appropriées pour les données ordinales ou d'intervalle? Je pense que la "probabilité d'accord commune" ou la "Kappa" sont conçues pour des données nominales. Alors que "Pearson" et "Spearman" peuvent être utilisés, ils sont principalement utilisés pour deux évaluateurs (bien qu'ils puissent être …

25 reliability psychometrics agreement-statistics cohens-kappa

3

Application des ondelettes aux algorithmes de détection d'anomalies basées sur des séries chronologiques

J'ai commencé à me frayer un chemin à travers les didacticiels d'exploration de données statistiques d'Andrew Moore (fortement recommandé pour toute autre personne qui s'aventure dans ce domaine). J'ai commencé par lire ce PDF extrêmement intéressant intitulé "Présentation introductive des algorithmes de détection d'anomalies basées sur des séries chronologiques" dans …

25 time-series outliers signal-processing wavelet

3

Visualisation des données de réponse aux éléments Likert

Quels sont les bons moyens de visualiser un ensemble de réponses Likert? Par exemple, un ensemble d'éléments demandant l'importance de X dans ses décisions concernant A, B, C, D, E, F & G? Y a-t-il quelque chose de mieux que des graphiques à barres empilées? Que faut-il faire avec les …

25 data-visualization scales likert

7

Quelle est la différence entre une probabilité et une proportion?

Disons que je mange des hamburgers tous les mardis depuis des années. On pourrait dire que je mange des hamburgers 14% du temps, ou que la probabilité que je mange un hamburger au cours d'une semaine donnée est de 14%. Quelles sont les principales différences entre les probabilités et les …

25 probability intuition

5

Recherche d'un certain type d'explication ARIMA

Cela peut être difficile à trouver, mais j'aimerais lire un exemple ARIMA bien expliqué qui utilise un minimum de mathématiques étend la discussion au-delà de la construction d'un modèle en utilisant ce modèle pour prévoir des cas spécifiques utilise des graphiques ainsi que des résultats numériques pour caractériser l'adéquation entre …

25 time-series arima intuition

3

Pourquoi le test de Kolmogorov-Smirnov fonctionne-t-il?

En lisant le test KS à 2 échantillons, je comprends exactement ce qu'il fait, mais je ne comprends pas pourquoi cela fonctionne . En d'autres termes, je peux suivre toutes les étapes pour calculer les fonctions de distribution empiriques, trouver la différence maximale entre les deux pour trouver la statistique …

25 distributions statistical-significance nonparametric kolmogorov-smirnov

2

J'ai entendu dire que les ratios ou les inverses de variables aléatoires sont souvent problématiques, car ils n'ont pas d'attentes. Pourquoi donc?

Le titre est la question. On me dit que les ratios et les inverses de variables aléatoires sont souvent problématiques. Cela signifie que les attentes n'existent souvent pas. Y a-t-il une explication simple et générale à cela?

25 probability distributions random-variable expected-value ratio

3

LASSO avec des termes d'interaction - est-ce correct si les effets principaux sont réduits à zéro?

La régression LASSO réduit les coefficients vers zéro, permettant ainsi une sélection efficace du modèle. Je crois que dans mes données, il existe des interactions significatives entre les covariables nominales et continues. Cependant, les «principaux effets» du vrai modèle ne sont pas nécessairement significatifs (non nuls). Bien sûr, je ne …

25 machine-learning lasso glmnet shrinkage penalized

6

Pour les problèmes convexes, le gradient en descente de gradient stochastique (SGD) pointe-t-il toujours vers la valeur extrême globale?

Étant donné une fonction de coût convexe, en utilisant SGD pour l'optimisation, nous aurons un gradient (vecteur) à un certain point au cours du processus d'optimisation. Ma question est, étant donné le point sur le convexe, le gradient ne pointe-t-il que vers la direction dans laquelle la fonction augmente / …

25 neural-networks optimization gradient-descent sgd convex