Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

4
Collaboration statistique
En tant que biologiste, bon nombre des projets de recherche sur lesquels je travaille à un moment donné impliquent une collaboration avec un statisticien, que ce soit pour de simples conseils ou pour mettre en œuvre et tester un modèle pour mes données. Mes collègues des statistiques admettent qu'ils collaborent …
25 academia 

2
Comment faire face à l'analyse des données exploratoires et au dragage des données dans les études en petits échantillons?
L'analyse exploratoire des données (EDA) conduit souvent à explorer d'autres «pistes» qui n'appartiennent pas nécessairement à l'ensemble initial d'hypothèses. Je suis confronté à une telle situation dans le cas d'études avec une taille d'échantillon limitée et beaucoup de données collectées à travers différents questionnaires (données socio-démographiques, échelles neuropsychologiques ou médicales …



4
Question d'entretien de Amoeba
On m'a posé cette question lors d'une interview pour un poste de trading avec une société de trading propriétaire. J'aimerais beaucoup connaître la réponse à cette question et l'intuition qui la sous-tend. Question sur les amibes: Une population d'amibes commence par 1. Après 1 période pendant laquelle l'amibe peut se …

3
Gradient de perte de charnière
J'essaie d'implémenter une descente de gradient de base et je la teste avec une fonction de perte de charnière, c'est-à-dire . Cependant, je suis confus quant au gradient de la perte de charnière. J'ai l'impression que c'estlhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) ∂∂wlhinge={−y x0if y x⋅w<1if y x⋅w≥1∂∂wlhinge={−y xif y …

2
Fiabilité inter-évaluateur pour les données ordinales ou d'intervalle
Quelles méthodes de fiabilité inter-évaluateurs sont les plus appropriées pour les données ordinales ou d'intervalle? Je pense que la "probabilité d'accord commune" ou la "Kappa" sont conçues pour des données nominales. Alors que "Pearson" et "Spearman" peuvent être utilisés, ils sont principalement utilisés pour deux évaluateurs (bien qu'ils puissent être …

3
Application des ondelettes aux algorithmes de détection d'anomalies basées sur des séries chronologiques
J'ai commencé à me frayer un chemin à travers les didacticiels d'exploration de données statistiques d'Andrew Moore (fortement recommandé pour toute autre personne qui s'aventure dans ce domaine). J'ai commencé par lire ce PDF extrêmement intéressant intitulé "Présentation introductive des algorithmes de détection d'anomalies basées sur des séries chronologiques" dans …



5
Recherche d'un certain type d'explication ARIMA
Cela peut être difficile à trouver, mais j'aimerais lire un exemple ARIMA bien expliqué qui utilise un minimum de mathématiques étend la discussion au-delà de la construction d'un modèle en utilisant ce modèle pour prévoir des cas spécifiques utilise des graphiques ainsi que des résultats numériques pour caractériser l'adéquation entre …



3
LASSO avec des termes d'interaction - est-ce correct si les effets principaux sont réduits à zéro?
La régression LASSO réduit les coefficients vers zéro, permettant ainsi une sélection efficace du modèle. Je crois que dans mes données, il existe des interactions significatives entre les covariables nominales et continues. Cependant, les «principaux effets» du vrai modèle ne sont pas nécessairement significatifs (non nuls). Bien sûr, je ne …

6
Pour les problèmes convexes, le gradient en descente de gradient stochastique (SGD) pointe-t-il toujours vers la valeur extrême globale?
Étant donné une fonction de coût convexe, en utilisant SGD pour l'optimisation, nous aurons un gradient (vecteur) à un certain point au cours du processus d'optimisation. Ma question est, étant donné le point sur le convexe, le gradient ne pointe-t-il que vers la direction dans laquelle la fonction augmente / …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.