Statistiques et Big Data

5

Pourquoi le biais est-il affecté lorsqu'un essai clinique prend fin à un stade précoce?

Une analyse intermédiaire est une analyse des données à un ou plusieurs moments avant la clôture officielle de l'étude dans le but, par exemple, de mettre éventuellement fin à l'étude plus tôt. Selon Piantadosi, S. ( Essais cliniques - une perspective méthodologique ): " L'estimation d'un effet du traitement sera …

24 clinical-trials bias

3

Les équations dans l'actualité: traduire un modèle multi-niveaux à un large public

Le New York Times a un long commentaire sur le système d'évaluation des enseignants à «valeur ajoutée» utilisé pour donner un feedback aux éducateurs de la ville de New York. La lede est l'équation utilisée pour calculer les scores - présentée sans contexte. La stratégie rhétorique semble être l'intimidation via …

24 regression multilevel-analysis statistics-in-media

3

L'ordre des variables explicatives importe-t-il lors du calcul de leurs coefficients de régression?

Au début, je pensais que l'ordre n'avait pas d'importance, mais j'ai ensuite lu au sujet du processus d'orthogonalisation gram-schmidt pour calculer les coefficients de régression multiple, et maintenant j'ai des doutes. Selon le processus gram-schmidt, plus une variable explicative est indexée tardivement parmi les autres variables, plus son vecteur résiduel …

24 regression multiple-regression regression-coefficients

7

Algorithme pour surveiller dynamiquement les quantiles

Je veux estimer le quantile de certaines données. Les données sont si énormes qu'elles ne peuvent pas être stockées dans la mémoire. Et les données ne sont pas statiques, de nouvelles données continuent d'arriver. Quelqu'un connaît-il un algorithme pour surveiller les quantiles des données observées jusqu'à présent avec une mémoire …

24 algorithms quantiles

13

Des manuels d'économétrie?

Quels bons manuels d'économétrie recommanderiez-vous? Edit: il y a pas mal de livres, avec différents niveaux de sophistication mathématique. Il serait bon d'avoir une idée de la technicité du livre que vous recommandez.

24 econometrics references

4

Correction des valeurs de p pour plusieurs tests où les tests sont corrélés (génétique)

J'ai des valeurs de p provenant de nombreux tests et j'aimerais savoir s'il y a réellement quelque chose d'important après correction pour plusieurs tests. La complication: mes tests ne sont pas indépendants. La méthode à laquelle je pense (une variante de la méthode des produits de Fisher, Zaykin et al., …

24 correlation multiple-comparisons statistical-significance genetics

3

L'heure est-elle une variable catégorielle?

"Heure du jour" où la valeur peut être 0, 1, 2, ..., 23 est-elle une variable catégorielle? Je serais tenté de dire non, car 5, par exemple, est «plus proche» de 4 ou 6 que de 3 ou 7. Par contre, il y a la discontinuité entre 23 et 0. …

24 categorical-data circular-statistics

2

Pourquoi la correction de continuité (disons l'approximation normale de la distribution binomiale) fonctionne-t-elle?

Je souhaite mieux comprendre comment la correction de continuité de la distribution binomiale pour l'approximation normale a été dérivée. Quelle méthode a été utilisée pour décider d'ajouter 1/2 (pourquoi pas un autre nombre?). Toute explication (ou un lien vers une lecture suggérée, autre que celle-ci , serait appréciée).

24 binomial asymptotics

1

Comment calculer l'intervalle de prédiction pour une régression multiple OLS?

Quelle est la notation algébrique pour calculer l'intervalle de prédiction pour la régression multiple? Cela peut paraître idiot, mais j'ai du mal à trouver une notation algébrique claire de cela.

24 multiple-regression least-squares prediction-interval

2

Comment comprendre «non linéaire» comme dans «réduction de dimensionnalité non linéaire»?

J'essaie de comprendre les différences entre les méthodes de réduction de dimensionnalité linéaire (par exemple, PCA) et les méthodes non linéaires (par exemple, Isomap). Je ne comprends pas très bien ce que la (non) linéarité implique dans ce contexte. J'ai lu sur Wikipedia que Par comparaison, si PCA (un algorithme …

24 pca terminology dimensionality-reduction pattern-recognition manifold-learning

2

Comment le CNN '12 de Krizhevsky obtient-il 253 440 neurones dans la première couche?

Dans Alex Krizhevsky, et al. Classification Imagenet avec des réseaux de neurones convolutionnels profonds, ils énumèrent le nombre de neurones dans chaque couche (voir schéma ci-dessous). L'entrée du réseau est de 150528 dimensions et le nombre de neurones dans les couches restantes du réseau est donné par 253,440–186,624–64,896–64,896–43,264– 4096–4096–1000. Une …

24 neural-networks deep-learning conv-neural-network

4

Simuler une distribution uniforme sur un disque

J'essayais de simuler l'injection de points aléatoires dans un cercle, de sorte que n'importe quelle partie du cercle ait la même probabilité d'avoir un défaut. Je m'attendais à ce que le compte par zone de la distribution résultante suive une distribution de Poisson si je divise le cercle en rectangles …

24 random-generation circular-statistics

7

comment représenter la géographie ou le code postal dans un modèle d'apprentissage automatique ou un système de recommandation?

Je construis un modèle et je pense que la situation géographique est susceptible d'être très bonne pour prédire ma variable cible. J'ai le code postal de chacun de mes utilisateurs. Je ne suis pas tout à fait sûr de la meilleure façon d'inclure le code postal comme fonctionnalité de prédiction …

24 machine-learning feature-construction many-categories

3

Comment puis-je interpréter la matrice de confusion Sklearn

J'utilise une matrice de confusion pour vérifier les performances de mon classificateur. J'utilise Scikit-Learn, je suis un peu confus. Comment interpréter le résultat de from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, …

24 predictive-models prediction confusion-matrix

3

Dans quelle mesure la PCA clairsemée est-elle meilleure que la PCA?

J'ai appris le PCA il y a quelques conférences en classe et en approfondissant ce concept fascinant, j'ai appris à connaître le PCA clairsemé. Je voulais demander, si je ne me trompe pas, c'est ce que l'APC est clairsemée: Dans l'APC, si vous avez points de données avec variables, vous …

24 machine-learning pca sparse