Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données



3
L'ordre des variables explicatives importe-t-il lors du calcul de leurs coefficients de régression?
Au début, je pensais que l'ordre n'avait pas d'importance, mais j'ai ensuite lu au sujet du processus d'orthogonalisation gram-schmidt pour calculer les coefficients de régression multiple, et maintenant j'ai des doutes. Selon le processus gram-schmidt, plus une variable explicative est indexée tardivement parmi les autres variables, plus son vecteur résiduel …

7
Algorithme pour surveiller dynamiquement les quantiles
Je veux estimer le quantile de certaines données. Les données sont si énormes qu'elles ne peuvent pas être stockées dans la mémoire. Et les données ne sont pas statiques, de nouvelles données continuent d'arriver. Quelqu'un connaît-il un algorithme pour surveiller les quantiles des données observées jusqu'à présent avec une mémoire …

13
Des manuels d'économétrie?
Quels bons manuels d'économétrie recommanderiez-vous? Edit: il y a pas mal de livres, avec différents niveaux de sophistication mathématique. Il serait bon d'avoir une idée de la technicité du livre que vous recommandez.





2
Comment comprendre «non linéaire» comme dans «réduction de dimensionnalité non linéaire»?
J'essaie de comprendre les différences entre les méthodes de réduction de dimensionnalité linéaire (par exemple, PCA) et les méthodes non linéaires (par exemple, Isomap). Je ne comprends pas très bien ce que la (non) linéarité implique dans ce contexte. J'ai lu sur Wikipedia que Par comparaison, si PCA (un algorithme …

2
Comment le CNN '12 de Krizhevsky obtient-il 253 440 neurones dans la première couche?
Dans Alex Krizhevsky, et al. Classification Imagenet avec des réseaux de neurones convolutionnels profonds, ils énumèrent le nombre de neurones dans chaque couche (voir schéma ci-dessous). L'entrée du réseau est de 150528 dimensions et le nombre de neurones dans les couches restantes du réseau est donné par 253,440–186,624–64,896–64,896–43,264– 4096–4096–1000. Une …


7
comment représenter la géographie ou le code postal dans un modèle d'apprentissage automatique ou un système de recommandation?
Je construis un modèle et je pense que la situation géographique est susceptible d'être très bonne pour prédire ma variable cible. J'ai le code postal de chacun de mes utilisateurs. Je ne suis pas tout à fait sûr de la meilleure façon d'inclure le code postal comme fonctionnalité de prédiction …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.