Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


7
Pourquoi le terme de régularisation * ajouté * à la fonction de coût (au lieu de multiplié, etc.)?
Chaque fois que la régularisation est utilisée, elle est souvent ajoutée à la fonction de coût, comme dans la fonction de coût suivante. J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 Cela me semble intuitif puisque minimiser le fonction de coût signifie minimiser l'erreur (le terme de gauche) et minimiser les magnitudes …

8
Quelle est une bonne ressource sur la conception de la table?
J'ai vu divers traitements théoriques des graphiques, tels que la grammaire des graphiques . Mais je n'ai rien vu d'équivalent en ce qui concerne les tables. Au fil des ans, j'ai développé un modèle informel de bonnes pratiques en matière de conception de tables. Cependant, j'aimerais pouvoir fournir une bonne …
51 tables 



3
Statistiques et inférence causale?
Dans son article de 1984 intitulé "Statistics and Causal Inference" , Paul Holland a posé l'une des questions les plus fondamentales de la statistique: Que peut dire un modèle statistique sur la causalité? Cela a conduit à sa devise: AUCUNE CAUSATION SANS MANIPULATION qui a souligné l'importance des restrictions autour …
51 causality 






3
Une forêt aléatoire peut-elle être utilisée pour la sélection d’entités dans une régression linéaire multiple?
Puisque RF peut gérer la non-linéarité mais ne peut pas fournir de coefficients, serait-il sage d'utiliser une forêt aléatoire pour rassembler les caractéristiques les plus importantes, puis de les brancher dans un modèle de régression linéaire multiple afin d'obtenir leurs coefficients?



9
Est-ce que quelqu'un connaît un bon logiciel open source permettant de visualiser des données à partir d'une base de données?
Récemment, je suis tombé sur Tableau et j'ai essayé de visualiser les données de la base de données et du fichier csv. L'utilisateur iterface permet à l'utilisateur de visualiser les données temporelles et spatiales et de créer des tracés en un instant. Un tel outil est vraiment utile car il …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.