Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


3
Descente de coordonnées vs descente de gradient
Je me demandais quels sont les différents cas d'utilisation pour les deux algorithmes, Descente de coordonnées et Descente de gradient . Je sais que la descente de coordonnées a des problèmes avec les fonctions non lisses mais elle est utilisée dans des algorithmes populaires comme SVM et LASSO. La descente …



2
Pourquoi l'épreuve de Wilks de 1938 ne fonctionne-t-elle pas pour les modèles mal spécifiés?
Dans le célèbre article de 1938 (« La distribution à grand échantillon du rapport de vraisemblance pour tester les hypothèses composites », Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks a dérivé la distribution asymptotique de 2×LLR2×LLR2 \times LLR (log log vraisemblance ratio ) pour les hypothèses imbriquées, sous l'hypothèse …

2
Quelle est la fonction de perte du SVM à marge dure?
Les gens disent que la marge douce SVM utilise la fonction de perte de charnière: max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) . Cependant, la fonction objective réelle que la marge douce SVM essaie de minimiser est 12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) Certains auteurs appellent le régularisateur de termes ∥w∥2‖w‖2\|w\|^2 et la fonction de perte de terme …

2
Définition du temps d'autocorrélation (pour une taille d'échantillon efficace)
J'ai trouvé deux définitions dans la littérature pour le temps d'autocorrélation d'une série chronologique faiblement stationnaire: τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| où ρk=Cov[Xt,Xt+h]Var[Xt]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]} est l'autocorrélation au décalagekkk. Une application du temps d'autocorrélation est de trouver la "taille effective de l'échantillon": si …


3
Interprétation statistique de la distribution d'entropie maximale
J'ai utilisé le principe de l'entropie maximale pour justifier l'utilisation de plusieurs distributions dans divers contextes; cependant, je n'ai pas encore été en mesure de formuler une interprétation statistique, par opposition à une théorie de l'information, de l'entropie maximale. En d'autres termes, qu'est-ce que la maximisation de l'entropie implique sur …


4
Pourquoi les chercheurs utilisent-ils la validation croisée 10 fois au lieu de tester sur un ensemble de validation?
J'ai lu de nombreux articles de recherche sur la classification des sentiments et des sujets connexes. La plupart d'entre eux utilisent une validation croisée 10 fois pour former et tester les classificateurs. Cela signifie qu'aucun test / validation séparé n'est effectué. Pourquoi donc? Quels sont les avantages / inconvénients de …


3
Interprétation des numéros AIC et BIC
Je recherche des exemples d'interprétation des estimations AIC (critère d'information Akaike) et BIC (critère d'information bayésien). La différence négative entre les BIC peut-elle être interprétée comme la cote postérieure d'un modèle par rapport à l'autre? Comment puis-je mettre cela en mots? Par exemple, le BIC = -2 peut impliquer que …

4
Imputation des valeurs manquantes pour l'ACP
J'ai utilisé la prcomp()fonction pour effectuer une PCA (analyse des composants principaux) dans R. Cependant, il y a un bogue dans cette fonction, de sorte que le na.actionparamètre ne fonctionne pas. J'ai demandé de l'aide sur stackoverflow ; deux utilisateurs y ont proposé deux manières différentes de gérer les NAvaleurs. …

1
Réglage des nœuds dans les splines cubiques naturelles en R
J'ai des données avec de nombreuses fonctionnalités corrélées, et je veux commencer par réduire les fonctionnalités avec une fonction de base fluide, avant d'exécuter un LDA. J'essaie d'utiliser des splines cubiques naturelles dans le splinespackage avec la nsfonction. Comment dois-je procéder pour attribuer les nœuds? Voici le code R de …
23 r  splines 

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.