Statistiques et Big Data

2

Qu'est-ce qu'une région à plus haute densité (HDR)?

Dans l'inférence statistique , le problème 9.6b, une "région de plus haute densité (HDR)" est mentionné. Cependant, je n'ai pas trouvé la définition de ce terme dans le livre. Un terme similaire est la plus haute densité postérieure (HPD). Mais cela ne rentre pas dans ce contexte, car 9.6b ne …

23 confidence-interval estimation definition credible-interval highest-density-region

3

Descente de coordonnées vs descente de gradient

Je me demandais quels sont les différents cas d'utilisation pour les deux algorithmes, Descente de coordonnées et Descente de gradient . Je sais que la descente de coordonnées a des problèmes avec les fonctions non lisses mais elle est utilisée dans des algorithmes populaires comme SVM et LASSO. La descente …

23 optimization gradient-descent

3

AIC versus validation croisée dans les séries chronologiques: le petit cas d'échantillon

Je suis intéressé par la sélection de modèles dans un cadre de séries chronologiques. Pour être concret, supposons que je veuille sélectionner un modèle ARMA à partir d'un pool de modèles ARMA avec différents ordres de décalage. L' intention ultime est la prévision . La sélection du modèle peut être …

23 time-series forecasting cross-validation model-selection aic

4

Comment savoir si ma distribution de données est symétrique?

Je sais que si la médiane et la moyenne sont approximativement égales, cela signifie qu'il y a une distribution symétrique, mais dans ce cas particulier, je ne suis pas certain. La moyenne et la médiane sont assez proches (seulement une différence de 0,487 m / gallon), ce qui m'amènerait à …

23 distributions mean skewness median qq-plot

2

Pourquoi l'épreuve de Wilks de 1938 ne fonctionne-t-elle pas pour les modèles mal spécifiés?

Dans le célèbre article de 1938 (« La distribution à grand échantillon du rapport de vraisemblance pour tester les hypothèses composites », Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks a dérivé la distribution asymptotique de 2×LLR2×LLR2 \times LLR (log log vraisemblance ratio ) pour les hypothèses imbriquées, sous l'hypothèse …

23 hypothesis-testing model-selection likelihood-ratio asymptotics misspecification

2

Quelle est la fonction de perte du SVM à marge dure?

Les gens disent que la marge douce SVM utilise la fonction de perte de charnière: max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) . Cependant, la fonction objective réelle que la marge douce SVM essaie de minimiser est 12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) Certains auteurs appellent le régularisateur de termes ∥w∥2‖w‖2\|w\|^2 et la fonction de perte de terme …

23 svm loss-functions

2

Définition du temps d'autocorrélation (pour une taille d'échantillon efficace)

J'ai trouvé deux définitions dans la littérature pour le temps d'autocorrélation d'une série chronologique faiblement stationnaire: τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| où ρk=Cov[Xt,Xt+h]Var[Xt]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]} est l'autocorrélation au décalagekkk. Une application du temps d'autocorrélation est de trouver la "taille effective de l'échantillon": si …

23 r time-series correlation

2

Que signifie «fiduciaire» (dans le contexte des statistiques)?

Quand je Google pour "fisher" "fiducial" ... Je reçois certainement beaucoup de hits, mais tous ceux que j'ai suivis sont complètement au-delà de ma compréhension. Tous ces succès semblent avoir une chose en commun: ils sont tous écrits pour des statisticiens teints dans la laine, des gens profondément imprégnés de …

23 bayesian inference terminology fiducial ronald-fisher

3

Interprétation statistique de la distribution d'entropie maximale

J'ai utilisé le principe de l'entropie maximale pour justifier l'utilisation de plusieurs distributions dans divers contextes; cependant, je n'ai pas encore été en mesure de formuler une interprétation statistique, par opposition à une théorie de l'information, de l'entropie maximale. En d'autres termes, qu'est-ce que la maximisation de l'entropie implique sur …

23 distributions entropy intuition information-theory maximum-entropy

6

Précision du test supérieure à la formation. Comment interpréter?

J'ai un ensemble de données contenant au plus 150 exemples (divisé en formation et test), avec de nombreuses fonctionnalités (supérieures à 1000). J'ai besoin de comparer les classificateurs et les méthodes de sélection des fonctionnalités qui fonctionnent bien sur les données. J'utilise donc trois méthodes de classification (J48, NB, SVM) …

23 classification feature-selection

4

Pourquoi les chercheurs utilisent-ils la validation croisée 10 fois au lieu de tester sur un ensemble de validation?

J'ai lu de nombreux articles de recherche sur la classification des sentiments et des sujets connexes. La plupart d'entre eux utilisent une validation croisée 10 fois pour former et tester les classificateurs. Cela signifie qu'aucun test / validation séparé n'est effectué. Pourquoi donc? Quels sont les avantages / inconvénients de …

23 classification cross-validation

2

Forêts aléatoires pour la régression multivariée

J'ai un problème de régression multi-sorties avec fonctions d'entrée et sorties. Les sorties ont une structure de corrélation complexe et non linéaire.d yréXdxd_xréydyd_y Je voudrais utiliser des forêts aléatoires pour faire la régression. Pour autant que je sache, les forêts aléatoires pour la régression ne fonctionnent qu'avec une seule sortie, …

23 regression multivariate-analysis random-forest

3

Interprétation des numéros AIC et BIC

Je recherche des exemples d'interprétation des estimations AIC (critère d'information Akaike) et BIC (critère d'information bayésien). La différence négative entre les BIC peut-elle être interprétée comme la cote postérieure d'un modèle par rapport à l'autre? Comment puis-je mettre cela en mots? Par exemple, le BIC = -2 peut impliquer que …

23 interpretation aic bic

4

Imputation des valeurs manquantes pour l'ACP

J'ai utilisé la prcomp()fonction pour effectuer une PCA (analyse des composants principaux) dans R. Cependant, il y a un bogue dans cette fonction, de sorte que le na.actionparamètre ne fonctionne pas. J'ai demandé de l'aide sur stackoverflow ; deux utilisateurs y ont proposé deux manières différentes de gérer les NAvaleurs. …

23 r pca missing-data data-imputation

1

Réglage des nœuds dans les splines cubiques naturelles en R

J'ai des données avec de nombreuses fonctionnalités corrélées, et je veux commencer par réduire les fonctionnalités avec une fonction de base fluide, avant d'exécuter un LDA. J'essaie d'utiliser des splines cubiques naturelles dans le splinespackage avec la nsfonction. Comment dois-je procéder pour attribuer les nœuds? Voici le code R de …

23 r splines