Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Dans l'inférence statistique , le problème 9.6b, une "région de plus haute densité (HDR)" est mentionné. Cependant, je n'ai pas trouvé la définition de ce terme dans le livre. Un terme similaire est la plus haute densité postérieure (HPD). Mais cela ne rentre pas dans ce contexte, car 9.6b ne …
Je me demandais quels sont les différents cas d'utilisation pour les deux algorithmes, Descente de coordonnées et Descente de gradient . Je sais que la descente de coordonnées a des problèmes avec les fonctions non lisses mais elle est utilisée dans des algorithmes populaires comme SVM et LASSO. La descente …
Je suis intéressé par la sélection de modèles dans un cadre de séries chronologiques. Pour être concret, supposons que je veuille sélectionner un modèle ARMA à partir d'un pool de modèles ARMA avec différents ordres de décalage. L' intention ultime est la prévision . La sélection du modèle peut être …
Je sais que si la médiane et la moyenne sont approximativement égales, cela signifie qu'il y a une distribution symétrique, mais dans ce cas particulier, je ne suis pas certain. La moyenne et la médiane sont assez proches (seulement une différence de 0,487 m / gallon), ce qui m'amènerait à …
Dans le célèbre article de 1938 (« La distribution à grand échantillon du rapport de vraisemblance pour tester les hypothèses composites », Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks a dérivé la distribution asymptotique de 2×LLR2×LLR2 \times LLR (log log vraisemblance ratio ) pour les hypothèses imbriquées, sous l'hypothèse …
Les gens disent que la marge douce SVM utilise la fonction de perte de charnière: max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) . Cependant, la fonction objective réelle que la marge douce SVM essaie de minimiser est 12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) Certains auteurs appellent le régularisateur de termes ∥w∥2‖w‖2\|w\|^2 et la fonction de perte de terme …
J'ai trouvé deux définitions dans la littérature pour le temps d'autocorrélation d'une série chronologique faiblement stationnaire: τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| où ρk=Cov[Xt,Xt+h]Var[Xt]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]} est l'autocorrélation au décalagekkk. Une application du temps d'autocorrélation est de trouver la "taille effective de l'échantillon": si …
Quand je Google pour "fisher" "fiducial" ... Je reçois certainement beaucoup de hits, mais tous ceux que j'ai suivis sont complètement au-delà de ma compréhension. Tous ces succès semblent avoir une chose en commun: ils sont tous écrits pour des statisticiens teints dans la laine, des gens profondément imprégnés de …
J'ai utilisé le principe de l'entropie maximale pour justifier l'utilisation de plusieurs distributions dans divers contextes; cependant, je n'ai pas encore été en mesure de formuler une interprétation statistique, par opposition à une théorie de l'information, de l'entropie maximale. En d'autres termes, qu'est-ce que la maximisation de l'entropie implique sur …
J'ai un ensemble de données contenant au plus 150 exemples (divisé en formation et test), avec de nombreuses fonctionnalités (supérieures à 1000). J'ai besoin de comparer les classificateurs et les méthodes de sélection des fonctionnalités qui fonctionnent bien sur les données. J'utilise donc trois méthodes de classification (J48, NB, SVM) …
J'ai lu de nombreux articles de recherche sur la classification des sentiments et des sujets connexes. La plupart d'entre eux utilisent une validation croisée 10 fois pour former et tester les classificateurs. Cela signifie qu'aucun test / validation séparé n'est effectué. Pourquoi donc? Quels sont les avantages / inconvénients de …
J'ai un problème de régression multi-sorties avec fonctions d'entrée et sorties. Les sorties ont une structure de corrélation complexe et non linéaire.d yréXdxd_xréydyd_y Je voudrais utiliser des forêts aléatoires pour faire la régression. Pour autant que je sache, les forêts aléatoires pour la régression ne fonctionnent qu'avec une seule sortie, …
Je recherche des exemples d'interprétation des estimations AIC (critère d'information Akaike) et BIC (critère d'information bayésien). La différence négative entre les BIC peut-elle être interprétée comme la cote postérieure d'un modèle par rapport à l'autre? Comment puis-je mettre cela en mots? Par exemple, le BIC = -2 peut impliquer que …
J'ai utilisé la prcomp()fonction pour effectuer une PCA (analyse des composants principaux) dans R. Cependant, il y a un bogue dans cette fonction, de sorte que le na.actionparamètre ne fonctionne pas. J'ai demandé de l'aide sur stackoverflow ; deux utilisateurs y ont proposé deux manières différentes de gérer les NAvaleurs. …
J'ai des données avec de nombreuses fonctionnalités corrélées, et je veux commencer par réduire les fonctionnalités avec une fonction de base fluide, avant d'exécuter un LDA. J'essaie d'utiliser des splines cubiques naturelles dans le splinespackage avec la nsfonction. Comment dois-je procéder pour attribuer les nœuds? Voici le code R de …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.