Statistiques et Big Data

3

Distribution binomiale négative vs distribution binomiale

Quelle est la différence entre la distribution binomiale négative et la distribution binomiale? J'ai essayé de lire en ligne et j'ai trouvé que la distribution binomiale négative est utilisée lorsque les points de données sont discrets, mais je pense que même la distribution binomiale peut être utilisée pour les points …

22 categorical-data data-mining binomial negative-binomial

2

Dois-je mettre en majuscule le «N» dans «Distribution normale» en anglais britannique?

Cette question est un peu à gauche, mais j'ai pensé que la communauté ici a probablement des opinions bien arrêtées sur le sujet! Je rédige ma thèse de doctorat. De manière cohérente, lorsque je parle de quantités qui sont formellement liées à une distribution gaussienne, j'ai mis en majuscule le …

22 normal-distribution terminology

1

Utilisation de la corrélation comme mesure de distance (pour le clustering hiérarchique)

Je voudrais regrouper hiérarchiquement mes données, mais plutôt que d'utiliser la distance euclidienne, je voudrais utiliser la corrélation. De plus, comme le coefficient de corrélation varie de -1 à 1, -1 et 1 désignant la «corégulation» dans mon étude, je traite à la fois -1 et 1 comme d = …

22 correlation clustering distance hierarchical-clustering

1

Pénalité de bridge vs régularisation d'Elastic Net

Certaines fonctions de pénalité et approximations sont bien étudiées, comme le LASSO ( L1L1L_1 ) et le Ridge ( L2L2L_2 ) et comment elles se comparent en régression. ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ] a comparé la pénalité Bridge quand γ≥1γ≥1\gamma \geq 1 au LASSO, mais …

22 regression lasso regularization ridge-regression elastic-net

2

Quelles méthodes non bayésiennes existe-t-il pour l'inférence prédictive?

Dans l'inférence bayésienne, une distribution prédictive des données futures est dérivée en intégrant des paramètres inconnus; l'intégration sur la distribution postérieure de ces paramètres donne une distribution prédictive postérieure - une distribution pour les données futures conditionnelle à celles déjà observées. Quelles sont les méthodes non bayésiennes pour l'inférence prédictive …

22 prediction inference prediction-interval

2

Règles de sélection des hyperparamètres de réseaux de neurones convolutifs

Existe-t-il de bons documents qui couvrent certaines méthodes méthodiques pour choisir les dimensions des filtres, regrouper les unités et déterminer le nombre de couches convolutives?

22 neural-networks deep-learning conv-neural-network

2

Qu'est-ce que la «régression à rang réduit»?

J'ai lu Les éléments de l'apprentissage statistique et je ne pouvais pas comprendre en quoi consiste la section 3.7 «Réduction et sélection des résultats multiples». Il parle de RRR (régression à rang réduit), et je peux seulement comprendre que la prémisse concerne un modèle linéaire multivarié généralisé où les coefficients …

22 regression multivariate-analysis dimensionality-reduction regularization reduced-rank-regression

1

Choisir parmi les règles de notation appropriées

La plupart des ressources sur les règles de notation appropriées mentionnent un certain nombre de règles de notation différentes comme la perte de journal, le score de Brier ou la notation sphérique. Cependant, ils ne donnent souvent pas beaucoup d'indications sur les différences entre eux. (Pièce A: Wikipedia .) Choisir …

22 machine-learning classification model-selection theory scoring-rules

2

Calcul de l'algèbre linéaire pas à pas par régression des moindres carrés

En guise de préquelle à une question sur les modèles mixtes linéaires dans R, et à partager comme référence pour les aficionados de statistiques débutants / intermédiaires, j'ai décidé de publier en tant que "style Q&A" indépendant les étapes impliquées dans le calcul "manuel" du coefficients et valeurs prédites d'une …

22 r regression linear-model lm

2

Ratatinée

Il y a eu une certaine confusion dans ma tête au sujet de deux types d'estimateurs de la valeur de la population du coefficient de corrélation de Pearson. A. Fisher (1915) a montré que pour la population normale bivariée, empirique est un estimateur à biais négatif de ρ , bien …

22 correlation pearson-r unbiased-estimator estimators point-estimation

1

Pourquoi n'y a-t-il que

En PCA, lorsque le nombre de dimensions est supérieur (voire égal) au nombre d'échantillons , pourquoi avez-vous au plus vecteurs propres non nuls? En d'autres termes, le rang de la matrice de covariance parmi les dimensions est .dddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1 Exemple: Vos échantillons sont des images vectorisées, qui sont de dimension …

22 pca dimensionality-reduction eigenvalues

4

Quelle est la meilleure visualisation pour les tableaux de contingence?

Quel est le meilleur tracé, d'un point de vue statistique, pour montrer un tableau de contingence , qui est généralement analysé par un test du chi carré? S'agit-il d'un diagramme à barres esquivé, d'un diagramme à barres empilé, d'une carte thermique, d'un tracé de contour, d'un nuage de points tremblant, …

22 data-visualization contingency-tables

6

Exemples de modélisation de régression avancée

Je recherche une étude de cas de régression linéaire avancée illustrant les étapes nécessaires pour modéliser des relations non linéaires complexes et multiples à l'aide de GLM ou OLS. Il est étonnamment difficile de trouver des ressources allant au-delà des exemples d'école de base: la plupart des livres que j'ai …

22 multiple-regression generalized-linear-model data-transformation splines nonlinear

3

Comment puis-je inclure des effets aléatoires (ou des mesures répétées) dans une forêt aléatoire

Je ne suis même pas sûr que la question ait beaucoup de sens, mais je pense avoir vu quelques titres d'articles où ils proposaient une forêt aléatoire avec des effets aléatoires. Est-ce possible dans R?

22 r random-forest random-effects-model

3

Existe-t-il une approche bayésienne de l'estimation de la densité

Je suis intéressé à estimer la densité d'une variable aléatoire continue . Une façon de le faire que j'ai apprise est l'utilisation de l'estimation de la densité du noyau.XXX Mais maintenant je m'intéresse à une approche bayésienne qui va dans le sens suivant. Je crois d' abord que suit une …

22 bayesian pdf nonparametric-bayes dirichlet-process