Statistiques et Big Data

4

Quelles sont les différences entre le codage fragmenté et le codeur automatique?

Le codage clairsemé est défini comme l’apprentissage d’un ensemble trop complet de vecteurs de base pour représenter les vecteurs d’entrée (<- pourquoi voulons-nous cela). Quelles sont les différences entre le codage fragmenté et le codeur automatique? Quand utiliserons-nous le codage fragmenté et l'auto-codeur?

35 machine-learning neural-networks unsupervised-learning deep-learning autoencoders

11

Écart absolu moyen par rapport à l'écart type

Dans le manuel "Nouvelles mathématiques complètes pour le niveau O" de Greer (1983), je vois un écart moyen calculé comme suit: Résumer les différences absolues entre les valeurs simples et la moyenne. Ensuite, obtenez sa moyenne. Dans le chapitre, le terme écart moyen est utilisé. Mais j'ai récemment vu plusieurs …

35 distributions standard-deviation frequency variability

2

Les preuves du réchauffement climatique provoqué par l'homme atteignent «l'étalon-or»: comment ont-ils fait cela?

Ce message dans un article de Reuter du 25.02.2019 fait actuellement le tour du monde: Les preuves du réchauffement climatique provoqué par l'homme atteignent «l'étalon-or» [Les scientifiques] ont déclaré que la confiance selon laquelle les activités humaines augmentaient la chaleur à la surface de la Terre avait atteint le niveau …

35 p-value intuition application communication climate

1

Régression logistique: test anova-chi-carré vs signification des coefficients (anova () vs summary () en R)

J'ai un modèle logistique GLM avec 8 variables. J'ai effectué un test du chi-carré dans R anova(glm.model,test='Chisq')et 2 des variables se révèlent être prédictives lorsqu'elles sont ordonnées en haut du test et pas tellement lorsqu'elles sont ordonnées en bas. La summary(glm.model)donne à penser que leurs coefficients ne sont pas significatifs …

35 r regression logistic statistical-significance generalized-linear-model

8

Marche aléatoire sur les bords d'un cube

Une fourmi est placée dans un coin du cube et ne peut pas bouger. Une araignée commence à partir de l'angle opposé, et peuvent se déplacer le long des bords du cube dans toutes les directions (x,y,z)(x,y,z)(x,y,z) avec une probabilité égale 1/31/31/3 . En moyenne, de combien de pas l'araignée …

35 probability random-walk

5

Jeu de données libre pour la classification très haute dimension [fermé]

Quels sont les ensembles de données librement disponibles pour la classification avec plus de 1000 entités (ou des points d’échantillons s’il contient des courbes)? Il existe déjà un wiki de la communauté sur les jeux de données gratuits: Recherche d'échantillons de données disponibles gratuitement Mais ici, il serait bien d’avoir …

35 machine-learning classification dataset large-data

3

Contraste de signification dans la régression linéaire: test t significatif pour un coefficient vs une statistique F globale non significative

Je fais correspondre un modèle de régression linéaire multiple entre 4 variables catégoriques (avec 4 niveaux chacune) et une sortie numérique. Mon jeu de données a 43 observations. La régression me donne les suivantes ppp -values du ttt -test pour chaque coefficient de pente: .15,.67,.27,.02.15,.67,.27,.02.15, .67, .27, .02 . Ainsi, …

35 regression hypothesis-testing multiple-comparisons multiple-regression t-test

4

Différence entre la conception longitudinale et la série chronologique

Quelle (s) est (sont) la (les) différence (s) entre une conception longitudinale et une série chronologique?

35 time-series panel-data

3

Comment prouver que la fonction de base radiale est un noyau?

Comment prouver que la fonction de base radiale est un noyau? Pour autant que je sache, afin de prouver cela, nous devons prouver l'un des éléments suivants:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) Pour tout ensemble de vecteurs matrice K ( x 1 , x 2 , . . . , X n …

35 svm kernel-trick

3

Qu'est-ce que l'erreur standard résiduelle?

Lors de l'exécution d'un modèle de régression multiple dans R, l'une des sorties est une erreur standard résiduelle de 0,0589 sur 95 161 degrés de liberté. Je sais que les 95 161 degrés de liberté sont exprimés par la différence entre le nombre d'observations dans mon échantillon et le nombre …

35 regression standard-error residuals

4

Somme générique de variables aléatoires Gamma

J'ai lu que la somme des variables aléatoires Gamma ayant le même paramètre d'échelle est une autre variable aléatoire Gamma. J'ai également vu le document de Moschopoulos décrivant une méthode de sommation d'un ensemble général de variables aléatoires Gamma. J'ai essayé d'implémenter la méthode de Moschopoulos mais je n'ai pas …

35 probability distributions gamma-distribution summations saddlepoint-approximation

4

Pourquoi la régression logistique devient-elle instable lorsque les classes sont bien séparées?

Pourquoi la régression logistique devient-elle instable lorsque les classes sont bien séparées? Qu'est-ce qu'une classe bien séparée? J'apprécierais vraiment si quelqu'un peut expliquer avec un exemple.

34 r regression logistic separation

3

R - Confus sur la terminologie résiduelle

Erreur quadratique moyenne somme résiduelle de carrés erreur standard résiduelle erreur quadratique moyenne erreur de test Je pensais avoir l'habitude de comprendre ces termes, mais plus je fais de problèmes de statistiques, plus je me suis confus là où je devine moi-même. Je voudrais un peu de réassurance et un …

34 r regression residuals

2

Modèle à effets mixtes avec imbrication

J'ai des données recueillies à partir d'une expérience organisée comme suit: Deux sites de 30 arbres chacun. 15 sont traités, 15 sont contrôlés sur chaque site. De chaque arbre, nous échantillonnons trois morceaux de la tige et trois morceaux des racines, soit 6 échantillons de niveau 1 par arbre, représentés …

34 r mixed-model model nested-data lme4-nlme

1

Est-ce que le sous-échantillonnage change les coefficients de régression logistique?

Si j'ai un ensemble de données avec une classe positive très rare et que je sous-échantillonne la classe négative, puis effectuer une régression logistique, dois-je ajuster les coefficients de régression pour refléter le fait que j'ai modifié la prévalence de la classe positive? Par exemple, supposons que j'ai un jeu …

34 logistic unbalanced-classes case-control-study