Statistiques et Big Data

2

Comparaison des regroupements: indice Rand vs variation de l'information

Je me demandais si quelqu'un avait une idée ou une intuition derrière la différence entre la variation de l'information et l' indice Rand pour comparer les regroupements. J'ai lu l'article « Comparing Clusterings - An Information Based Distance » de Marina Melia (Journal of Multivariate Analysis, 2007), mais, à part …

21 machine-learning clustering metric

1

Pourquoi tester Levene de l'égalité des variances plutôt que du rapport F?

SPSS utilise le test de Levene pour évaluer l'homogénéité des variances dans la procédure de test t de groupe indépendant. Pourquoi le test de Levene est-il meilleur qu'un simple rapport F du rapport des variances des deux groupes?

21 hypothesis-testing anova variance t-test heteroscedasticity

2

«Intention de l'investigateur» et seuils / valeurs p

Je lis les diapositives "Faire une analyse des données bayésiennes" de John Kruschke , mais j'ai en fait une question sur son interprétation des tests t et / ou de l'ensemble du cadre de test de signification d'hypothèse nulle. Il soutient que les valeurs de p sont mal définies car …

21 hypothesis-testing

2

Comment limiter la probabilité qu'une variable aléatoire soit maximale?

\newcommand{\P}{\mathbb{P}} Supposons que nous ayons variables aléatoires indépendantes , , avec des moyens finis et des variances , \ ldots , \ sigma_N ^ 2 . Je recherche des bornes sans distribution sur la probabilité que tout X_i \ neq X_N soit plus grand que tous les autres X_j , …

21 probability bounds maximum

5

Réseaux de neurones modernes qui construisent leur propre topologie

Une limitation des algorithmes de réseau neuronal standard (comme backprop) est que vous devez prendre une décision de conception du nombre de couches cachées et de neurones par couche que vous voulez. Habituellement, le taux d'apprentissage et la généralisation sont très sensibles à ces choix. C'est la raison pour laquelle …

21 neural-networks

2

Quand la covariance de distance est-elle moins appropriée que la covariance linéaire?

Je viens d'être initié (vaguement) à la covariance / corrélation brownienne / distance . Il semble particulièrement utile dans de nombreuses situations non linéaires, lors du test de dépendance. Mais il ne semble pas être utilisé très souvent, même si la covariance / corrélation est souvent utilisée pour les données …

21 correlation covariance distance-covariance

5

Quelle est la bonne façon de tester la signification des résultats de la classification

Il existe de nombreuses situations où vous pouvez former plusieurs classificateurs différents ou utiliser plusieurs méthodes d'extraction de fonctionnalités différentes. Dans la littérature, les auteurs donnent souvent l'erreur de classification moyenne sur un ensemble de divisions aléatoires des données (c'est-à-dire après une validation croisée doublement imbriquée), et donnent parfois aussi …

21 classification statistical-significance

6

Exemples de problèmes cachés de modèles de Markov?

J'ai lu pas mal de modèles Markov cachés et j'ai pu en coder moi-même une version assez basique. Mais il semble que j'apprenne de deux manières principales. L'un consiste à le lire et à l'implémenter dans du code (ce qui est fait) et le second est de comprendre comment il …

21 algorithms markov-process

3

Régression vs écart ANOVA (aov vs lm dans R)

J'ai toujours eu l'impression que la régression n'est qu'une forme plus générale d'ANOVA et que les résultats seraient identiques. Récemment, cependant, j'ai effectué une régression et une ANOVA sur les mêmes données et les résultats diffèrent considérablement. Autrement dit, dans le modèle de régression, les effets principaux et l'interaction sont …

21 r regression anova

1

Calcul efficace de l'inverse de la matrice dans R

J'ai besoin de calculer l'inverse de la matrice et j'ai utilisé la solvefonction. Bien qu'il fonctionne bien sur les petites matrices, il a solvetendance à être très lent sur les grandes matrices. Je me demandais s'il existe une autre fonction ou combinaison de fonctions (via SVD, QR, LU ou d'autres …

21 r matrix-decomposition matrix-inverse

3

Pourquoi devrions-nous nous soucier du mélange rapide dans les chaînes MCMC?

Lorsque nous travaillons avec la chaîne de Markov Monte Carlo pour tirer l'inférence, nous avons besoin d'une chaîne qui se mélange rapidement, c'est-à-dire qui traverse rapidement le support de la distribution postérieure. Mais je ne comprends pas pourquoi nous avons besoin de cette propriété, car d'après ce que je comprends, …

21 mcmc

3

Comment puis-je calculer la marge d'erreur dans un résultat NPS (Net Promoter Score)?

Je vais laisser Wikipedia expliquer comment le NPS est calculé: Le Net Promoter Score est obtenu en posant aux clients une seule question sur une échelle de 0 à 10, où 10 est «extrêmement probable» et 0 est «peu probable»: «Quelle est la probabilité que vous recommandiez notre entreprise à …

21 hypothesis-testing statistical-significance standard-error multinomial nps

1

Comment puis-je prédire des valeurs à partir de nouvelles entrées d'un modèle linéaire dans R?

Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. J'ai créé un modèle linéaire R: mod = lm(train_y ~ train_x). Je veux lui passer une liste de X et obtenir …

21 r forecasting linear-model

4

Quelle est la malédiction de la dimensionnalité?

Plus précisément, je recherche des références (articles, livres) qui montreront et expliqueront rigoureusement la malédiction de la dimensionnalité. Cette question s'est posée après que j'ai commencé à lire ce livre blanc de Lafferty et Wasserman. Dans le troisième paragraphe, ils mentionnent une équation "bien connue" qui implique que le meilleur …

21 theory

4

Que signifie «impartialité»?

Que signifie dire que "la variance est un estimateur biaisé". Que signifie convertir une estimation biaisée en une estimation non biaisée au moyen d'une formule simple. Que fait exactement cette conversion? Aussi, quelle est l'utilité pratique de cette conversion? Convertissez-vous ces scores lorsque vous utilisez certains types de statistiques?

21 theory unbiased-estimator descriptive-statistics