Statistiques et Big Data

7

Test de dépendance linéaire entre les colonnes d'une matrice

J'ai une matrice de corrélation des retours de titres dont le déterminant est zéro. (Cela est un peu surprenant car la matrice de corrélation d'échantillon et la matrice de covariance correspondante devraient théoriquement être définies positives.) Mon hypothèse est qu'au moins un titre dépend linéairement d'autres titres. Y a-t-il une …

26 r correlation pca linear-model svd

7

Comment fait-on une ANOVA SS de type III en R avec des codes de contraste?

Veuillez fournir le code R qui permet d'effectuer une ANOVA entre sujets avec -3, -1, 1, 3 contrastes. Je comprends qu'il y a un débat concernant le type de somme de carrés (SS) approprié pour une telle analyse. Cependant, comme le type par défaut de SS utilisé dans SAS et …

26 r anova contrasts sums-of-squares

3

Comment comprendre la sortie de la fonction polr de R (régression logistique ordonnée)?

Je suis nouveau dans R, j'ai ordonné une régression logistique et polr. La section "Exemples" au bas de la page d'aide de polr (qui adapte un modèle de régression logistique ou probit à une réponse factorielle ordonnée) montre options(contrasts = c("contr.treatment", "contr.poly")) house.plr <- polr(Sat ~ Infl + Type + …

26 r logistic

7

Comment puis-je décider de la durée à utiliser dans la régression LOESS dans R?

J'utilise des modèles de régression LOESS en R, et je veux comparer les sorties de 12 modèles différents avec des tailles d'échantillons variables. Je peux décrire les modèles réels plus en détail si cela aide à répondre à la question. Voici les tailles d'échantillon: Fastballs vs RHH 2008-09: 2002 Fastballs …

26 r regression loess

5

Quand l'approche «aller chercher plus de données» de Fisher a-t-elle un sens?

Citant la grande réponse de Gung Apparemment, un chercheur a déjà approché Fisher avec des résultats «non significatifs», lui demandant ce qu'il devait faire, et Fisher a déclaré: «Allez chercher plus de données». Du point de vue de Neyman-Pearson, il s'agit d'un hachage flagrant , mais y a-t-il un cas …

26 hypothesis-testing p-value intuition philosophical

2

Aidez-moi à comprendre la fonction quantile (CDF inverse)

Je lis sur la fonction quantile, mais ce n'est pas clair pour moi. Pourriez-vous fournir une explication plus intuitive que celle fournie ci-dessous? Puisque le cdf est une fonction augmentant de façon monotone, il a un inverse; notons ceci par . Si est le cdf de , alors est la …

26 distributions cdf inverse-cdf quantile-function

1

La perte d'entraînement diminue et augmente de nouveau. Qu'est-ce qui se passe?

Ma perte d'entraînement diminue puis augmente à nouveau. C'est très bizarre. La perte de validation croisée suit la perte d'entraînement. Que se passe-t-il? J'ai deux LSTMS empilés comme suit (sur Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') Je l'entraîne pour 100 …

26 machine-learning neural-networks loss-functions lstm

5

L'entrée de Wikipedia sur la probabilité semble ambiguë

J'ai une question simple concernant la "probabilité conditionnelle" et la "probabilité". (J'ai déjà sondé cette question ici mais en vain.) Cela commence à partir de la page Wikipedia sur la probabilité . Ils disent ceci: La probabilité d'un ensemble de valeurs de paramètres, θθ\theta , compte tenu des résultatsxxx , …

26 probability bayesian conditional-probability likelihood definition

3

Les prieurs bayésiens deviennent-ils hors de propos avec un échantillon de grande taille?

Lors de l'inférence bayésienne, nous opérons en maximisant notre fonction de vraisemblance en combinaison avec les a priori que nous avons sur les paramètres. Parce que la log-vraisemblance est plus pratique, nous maximisons efficacement utilisant un MCMC ou autrement ce qui génère les distributions postérieures (en utilisant un pdf pour …

26 bayesian prior

3

trouver la valeur de p dans la corrélation de Pearson dans R

Est-il possible de trouver la valeur de p dans la corrélation de Pearson dans R? Pour trouver la corrélation Pearson, je fais habituellement ceci col1 = c(1,2,3,4) col2 = c(1,4,3,5) cor(col1,col2) # [1] 0.8315218 Mais comment puis-je trouver la valeur de p de cela?

26 r correlation p-value pearson-r

5

Comment la régression linéaire utilise-t-elle la distribution normale?

Dans la régression linéaire, chaque valeur prédite est supposée avoir été choisie dans une distribution normale de valeurs possibles. Voir ci-dessous. Mais pourquoi chaque valeur prédite est-elle supposée provenir d'une distribution normale? Comment la régression linéaire utilise-t-elle cette hypothèse? Que faire si les valeurs possibles ne sont pas normalement distribuées?

26 regression probability distributions normal-distribution modeling

7

Combiner probabilités / informations provenant de différentes sources

Disons que j'ai trois sources indépendantes et chacune d'elles fait des prévisions pour la météo de demain. Le premier dit que la probabilité de pluie demain est de 0, puis le second dit que la probabilité est de 1, et enfin le dernier dit que la probabilité est de 50%. …

26 probability bayesian pooling model-averaging forecast-combination

4

Pourquoi quelqu'un utiliserait-il KNN pour la régression?

D'après ce que je comprends, nous ne pouvons construire qu'une fonction de régression qui se situe dans l'intervalle des données d'entraînement. Par exemple (un seul des panneaux est nécessaire): Comment pourrais-je prédire l'avenir en utilisant un régresseur KNN? Encore une fois, il semble ne se rapprocher que d'une fonction qui …

26 regression machine-learning k-nearest-neighbour

7

Exemples simples de et non corrélés mais non indépendants

Tout étudiant qui travaille dur est un contre-exemple de "tous les étudiants sont paresseux". Quels sont les contre-exemples simples pour "si les variables aléatoires et sont pas corrélées, alors elles sont indépendantes"?XXXOuiOuiY

26 correlation random-variable independence

4

Intuition derrière l'écart-type

J'essaie d'acquérir une meilleure compréhension intuitive de l'écart-type. D'après ce que je comprends, il est représentatif de la moyenne des différences d'un ensemble d'observations dans un ensemble de données par rapport à la moyenne de cet ensemble de données. Cependant, il n'est PAS réellement égal aux moyennes des différences car …

26 standard-deviation intuition