Statistiques et Big Data

5

Que se passe-t-il si mes données de régression linéaire contiennent plusieurs relations linéaires combinées?

Disons que j'étudie comment les jonquilles réagissent aux différentes conditions du sol. J'ai recueilli des données sur le pH du sol par rapport à la taille adulte de la jonquille. Je m'attends à une relation linéaire, alors je vais faire une régression linéaire. Cependant, je n’avais pas réalisé au début …

34 regression linear-model dataset

3

Que signifie le score Akaike Information Criterion (AIC) d'un modèle?

J'ai vu quelques questions ici sur ce que cela signifie en termes simples, mais elles sont trop laïques pour mon objectif ici. J'essaie de comprendre mathématiquement la signification du score AIC. Mais en même temps, je ne veux pas d’une preuve rigoureuse qui me ferait perdre de vue les points …

34 self-study model-selection aic entropy information-theory

2

Interprétation de la courbe des résidus par rapport aux valeurs ajustées pour la vérification des hypothèses d'un modèle linéaire

Examinons la figure suivante tirée de Modèles linéaires avec R de Faraway (2005, p. 59). Le premier graphique semble indiquer que les valeurs résiduelles et ajustées ne sont pas corrélées, car elles devraient figurer dans un modèle linéaire homoscédastique avec des erreurs distribuées normalement. Par conséquent, les deuxième et troisième …

34 regression residuals assumptions graphical-model

2

Sélection de modèle et validation croisée: la bonne manière

CrossValidated contient de nombreuses discussions sur la sélection de modèles et la validation croisée. Voici quelques-uns: Validation croisée interne et externe et sélection du modèle La réponse de @ DikranMarsupial à la sélection des fonctionnalités et à la validation croisée Cependant, les réponses à ces discussions sont assez génériques et …

34 cross-validation model-selection

2

Quelles sont les différences pratiques entre les procédures de taux de fausse découverte de Benjamini & Hochberg (1995) et de Benjamini & Yekutieli (2001)?

Mon programme de statistiques applique à la fois les procédures Benjamini & Hochberg (1995) et Benjamini & Yekutieli (2001). J'ai fait de mon mieux pour lire le dernier article, mais il est assez mathématiquement dense et je ne suis pas raisonnablement certain de comprendre la différence entre les procédures. D'après …

34 post-hoc false-discovery-rate

5

La distribution bêta a-t-elle un conjugué antérieur?

Je sais que la distribution bêta est conjuguée au binôme. Mais quel est le préalable conjugué de la bêta? Merci.

34 beta-distribution conjugate-prior

3

Appariement du score de propension après imputation multiple

Je me réfère à cet article: Hayes JR, Groner JI. "Utiliser plusieurs scores d'imputation et de propension pour tester l'effet de l'utilisation des sièges de voiture et de la ceinture de sécurité sur la gravité des blessures à partir des données du registre des traumatismes." J Pediatr Surg. 2008 mai; …

34 missing-data propensity-scores

3

Comment puis-je tester si un effet aléatoire est significatif?

J'essaie de comprendre quand utiliser un effet aléatoire et quand c'est inutile. On m'a dit qu'une règle de base est si vous avez 4 groupes / individus ou plus que je fais (15 orignaux individuels). Certains de ces orignaux ont été expérimentés à deux ou trois reprises pour un total …

34 mixed-model lme4-nlme random-effects-model glmm

3

Pourquoi la matrice de corrélation doit-elle être positive semi-définie et que signifie-t-elle être ou ne pas être positive semi-définie?

J'ai étudié la signification de la propriété semi-définie positive des matrices de corrélation ou de covariance. Je cherche des informations sur Définition de semi-définitif positif; Ses propriétés importantes, ses implications pratiques; Conséquence d'avoir un déterminant négatif, impact sur l'analyse multivariée, les résultats de simulation, etc.

34 covariance-matrix eigenvalues determinant correlation-matrix

5

Backpropagation vs algorithme génétique pour la formation de réseaux de neurones

J'ai lu quelques articles sur les avantages et les inconvénients de chaque méthode, certains affirmant que l'AG n'apporte aucune amélioration dans la recherche de la solution optimale, tandis que d'autres montrent que celle-ci est plus efficace. Il semble que le GA soit généralement préféré dans la littérature (bien que la …

34 neural-networks genetic-algorithms backpropagation

3

Différence entre les modèles linéaires généralisés et les modèles mixtes linéaires généralisés

Je me demande quelles sont les différences entre les GLM mixtes et non mélangées. Par exemple, dans SPSS, le menu déroulant permet aux utilisateurs d’inscrire: analyze-> generalized linear models-> generalized linear models Et analyze-> mixed models-> generalized linear Traitent-ils différemment les valeurs manquantes? Ma variable dépendante est binaire et j'ai …

34 mixed-model generalized-linear-model glmm gee

2

Clustering hiérarchique avec données de type mixte - quelle distance / similarité à utiliser?

Dans mon jeu de données, nous avons à la fois des variables continues et des variables naturellement discrètes. Je veux savoir si nous pouvons faire une classification hiérarchique en utilisant les deux types de variables. Et si oui, quelle mesure de distance est appropriée?

34 clustering similarities distance-functions mixed-type-data

3

Normalité de variable dépendante = normalité des résidus?

Cette question semble avoir toujours sa tête laide et j'essaie de la décapiter pour ma propre compréhension des statistiques (et de la santé mentale!). Les hypothèses des modèles linéaires généraux (test t, ANOVA, régression, etc.) incluent "l'hypothèse de normalité", mais j'ai constaté que celle-ci est rarement décrite clairement. Je rencontre …

34 normal-distribution residuals normality-assumption

5

Peut-on sur-adapter en apprenant des algorithmes d’apprentissage automatique en utilisant CV / Bootstrap?

Cette question est peut-être trop ouverte pour obtenir une réponse définitive, mais j'espère que non. Les algorithmes d'apprentissage machine, tels que SVM, GBM, Random Forest, etc., ont généralement quelques paramètres libres qui, au-delà de certaines indications empiriques, doivent être adaptés à chaque jeu de données. Cela se fait généralement avec …

34 machine-learning cross-validation bootstrap optimization resampling

4

Les données ont deux tendances; Comment extraire des courbes de tendance indépendantes?

J'ai un ensemble de données qui n'est pas ordonné de manière particulière, mais qui présente clairement deux tendances distinctes. Une régression linéaire simple ne conviendrait pas vraiment ici à cause de la distinction claire entre les deux séries. Existe-t-il un moyen simple d’obtenir les deux courbes de tendance linéaires indépendantes? …

34 time-series python curve-fitting