Statistiques et Big Data

7

Pourquoi une virgule est-elle un séparateur / séparateur d’enregistrements incorrects dans les fichiers CSV?

Je lisais cet article et je suis curieux de savoir comment répondre à cette question. La seule chose qui me vienne à l’esprit, c’est peut-être que dans certains pays, le séparateur décimal est une virgule et que le partage de données au format CSV peut poser problème , mais je …

32 project-management

4

Pourquoi utiliser la régularisation dans la régression polynomiale au lieu de baisser le degré?

Lors de la régression, par exemple, deux hyper paramètres à choisir sont souvent la capacité de la fonction (par exemple, le plus grand exposant d’un polynôme) et la quantité de régularisation. Pourquoi ne pas simplement choisir une fonction à faible capacité, puis ignorer toute régularisation? De cette façon, il ne …

32 regression machine-learning optimization regularization polynomial

3

Pourquoi l'inversion d'une matrice de covariance donne-t-elle des corrélations partielles entre variables aléatoires?

J'ai entendu dire que l'on pouvait trouver des corrélations partielles entre des variables aléatoires en inversant la matrice de covariance et en prenant les cellules appropriées à partir de cette matrice de précision résultante (ce fait est mentionné dans http://en.wikipedia.org/wiki/Partial_correlation , mais sans preuve). . pourquoi est-ce le cas?

32 covariance covariance-matrix linear-algebra partial-correlation matrix-inverse

2

Les variables hautement corrélées en forêt aléatoire ne vont-elles pas fausser la précision et la sélection des caractéristiques?

À mon sens, les variables hautement corrélées ne causeront pas de problèmes de multi-colinéarité dans un modèle de forêt aléatoire (corrigez-moi si je me trompe). Toutefois, si j’ai trop de variables contenant des informations similaires, le modèle pèsera-t-il trop sur cet ensemble plutôt que sur les autres? Par exemple, il …

32 random-forest multicollinearity ensemble

2

Jürgen Schmidhuber a-t-il mis en place des réseaux contradictoires génératifs?

J'ai lu sur https://en.wikipedia.org/wiki/Generative_adversarial_networks : Les réseaux accusatoires génératifs ont été introduits par Ian Goodfellow et al. En 2014. mais Jurgen Schmidhuber affirme avoir déjà effectué un travail similaire dans cette direction (par exemple, il y avait eu un débat lors du NIPS 2016 lors du didacticiel sur les réseaux …

32 neural-networks history gan

5

Pourquoi existe-t-il deux orthographes «hétéroscédastique» ou «hétéroscédastique»?

Je vois fréquemment à la fois les orthographes "hétéroscédastique" et "hétéroscédastique", et de même pour "homoscédastique" et "homoscédastique". Il semble n'y avoir aucune différence de sens entre les variantes "c" et "k", il s'agit simplement d'une différence orthographique liée à l'étymologie grecque du mot. Quelles sont les origines des deux …

32 terminology heteroscedasticity etymology

3

Est-il possible de modifier une hypothèse pour correspondre aux données observées (expédition de pêche) et éviter une augmentation des erreurs de type I?

Il est bien connu que les chercheurs devraient passer du temps à observer et à explorer les données et recherches existantes avant de formuler une hypothèse, puis à collecter des données permettant de vérifier cette hypothèse (en faisant référence au test de signification par hypothèse nulle). De nombreux ouvrages statistiques …

32 hypothesis-testing

3

Régression logistique du noyau vs SVM

Comme chacun le sait, SVM peut utiliser la méthode du noyau pour projeter des points de données dans des espaces plus élevés, de manière à ce que les points puissent être séparés par un espace linéaire. Mais nous pouvons aussi utiliser la régression logistique pour choisir cette limite dans l’espace …

32 svm

1

Détection d'anomalie de lien dans un réseau temporel

Je suis tombé sur un article qui utilise la détection d'anomalie de lien pour prédire les sujets à la mode et je l'ai trouvé extrêmement intriguant: Cet article s'intitule "Découvrir les sujets émergents dans les flux sociaux via la détection d'anomalie de lien" . J'adorerais le reproduire sur un jeu …

32 time-series machine-learning outliers python change-point

1

Comparaison de deux modèles à l'aide de la fonction anova () dans R

De la documentation pour anova(): Lorsqu'une séquence d'objets est donnée, 'anova' teste les modèles les uns par rapport aux autres dans l'ordre spécifié ... Que signifie tester les modèles les uns contre les autres? Et pourquoi l'ordre compte-t-il? Voici un exemple tiré du didacticiel GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) …

32 r anova

5

Directives AIC dans la sélection du modèle

J'utilise généralement BIC, car je pense qu'il valorise la parcimonie plus fortement que l'AIC. Cependant, j’ai décidé d’utiliser maintenant une approche plus globale et j’aimerais aussi utiliser AIC. Je sais que Raftery (1995) a présenté de bonnes directives pour les différences BIC: 0-2 est faible, 2-4 est la preuve positive …

32 r model-selection references aic bic

5

Pourquoi les sondages politiques ont-ils une aussi grande taille d'échantillon?

Quand je regarde les nouvelles, j'ai remarqué que les sondages Gallup sur des sujets tels que les élections présidentielles avaient [je suppose des échantillons aléatoires] de plus de 1 000 échantillons. D'après ce que je me souviens des statistiques des collèges, une taille d'échantillon de 30 était un échantillon "considérablement …

32 sampling sample-size power-analysis

3

Jeux de données construits dans un but similaire à celui du quatuor d'Anscombe

Je viens de rencontrer le quatuor d'Anscombe (quatre jeux de données contenant des statistiques descriptives presque impossibles à distinguer, mais qui semblent très différents une fois tracés) et je suis curieux de savoir s'il existe d'autres jeux de données plus ou moins connus créés pour démontrer l'importance de certains aspects. …

32 regression data-visualization dataset

2

Régression logistique: variables de réponse de Bernoulli vs binomiales

Je souhaite effectuer une régression logistique avec la réponse binomiale suivante et avec et comme variables prédites. X 2X1X1X_1X2X2X_2 Je peux présenter les mêmes données que les réponses de Bernoulli dans le format suivant. Les résultats de la régression logistique pour ces 2 ensembles de données sont essentiellement les mêmes. …

32 logistic binomial aic bernoulli-distribution deviance

3

Est-il possible de trouver l'écart type combiné?

Supposons que j'ai 2 jeux: Ensemble A : nombre d'éléments , ,n=10n=10n= 10μ=2.4μ=2.4\mu = 2.4σ=0.8σ=0.8\sigma = 0.8 Ensemble B : nombre d'éléments , ,n=5n=5n= 5μ=2μ=2\mu = 2σ=1.2σ=1.2\sigma = 1.2 Je peux trouver la moyenne combinée ( ) facilement, mais comment suis-je censé trouver l'écart type combiné?μμ\mu

32 standard-deviation