Statistiques et Big Data

15

Compléter des exemples concrets de recherches reproductibles utilisant R

La question: Existe-t-il de bons exemples de recherche reproductible utilisant R qui sont disponibles gratuitement en ligne? Exemple idéal: Plus précisément, des exemples idéaux fourniraient: Les données brutes (et idéalement les métadonnées expliquant les données), Tout le code R, y compris l’importation, le traitement, les analyses et la production de …

71 r references reproducible-research

4

Le bootstrap peut-il être considéré comme un «remède» pour la petite taille de l'échantillon?

Cette question a été déclenchée par quelque chose que j'ai lu dans ce manuel de statistiques de deuxième cycle et que j'ai entendu (indépendamment) lors de cette présentation lors d'un séminaire statistique. Dans les deux cas, la déclaration était dans les lignes de "parce que la taille de l'échantillon est …

71 bootstrap small-sample

10

Y a-t-il une taille minimale d'échantillon requise pour que le test t soit valide?

Je travaille actuellement sur un document de recherche quasi expérimental. Je n'ai qu'un échantillon de 15 personnes en raison de la faible population de la région choisie et du fait que 15 seulement correspondent à mes critères. 15 est la taille minimale de l'échantillon à calculer pour le test t …

71 t-test sample-size assumptions power

8

Générer une variable aléatoire avec une corrélation définie avec une ou plusieurs variables existantes

Pour une étude de simulation , je dois générer des variables aléatoires qui montrent une corrélation prefined (population) à une variable existante .YYY J'ai examiné les Rpackages copulaet ceux CDVinequi peuvent produire des distributions multivariées aléatoires avec une structure de dépendance donnée. Cependant, il n'est pas possible de fixer l'une …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

4

Comment visualiser ce que fait l'analyse de corrélation canonique (par rapport à l'analyse de composante principale)?

L'analyse canonique de corrélation (CCA) est une technique liée à l'analyse en composantes principales (ACP). Bien qu'il soit facile d'enseigner l'ACP ou la régression linéaire à l'aide d'un nuage de points (voir quelques milliers d'exemples sur la recherche d'images dans Google), je n'ai pas vu un exemple intuitif similaire à …

70 regression data-visualization pca canonical-correlation geometry

12

Quelles sont les idées fausses les plus courantes sur la régression linéaire?

Je suis curieux de savoir, pour ceux d'entre vous qui ont une vaste expérience de la collaboration avec d'autres chercheurs, quelles sont les idées fausses les plus courantes sur la régression linéaire que vous rencontrez? Je pense qu’il peut être utile de penser à l’avance aux idées fausses courantes afin …

70 regression multiple-regression

5

Utilisation de la validation croisée par pli en k pour la sélection de modèles en série chronologique

Question: Je veux être sûr de quelque chose, l’utilisation de la validation croisée à plis multiples avec des séries chronologiques est-elle simple, ou faut-il être particulièrement attentif avant de l’utiliser? Contexte: Je modélise une série chronologique sur 6 ans (avec une chaîne semi-markovienne), avec un échantillon de données toutes les …

70 time-series modeling cross-validation

9

Quelles sont les principales différences philosophiques, méthodologiques et terminologiques entre l'économétrie et d'autres domaines statistiques?

L'économétrie chevauche en grande partie les statistiques traditionnelles, mais utilise souvent son propre jargon sur une variété de sujets ("identification", "exogène", etc.). Une fois, j'ai entendu un professeur de statistique appliquée d'un autre domaine dire que la terminologie est souvent différente mais que les concepts sont les mêmes. Pourtant, il …

70 econometrics terminology

9

Pourquoi est-il possible d'obtenir une statistique F significative (p <0,001) mais des tests t régresseurs non significatifs?

Dans une régression linéaire multiple, pourquoi est-il possible d'avoir une statistique F hautement significative (p <0,001) mais d'avoir des valeurs p très élevées sur tous les tests t de la régression? Dans mon modèle, il y a 10 régresseurs. L'un a une valeur p de 0,1 et le reste est …

70 hypothesis-testing regression t-test multicollinearity

15

Réflexions pratiques sur la modélisation explicative par rapport à la modélisation prédictive

En avril, j'ai assisté à une conférence intitulée "Expliquer ou prédire?" Lors de la série de séminaires du groupe de statistiques du département de mathématiques de l'UMD. La conférence a été donnée par le professeur Galit Shmueli, qui enseigne à la Smith Business School de l'UMD. Son exposé s'appuyait sur …

70 predictive-models

9

Quel algorithme devrais-je utiliser pour détecter des anomalies sur des séries chronologiques?

Contexte Je travaille dans le centre d'opérations réseau, nous surveillons les systèmes informatiques et leurs performances. L'un des indicateurs clés à surveiller est le nombre de visiteurs \ clients actuellement connectés à nos serveurs. Pour le rendre visible, nous (l'équipe d'opérations) collectons des métriques telles que des données de séries …

70 machine-learning time-series python computational-statistics anomaly-detection

1

Comment diviser le jeu de données pour la validation croisée, la courbe d'apprentissage et l'évaluation finale?

Quelle est la stratégie appropriée pour diviser l’ensemble de données? Je demande des commentaires sur l'approche suivante (pas sur les paramètres individuels comme test_sizeou n_iter, mais si je X, y, X_train, y_train, X_testet de façon y_testappropriée et si la séquence est logique): (étendant cet exemple à partir de la documentation …

70 machine-learning cross-validation python scikit-learn

4

Quelle est la différence entre les fonctions R prcomp et princomp?

J'ai comparé ?prcompet ?princomptrouvé quelque chose à propos de l'analyse en composantes principales (ACP) en mode Q et en mode R. Mais honnêtement, je ne comprends pas. Quelqu'un peut-il expliquer la différence et peut-être même expliquer quand appliquer laquelle?

70 r pca

2

Comment fonctionne la couche «Enrobage» de Keras?

Besoin de comprendre le fonctionnement de la couche 'Enrobage' dans la bibliothèque Keras. J'exécute le code suivant en Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) ce qui donne …

70 text-mining word-embeddings keras

3

Pourquoi les chercheurs en réseaux de neurones se soucient-ils des époques?

Une époque en descente de gradient stochastique est définie comme un passage unique dans les données. Pour chaque minibatch SGD, échantillons sont extraits, le gradient calculé et les paramètres mis à jour. Dans le réglage d'époque, les échantillons sont prélevés sans remplacement.kkk Mais cela semble inutile. Pourquoi ne pas dessiner …

69 neural-networks deep-learning gradient-descent