Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données




8
Générer une variable aléatoire avec une corrélation définie avec une ou plusieurs variables existantes
Pour une étude de simulation , je dois générer des variables aléatoires qui montrent une corrélation prefined (population) à une variable existante .YYY J'ai examiné les Rpackages copulaet ceux CDVinequi peuvent produire des distributions multivariées aléatoires avec une structure de dépendance donnée. Cependant, il n'est pas possible de fixer l'une …

4
Comment visualiser ce que fait l'analyse de corrélation canonique (par rapport à l'analyse de composante principale)?
L'analyse canonique de corrélation (CCA) est une technique liée à l'analyse en composantes principales (ACP). Bien qu'il soit facile d'enseigner l'ACP ou la régression linéaire à l'aide d'un nuage de points (voir quelques milliers d'exemples sur la recherche d'images dans Google), je n'ai pas vu un exemple intuitif similaire à …


5
Utilisation de la validation croisée par pli en k pour la sélection de modèles en série chronologique
Question: Je veux être sûr de quelque chose, l’utilisation de la validation croisée à plis multiples avec des séries chronologiques est-elle simple, ou faut-il être particulièrement attentif avant de l’utiliser? Contexte: Je modélise une série chronologique sur 6 ans (avec une chaîne semi-markovienne), avec un échantillon de données toutes les …

9
Quelles sont les principales différences philosophiques, méthodologiques et terminologiques entre l'économétrie et d'autres domaines statistiques?
L'économétrie chevauche en grande partie les statistiques traditionnelles, mais utilise souvent son propre jargon sur une variété de sujets ("identification", "exogène", etc.). Une fois, j'ai entendu un professeur de statistique appliquée d'un autre domaine dire que la terminologie est souvent différente mais que les concepts sont les mêmes. Pourtant, il …



9
Quel algorithme devrais-je utiliser pour détecter des anomalies sur des séries chronologiques?
Contexte Je travaille dans le centre d'opérations réseau, nous surveillons les systèmes informatiques et leurs performances. L'un des indicateurs clés à surveiller est le nombre de visiteurs \ clients actuellement connectés à nos serveurs. Pour le rendre visible, nous (l'équipe d'opérations) collectons des métriques telles que des données de séries …

1
Comment diviser le jeu de données pour la validation croisée, la courbe d'apprentissage et l'évaluation finale?
Quelle est la stratégie appropriée pour diviser l’ensemble de données? Je demande des commentaires sur l'approche suivante (pas sur les paramètres individuels comme test_sizeou n_iter, mais si je X, y, X_train, y_train, X_testet de façon y_testappropriée et si la séquence est logique): (étendant cet exemple à partir de la documentation …

4
Quelle est la différence entre les fonctions R prcomp et princomp?
J'ai comparé ?prcompet ?princomptrouvé quelque chose à propos de l'analyse en composantes principales (ACP) en mode Q et en mode R. Mais honnêtement, je ne comprends pas. Quelqu'un peut-il expliquer la différence et peut-être même expliquer quand appliquer laquelle?
70 r  pca 

2
Comment fonctionne la couche «Enrobage» de Keras?
Besoin de comprendre le fonctionnement de la couche 'Enrobage' dans la bibliothèque Keras. J'exécute le code suivant en Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) ce qui donne …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.