Science des données

4

Comment créer une liste de marche optimisée en fonction des coordonnées de longitude et de latitude?

Je travaille sur une campagne politique où des dizaines de bénévoles mèneront des promotions pour frapper à la porte au cours des prochaines semaines. Étant donné une liste avec des noms, des adresses et des coordonnées long / lat, quels algorithmes peuvent être utilisés pour créer une liste de marche …

10 algorithms

2

Descente de gradient stochastique basée sur des opérations vectorielles?

supposons que je veux former un algorithme de régression de descente de gradient stochastique en utilisant un ensemble de données qui a N échantillons. Puisque la taille de l'ensemble de données est fixe, je vais réutiliser les données T fois. À chaque itération ou "époque", j'utilise chaque échantillon d'entraînement exactement …

10 python gradient-descent regression

3

Ensembles de données classiques d'analyse de réseau

Il existe plusieurs jeux de données classiques pour les tâches de classification / régression d'apprentissage automatique. Les plus populaires sont: Ensemble de données sur la fleur d'iris ; Ensemble de données Titanic ; Voitures Motor Trend ; etc. Mais quelqu'un connaît-il des ensembles de données similaires pour l'analyse des réseaux …

10 dataset graphs

2

Validation croisée: K-fold vs sous-échantillonnage aléatoire répété

Je me demande quel type de validation croisée de modèle choisir pour un problème de classification: K-fold ou sous-échantillonnage aléatoire (échantillonnage bootstrap)? Ma meilleure supposition est d'utiliser 2/3 de l'ensemble de données (soit environ 1000 éléments) pour la formation et 1/3 pour la validation. Dans ce cas, K-fold ne donne …

10 cross-validation sampling

2

Débogage des réseaux de neurones

J'ai construit un réseau neuronal artificiel en python en utilisant la fonction d'optimisation scipy.optimize.minimize (gradient conjugué). J'ai implémenté la vérification du gradient, j'ai tout vérifié, etc., et je suis presque certain que cela fonctionne correctement. Je l'ai exécuté plusieurs fois et il atteint `` L'optimisation s'est terminée avec succès '', …

10 machine-learning python neural-network

4

Comment déboguer l'analyse des données?

J'ai rencontré le problème suivant, que je reconnais est plutôt typique. J'ai quelques grandes données, disons, quelques millions de lignes. J'exécute une analyse non triviale dessus, par exemple une requête SQL composée de plusieurs sous-requêtes. J'obtiens un résultat, déclarant, par exemple, que la propriété X augmente avec le temps. Maintenant, …

10 data-mining sql experiments

1

Regroupement des données client stockées dans ElasticSearch

J'ai un tas de profils clients stockés dans un cluster elasticsearch . Ces profils sont désormais utilisés pour la création de groupes cibles pour nos abonnements par e-mail. Les groupes cibles sont désormais formés manuellement à l'aide des capacités de recherche à facettes d'elasticsearch (comme obtenir tous les hommes de …

10 data-mining clustering

2

Quelle est la méthode la plus efficace pour l'optimisation hyperparamétrique dans scikit-learn?

Un aperçu du processus d'optimisation des hyperparamètres dans scikit-learn est ici . Une recherche exhaustive dans la grille trouvera l'ensemble optimal d'hyperparamètres pour un modèle. L'inconvénient est que la recherche exhaustive de la grille est lente. La recherche aléatoire est plus rapide que la recherche dans la grille mais présente …

10 scikit-learn hyperparameter hyperparameter-tuning grid-search randomized-algorithms

2

Max_depth dans scikit est-il l'équivalent de l'élagage dans les arbres de décision?

J'analysais le classificateur créé à l'aide d'un arbre de décision. Il y a un paramètre de réglage appelé max_depth dans l'arbre de décision de scikit. Est-ce l'équivalent de l'élagage d'un arbre de décision? Sinon, comment pourrais-je tailler un arbre de décision à l'aide de scikit? dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt …

10 machine-learning python scikit-learn decision-trees supervised-learning

2

Relecture prioritaire, que fait vraiment l'échantillonnage d'importance?

Je ne peux pas comprendre l'objectif des poids d'échantillonnage d'importance (IS) dans la lecture prioritaire (page 5) . Une transition est plus susceptible d'être échantillonnée à partir de l'expérience rejouée plus son «coût» est élevé. Ma compréhension est que «IS» aide à abandonner en douceur l'utilisation de la relecture prioritaire …

10 reinforcement-learning

2

La normalisation par lots a-t-elle un sens pour une fonction d'activation ReLU?

La normalisation par lots est décrite dans cet article comme une normalisation de l'entrée d'une fonction d'activation avec des variables d'échelle et de décalageγγ\gamma et ββ\beta. Cet article décrit principalement l'utilisation de la fonction d'activation sigmoïde, ce qui est logique. Cependant, il me semble que l'introduction d'une entrée de la …

10 machine-learning neural-network deep-learning batch-normalization

3

Relation entre la convolution en mathématiques et CNN

J'ai lu l' explication de la convolution et je la comprends dans une certaine mesure. Quelqu'un peut-il m'aider à comprendre comment cette opération est liée à la convolution dans les réseaux neuronaux convolutionnels? Le filtre est-il une fonction gqui applique du poids?

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

2

Comment fonctionne la rétropropagation via la couche Max Pooling lors de la création d'un lot?

Supposons que nous utilisons une taille de lot de 100 échantillons pour l'apprentissage. Donc, dans chaque lot, le poids de chaque neurone (et biais, etc.) est mis à jour en ajoutant le moins du taux d'apprentissage * la valeur d'erreur moyenne que nous avons trouvée en utilisant les 100 échantillons …

10 neural-network deep-learning backpropagation

8

Différence entre l'apprentissage automatique et l'intelligence artificielle

Ma question est la suivante: Y a-t-il une différence entre l'apprentissage automatique et l'intelligence artificielle? Ou ces termes se réfèrent-ils à la même chose?

10 machine-learning theory

3

Consommation de mémoire CNN

J'aimerais pouvoir estimer si un modèle proposé est suffisamment petit pour être formé sur un GPU avec une quantité de mémoire donnée Si j'ai une architecture CNN simple comme celle-ci: Input: 50x50x3 C1: 32 noyaux 3x3, avec rembourrage (je suppose qu'ils sont en réalité 3x3x3 étant donné la profondeur d'entrée?) …

10 machine-learning neural-network convnet parameter-estimation gpu