Science des données

1

Importance des caractéristiques avec des caractéristiques catégorielles à cardinalité élevée pour la régression (variable dépendante numérique)

J'essayais d'utiliser les importances de fonctionnalités de Random Forests pour effectuer une sélection de fonctionnalités empiriques pour un problème de régression où toutes les fonctionnalités sont catégoriques et beaucoup d'entre elles ont de nombreux niveaux (de l'ordre de 100-1000). Étant donné que l'encodage à chaud crée une variable fictive pour …

12 scikit-learn feature-selection random-forest xgboost categorical-data

1

Raison des images carrées dans le deep learning

La plupart des modèles avancés d'apprentissage en profondeur comme VGG, ResNet, etc. nécessitent des images carrées en entrée, généralement avec une taille de pixel de 224x224224x224224x224 . Y a-t-il une raison pour laquelle l'entrée doit être de forme égale, ou puis-je également créer un modèle convnet avec disons 100x200100x200100x200 (si …

12 deep-learning image-classification image-recognition

4

Comment savoir que le modèle a commencé à sur-ajuster?

J'espère que les extraits suivants donneront un aperçu de ce que sera ma question. Ils proviennent de http://neuralnetworksanddeeplearning.com/chap3.html L'apprentissage ralentit ensuite progressivement. Enfin, vers l'époque 280, la précision de la classification cesse de s'améliorer. Les époques ultérieures ne voient que de petites fluctuations stochastiques proches de la valeur de la …

12 neural-network overfitting

2

La perte de validation et la précision restent constantes

J'essaie de mettre en œuvre ce document sur un ensemble d'images médicales. Je le fais à Keras. Le réseau se compose essentiellement de 4 couches conv et max-pool suivies d'une couche entièrement connectée et d'un classificateur soft max. Pour autant que je sache, j'ai suivi l'architecture mentionnée dans l'article. Cependant, …

12 machine-learning python deep-learning keras

3

Conversion de masse des colonnes catégorielles dans Pandas (pas d'encodage à chaud)

J'ai une base de données pandas avec des tonnes de colonnes catégorielles, que je prévois d'utiliser dans l'arbre de décision avec scikit-learn. J'ai besoin de les convertir en valeurs numériques (pas un seul vecteur chaud). Je peux le faire avec LabelEncoder de scikit-learn. Le problème est qu'il y en a …

12 scikit-learn pandas categorical-data labels

2

Combien d'images par classe suffisent pour former un CNN

Je démarre un projet où la tâche consiste à identifier les types de baskets à partir d'images. Je lis actuellement les implémentations de TensorFlow et Torch . Ma question est: combien d'images par classe sont nécessaires pour atteindre une performance de classification raisonnable?

12 machine-learning neural-network image-classification convnet image-recognition

3

Tensorflow Ajustement de la fonction de coût pour les données déséquilibrées

J'ai un problème de classification avec des données très déséquilibrées. J'ai lu que le suréchantillonnage et le sous-échantillonnage ainsi que la modification du coût des extrants catégoriels sous-représentés conduiront à un meilleur ajustement. Avant cela, tensorflow catégoriserait chaque entrée comme le groupe majoritaire (et gagnerait plus de 90% de précision, …

12 tensorflow loss-function

3

Besoin d'aide pour comprendre la proposition approximative de points de partage de xgboost

Contexte: dans xgboost, l' itération tente d'ajuster un arbre sur tous les exemples, ce qui minimise l'objectif suivant:f t ntttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] où sont des premier ordre et de second ordre sur notre meilleure estimation précédente (à partir de l'itération ):y t - 1gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) …

12 xgboost gbm

2

Deep Learning avec Spectrograms pour la reconnaissance sonore

Je cherchais la possibilité de classer le son (par exemple les sons d'animaux) à l'aide de spectrogrammes. L'idée est d'utiliser un réseau de neurones à convolution profonde pour reconnaître les segments dans le spectrogramme et produire une (ou plusieurs) étiquettes de classe. Ce n'est pas une idée nouvelle (voir par …

12 deep-learning multilabel-classification audio-recognition

3

Comment puis-je faire une distinction dynamique entre les données catégorielles et les données numériques?

Je connais quelqu'un qui travaille sur un projet qui implique l'ingestion de fichiers de données sans tenir compte des colonnes ou des types de données. La tâche consiste à prendre un fichier avec un nombre quelconque de colonnes et divers types de données et à produire des statistiques récapitulatives sur …

12 categorical-data numerical

1

Sélection de fonctionnalités à l'aide d'importances de fonctionnalités dans des forêts aléatoires avec scikit-learn

J'ai tracé les importances des fonctionnalités dans des forêts aléatoires avec scikit-learn . Afin d'améliorer la prédiction à l'aide de forêts aléatoires, comment puis-je utiliser les informations de tracé pour supprimer des entités? C'est-à-dire comment repérer si une fonctionnalité est inutile ou pire encore une diminution des performances des forêts …

12 feature-selection random-forest scikit-learn

3

Aide concernant NER en NLTK

Je travaille en NLTK depuis un certain temps en utilisant Python. Le problème auquel je suis confronté est qu'il n'y a aucune aide disponible sur la formation NER en NLTK avec mes données personnalisées. Ils ont utilisé MaxEnt et l'ont formé sur le corpus ACE. J'ai beaucoup cherché sur le …

12 machine-learning python nlp

4

Téléchargement d'un grand ensemble de données sur le Web directement dans AWS S3

Est-ce que quelqu'un sait s'il est possible d'importer un grand ensemble de données dans Amazon S3 à partir d'une URL? Fondamentalement, je veux éviter de télécharger un fichier énorme et de le re-télécharger vers S3 via le portail Web. Je veux juste fournir l'URL de téléchargement à S3 et attendre …

12 dataset aws

2

Modélisation de séries chronologiques inégalement espacées

J'ai une variable continue, échantillonnée sur une période d'un an à intervalles irréguliers. Certains jours ont plus d'une observation par heure, tandis que d'autres périodes n'ont rien pendant des jours. Il est donc particulièrement difficile de détecter les tendances dans les séries chronologiques, car certains mois (par exemple octobre) sont …

12 neural-network time-series regression

3

Comment animer la croissance d'un réseau social?

Je cherche une bibliothèque / un outil pour visualiser comment le réseau social change lorsque de nouveaux nœuds / bords lui sont ajoutés. L'une des solutions existantes est SoNIA: Social Network Image Animator . Cela vous permet de faire des films comme celui-ci . La documentation de SoNIA indique qu'elle …

12 social-network-analysis time-series javascript visualization