Science des données

2

K-means est un algorithme bien connu pour le clustering, mais il existe également une variante en ligne de cet algorithme (K-means en ligne). Quels sont les avantages et les inconvénients de ces approches et quand devraient-elles être privilégiées?

15 clustering algorithms k-means

3

Informatique parallèle et distribuée

Quelle (s) est (sont) la (les) différence (s) entre l'informatique parallèle et distribuée? En ce qui concerne l'évolutivité et l'efficacité, il est très courant de voir des solutions traitant des calculs dans des grappes de machines, et parfois on parle de traitement parallèle ou de traitement distribué. D'une certaine manière, …

15 definitions parallel distributed

1

Comment un point de division est-il choisi pour les variables continues dans les arbres de décision?

J'ai deux questions liées aux arbres de décision: Si nous avons un attribut continu, comment choisissons-nous la valeur de fractionnement? Exemple: Âge = (20,29,50,40 ....) Imaginons que nous ayons un attribut continu qui ont des valeurs dans . Comment puis-je écrire un algorithme qui trouve le point de partage , …

15 classification data decision-trees

1

propagation de retour dans CNN

J'ai le CNN suivant: Je commence par une image d'entrée de taille 5x5 Ensuite, j'applique la convolution en utilisant un noyau 2x2 et stride = 1, ce qui produit une carte de caractéristiques de taille 4x4. Ensuite, j'applique un pool max 2x2 avec stride = 2, ce qui réduit la …

15 machine-learning convnet backpropagation cnn kernel

5

Prédiction de similarité de phrase

Je cherche à résoudre le problème suivant: j'ai un ensemble de phrases comme ensemble de données et je veux pouvoir taper une nouvelle phrase et trouver la phrase à laquelle la nouvelle est la plus similaire dans l'ensemble de données. Un exemple ressemblerait à: Nouvelle phrase: " I opened a …

15 python nlp scikit-learn similarity text

2

Regroupement des visiteurs uniques par useragent, ip, session_id

Étant donné les données d'accès au site Web sous la forme session_id, ip, user_agent, et éventuellement l'horodatage, en suivant les conditions ci-dessous, comment regrouperiez-vous au mieux les sessions en visiteurs uniques? session_id: est un identifiant donné à chaque nouveau visiteur. Il n'expire pas, mais si l'utilisateur n'accepte pas les cookies …

15 clustering

6

Keras - Transfert d'apprentissage - modification de la forme du tenseur d'entrée

Ce message semble indiquer que ce que je veux accomplir n'est pas possible. Cependant, je ne suis pas convaincu de cela - compte tenu de ce que j'ai déjà fait, je ne vois pas pourquoi ce que je veux faire ne peut pas être réalisé ... J'ai deux jeux de …

15 keras

4

Arbre de décision vs KNN

Dans quels cas est-il préférable d'utiliser un arbre de décision et dans d'autres cas un KNN? Pourquoi en utiliser un dans certains cas? Et l'autre dans des cas différents? (En regardant sa fonctionnalité, pas l'algorithme) Quelqu'un a-t-il des explications ou des références à ce sujet?

15 machine-learning data-mining decision-trees

2

La science des données sans connaissance d'un sujet spécifique, vaut-il la peine de poursuivre une carrière? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour Data Science Stack Exchange. Fermé il y a 5 ans . J'ai eu une conversation avec quelqu'un récemment et j'ai mentionné …

15 education beginner career

2

Pourquoi les variables des données de train et de test sont-elles définies en utilisant la lettre majuscule (en Python)?

J'espère que cette question est la plus appropriée sur ce site ... En Python, le nom de classe est généralement défini en utilisant la majuscule comme premier caractère, par exemple class Vehicle: ... Cependant, dans le domaine de l'apprentissage automatique, les données d'entraînement et de test sont souvent définies comme …

15 python dataset

4

Comment mettre à l'échelle un tableau d'entiers signés de 0 à 1?

J'utilise Brain pour former un réseau neuronal sur un ensemble de fonctionnalités qui comprend des valeurs positives et négatives. Mais Brain nécessite des valeurs d'entrée comprises entre 0 et 1. Quelle est la meilleure façon de normaliser mes données?

15 machine-learning neural-network feature-scaling normalization javascript

2

Comment fonctionne SelectKBest?

Je regarde ce tutoriel: https://www.dataquest.io/mission/75/improving-your-submission À la section 8, trouver les meilleures fonctionnalités, il montre le code suivant. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # …

15 python scikit-learn

4

Les sorties XGBoost tendent vers les extrêmes

J'utilise actuellement XGBoost pour la prédiction des risques, il semble faire du bon travail dans le département de classification binaire mais les sorties de probabilité sont très éloignées, c'est-à-dire que changer la valeur d'une caractéristique dans une observation de très petite quantité peut rendre la probabilité saut de sortie de …

15 machine-learning classification xgboost probability probability-calibration

1

PyTorch vs Tensorflow désireux

Google a récemment inclus dans tensorflow's nightly builds son Eager mode, une API impérative pour accéder aux capacités de calcul tensorflow. Comment tensorflow désireux se compare-t-il à PyTorch? Certains aspects qui pourraient affecter la comparaison pourraient être: Avantages et inconvénients de désireux en raison de son héritage graphique statique (par …

14 deep-learning tensorflow pytorch

3

Des GAN (réseaux génératifs contradictoires) sont-ils également possibles pour le texte?

Les GAN - réseaux générateurs de confrontations - sont-ils bons uniquement pour les images, ou pourraient-ils également être utilisés pour le texte? Comme, former un réseau pour générer des textes significatifs à partir d'un résumé. UPD - citations de l'inventeur du GAN Ian Goodfellow. Les GAN n'ont pas été appliqués …

14 gan