Science des données

Questions-réponses pour les professionnels de la science des données, les spécialistes en apprentissage automatique et les personnes intéressées

2
K-means vs K-means en ligne
K-means est un algorithme bien connu pour le clustering, mais il existe également une variante en ligne de cet algorithme (K-means en ligne). Quels sont les avantages et les inconvénients de ces approches et quand devraient-elles être privilégiées?

3
Informatique parallèle et distribuée
Quelle (s) est (sont) la (les) différence (s) entre l'informatique parallèle et distribuée? En ce qui concerne l'évolutivité et l'efficacité, il est très courant de voir des solutions traitant des calculs dans des grappes de machines, et parfois on parle de traitement parallèle ou de traitement distribué. D'une certaine manière, …



5
Prédiction de similarité de phrase
Je cherche à résoudre le problème suivant: j'ai un ensemble de phrases comme ensemble de données et je veux pouvoir taper une nouvelle phrase et trouver la phrase à laquelle la nouvelle est la plus similaire dans l'ensemble de données. Un exemple ressemblerait à: Nouvelle phrase: " I opened a …

2
Regroupement des visiteurs uniques par useragent, ip, session_id
Étant donné les données d'accès au site Web sous la forme session_id, ip, user_agent, et éventuellement l'horodatage, en suivant les conditions ci-dessous, comment regrouperiez-vous au mieux les sessions en visiteurs uniques? session_id: est un identifiant donné à chaque nouveau visiteur. Il n'expire pas, mais si l'utilisateur n'accepte pas les cookies …
15 clustering 


4
Arbre de décision vs KNN
Dans quels cas est-il préférable d'utiliser un arbre de décision et dans d'autres cas un KNN? Pourquoi en utiliser un dans certains cas? Et l'autre dans des cas différents? (En regardant sa fonctionnalité, pas l'algorithme) Quelqu'un a-t-il des explications ou des références à ce sujet?




2
Comment fonctionne SelectKBest?
Je regarde ce tutoriel: https://www.dataquest.io/mission/75/improving-your-submission À la section 8, trouver les meilleures fonctionnalités, il montre le code suivant. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # …


1
PyTorch vs Tensorflow désireux
Google a récemment inclus dans tensorflow's nightly builds son Eager mode, une API impérative pour accéder aux capacités de calcul tensorflow. Comment tensorflow désireux se compare-t-il à PyTorch? Certains aspects qui pourraient affecter la comparaison pourraient être: Avantages et inconvénients de désireux en raison de son héritage graphique statique (par …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.