Science des données

Questions-réponses pour les professionnels de la science des données, les spécialistes en apprentissage automatique et les personnes intéressées



1
Combien de cellules LSTM dois-je utiliser?
Existe-t-il des règles générales (ou des règles réelles) concernant la quantité minimale, maximale et "raisonnable" de cellules LSTM que je devrais utiliser? Plus précisément, je me rapporte à BasicLSTMCell de TensorFlow et à la num_unitspropriété. Veuillez supposer que j'ai un problème de classification défini par: t - number of time …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
apprentissage en profondeur pour les tâches non-image non-PNL?
Jusqu'à présent, il existe de nombreuses applications intéressantes pour l'apprentissage en profondeur en vision par ordinateur ou en traitement du langage naturel. Comment est-ce dans d'autres domaines plus traditionnels? Par exemple, j'ai des variables sociodémographiques traditionnelles et peut-être beaucoup de mesures de laboratoire et je veux prédire une certaine maladie. …

2
Comment calculer la dimension VC?
Im étudie l'apprentissage automatique, et je voudrais savoir comment calculer la dimension VC. Par exemple: h ( x ) = { 10si a≤x≤bautre h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} , avec les paramètres( a , b ) ∈ R2(a,b)∈R2(a,b) ∈ …


4
Importez le contenu du fichier csv dans des cadres de données pyspark
Comment importer un fichier .csv dans des cadres de données pyspark? J'ai même essayé de lire le fichier csv dans Pandas, puis de le convertir en un cadre de données spark à l'aide de createDataFrame, mais il affiche toujours une erreur. Quelqu'un peut-il me guider à travers cela? Aussi, dites-moi …
12 pyspark 

2
Comment fusionner deux trames de données dans Python Pandas?
J'ai deux trames de données df1 et df2 et je voudrais les fusionner en une seule trame de données. C'est comme si df1 et df2 avaient été créés en divisant verticalement un seul bloc de données au centre, comme déchirer un morceau de papier qui contient une liste en deux …
12 pandas 

2
FPGrowth est-il toujours considéré comme «à la pointe de la technologie» dans le cadre de l'exploitation minière fréquente?
Pour autant que je connaisse le développement d'algorithmes pour résoudre le problème de FPM (Frequent Pattern Mining), la route des améliorations a quelques points de contrôle principaux. Premièrement, l' algorithme Apriori a été proposé en 1993 par Agrawal et al. , ainsi que la formalisation du problème. L'algorithme a été …

2
Réduction efficace de la dimensionnalité pour un grand ensemble de données
J'ai un ensemble de données avec ~ 1M lignes et ~ 500K fonctionnalités clairsemées. Je veux réduire la dimensionnalité quelque part dans l'ordre des entités denses 1K-5K. sklearn.decomposition.PCAne fonctionne pas sur des données éparses, et j'ai essayé d'utiliser sklearn.decomposition.TruncatedSVDmais j'obtiens une erreur de mémoire assez rapidement. Quelles sont mes options …






En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.