Par définition, Relu est max(0,f(x)). Ensuite , son gradient est défini comme suit: 1 if x > 0 and 0 if x < 0. Cela ne signifierait-il pas que le gradient est toujours 0 (disparaît) lorsque x <0? Alors pourquoi dit-on que Relu ne souffre pas du problème de disparition …
Étant donné la tâche d'apprentissage difficile (par exemple, grande dimensionnalité, complexité inhérente des données), les réseaux neuronaux profonds deviennent difficiles à former. Pour atténuer de nombreux problèmes, on pourrait: Normaliser les données de qualité && choisir un algorithme d'entraînement différent (par exemple RMSprop au lieu de Gradient Descent) choisissez une …
Débutant en analytique avec Python, alors soyez gentil :-) Je n'ai pas trouvé la réponse à cette question - excuses si elle a déjà été répondue ailleurs dans un format différent. J'ai un ensemble de données de données de transaction pour un point de vente. Les variables ainsi que l'explication …
J'ai un ensemble de données contenant des données sur la température, les précipitations et les rendements de soja pour une ferme pendant 10 ans (2005 - 2014). Je voudrais prédire les rendements pour 2015 sur la base de ces données. Veuillez noter que l'ensemble de données a des valeurs QUOTIDIENNES …
Il est très courant dans les recommandations que nous ayons des données de produit utilisateur qui ont une étiquette comme par exemple un "clic". Pour apprendre le modèle, j'ai besoin de données de clic et de non-clic. L'approche la plus simple à générer consiste à prendre des paires utilisateurs-produits qui …
Disons que nous prédisons les ventes d'une boutique et que mes données de formation ont deux ensembles de fonctionnalités: Un sur les ventes du magasin avec les dates (le champ "Store" n'est pas unique) Un sur les types de magasins (le champ "Store" est unique ici) La matrice ressemblerait donc …
Je comprends comment un modèle de Markov caché est utilisé dans les séquences génomiques, comme la recherche d'un gène. Mais je ne comprends pas comment trouver un modèle Markov particulier. Je veux dire, combien d'États le modèle devrait-il avoir? Combien de transitions possibles? Le modèle devrait-il avoir une boucle? Comment …
Je voudrais comparer la différence entre le même mot mentionné dans différentes sources. C'est-à-dire, comment les auteurs diffèrent dans leur utilisation de mots mal définis, tels que «démocratie». Un bref plan a été Prenez les livres mentionnant le terme "démocratie" en texte brut Dans chaque livre, remplacez democracypardemocracy_%AuthorName% Former un …
Il semble standard dans de nombreux packages de réseaux neuronaux de coupler la fonction objectif à minimiser avec la fonction d'activation dans la couche de sortie. Par exemple, pour une couche de sortie linéaire utilisée pour la régression, il est standard (et souvent seul choix) d'avoir une fonction objectif d'erreur …
Ainsi, notre ensemble de données cette semaine a 14 attributs et chaque colonne a des valeurs très différentes. Une colonne a des valeurs inférieures à 1 tandis qu'une autre colonne a des valeurs qui vont de trois à quatre chiffres entiers. Nous avons appris la normalisation la semaine dernière et …
J'essaie de créer un hachage sensible aux localités cosinus afin de pouvoir trouver des paires d'articles similaires candidates sans avoir à comparer toutes les paires possibles. Je l'ai essentiellement, mais la plupart des paires de mes données semblent avoir une similitude cosinus dans la plage -0,2 à +0,2, donc j'essaie …
J'essaie de former un réseau neuronal artificiel avec deux couches convolutionnelles (c1, c2) et deux couches cachées (c1, c2). J'utilise l'approche de rétropropagation standard. Dans la passe arrière, je calcule le terme d'erreur d'une couche (delta) en fonction de l'erreur de la couche précédente, des poids de la couche précédente …
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Vous souhaitez améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 3 ans . Le Web sémantique est-il mort? …
Je prévois d'utiliser le classificateur scikit linear support vector machine (SVM) pour la classification de texte sur un corpus comprenant 1 million de documents étiquetés. Ce que je prévois de faire, c'est lorsqu'un utilisateur saisit un mot clé, le classificateur le classera d'abord dans une catégorie, puis une requête de …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.