Science des données

4

Apprendre la régression ordinale dans R?

Je travaille sur un projet et j'ai besoin de ressources pour me mettre au courant. L'ensemble de données comprend environ 35 000 observations sur une trentaine de variables. Environ la moitié des variables sont catégorielles, certaines ayant plusieurs valeurs possibles différentes, c'est-à-dire que si vous divisez les variables catégorielles en …

10 r logistic-regression

1

Comment savoir si des sous-ensembles peuvent être tracés dans un diagramme d'Euler normal?

Dans certains cas, il peut être impossible de dessiner des diagrammes d'Euler avec des cercles qui se chevauchent pour représenter tous les sous-ensembles qui se chevauchent dans les proportions correctes. Ce type de données nécessite ensuite l'utilisation de polygones ou d'autres figures pour représenter chaque ensemble. Lorsque je traite des …

10 visualization

4

Détection des valeurs aberrantes de la consommation de gaz - Projet de réseau de neurones. Mauvais résultats

J'ai essayé de détecter des valeurs aberrantes dans la consommation de gaz énergétique de certains bâtiments hollandais, en construisant un modèle de réseau de neurones. J'ai de très mauvais résultats, mais je n'en trouve pas la raison. Je ne suis pas un expert, je voudrais donc vous demander ce que …

10 neural-network outlier

1

Quelle est la technique d'indexation des données la plus efficace

Comme nous le savons tous, il existe des techniques d'indexation de données, utilisées par des applications d'indexation bien connues, comme Lucene (pour java) ou Lucene.NET (pour .NET), MurMurHash, B + Tree, etc. Pour un No-Sql / Object Base de données orientée (que j'essaie d'écrire / de jouer un peu avec …

10 nosql efficiency indexing data-indexing-techniques .net

5

Qualifications pour les programmes de doctorat

Yann LeCun a mentionné dans son AMA qu'il considère qu'il est très important d'avoir un doctorat pour obtenir un emploi dans une grande entreprise. J'ai une maîtrise en statistique et mon premier cycle était en économie et mathématiques appliquées, mais je suis maintenant à la recherche de programmes de doctorat …

10 education

2

Cette comparaison Neo4j avec le temps d'exécution du SGBDR est-elle correcte?

Contexte: Ce qui suit est tiré du livre Graph Databases , qui couvre un test de performance mentionné dans le livre Neo4j in Action : Les relations dans un graphique forment naturellement des chemins. L'interrogation ou la traversée du graphique implique de suivre les chemins. En raison de la nature …

10 databases nosql neo4j

3

Quelles sont les contraintes de mémoire de R?

En examinant la « modélisation prédictive appliquée », un réviseur déclare : Une critique que j'ai de la pédagogie de l'apprentissage statistique (SL) est l'absence de considérations de performance de calcul dans l'évaluation des différentes techniques de modélisation. Avec ses efforts sur le bootstrap et la validation croisée pour ajuster …

10 apache-hadoop r

4

Pourquoi est-il difficile de garantir l'efficacité lors de l'utilisation des bibliothèques?

Tout petit traitement de base de données peut être facilement abordé par des scripts Python / Perl / ..., qui utilisent des bibliothèques et / ou même des utilitaires du langage lui-même. Cependant, en ce qui concerne les performances, les gens ont tendance à tendre la main pour les langages …

10 bigdata efficiency performance

3

Comment encoder une classe avec 24 000 catégories?

Je travaille actuellement sur un modèle de régression logistique pour la génomique. L'un des champs de saisie que je souhaite inclure en tant que covariable est genes. Il existe environ 24 000 gènes connus. Il existe de nombreuses fonctionnalités avec ce niveau de variabilité en biologie computationnelle et des centaines …

10 machine-learning keras scikit-learn

2

Quelles sont les différences entre Convolutional1D, Convolutional2D et Convolutional3D?

J'ai appris sur les réseaux de neurones convolutionnels. En regardant des Kerasexemples, je suis tombé sur trois méthodes de convolution différentes. À savoir, 1D, 2D et 3D. Quelles sont les différences entre ces trois couches? Quels sont leurs cas d'utilisation? Existe-t-il des liens ou des références pour montrer leurs cas …

10 machine-learning neural-network deep-learning keras cnn

3

Zéro moyenne et variance unitaire

J'étudie le Data Scaling, et en particulier la méthode de Standardisation. J'ai compris les mathématiques derrière cela, mais je ne comprends pas pourquoi il est important de donner aux caractéristiques une moyenne nulle et une variance unitaire. Peux tu m'expliquer ?

10 machine-learning feature-scaling normalization

2

Comment détecter si une image a été retouchée?

Je voudrais vérifier les fichiers JPG s'ils ont été manipulés pour changer le contenu. Ce que je considère PAS photoshoppé: Recadrage Tournant (Mise à l'échelle) Résolution de l'image Modifications automatiques que les smartphones peuvent apporter Ce que je considère comme le photoshopping: Ajout d'une nouvelle image au-dessus de parties de …

10 computer-vision

4

PCA est-il considéré comme un algorithme d'apprentissage automatique

J'ai compris que l'analyse des composants principaux est une technique de réduction de dimensionnalité, c'est-à-dire que compte tenu de 10 entités en entrée, elle produira un plus petit nombre d'entités indépendantes qui sont une transformation orthogonale et linéaire des entités originales. Est PCAconsidéré en soi comme un algorithme d'apprentissage ou …

10 machine-learning pca

2

Pourquoi utiliser la régularisation L1 sur L2?

En effectuant un modèle de régression linéaire à l'aide d'une fonction de perte, pourquoi devrais-je utiliser au lieu de la régularisation ?L1L1L_1L2L2L_2 Est-il préférable de prévenir le sur-ajustement? Est-ce déterministe (donc toujours une solution unique)? Est-il meilleur dans la sélection des fonctionnalités (parce que la production de modèles clairsemés)? Disperse-t-il …

10 linear-regression regularization

3

Les coordonnées GPS (latitude et longitude) peuvent-elles être utilisées comme entités dans un modèle linéaire?

J'ai des ensembles de données qui contiennent, parmi de nombreuses fonctionnalités, des coordonnées GPS (latitude et longitude). Je voudrais utiliser ces ensembles de données pour explorer des problèmes tels que: (1) calculer l'ETA pour conduire entre les points de début et de fin; et (2) estimer le degré de criminalité …

10 machine-learning feature-selection linear-regression feature-extraction geospatial