Statistiques et Big Data

6

Le graphique linéaire comporte trop de lignes, existe-t-il une meilleure solution?

J'essaie de représenter graphiquement le nombre d'actions par les utilisateurs (dans ce cas, "j'aime") au fil du temps. J'ai donc "Nombre d'actions" comme mon axe y, mon axe x est le temps (semaines), et chaque ligne représente un utilisateur. Mon problème est que je veux regarder ces données pour un …

31 r data-visualization

1

Quelle est la différence entre une fonction de perte et une fonction d'erreur?

Le terme "perte" est-il synonyme d '"erreur"? Y a-t-il une différence de définition? Aussi, quelle est l'origine du terme "perte"? NB: La fonction d'erreur mentionnée ici ne doit pas être confondue avec une erreur normale.

31 loss-functions

4

Pourquoi utilisons-nous ReLU dans les réseaux de neurones et comment l'utilisons-nous?

Pourquoi utilisons-nous des unités linéaires rectifiées (ReLU) avec des réseaux de neurones? Comment cela améliore-t-il le réseau neuronal? Pourquoi disons-nous que ReLU est une fonction d'activation? La fonction d'activation softmax n'est-elle pas pour les réseaux de neurones? Je suppose que nous utilisons à la fois ReLU et softmax, comme ceci: …

31 neural-networks

4

Quelle fonction de perte est correcte pour la régression logistique?

J'ai lu deux versions de la fonction de perte pour la régression logistique, laquelle est correcte et pourquoi? De Machine Learning , Zhou ZH (en chinois), avec :β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 De mon cours collégial, avec :zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = …

31 logistic loss-functions

1

Entropie croisée ou log vraisemblance dans la couche de sortie

J'ai lu cette page: http://neuralnetworksanddeeplearning.com/chap3.html et il a dit que la couche de sortie sigmoïde avec entropie croisée est assez similaire à la couche de sortie softmax avec log-vraisemblance. que se passe-t-il si j'utilise sigmoïde avec log-vraisemblance ou softmax avec entropie croisée dans la couche de sortie? ça va? parce …

31 neural-networks maximum-likelihood softmax

2

Suis-je en train de créer un biais en utilisant la même graine aléatoire encore et encore?

Dans presque tous les travaux d'analyse que j'ai jamais effectués, j'utilise: set.seed(42) C'est un hommage au Guide de l'auto-stoppeur de la galaxie . Mais je me demande si je crée un biais en utilisant la même graine encore et encore.

31 random-generation

3

Quelle est la différence entre la distribution prédictive postérieure et postérieure?

Je comprends ce qu'est un postérieur, mais je ne sais pas ce que ce dernier signifie? En quoi les 2 sont-ils différents? Kevin P Murphy a indiqué dans son manuel, Machine Learning: a Probabilistic Perspective , qu'il s'agit d'un «état de croyance interne». Qu'est-ce que cela signifie vraiment? J'avais l'impression …

31 posterior definition

7

Des méthodes statistiques pour tracer plus efficacement les données lorsque des millions de points sont présents?

Je trouve que R peut prendre beaucoup de temps pour générer des tracés lorsque des millions de points sont présents - ce qui n'est pas surprenant étant donné que les points sont tracés individuellement. De plus, ces parcelles sont souvent trop encombrées et denses pour être utiles. Beaucoup de points …

31 r data-visualization

3

La probabilité conjointe de 2 événements indépendants ne devrait-elle pas être égale à zéro?

Si la probabilité conjointe est l'intersection de 2 événements, alors la probabilité conjointe de 2 événements indépendants ne devrait-elle pas être nulle puisqu'ils ne se croisent pas du tout? Je suis confus.

30 probability joint-distribution

7

Dans l'analyse de régression, pourquoi appelons-nous des variables indépendantes «indépendantes»?

Je veux dire que certaines de ces variables sont fortement corrélées entre elles. Comment / pourquoi / dans quel contexte les définissons-nous comme variables indépendantes ?

30 regression terminology predictor

3

Utilité de l'ingénierie des fonctionnalités: Pourquoi créer de nouvelles fonctionnalités basées sur des fonctionnalités existantes?

Je vois souvent des gens créer de nouvelles fonctionnalités basées sur des fonctionnalités existantes sur un problème d'apprentissage automatique. Par exemple, ici: https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/ les gens ont considéré la taille de la famille d'une personne comme une nouvelle fonctionnalité, basée sur sur le nombre de frères, soeurs et parents, qui étaient …

30 machine-learning feature-engineering

2

Qu'est-ce que mon réseau de neurones vient d'apprendre? De quelles fonctionnalités se soucie-t-il et pourquoi?

Un réseau neuronal apprend les caractéristiques d'un ensemble de données comme moyen d'atteindre un objectif. Une fois cela fait, nous pouvons vouloir savoir ce que le réseau neuronal a appris. Quelles étaient les fonctionnalités et pourquoi s'en souciait-il? Quelqu'un peut-il donner quelques références sur l'ensemble des travaux qui concernent ce …

30 neural-networks deep-learning

6

Pourquoi la valeur attendue est-elle nommée ainsi?

Je comprends comment nous obtenons 3,5 comme valeur attendue pour lancer un dé à 6 faces équitable. Mais intuitivement, je peux m'attendre à chaque visage avec une chance égale de 1/6. Donc, la valeur attendue de lancer un dé ne devrait-elle pas être l'un des nombres entre 1 et 6 …

30 expected-value terminology history

2

Les intervalles de confiance à 50% sont-ils estimés de manière plus robuste que les intervalles de confiance à 95%?

Ma question découle de ce commentaire sur un article de blog d'Andrew Gelman dans lequel il préconise l'utilisation d'intervalles de confiance de 50% au lieu d'intervalles de confiance de 95%, mais pas au motif qu'ils sont plus solidement estimés: Je préfère des intervalles de 50% à 95% pour 3 raisons: …

30 confidence-interval assumptions robust

4

Le mode mean = implique-t-il une distribution symétrique?

Je sais que cette question a été posée avec le cas moyenne = médiane, mais je n'ai rien trouvé en rapport avec le mode moyenne =. Si le mode est égal à la moyenne, puis-je toujours conclure qu'il s'agit d'une distribution symétrique? Serai-je obligé de connaître également la médiane de …

30 distributions mean skewness mode symmetry