Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
J'ai beaucoup lu récemment sur les différences entre la méthode de test des hypothèses de Fisher et l'école de pensée Neyman-Pearson. Ma question est, en ignorant les objections philosophiques pour un moment; quand devrions-nous utiliser l'approche de Fisher en matière de modélisation statistique et quand devrions-nous utiliser la méthode de …
Inspiré par un commentaire de cette question : Que considérons-nous comme "non informatif" dans un précédent - et quelles informations sont encore contenues dans un précédent prétendument non informatif? Je vois généralement le prieur dans une analyse où il s’agit d’une analyse de type fréquentiste qui tente d’emprunter de belles …
Même si toutes les images du jeu de données MNIST sont centrées, avec une échelle similaire et face visible sans rotations, elles présentent une variation importante de l'écriture manuscrite qui me laisse perplexe sur la précision avec laquelle un modèle linéaire atteint une précision de classification aussi élevée. Dans la …
Je me demande comment calculer les mesures de précision et de rappel pour la classification multiclass à étiquettes multiples, c'est-à-dire une classification dans laquelle il existe plus de deux étiquettes et où chaque instance peut avoir plusieurs étiquettes?
Dans le cadre d'une proposition de recherche en sciences sociales, on m'a posé la question suivante: J'ai toujours choisi 100 + m (m étant le nombre de prédicteurs) lors de la détermination de la taille minimale de l'échantillon pour la régression multiple. Est-ce approprié? Je reçois beaucoup de questions similaires, …
Contexte : Je n'ai pas de formation formelle en statistique bayésienne (bien que je sois très intéressé à en apprendre davantage), mais je sais assez - je pense - pour comprendre l'essentiel des raisons pour lesquelles beaucoup se sentent comme préférables aux statistiques frequentist. Même les étudiants de premier cycle …
Dans son cours d'apprentissage automatique, Andrew Ng introduit la régression linéaire et la régression logistique, et montre comment ajuster les paramètres du modèle à l'aide de la méthode de la méthode de Newton et de la méthode de descente par gradient. Je sais que la descente sur gradient peut être …
J'ai vu quelque part que les distances classiques (comme la distance euclidienne) deviennent faiblement discriminantes lorsque nous disposons de données multidimensionnelles et rares. Pourquoi? Avez-vous un exemple de deux vecteurs de données clairsemés où la distance euclidienne ne fonctionne pas bien? Dans ce cas, quelle similarité devrions-nous utiliser?
Le temps d’attente pour la distribution du poisson est une distribution exponentielle avec le paramètre lambda. Mais je ne le comprends pas. Poisson modélise le nombre d'arrivées par unité de temps par exemple. Comment est-ce lié à la distribution exponentielle? Disons que la probabilité de k arrivées dans une unité …
Quelles sont les hypothèses habituelles pour la régression linéaire? Incluent-ils: une relation linéaire entre la variable indépendante et la variable dépendante erreurs indépendantes distribution normale des erreurs homoscédasticité Y en a-t-il d'autres?
L'entropie de Shannon est le négatif de la somme des probabilités de chaque résultat multiplié par le logarithme des probabilités de chaque résultat. A quoi sert le logarithme dans cette équation? Une réponse intuitive ou visuelle (par opposition à une réponse profondément mathématique) recevra des points bonus!
Ridge estimation du coefficient de régression β R sont les valeurs qui minimisent leβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Mes questions sont: Si λ=0λ=0\lambda = 0 , on voit que l'expression ci-dessus se réduit au RSS habituel. Si λ→∞λ→∞\lambda \to \infty ? Je ne comprends pas l'explication du manuel du …
Comment puis-je supprimer les lignes en double de cet exemple de cadre de données? A 1 A 1 A 2 B 4 B 1 B 1 C 2 C 2 Je voudrais supprimer les doublons basés sur les deux colonnes: A 1 A 2 B 4 B 1 C 2 …
Il semble que l’exploration de données et l’apprentissage automatique soient devenus si populaires qu’à présent presque tous les étudiants CS connaissent les classificateurs, le regroupement, la PNL statistique, etc. Ma question est la suivante: quelles compétences un fouisseur de données pourrait-il acquérir pour le rendre différent des autres? Pour faire …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.