Un exercice de routine à partir d'un manuel, d'un cours ou d'un test utilisé pour une classe ou une auto-étude. La politique de cette communauté est de «fournir des conseils utiles» pour ces questions plutôt que des réponses complètes.
Quelle est la dérivée de la fonction d'activation ReLU définie comme: ReLU(x)=max(0,x)ReLU(x)=max(0,x) \mathrm{ReLU}(x) = \mathrm{max}(0, x) Qu'en est-il du cas particulier où il y a une discontinuité dans la fonction à ?x=0x=0x=0
Question Si sont IID, alors calculez , où .X1,⋯,Xn∼N(μ,1)X1,⋯,Xn∼N(μ,1)X_1,\cdots,X_n \sim \mathcal{N}(\mu, 1)E(X1∣T)E(X1∣T)\mathbb{E}\left( X_1 \mid T \right)T=∑iXiT=∑iXiT = \sum_i X_i Tentative : veuillez vérifier si les informations ci-dessous sont correctes. Disons que nous prenons la somme de ces attentes conditionnelles telles que Cela signifie que chaque puisque sont IID.∑iE(Xi∣T)=E(∑iXi∣T)=T.∑iE(Xi∣T)=E(∑iXi∣T)=T.\begin{align} \sum_i \mathbb{E}\left( …
(aa serait l'un des nombreux, bb ne le ferait pas) Je pensais que ce serait 10! / 8! Mais apparemment, je fais quelque chose de mal. Quelqu'un peut-il m'aider parce que je suis perplexe.
J'ai suivi un cours d'apprentissage automatique à mon collège. Dans l'un des questionnaires, cette question a été posée. Modèle 1: y=θx+ϵy=θx+ϵ y = \theta x + \epsilon Modèle 2: y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon Lequel des modèles ci-dessus correspondrait mieux aux données? (supposons que les …
Résumons un flux de variables aléatoires, ; soit le nombre de termes dont nous avons besoin pour que le total dépasse un, c'est-à-dire que est le plus petit nombre tel queXiiid∼U(0,1)Xi∼iidU(0,1)X_i \overset{iid}\sim \mathcal{U}(0,1)YYYYYY X1+X2+⋯+XY>1.X1+X2+⋯+XY>1.X_1 + X_2 + \dots + X_Y > 1. Pourquoi la moyenne de égale à la constante …
J'ai 100 points de données d'un processus aléatoire. Comment procéder pour placer un intervalle de confiance autour de l'estimation de ? La fonction de distribution est inconnue et faussée positivement. Ma première inclination serait d'utiliser un bootstrap basé sur le matériel que j'ai lu pour cette classe, mais y a-t-il …
Tout d' abord, je suppose que pas tous les membres actifs de ce site intéressant sont les statisticiens que leur travail. Sinon, la question posée comme suit n'a aucun sens! Je les respecte bien sûr, mais j'ai besoin d'une explication un peu plus pratique que conceptuelle. Je commence par un …
Dans R, la drop1commande sort quelque chose de bien. Ces deux commandes devraient vous donner une sortie: example(step)#-> swiss drop1(lm1, test="F") Le mien ressemble à ceci: > drop1(lm1, test="F") Single term deletions Model: Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq RSS AIC …
Il semble y avoir beaucoup de confusion dans la comparaison de l'utilisation à l' glmnetintérieur caretpour rechercher un lambda optimal et à utiliser cv.glmnetpour faire la même tâche. De nombreuses questions ont été posées, par exemple: Modèle de classification train.glmnet vs cv.glmnet? Quelle est la bonne façon d'utiliser glmnet avec …
Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 5 ans . Call: glm(formula = darters ~ river + pH + temp, family …
Je suis le cours d'apprentissage automatique d'Andrew Ng et je n'ai pas pu obtenir la réponse à cette question après plusieurs tentatives. Veuillez aider à résoudre ce problème, même si j'ai traversé le niveau. Supposons que étudiants aient suivi un cours et que la classe ait passé un examen à …
Soit et quatre variables aléatoires telles que , où sont des paramètres inconnus. Supposons également que ,Alors lequel est vrai?Y 1 , Y 2 , Y 3 Y1,Y2,Y3Y_1,Y_2,Y_3Y 4Y4Y_4 E ( Y 1 ) = θ 1 - θ 3 ; E ( Y 2 ) = θ 1 + …
Tout en lisant avec désinvolture certains travaux du marché de masse sur la théorie du chaos au cours des dernières années, j'ai commencé à me demander comment divers aspects de celui-ci pouvaient être appliqués à l'exploration de données et à des domaines connexes, comme les réseaux de neurones, la reconnaissance …
Dans la section 3.2 de Bishop's Pattern Recognition and Machine Learning , il discute de la décomposition biais-variance, déclarant que pour une fonction de perte au carré, la perte attendue peut être décomposée en un terme de biais au carré (qui décrit la distance entre les prévisions moyennes et la …
Remarque: Borel-Cantelli Lemma dit que ∑n=1∞P(An)<∞⇒P(limsupAn)=0∑n=1∞P(An)<∞⇒P(limsupAn)=0\sum_{n=1}^\infty P(A_n) \lt \infty \Rightarrow P(\lim\sup A_n)=0 ∑n=1∞P(An)=∞ and An's are independent⇒P(limsupAn)=1∑n=1∞P(An)=∞ and An's are independent⇒P(limsupAn)=1\sum_{n=1}^\infty P(A_n) =\infty \textrm{ and } A_n\textrm{'s are independent} \Rightarrow P(\lim\sup A_n)=1 Alors, if ∑n=1∞P(AnAcn+1)<∞∑n=1∞P(AnAn+1c)<∞\sum_{n=1}^\infty P(A_nA_{n+1}^c )\lt \infty en utilisant le Lemme Borel-Cantelli Je veux montrer que Premièrement, limn→∞P(An)limn→∞P(An)\lim_{n\to \infty}P(A_n) …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.