Test de proportions et classificateur binaire

J'ai un prototype de machine qui produit des pièces.

Dans un premier test, la machine produit pièces et un classificateur binaire me dit que pièces sont défectueuses ( , généralement et ) et que les pièces sont bonnes. $N_1$ $d_1$ $d_1 < N_1$ $d_1/N_1<0.01$ $N_1\approx10^4$ $N_1-d_1$

Ensuite, un technicien fait quelques changements dans la machine afin de diminuer le nombre de pièces défectueuses.

Dans un deuxième test et suivant, la machine modifiée produit pièces et le même classificateur binaire (intact) me dit que les pièces sont défectueuses, de toute façon est assez similaire à . $N_2$ $d_2$ $d_2/N_2$ $d_1/N_1$

Le technicien aimerait savoir si ses modifications sont efficaces.

En supposant que les classificateurs sont parfaits (sa sensibilité est de 100% et sa spécificité de 100%), je peux effectuer un test de proportions (avec R, je tape juste prop.test(c(d1,d2),c(N1,N2))).

Mais le classificateur n'est pas parfait, alors comment prendre en compte la sensibilité et la spécificité, toutes deux inconnues, du classificateur afin de bien répondre au technicien?

— Alessandro Jacopson
source

Pouvez-vous confirmer le taux de précision du classificateur?

— Michelle

@Michelle Je connais sans erreur

mais je ne sais pas combien de pièces défectueuses sont mal classées comme bonnes.

d_{1}

$d_1$

d_{2}

$d_2$

— Alessandro Jacopson

Re-bonjour. Pouvez-vous faire un échantillon aléatoire des bonnes pièces de N1 et N2, séparément, pour estimer le taux de faux positifs?

— Michelle

Avec ces informations, pouvez-vous utiliser cette méthode pour comparer les changements? onlinelibrary.wiley.com/doi/10.1002/sim.906/abstract voir aussi ici ncbi.nlm.nih.gov/pubmed/18224558 et autre idée ici, texte intégral: stat.colostate.edu/~bradb/papers/lrgraphfinal. pdf

— Michelle

(+1) c'est une excellente question!

— steffen

Je dérive donc cela des premiers principes, et je ne suis donc pas certain que ce soit correct. Voici mes pensées:

EDIT: Ce n'était pas tout à fait juste avant. Je l'ai mis à jour.

Supposons que désigne la différence attendue entre le nombre réel de vrais positifs et le nombre produit par le classificateur binaire que nous appellerons . Vous pouvez mesurer cela avec en exécutant votre classificateur sur un ensemble avec des étiquettes connues. Soustrayez le nombre de positifs réels du nombre de positifs produits par le classificateur, puis divisez par pour obtenir . $\alpha$ $d_1$ $\hat{d_1}$ $N$ $\alpha$
Ainsi, une estimation ponctuelle du rapport réel des pièces défectueuses est donnée par: . Autrement dit, le nombre observé de pièces défectueuses, moins le nombre attendu de faux positifs, plus le nombre attendu de faux négatifs. $\hat{\frac{d_1}{N_1}} = \frac{d_1 + \alpha * N_1}{N_1}$
De même, $\hat{\frac{d_2}{N_2}} = \frac{d_2 + \alpha * N_2}{N_2}$
Alors maintenant, faisons un test d'hélice. Dans le test d'hélice standard, nous calculons d'abord le rapport groupé utilisé comme valeur nulle: . Donc, ici, nous avons mis dans nos estimations ponctuelles de $p= \frac{p_1*N_1 + p_2*N_2}{N_1 + N_2}$ et $\hat{\frac{d_1}{N_1}}$ pour obtenir: $\hat{\frac{d_2}{N_2}}$ $p= \frac{d_1 + d_2 + \alpha * (N_1 + N_2)}{N_1 + N_2}$
Et puis l'erreur standard est juste l'habituelle: $\sqrt{p*(1-p)*(\frac{1}{N_1} + \frac{1}{N_2})}$
Et la statistique de test est la même: $z = \frac{\frac{d_1}{N_1} - \frac{d_2}{N_2}}{se}$

Quelques réflexions sur l'interprétation:

$p < 0$
Une autre façon de penser à cela est que, si le nombre de pièces défectueuses est dans la marge d'erreur pour le classificateur, alors bien sûr, nous ne pouvons pas dire s'il y a une différence: nous ne pouvons même pas dire si des pièces sont défectueuses!

$\alpha$

$\alpha$ $\alpha$

$h$

$\frac{h}{2}$ $\alpha$ $\alpha$ $\frac{h}{2}$ $low_l, low_r)$ $(high_l, high_r)$ $\alpha$ $(high_l,low_r)$ (qui contient les deux intervalles antérieurs) devrait être un (1-h) * 100% IC pour la différence de proportions ... Je pense ...

$\alpha$

— John Doucette
source

+1, merci. En 6, vous avez écrit "statique", vouliez-vous dire "statistique"?

— Alessandro Jacopson

p < 0

$p<0$

0 < p < 1

$0<p<1$

0 < p < 1

$0<p<1$

0.01 (N 1 - d 1) \approx 100

$0.01(N1−d1)\approx100$

β = \frac{7}{100}

$\beta=\frac{7}{100}$

β

$\beta$

β

$\beta$ prop.test(7,100)

@uvts_cvs Oui, cela devrait être "statistique". Je vais le réparer dans un instant. Il y a aussi une faute de frappe dans le calcul de l'erreur standard, qui devrait être p * (1-p) à la place. P doit toujours être <1, sauf peut-être si votre classificateur est vraiment mauvais et que d est grand. Pour votre troisième commentaire, oui, c'est l'idée. Je ne sais tout simplement pas comment intégrer cette estimation dans le modèle. Peut-être que quelqu'un d'autre ici sait?

— John Doucette du

α

$\alpha$

β

$\beta$