Supposons que plusieurs personnes évaluent à quel point elles ont aimé un film sur une échelle discrète de 1 à 10, et que vous souhaitez un intervalle [ l , u ] tel qu'avec (au moins) 95% de confiance, (au moins) 90 % de toutes les personnes qui voient le film le noteront pas plus bas que l et pas plus haut que u . [ l , u ] est alors un intervalle de tolérance (bilatéral) avec une confiance de 95% et une couverture de 90%. (Pour être clair, une confiance de 95% implique que si vous répétiez cette procédure plusieurs fois, 95% des intervalles produits auraient une couverture de la population d'au moins 90%.) Bien sûr, nous voulons généralement que [ l , u ] soit aussi étroit que possible tout en répondant à nos exigences.
J'ai vu diverses méthodes non paramétriques pour construire des intervalles de tolérance pour des variables aléatoires continues. J'ai également vu des méthodes pour construire des intervalles de tolérance pour les variables binomiales et de Poisson. (Le package R tolerance
implémente plusieurs de ces méthodes; Young, 2010.) Mais qu'en est-il des variables discrètes lorsque la distribution est inconnue? C'est généralement le cas pour des échelles de notation comme celle de mon exemple, et en supposant qu'une distribution binomiale ne semble pas sûre car les données réelles de l'échelle de notation présentent souvent des étrangetés telles que la multimodalité.
Serait-il sensé de se rabattre sur les méthodes non paramétriques pour les variables continues? Sinon, qu'en est-il d'une méthode Monte Carlo telle que la génération de 1000 répliques bootstrap de l'échantillon et la recherche d'un intervalle qui capture au moins 90% de l'échantillon dans au moins 950 des répliques?
Young, DS (2010). tolérance: Un package R pour estimer les intervalles de tolérance. Journal of Statistical Software, 36 (5), 1–39. Récupéré de http://www.jstatsoft.org/v36/i05