Comme il est devenu évident dans les commentaires à la question, les données ne comprennent que quatre observations du délai d'éclosion des bourgeons. (Ce serait une erreur de les analyser comme s'il s'agissait de 16 valeurs indépendantes.) Elles consistent en des intervalles de temps plutôt qu'en des temps exacts:
[1,8], [8,16], [16,24], [24,32]
Il existe plusieurs approches. Un appel, très général, est de prendre ces intervalles au mot: le vrai moment du débourrement pourrait être n'importe quoi dans chaque intervalle. Nous sommes donc amenés à représenter «l'incertitude» sous deux formes distinctes: l'incertitude d'échantillonnage (nous avons un échantillon vraisemblablement représentatif de l'espèce cette année) et l' incertitude d'observation (reflétée par les intervalles).
L'incertitude d'échantillonnage est gérée avec des techniques statistiques connues: on nous demande d'estimer la médiane et nous pouvons le faire de plusieurs façons, en fonction d'hypothèses statistiques, et nous pouvons fournir des intervalles de confiance pour l'estimation. Pour simplifier, supposons que le temps de débourrement ait une distribution symétrique. Parce qu'il est (vraisemblablement) non négatif, cela implique qu'il a une variance et suggère également que la moyenne de seulement quatre observations peut être distribuée approximativement normalement. De plus, la symétrie implique que nous pouvons utiliser la moyenne comme substitut de la médiane (ce qui est recherché dans la question d'origine). Cela nous donne accès à des méthodes standard, simples, d'estimation et d'intervalle de confiance.
L'incertitude d'observation peut être gérée avec les principes de l'arithmétique d'intervalle (souvent appelés «analyse des limites de probabilité» ): effectuer tous les calculs en utilisant toutes les configurations possibles de données cohérentes avec les observations. Voyons comment cela fonctionne dans un cas simple: l'estimation de la moyenne. Il est intuitivement clair que la moyenne ne peut être inférieure à = , obtenue en utilisant les plus petites valeurs dans chaque intervalle, et également que la moyenne ne peut être supérieure à = . Nous concluons:(1+8+16+24)/410.25(8+16+24+32)18
Mean=[10.25,18].
Cela représente un intervalle entier d'estimations: un résultat approprié d'un calcul avec des entrées d'intervalle!
Une limite de confiance supérieure à (unilatérale) de la moyenne de quatre valeurs est calculée à partir de leur moyenne et d'écart-type avec le Student t- distribution en tant que1−αx=(x1,x2,x3,x4)ms
ucl(x,α)=x+tn−1(α)s/n−−√.
Contrairement au calcul de la moyenne, il n'est plus généralement le cas que l'intervalle des ucl soit limité par les ucl des valeurs limites. En effet, notez que l'ucl des limites d'intervalle inférieures, , est égal à , tandis que est encore plus petit. En maximisant et en minimisant l'ucl parmi toutes les combinaisons possibles de valeurs cohérentes avec les observations, nous constatons (par exemple) queucl((1,8,16,24),.025)28.0758ucl((8,11.676,16,24),.025)=25.8674
ucl(data,.025)=[25.8,39.3]
(c'est un intervalle de nombres représentant un ucl évalué par intervalle , pas un intervalle de confiance!) et, pour la limite de confiance inférieure,
lcl(data,.025)=[0,6.2].
(Ces valeurs ont été arrondies vers l'extérieur. Le est une valeur négative qui a été tronquée à en partant du principe que le temps médian des bourgeons ne peut pas être négatif.)00
En mots, on pourrait dire que
"Ces observations sont cohérentes avec des valeurs qui, si elles avaient été mesurées avec précision , pourraient entraîner une limite de confiance supérieure de 2,5% de la médiane pouvant atteindre 39,3 jours, mais pas plus. Elles sont cohérentes avec des valeurs (qui pourraient différer de la première) cela se traduirait par une limite de confiance inférieure de 2,5% aussi bas que 0. "
Ce que l'on doit en faire relève de la réflexion individuelle et dépend de l'application. Si l'on veut être raisonnablement sûr que le débourrement se produit avant 40 jours, alors ce résultat donne une certaine satisfaction (sous réserve des hypothèses sur la distribution du débourrement et l'indépendance des observations ). Si l'on veut estimer le débourrement au jour le plus proche, alors il est clair que davantage de données sont nécessaires. Dans d'autres circonstances, cette conclusion statistique en termes de limites de confiance à intervalles peut être frustrante. Par exemple, dans quelle mesure pouvons-nous être sûrs que le débourrement se produit dans 50% des spécimens avant 30 jours? C'est difficile à dire, car les réponses seront des intervalles.
Il existe d'autres façons de gérer ce problème. Je préfère particulièrement utiliser les méthodes du maximum de vraisemblance. (Pour les appliquer ici, nous aurions besoin d'en savoir plus sur la façon dont les seuils d'intervalle ont été établis. Il importe qu'ils aient été déterminés indépendamment des données ou non.) La présente question semble être une bonne occasion d'introduire des méthodes basées sur l'intervalle car elles ne semblent pas bien connues, même si dans certaines disciplines (évaluation des risques et analyse des algorithmes) elles ont été chaleureusement défendues par certains.