Cette réponse est en deux parties principales: d'une part, en utilisant une interpolation linéaire , et d'autre part, en utilisant des transformations pour une interpolation plus précise. Les approches discutées ici conviennent au calcul manuel lorsque vous disposez de tables limitées, mais si vous implémentez une routine informatique pour produire des valeurs de p, il existe de bien meilleures approches (si elles sont fastidieuses lorsqu'elles sont effectuées à la main) qui devraient être utilisées à la place.
Si vous saviez que la valeur critique de 10% (une queue) pour un test z était de 1,28 et la valeur critique de 20% était de 0,84, une estimation approximative de la valeur critique de 15% serait à mi-chemin entre - (1,28 + 0,84) / 2 = 1,06 (la valeur réelle est 1,0364), et la valeur de 12,5% pourrait être devinée à mi-chemin entre cela et la valeur de 10% (1,28 + 1,06) / 2 = 1,17 (valeur réelle 1,15+). C'est exactement ce que fait l'interpolation linéaire - mais au lieu de «à mi-chemin entre», il examine n'importe quelle fraction du chemin entre deux valeurs.
Interpolation linéaire univariée
Regardons le cas de l'interpolation linéaire simple.
Nous avons donc une fonction (disons ) que nous pensons être approximativement linéaire près de la valeur que nous essayons d'approximer, et nous avons une valeur de la fonction de chaque côté de la valeur que nous voulons, par exemple, comme ceci:X
X81620y9.3y1615,6
Les deux valeurs dont est nous le savons sont 12 (20-8) à part. Voyez comment la valeur (celle pour laquelle nous voulons une valeur approximative ) divise cette différence de 12 dans le rapport 8: 4 (16-8 et 20-16)? Autrement dit, c'est 2/3 de la distance entre la première valeur et la dernière. Si la relation était linéaire, la plage correspondante de valeurs y serait dans le même rapport.y x y xXyXyX
Donc devrait être à peu près la même chose que . 16-8y16- 9.315,6 - 9,316 - 820 - 8
C'est-à-direy16- 9.315,6 - 9,3≈ 16 - 820 - 8
réarrangement:
y16≈ 9,3 + ( 15,6 - 9,3 ) 16 - 820 - 8= 13,5
Un exemple avec des tableaux statistiques: si nous avons un t-table avec les valeurs critiques suivantes pour 12 df:
( 2- queue )α0,010,020,050,10t3.052,682.181,78
Nous voulons la valeur critique de t avec 12 df et un alpha bilatéral de 0,025. Autrement dit, nous interpolons entre la ligne 0,02 et la ligne 0,05 de ce tableau:
α0,020,0250,05t2,68?2.18
La valeur à " " Est la valeur que nous souhaitons utiliser une interpolation linéaire pour approximer. (Par je veux dire en fait le point de l'inverse cdf d'unt 0,025 t 0,025 1 - 0,025 / 2 t 12?t0,025t0,0251 - 0,025 / 2t12 distribution .)
Comme précédemment, divise l'intervalle de à dans le rapport à (c.-à-d. ) et la valeur inconnue devrait diviser la plage de à dans le même rapport; de manière équivalente, se produit ème du chemin le long de la plage , donc la valeur inconnue doit se produire ème du chemin le long de la plage .0,02 0,05 ( 0,025 - 0,02 ) ( 0,05 - 0,025 ) 1 : 5 t t 2,68 2,18 0,025 ( 0,025 - 0,02 ) / ( 0,05 - 0,02 ) = 1 / 6 x t 1 / 6 t0,0250,020,05( 0,025 - 0,02 )( 0,05 - 0,025 )1 : 5tt2,682.180,025( 0,025 - 0,02 ) / ( ,05 - 0,02 ) = une / 6Xt1 / 6t
C'est-à-dire ou équivalentt0,025- 2,682.18 - 2.68≈ 0,025 - 0,020,05 - 0,02
t0,025≈2.68+(2.18−2.68)0.025−0.020.05−0.02=2.68−0.516≈2.60
La réponse réelle est ... ce qui n'est pas particulièrement proche car la fonction que nous approchons n'est pas très proche de linéaire dans cette plage (plus proche elle l'est).α = 0,52.56α=0.5
Meilleures approximations via la transformation
Nous pouvons remplacer l'interpolation linéaire par d'autres formes fonctionnelles; en effet, nous nous transformons à une échelle où l'interpolation linéaire fonctionne mieux. Dans ce cas, dans la queue, de nombreuses valeurs critiques tabulées sont plus presque linéaires le du niveau de signification. Après avoir pris s, nous appliquons simplement l'interpolation linéaire comme précédemment. Essayons cela sur l'exemple ci-dessus:journalloglog
α0.020.0250.05log(α)−3.912−3.689−2.996t2.68t0.0252.18
Maintenant
t0.025−2.682.18−2.68≈=log(0.025)−log(0.02)log(0.05)−log(0.02)−3.689−−3.912−2.996−−3.912
ou équivalent
t0.025≈=2.68+(2.18−2.68)−3.689−−3.912−2.996−−3.9122.68−0.5⋅0.243≈2.56
Ce qui correspond au nombre de chiffres cité. En effet, lorsque nous transformons l'échelle x de manière logarithmique, la relation est presque linéaire:
En effet, visuellement la courbe (grise) se situe nettement au dessus de la ligne droite (bleue).
Dans certains cas, le logit du niveau de signification ( ) peut bien fonctionner sur une plage plus large mais n'est généralement pas nécessaire (nous ne nous soucions généralement des valeurs critiques précises que lorsque est suffisamment petit pour que fonctionne assez bien).logit(α)=log(α1−α)=log(11−α- 1 )αJournal
Interpolation entre différents degrés de liberté
t tables , khi-carré et ont également des degrés de liberté, où toutes les valeurs df ( -) ne sont pas tabulées. Les valeurs critiques, pour la plupart ne sont pas représentées avec précision par interpolation linéaire dans le df. En effet, il est souvent plus proche du cas que les valeurs tabulées soient linéaires dans l'inverse de df, .Fν†1 / ν
(Dans les anciens tableaux, vous voyez souvent une recommandation de travailler avec - la constante sur le numérateur ne fait aucune différence, mais était plus pratique dans les jours de pré-calculatrice car 120 a beaucoup de facteurs, donc est souvent un entier, ce qui rend le calcul un peu plus simple.)120 / ν120 / ν
Voici comment l'interpolation inverse fonctionne sur 5% des valeurs critiques de entre et . Autrement dit, seuls les points finaux participent à l'interpolation dans . Par exemple, pour calculer la valeur critique de , nous prenons (et notons qu'ici représente l'inverse du cdf):F4 , νν= 601201 / νν= 80F
F4 , 80 , .95≈ F4 , 60 , .95+ 1 / 80 - 1 / 601 / 120 - 1 / 60⋅ ( F4 , 120 , .95- F4 , 60 , .95)
(Comparez avec le schéma ici )
† Surtout mais pas toujours. Voici un exemple où l'interpolation linéaire en df est meilleure, et une explication de la façon de dire à partir du tableau que l'interpolation linéaire va être précise.
Voici un morceau d'une table chi carré
Probability less than the critical value
df 0.90 0.95 0.975 0.99 0.999
______ __________________________________________________
40 51.805 55.758 59.342 63.691 73.402
50 63.167 67.505 71.420 76.154 86.661
60 74.397 79.082 83.298 88.379 99.607
70 85.527 90.531 95.023 100.425 112.317
Imaginez que nous souhaitons trouver la valeur critique de 5% (95e centiles) pour 57 degrés de liberté.
En regardant de près, nous voyons que les valeurs critiques de 5% dans le tableau progressent presque linéairement ici:
(la ligne verte rejoint les valeurs pour 50 et 60 df; vous pouvez voir qu'elle touche les points pour 40 et 70)
L'interpolation linéaire fera donc très bien l'affaire. Mais bien sûr, nous n'avons pas le temps de dessiner le graphique; comment décider quand utiliser l'interpolation linéaire et quand essayer quelque chose de plus compliqué?
En plus des valeurs de chaque côté de celle que nous recherchons, prenez la prochaine valeur la plus proche (70 dans ce cas). Si la valeur tabulée du milieu (celle pour df = 60) est proche de linéaire entre les valeurs finales (50 et 70), alors une interpolation linéaire conviendra. Dans ce cas, les valeurs sont espacées, c'est donc particulièrement facile: proche de ?( x50 , 0,95+ x70 , 0,95) / 2X60 , 0,95
Nous constatons que , ce qui, par rapport à la valeur réelle pour 60 df, 79,082, peut être précis à près de trois chiffres complets, ce qui est généralement assez bon pour l'interpolation, donc dans ce cas, vous vous en tiendriez à une interpolation linéaire; avec le pas plus fin pour la valeur dont nous avons besoin, nous nous attendrions maintenant à avoir une précision de 3 chiffres.( 67,505 + 90,531 ) / 2 = 79,018
Nous obtenons donc: oux - 67.50579,082 - 67,505≈ 57 - 50 60 - 50
x ≈ 67,505 + ( 79,082 - 67,505 ) ⋅ 57 - 50 60 - 50 ≈ 75,61 .
La valeur réelle est 75,62375, donc nous avons en effet obtenu 3 chiffres de précision et nous n'étions sortis que de 1 sur le quatrième chiffre.
Une interpolation plus précise peut encore être obtenue en utilisant des méthodes de différences finies (en particulier, via des différences divisées), mais cela est probablement exagéré pour la plupart des problèmes de test d'hypothèse.
Si vos degrés de liberté dépassent les extrémités de votre table, cette question traite de ce problème.