Quelle est l'importance d'une valeur par rapport à une liste de valeurs? Dans la plupart des cas, les tests statistiques consistent à comparer un ensemble d'échantillons à une population. Dans mon cas, l'échantillon est constitué d'une valeur et nous le comparons à la population.
Je suis un dilettante dans les tests d'hypothèses statistiques confronté peut-être au problème le plus fondamental. Ce n'est pas seulement un test, mais des centaines d'entre eux. J'ai un espace de paramètres et je dois faire un test de signification pour chaque point. La valeur et la liste d'arrière-plan (population) sont générées pour chaque combinaison de paramètres. Ensuite, je commande cela par valeur de p et je trouve des combinaisons de paramètres intéressantes. En fait, la découverte de combinaisons de paramètres où ce p-val est élevé (non-signification) est également importante.
Prenons donc un seul test: j'ai une valeur calculée générée à partir d'un ensemble sélectionné et d'un ensemble d'arrière-plan de valeurs calculées en choisissant un ensemble d'entraînement aléatoire. La valeur calculée est de 0,35 et l'ensemble de fond est (probablement?) Normalement distribué avec une moyenne de 0,25 et une std très étroite (e-7). En fait, je ne connais pas la distribution, car les échantillons sont calculés à partir d'autre chose, ce ne sont pas des échantillons de nombres aléatoires d'une distribution, donc l'arrière-plan est le mot correct pour cela.
L'hypothèse nulle serait que "la moyenne du test d'échantillon est égale à ma valeur calculée, de 0,35". Quand dois-je considérer qu'il s'agit d'un test Z ou d'un test T? Je veux que la valeur soit nettement supérieure à la moyenne de la population, c'est donc un test unilatéral.
Je suis un peu confus quant à ce qu'il faut considérer comme un échantillon: j'ai soit un échantillon d'un (l'observation) et la liste de fond comme la population OU mon échantillon est la liste de fond et je le compare à l'ensemble (non échantillonné) population qui selon l'hypothèse nulle devrait avoir la même moyenne. Une fois que cela est décidé, le test va dans différentes directions, je suppose.
S'il s'agit d'un test T, comment puis-je calculer sa valeur p? Je voudrais le calculer moi-même plutôt que d'utiliser une fonction R / Python / Excel (je sais déjà comment faire) donc je dois d'abord établir la bonne formule.
Pour commencer, je soupçonne qu'un test T est un peu trop général, car dans mon cas, le test T serait lié à la taille de l'échantillon et aurait la forme: où et s est , l'échantillon std par rapport à la population std. J'ai donc deux cas: soit ma taille d'échantillon est la taille de la population, ce qui, je suppose, signifierait que je fais face à un test Z, soit les statistiques de population (n et std) sont inconnues mais la distribution peut être en d'une certaine manière approximative et j'ai vraiment affaire à un test T. En tout cas mes questions suivantes sont:Z = ˉ X
- Comment calculer une valeur p? (c.-à-d. n'utilisant pas de fonction R / Python / Excel ou de recherche de table de valeurs p mais le calculant réellement en fonction d'une formule, parce que je veux savoir ce que je fais)
- Comment puis-je décider d'un seuil de signification en fonction de la taille de mon échantillon? (une formule serait bien)