De mon point de vue, la question se résume à ce que signifie réellement effectuer un test de signification. Le test de signification a été conçu comme un moyen de prendre la décision de rejeter l'hypothèse nulle ou de ne pas la rejeter. Fisher lui-même a introduit la tristement célèbre règle de 0,05 pour prendre cette décision (arbitraire).
Fondamentalement, la logique du test de signification est que l'utilisateur doit spécifier un niveau alpha pour rejeter l'hypothèse nulle (conventionnellement 0,05) avant de collecter les données . Après avoir terminé le test de signification, l'utilisateur rejette la valeur nulle si la valeur p est inférieure au niveau alpha (ou ne la rejette pas autrement).
La raison pour laquelle vous ne pouvez pas déclarer un effet hautement significatif (par exemple, au niveau de 0,001) est que vous ne pouvez pas trouver de preuves plus solides que vous ne l'avez voulu. Donc, si vous définissez votre niveau alpha à 0,05 avant le test, vous ne pouvez trouver des preuves qu'au niveau 0,05, quelle que soit la valeur de vos valeurs p. De la même manière, parler d'effets "quelque peu significatifs" ou "approchant de la signification" n'a pas beaucoup de sens car vous avez choisi ce critère arbitraire de 0,05. Si vous interprétez la logique des tests de signification très littéralement, tout ce qui dépasse 0,05 n'est pas significatif.
Je conviens que des termes tels que "approchant de l'importance" sont souvent utilisés pour améliorer les perspectives de publication. Cependant, je ne pense pas que les auteurs puissent être blâmés pour cela parce que la culture de publication actuelle dans certaines sciences repose encore fortement sur le "Saint Graal" de 0,05.
Certaines de ces questions sont abordées dans:
Gigerenzer, G. (2004). Statistiques stupides. The Journal of Socio-Economics, 33 (5), 587-606.
Royall, R. (1997). Preuve statistique: un paradigme de vraisemblance (Vol. 71). Presse CRC.