Le lissage exponentiel est une technique classique utilisée dans la prévision de séries chronologiques non causales. Tant que vous ne l'utilisez que pour des prévisions simples et que vous n'utilisez pas d' ajustements lissés dans l'échantillon comme entrée dans un autre algorithme d'exploration de données ou statistique, la critique de Briggs ne s'applique pas. (En conséquence, je suis sceptique quant à son utilisation "pour produire des données lissées pour la présentation", comme le dit Wikipédia - cela pourrait bien être trompeur, en masquant la variabilité lissée.)
Voici une introduction au lissage exponentiel.
Et voici un article de synthèse (vieux de 10 ans, mais toujours pertinent).
EDIT: il semble y avoir un doute sur la validité de la critique de Briggs, peut-être quelque peu influencée par son emballage . Je suis entièrement d'accord que le ton de Briggs peut être abrasif. Cependant, j'aimerais illustrer pourquoi je pense qu'il a raison.
Ci-dessous, je simule 10 000 paires de séries chronologiques, de 100 observations chacune. Toutes les séries sont du bruit blanc, sans aucune corrélation. Ainsi, l'exécution d'un test de corrélation standard devrait produire des valeurs de p uniformément réparties sur [0,1]. Comme c'est le cas (histogramme à gauche ci-dessous).
Cependant, supposons que nous lissions d'abord chaque série et appliquons le test de corrélation aux données lissées . Quelque chose de surprenant apparaît: puisque nous avons supprimé beaucoup de variabilité des données, nous obtenons des valeurs de p qui sont beaucoup trop petites . Notre test de corrélation est fortement biaisé. Nous serons donc trop certains de toute association entre la série originale, c'est ce que Briggs dit.
La question dépend vraiment de savoir si nous utilisons les données lissées pour les prévisions, auquel cas le lissage est valide, ou si nous les incluons en tant qu'entrée dans un algorithme analytique, auquel cas la suppression de la variabilité simulera une plus grande certitude dans nos données que ce qui est justifié. Cette certitude injustifiée dans les données d'entrée se poursuit jusqu'aux résultats finaux et doit être prise en compte, sinon toutes les inférences seront trop certaines. (Et bien sûr, nous obtiendrons également des intervalles de prédiction trop petits si nous utilisons un modèle basé sur une "certitude gonflée" pour la prévision.)
n.series <- 1e4
n.time <- 1e2
p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
A <- rnorm(n.time)
B <- rnorm(n.time)
p.corr[ii] <- cor.test(A,B)$p.value
p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}
par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")