Selon ce que vous entendez exactement par «3 répétitions par trimestre», un modèle de données de panel ( wikipedia ) peut avoir du sens. Cela signifie que vous prenez trois mesures par quart, une de chacune des trois sources distinctes qui restent les mêmes au fil du temps. Vos données ressembleraient à quelque chose comme:
obs quarter value
A 1 2.2
A 2 2.3
A 3 2.4
B 1 1.8
B 2 1.7
B 3 1.6
C 1 3.3
C 2 3.4
C 3 3.5
Si c'est ce que vous regardez, il existe un certain nombre de modèles pour travailler avec des données de panneau. Voici une présentation décente qui couvre certains des R de base que vous utiliseriez pour consulter les données du panneau. Ce document va un peu plus en profondeur, bien que d'un point de vue économétrique.
Cependant, si vos données ne correspondent pas tout à fait aux méthodologies de données de panel, il existe d'autres outils disponibles pour les "données groupées". Une définition de cet article (pdf) :
La mise en commun des données signifie une analyse statistique utilisant plusieurs sources de données relatives à plusieurs populations. Il englobe la moyenne, les comparaisons et les interprétations courantes de l'information. Différents scénarios et problèmes se posent également selon que les sources de données et les populations concernées sont identiques / similaires ou différentes.
Comme vous pouvez le voir, à partir de cette définition, les techniques que vous allez utiliser dépendront de ce que vous attendez exactement de vos données.
Si je devais vous suggérer un point de départ, en supposant que vos trois tirages pour chaque trimestre sont cohérents dans le temps, je dirais commencer par utiliser un estimateur à effets fixes (également connu sous le nom d'estimateur intra) avec un modèle de données de panel de votre Les données.
Pour mon exemple ci-dessus, le code ressemblerait à quelque chose comme:
> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5),
quarter=c(1,2,3,1,2,3,1,2,3),
obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)
Ce qui nous donne la sortie suivante:
Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)
Residuals:
1 2 3 4 5 6 7
-1.667e-02 -8.940e-17 1.667e-02 8.333e-02 -1.000e-01 1.667e-02 -1.667e-02
8 9
1.162e-16 1.667e-02
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.13333 0.06055 35.231 3.47e-07 ***
quarter 0.08333 0.02472 3.371 0.019868 *
factor(obs)B -0.50000 0.04944 -10.113 0.000162 ***
factor(obs)C 1.10000 0.04944 22.249 3.41e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928
F-statistic: 369.2 on 3 and 5 DF, p-value: 2.753e-06
Ici, nous pouvons clairement voir l'effet du temps dans le coefficient sur la variable du trimestre, ainsi que l'effet d'être dans le groupe B ou le groupe C (par opposition au groupe A).
J'espère que cela vous indique quelque part dans la bonne direction.