En général, je pense qu'il est plus fructueux scientifiquement et statistiquement de commencer par poser une question plus large et différente, à savoir dans quelle mesure une réponse peut-elle être prédite à partir d'un prédicteur circulaire. Je dis ici circulaire plutôt que directionnel , en partie parce que ce dernier comprend des espaces sphériques et encore plus fabuleux, qui ne peuvent pas tous être couverts par une seule réponse; et en partie parce que vos exemples, le moment de la journée et le moment de l'année , sont tous deux circulaires. Un autre exemple majeur est la direction de la boussole (pertinente pour les vents, les mouvements d'animaux ou humains, les alignements, etc.), qui figure dans de nombreux problèmes circulaires: en effet, pour certains scientifiques, c'est un point de départ plus évident.
Chaque fois que vous pouvez vous en tirer, l'utilisation des fonctions sinus et cosinus du temps dans une sorte de modèle de régression est une méthode de modélisation simple et facile à mettre en œuvre. C'est le premier port d'escale pour de nombreux exemples biologiques et / ou environnementaux. (Les deux types sont souvent combinés, car les phénomènes biotiques montrant la saisonnalité répondent généralement directement ou indirectement au climat ou aux conditions météorologiques.)
Pour le concret, imaginez des mesures de temps sur 24 heures ou 12 mois, de sorte que par exemple
sin[2π(hour/24)], cos[2π(hour/24)]
sin[2π(month/12)], cos[2π(month/12)]
décrivent chacun un cycle sur toute la journée ou l'année. Un test formel de l'absence de relation entre une réponse mesurée ou comptée et un certain temps circulaire serait alors un test standard pour savoir si les coefficients du sinus et du cosinus sont conjointement nuls dans un modèle linéaire généralisé avec le sinus et le cosinus comme prédicteurs, un lien et une famille appropriés étant choisi en fonction de la nature de la réponse.
La question de la distribution marginale de la réponse (normale ou autre) est dans cette approche secondaire et / ou à traiter par choix familial.
Le mérite des sinus et cosinus est naturellement qu'ils sont périodiques et s'enroulent automatiquement, de sorte que les valeurs au début et à la fin de chaque jour ou année sont nécessairement identiques. Il n'y a pas de problème avec les conditions aux limites, car il n'y a pas de limite.
Cette approche a été appelée régression circulaire, périodique, trigonométrique et de Fourier. Pour un examen du didacticiel d'introduction, voir ici
En pratique,
Ces tests montrent généralement des résultats extrêmement importants aux niveaux conventionnels chaque fois que nous nous attendons à une saisonnalité. La question la plus intéressante est alors la courbe saisonnière précise estimée, et si nous avons besoin d'un modèle plus compliqué avec d'autres termes sinusoïdaux aussi.
Rien n'exclut également d'autres prédicteurs, auquel cas nous avons simplement besoin de modèles plus complets avec d'autres prédicteurs inclus, par exemple des sinus et cosinus pour la saisonnalité et d'autres prédicteurs pour tout le reste.
À un moment donné, en fonction conjointement des données, du problème et des goûts et de l'expérience du chercheur, il peut devenir plus naturel de mettre l'accent sur l'aspect série temporelle du problème et de construire un modèle avec une dépendance temporelle explicite. En effet, certaines personnes statistiquement nieraient qu'il n'y ait aucune autre façon de l'aborder.
Ce qui est facilement nommé tendance (mais pas toujours aussi facilement identifiable) relève du # 2 ou du # 3, voire des deux.
De nombreux économistes et autres spécialistes des sciences sociales préoccupés par la saisonnalité des marchés, les économies nationales et internationales ou d'autres phénomènes humains sont généralement plus impressionnés par les possibilités de variabilité plus compliquée chaque jour ou (plus communément) chaque année. Souvent, mais pas toujours, la saisonnalité est une nuisance à supprimer ou à ajuster, contrairement aux scientifiques en biologie et en environnement qui considèrent souvent la saisonnalité comme intéressante et importante, même l'objectif principal d'un projet. Cela dit, les économistes et d'autres adoptent également souvent une approche de type régression, mais avec des munitions un ensemble de variables indicatrices (factices), le plus simplement variables pour chaque mois ou chaque trimestre de l'année0,1. Cela peut être un moyen pratique d'essayer de saisir les effets des jours fériés, des périodes de vacances, des effets secondaires des années scolaires, etc., ainsi que des influences ou des chocs d'origine climatique ou météorologique. Compte tenu de ces différences, la plupart des observations ci-dessus s'appliquent également aux sciences économiques et sociales.
Les attitudes et les approches des épidémiologistes et des statisticiens médicaux préoccupés par les variations de la morbidité, de la mortalité, des admissions à l'hôpital, des visites à la clinique, etc., ont tendance à se situer entre ces deux extrêmes.
À mon avis, diviser des jours ou des années en deux pour comparer est généralement arbitraire, artificiel et, au mieux, délicat. Il ignore également le type de structure lisse généralement présent dans les données.
EDIT Le compte jusqu'à présent ne traite pas de la différence entre le temps discret et le temps continu, mais d'après mon expérience, je ne le considère pas comme un gros problème dans la pratique.
Mais des choix précis dépendent de la façon dont les données arrivent et du modèle de changement.
Si les données étaient trimestrielles et humaines, j'aurais tendance à utiliser des variables indicatrices (par exemple, les trimestres 3 et 4 sont souvent différents). S'il est mensuel et humain, le choix n'est pas clair, mais vous devrez travailler dur pour vendre des sinus et des cosinus à la plupart des économistes. Si mensuelle ou plus fine et biologique ou environnementale, certainement des sinus et des cosinus.
EDIT 2 Plus de détails sur la régression trigonométrique
Un détail distinctif de la régression trigonométrique (nommé d'une autre manière si vous préférez) est que les termes sinus et cosinus sont presque toujours mieux présentés à un modèle par paires. Nous mesurons d'abord l'heure de la journée, l'heure de l'année ou la direction de la boussole de sorte qu'elle soit représentée sous la forme d'un angle sur le cercle
en radians, donc sur l'intervalle . Ensuite, nous utilisons autant de paires que nécessaire dans un modèle. (Dans les statistiques circulaires, les conventions trigonométriques ont tendance à l'emporter sur les conventions statistiques, de sorte que les symboles grecs tels que sont utilisés pour les variables ainsi que pour les paramètres.)[ 0 ,θ[0,2π]sinkθ,coskθ,k=1,2,3,…θ,ϕ,ψ
Si nous proposons une paire de prédicteurs tels que à un modèle de régression, alors nous avons des estimations de coefficient, disons , pour les termes du modèle, à savoir . C'est un moyen d'ajuster la phase ainsi que l'amplitude d'un signal périodique. Autrement dit, une fonction telle que peut être réécrite commesinθ,cosθb1,b2b1sinθ,b2cosθsin(θ+ϕ)
sinθcosϕ+cosθsinϕ,
mais et représentant la phase sont estimés dans l'ajustement du modèle. De cette façon, nous évitons un problème d'estimation non linéaire.cosϕsinϕ
Si nous utilisons pour modéliser la variation circulaire, alors automatiquement le maximum et le minimum de cette courbe sont séparés d'un demi-cercle. Il s'agit souvent d'une très bonne approximation des variations biologiques ou environnementales, mais à l'inverse, nous pourrions avoir besoin de plusieurs termes supplémentaires pour saisir la saisonnalité économique en particulier. Cela pourrait être une très bonne raison d'utiliser à la place des variables indicatrices, ce qui conduit immédiatement à des interprétations simples des coefficients.b1sinθ+b2cosθ