Je suis développeur web et statisticien débutant.
Mes données ressemblent à ceci
Subject Week x1 x2 x3 x4 x5 y1
A 1 .5 .6 .7 .8 .7 10
B 1 .3 .6 .2 .1 .3 8
C 1 .3 .1 .2 .3 .2 6
A 2 .1 .9 1.5 .8 .7 5
B 2 .3 .6 .3 .1 .3 2
D 2 .3 .1 .4 .3 .5 10
J'essaie de prédire y1 comme un produit des variables x. Cependant, j'ai des raisons de croire qu'il peut y avoir un décalage dans l'effet des multiples variables x sur y1, c'est-à-dire que les variables x de la semaine 1 pour le sujet A influencent y1 pour le sujet A dans la semaine 2.
Notez que tous les sujets n'auront pas de points de données pour chaque semaine (en fait, la plupart n'en auront pas). Les sujets auront tendance à avoir des points de données pour la semaine 1, 2, 3, 4 par exemple, puis tomberont et ne réapparaîtront pas avant la semaine 7,8,9. Je suis prêt à limiter mon analyse aux points de données où nous avons des données pour les N semaines précédentes étant donné mon hypothèse sur le décalage.
Comme je l'ai dit, je suis un novice et je ne suis pas sûr de la meilleure façon de traiter un ensemble de données de ce formulaire. J'espère effectuer cette analyse soit en R, Python, ou une combinaison des deux. Je ne pense pas que les variables x de la semaine en cours n'auront aucun effet. Je pense qu'ils auront un certain effet, peut-être plus important que les semaines précédentes. Je pense simplement que les semaines précédentes auront un certain effet.
Je m'attends à un décalage de deux à trois semaines. Pour donner un peu de contexte, l'analyse que j'essaie ici concerne le jugement de la qualité du trafic en ligne. Chaque semaine, j'obtiens un score évaluant la qualité d'un certain flux d'utilisateurs que j'envoie sur un site Web donné. J'essaie de trouver des mesures secondaires, telles que la distribution du navigateur, le pourcentage de clics en double, etc. qui me permettront de prédire à l'avance ce score.