Il existe deux situations types différentes pour ce type de problèmes:
i) vous souhaitez générer un échantillon à partir d'une distribution donnée dont les caractéristiques de population correspondent à celles spécifiées (mais en raison de la variation d'échantillonnage, vous n'avez pas les caractéristiques de l'échantillon correspondant exactement).
ii) vous souhaitez générer un échantillon dont les caractéristiques de l'échantillon correspondent à celles spécifiées (mais, en raison des contraintes de correspondance exacte des quantités d'échantillon à un ensemble de valeurs prédéfinies, ne proviennent pas vraiment de la distribution que vous souhaitez).
Vous voulez le deuxième cas - mais vous l'obtenez en suivant la même approche que le premier cas, avec une étape de standardisation supplémentaire.
Ainsi, pour les normales multivariées, l'une ou l'autre peut être effectuée de manière assez simple:
Dans le premier cas, vous pouvez utiliser des normales aléatoires sans la structure de la population (comme la norme standard iid qui a l'attente 0 et la matrice de covariance d'identité), puis l'imposer - transformer pour obtenir la matrice de covariance et dire ce que vous voulez. Si et sont la moyenne de la population et la covariance dont vous avez besoin et sont normaux normaux, vous calculez , pour certains où (par exemple, un approprié pourrait être obtenu via la décomposition de Cholesky) . Alors a les caractéristiques de population souhaitées.μΣzy=Lz+μLLL′=ΣLy
Avec la seconde, vous devez d'abord transformer vos normales aléatoires pour éliminer même la variation aléatoire de la moyenne zéro et de la covariance d'identité (en faisant la moyenne de l'échantillon zéro et la covariance échantillon ), puis procédez comme précédemment. Mais cette étape initiale d'élimination de l'écart de l'échantillon de la moyenne exacte , la variance interfère avec la distribution. (Dans de petits échantillons, cela peut être assez grave.)In0I
Cela peut être fait en soustrayant la moyenne de l'échantillon de ( ) et en calculant la décomposition de Cholesky de . Si est le facteur de Cholesky gauche, alors devrait avoir la moyenne de l'échantillon 0 et la covariance de l'échantillon d'identité. Vous pouvez ensuite calculer et avoir un échantillon avec les moments d'échantillonnage souhaités. (Selon la façon dont vos quantités d'échantillons sont définies, il peut y avoir un petit violon supplémentaire impliqué dans la multiplication / division par des facteurs tels que , mais il est assez facile d'identifier ce besoin.)zz∗=z−z¯z∗L∗z(0)=(L∗)−1z∗y=Lz(0)+μn−1n−−−√