Déterminer une discrétisation optimale des données d'une distribution continue

Supposons que vous ayez un ensemble de données d'une distribution continue avec une densité supportée sur qui n'est pas connue, mais est assez grand donc une densité de noyau (par exemple) l'estimation, , est assez précise. Pour une application particulière, je dois transformer les données observées en un nombre fini de catégories pour produire un nouvel ensemble de données avec une fonction de masse implicite . $Y_{1}, ..., Y_{n}$ $p(y)$ $[0,1]$ $n$ $\hat{p}(y)$ $Z_{1}, ..., Z_{n}$ $g(z)$

Un exemple simple serait lorsque et lorsque . Dans ce cas, la fonction de masse induite serait $Z_{i} = 0$ $Y_{i} \leq 1/2$ $Z_{i} = 1$ $Y_{i} > 1/2$

\hat{g} (0) = \int_{0}^{1 / 2} \hat{p} (y) d y, \hat{g} (1) = \int_{1 / 2}^{1} \hat{p} (y) d y

$\hat{g}(0) = \int_{0}^{1/2} \hat{p}(y) dy, \ \ \ \hat{g}(1) = \int_{1/2}^{1} \hat{p}(y)dy$

Les deux "paramètres de réglage" sont ici le nombre de groupes, , et le vecteur de longueur de seuils . Notons la fonction de masse induite par . $m$ $(m-1)$ $\lambda$ $\hat{g}_{m,\lambda}(y)$

Je voudrais une procédure qui réponde, par exemple, "Quel est le meilleur choix de pour que l'augmentation du nombre de groupes à (et le choix de l'optimal là-bas) produise une amélioration négligeable?" . J'ai l'impression que peut-être une statistique de test peut être créée (peut-être avec la différence de divergence KL ou quelque chose de similaire) dont la distribution peut être dérivée. Des idées ou de la littérature pertinente? $m, \lambda$ $m+1$ $\lambda$

Edit: J'ai des mesures temporelles régulièrement espacées d'une variable continue et j'utilise une chaîne de Markov inhomogène pour modéliser la dépendance temporelle. Franchement, les chaînes de Markov d'état discrètes sont beaucoup plus faciles à manipuler et c'est ma motivation. Les données observées sont des pourcentages. J'utilise actuellement une discrétisation ad hoc qui me semble très bonne mais je pense que c'est un problème intéressant où une solution formelle (et générale) est possible.

Edit 2: En fait, minimiser la divergence KL équivaudrait à ne pas discrétiser du tout les données, donc cette idée est totalement absente. J'ai édité le corps en conséquence.

continuous-data discrete-data

— Macro
source

Dans la plupart des cas, les besoins de l'application de suivi détermineront la qualité de toute solution. Pour nous donner quelques conseils, vous pourriez peut-être en dire plus à ce sujet.

— whuber

Tout d'abord, définissez ce que vous entendez par négligeable . D'un côté, cela semble lié à un problème de distorsion du taux . Le texte Cover & Thomas fournit une belle introduction lisible à ces sujets.

— Cardinal

Je pense à la discrétisation à niveaux comme un modèle à paramètres (pour les seuils). Dans ce cadre, quand je dis négligeable, je veux dire "ne vaut pas la peine d'ajouter le paramètre supplémentaire" dans un sens statistique.

k

$k$

k - 1

$k-1$

— Macro

Je ne sais pas si la discrétisation est en fait une bonne décision. Vous ne pourrez pas généraliser au-delà des frontières que les valeurs discrètes créent sur l'espace d'origine de vos observations.

— bayerj

Je vais partager la solution que j'ai trouvée à ce problème il y a quelque temps - ce n'est pas un test statistique formel mais peut fournir une heuristique utile.

Considérons le cas général où vous avez des observations continues ; sans perte de généralité, supposons que l'espace d'échantillonnage de chaque observation soit l'intervalle . Un schéma de catégorisation dépendra d'un certain nombre de catégories, , et des seuils d'emplacements qui divisent les catégories, . $Y_{1}, Y_{2}, ..., Y_{n}$ $[0,1]$ $m$ $0 < \lambda_{1} < \lambda_{2} < \cdots < \lambda_{m-1} < 1$

Indique la version catégorisée de par , où . En considérant la discrétisation des données comme un partitionnement des données originales en classes, la variance de peut être considérée comme une combinaison de variation à l'intérieur et entre les groupes, pour une valeur fixe de : $Y_{i}$ $Z_{i}(m, {\boldsymbol \lambda})$ ${\boldsymbol \lambda} = \{ \lambda_{1}, \lambda_{2}, \cdots, \lambda_{m-1} \}$ $Y_{i}$ $m, {\boldsymbol \lambda}$

v a r (Y_{i}) = v a r (E (Y_{i} | Z_{i} (m, λ))) + E (v a r (Y_{i} | Z_{i} (m, λ))) .

$\begin{equation} {\rm var}(Y_{i}) = {\rm var} \Big( E(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big) + E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big). \end{equation}$

Une catégorisation donnée réussit à produire des groupes homogènes s'il y a relativement peu de variance intra-groupe, quantifiée par . , nous recherchons un groupement parcimonieux qui confère la majeure partie de la variation de au terme . en particulier, nous voulons choisir sorte qu'en ajoutant des niveaux supplémentaires, nous n'ajoutons pas de manière significative à l'homogénéité au sein du groupe. Dans cet esprit, nous définissons le optimal pour qu'une valeur fixe de soit $E( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}) )$ $Y_{i}$ ${\rm var}( E(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}) )$ $m$ ${\boldsymbol \lambda}$ $m$

λ_{m}^{⋆} = {a r g m i n}_{λ} E (v a r (Y_{i} | Z_{i} (m, λ)))

$\begin{equation} {\boldsymbol \lambda}^{\star}_{m} = {\rm argmin}_{\boldsymbol \lambda} E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big) \end{equation}$

Un diagnostic approximatif pour déterminer quel choix de est adéquat consiste à examiner la baisse de en fonction de - cette trajectoire est monotone non croissante et après avoir fortement diminué, vous pouvez voir que vous gagnez relativement moins de précision en incluant plus de catégories. Cette heuristique est similaire dans son esprit à la façon dont un « tracé d'éboulis » est parfois utilisé pour voir combien de composants principaux expliquent «assez» de la variation. $m$ $E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}^{\star}_{m} )) \Big)$ $m$

— Macro
source