La version générale:
J'ai besoin d'estimer où et sont continus et multivariés. Je préfère le faire de manière non paramétrique, car je n'ai pas une bonne forme fonctionnelle en tête et doit être quelque chose comme impartial. Je voulais utiliser un estimateur conditionnel de densité du noyau, mais je me suis aperçu que je aurais besoin quantiser d' abord. Ensuite, j'ai eu l'idée d'estimer et partir des données et de l'utiliser pour calculer , ou peut-être que je l'ai lu quelque part et ne me souviens pas où.
Y a-t-il une raison pour laquelle cette procédure ne serait pas valide? Existe-t-il une approche meilleure ou plus honnête que la densité du noyau? De plus, y a-t-il un problème avec l'estimation non-paramétrique des densités de population à partir des densités d'échantillonnage? Les données sont des données d'enquête, et j'ai des poids d'enquête; dois-je les intégrer d'une manière ou d'une autre?
La version spécifique au cas:
Il convient probablement de mentionner que je vais utiliser ces estimations pour les poids de probabilité inverse de traitement dans un modèle structurel marginal, comme dans Robins (2000) ( PDF non fermé ). J'observe une séquence de "traitements" et une séquence de facteurs de confusion variant dans le temps par rapport à certains résultat qui se produit à . J'ai émis l'hypothèse d'une relation causale paramétrique simple, , mais comme il y a un facteur de confusion variant dans le tempsest une estimation biaisée de l '"effet de traitement moyen", et le facteur de confusion ne peut pas être ajouté en tant que régresseur, car il est sur le chemin causal et cela biaisera également . Heureusement, Doc Robins a compris que je pouvais obtenir des estimations impartiales / non fondées et raisonnablement efficaces si je repondais mes observations par:
Ma question: cette séquence de poids est vraiment ce pour quoi j'ai besoin d'une estimation. Robins recommande une régression logistique. Mais réside dans , est mesuré sur , et à toutes fins pratiques réside dans un sous-ensemble fini de celui-ci. réside dans un intervalle fermé, mais uniquement parce que c'est vraiment la moyenne de quelques variables, chacune mesurée sur un sous-ensemble fini de .
J'ai donc eu quelques idées:
- Estimer et non paramétrique
- Estimer avec régression bêta et non paramétrique
- Estimer avec une régression bêta, et estimer ) en "enchaînant" les régressions bêta dans le temps pour exprimer le tout comme conditionnel.
- Quelque chose de réellement cohérent et honnête dans la propagation de l'incertitude, auquel je n'ai évidemment pas pensé.
- Bayes? Je connais Stan et JAGS, mais MCMC va probablement exploser mon ordinateur (je ne veux pas traiter avec EC2).
Je n'ai trouvé aucun indice dans la littérature, car les traitements multivariés sont rares dans la modélisation causale. Que devrais-je faire?
Points bonus: que pensez-vous de la notation pour représenter au lieu de quelque chose comme ?