Je travaille actuellement avec un grand ensemble de données sur les réclamations d'assurance maladie qui incluent certaines réclamations de laboratoire et de pharmacie. Cependant, les informations les plus cohérentes dans l'ensemble de données sont constituées des codes de diagnostic (ICD-9CM) et de procédure (CPT, HCSPCS, ICD-9CM).
Mes objectifs sont de:
- Identifier les conditions précurseurs les plus influentes (comorbidités) pour une condition médicale comme une maladie rénale chronique;
- Identifier la probabilité (ou probabilité) qu'un patient développera une condition médicale basée sur les conditions qu'il a eues dans le passé;
- Faites de même que 1 et 2, mais avec des procédures et / ou des diagnostics.
- De préférence, les résultats seraient interprétables par un médecin
J'ai regardé des choses comme les articles du Heritage Health Prize Milestone et j'ai beaucoup appris d'eux, mais ils se concentrent sur la prévision des hospitalisations.
Voici donc mes questions: Quelles méthodes pensez-vous fonctionnent bien pour des problèmes comme celui-ci? Et, quelles ressources seraient les plus utiles pour en savoir plus sur les applications et les méthodes de science des données pertinentes pour les soins de santé et la médecine clinique?
EDIT # 2 pour ajouter un tableau en clair:
CKD est la condition cible, "maladie rénale chronique", ".any" indique qu'ils ont acquis cette condition à tout moment, ".isbefore.ckd" signifie qu'ils avaient cette condition avant leur premier diagnostic de CKD. Les autres abréviations correspondent à d'autres conditions identifiées par les groupes de codes ICD-9CM. Ce regroupement se produit dans SQL pendant le processus d'importation. Chaque variable, à l'exception de patient_age, est binaire.