J'ai une expérience qui produira des observations du temps jusqu'à ce qu'un événement se produise. Certaines propriétés de base sont que
- Nous comptons le nombre d'événements qui se sont produits à un moment donné .
- Les heures des événements sont censurées par intervalles, entre ,
- Les individus ne quitteront pas le procès entre , c'est-à-dire qu'un individu a vécu l'événement par ou ne l'a pas fait, auquel cas il est censuré,
- Une grande partie des individus ne recevront pas l'événement avant , lorsque nous terminerons l'expérience, et
- Je ne peux supposer aucun modèle de désintégration paramétrique sous-jacent.
Cela semble être une application naturelle pour l'analyse de survie. Cependant, il est compliqué par le fait qu'il est trivial de répéter l'expérience à partir de la même configuration initiale plusieurs fois. En effet, nous aurons un ensemble de dénombrements d'événements (où est le nombre d'échantillons) pour chaque temps d'observation . Je suis relativement nouveau dans les statistiques et j'ai du mal à voir comment appliquer l'analyse de survie à ces données (si elles sont même applicables et qu'il n'y a pas de méthodes plus appropriées pour mesurer ce type de données de temps sur événement). Mon inclination est de construire la fonction de survie autour du nombre moyen d'événements observés à chaque intervalle (ie), qui devrait mieux se rapprocher du nombre prévu d'événements à chaque intervalle dans la population, mais je n'ai aucune idée si cela est approprié ou de ses implications.
J'ai cherché en vain sur Google Scholar, si quelqu'un pouvait me diriger vers plus de matériel (ou me donner la nomenclature correcte pour ce que j'essaie de faire), ce serait apprécié.
Éditer
Étant donné que les intervalles sont uniformes dans tous les échantillons, disons que j'avais la matrice suivante décrivant le nombre cumulé d'individus pour lesquels un événement s'est produit dans chaque intervalle
où chaque ligne donne le nombre d'événements pour le même ensemble d'individus à risque à dans tous les échantillons (c'est-à-dire plusieurs instances de l'expérience), et chaque colonne est un intervalle d'observation. Je suppose qu'en prenant le nombre moyen d'événements pour chaque intervalle, je peux obtenir une meilleure estimation de la survie de la population attendue, alors soit le nombre d'intervalles de temps, le nombre d'échantillons (instances d'expérience), puis le vecteur
sera le nombre moyen d'événements observés pour chaque intervalle de temps.
Mon objectif est donc de l'utiliser comme entrée pour l'estimation de la survie. Soit le nombre d'individus à risque lorsque . En utilisant l'estimateur naïf (pour l'instant, étant donné que les intervalles d'événements sont uniformes dans tous les échantillons et qu'il n'y a pas de censure avant ), la fonction de survivant pourrait être estimée comme:
Ce qui (espérons-le) serait une meilleure estimation de la survie de la population que n'importe quel échantillon individuel (une seule ligne de ). Pour reformuler ma question:
- Est une entrée appropriée à une estimation de la fonction de survie? Je n'ai vu cette approche dans aucun des documents que j'ai lus.
- Comme je suis vraiment, douloureusement novice en statistiques, quelqu'un peut-il m'indiquer du matériel (articles universitaires, manuels, wikis, etc., ça irait) pour estimer l'intervalle de confiance et la variance pour cette estimation de la fonction de survie? Je suppose que ce ne sera pas identique aux formulations standard.
Toutes mes excuses si ma question d'origine était déroutante, je n'ai probablement pas inclus suffisamment d'informations.