J'ai 2 jeux de données distribués de façon exponentielle et je veux être sûr qu'ils proviennent de distributions différentes. Malheureusement, une erreur nécessaire dans la détection des données m'oblige à rejeter toutes les données sous un certain seuil. Dans chaque ensemble, j'ai environ 3000 points de données et le traçage des données me fait penser que la valeur lambda est différente. L'ajustement donne également des valeurs différentes pour lambda.
Comment puis-je être sûr que les deux jeux de données proviennent d'une distribution différente?
Voici un graphique de la façon dont les ensembles ressemblent (Notez que toutes les valeurs sous life = 3sec doivent être rejetées):
MISE À JOUR: Les distributions ci-dessus sont dans les deux cas normalisées sur N juste pour mieux les comparer dans un graphique car le nombre total de points de données N est différent.
UPDATE2: Après la troncature, j'ai environ 150 valeurs à vie pour le jeu de données rouge et 350 pour le jeu de données bleu. Il s'avère que 3000 a été exagéré (je suis désolé).
UPDATE3: Merci de votre patience. Voici les données brutes:
http://pastebin.com/raw.php?i=UaGZS0im
http://pastebin.com/raw.php?i=enjyW1uC
Jusqu'à présent, j'ai ajusté une fonction exponentielle aux deux ensembles de données et comparé les pentes. Étant donné que toute normalisation ne devrait pas modifier la pente des données, différentes pentes devraient impliquer différentes distributions exponentielles sous-jacentes (mon expérience avec l'analyse statistique est très limitée).
Les valeurs sous le seuil sont ignorées car la mesure détecte trop souvent de nombreux événements dans ce régime.
UPDATE4: Je viens de réaliser que mon problème est beaucoup plus compliqué que je ne le pensais. J'ai laissé des données censurées (je ne connais pas le début de certains événements) et des données censurées à droite (je ne connais pas la fin de certains événements) ET je dois supprimer toutes les durées de vie inférieures à 3 s (troncature). Existe-t-il un moyen d'intégrer tout cela dans une seule analyse? Jusqu'à présent, j'ai trouvé de l'aide sur la façon de travailler avec des données censurées (analyse de survie), mais que dois-je faire avec la troncature?