Mon ensemble de données contient deux variables (plutôt fortement corrélées) (temps d'exécution de l'algorithme) et (nombre de nœuds examinés, peu importe). Les deux sont fortement corrélés par conception, car l'algorithme peut gérer environ nœuds par seconde.
L'algorithme a été exécuté sur plusieurs problèmes, mais il a été mis fin si une solution n'a pas été trouvée après un certain délai d' attente . Les données sont donc censurées à droite sur la variable de temps.
Je trace la fonction de densité cumulée estimée (ou le nombre cumulé) de la variable pour les cas où l'algorithme s'est terminé avec . Cela montre combien de problèmes pourraient être résolus en développant au plus nœuds et est utile pour comparer différentes configurations de l'algorithme. Mais dans l'intrigue pour , il y a ces queues drôles en haut qui vont à droite, comme on peut le voir dans l'image ci-dessous. Comparez l'ecdf pour la variable , sur laquelle la censure a été effectuée.
Nombre cumulé de
Nombre cumulé de
Simulation
Je comprends pourquoi cela se produit et je peux reproduire l'effet dans une simulation en utilisant le code R suivant. Cela est dû à la censure d'une variable fortement corrélée sous l'ajout de bruit.
qplot(
Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
runif(10000,0,10)),
stat="ecdf",geom="step")
Comment s'appelle ce phénomène? Je dois déclarer dans une publication que ces fans sont des artefacts de l'expérience et ne reflètent pas la distribution réelle.