Et bien: bienvenue dans le monde R ;-)
Voici
Configuration du code
urls <- c(
"http://stat.ethz.ch/R-manual/R-devel/library/base/html/connections.html",
"http://en.wikipedia.org/wiki/Xz",
"xxxxx"
)
readUrl <- function(url) {
out <- tryCatch(
{
# Just to highlight: if you want to use more than one
# R expression in the "try" part then you'll have to
# use curly brackets.
# 'tryCatch()' will return the last evaluated expression
# in case the "try" part was completed successfully
message("This is the 'try' part")
readLines(con=url, warn=FALSE)
# The return value of `readLines()` is the actual value
# that will be returned in case there is no condition
# (e.g. warning or error).
# You don't need to state the return value via `return()` as code
# in the "try" part is not wrapped insided a function (unlike that
# for the condition handlers for warnings and error below)
},
error=function(cond) {
message(paste("URL does not seem to exist:", url))
message("Here's the original error message:")
message(cond)
# Choose a return value in case of error
return(NA)
},
warning=function(cond) {
message(paste("URL caused a warning:", url))
message("Here's the original warning message:")
message(cond)
# Choose a return value in case of warning
return(NULL)
},
finally={
# NOTE:
# Here goes everything that should be executed at the end,
# regardless of success or error.
# If you want more than one expression to be executed, then you
# need to wrap them in curly brackets ({...}); otherwise you could
# just have written 'finally=<expression>'
message(paste("Processed URL:", url))
message("Some other message at the end")
}
)
return(out)
}
Appliquer le code
> y <- lapply(urls, readUrl)
Processed URL: http://stat.ethz.ch/R-manual/R-devel/library/base/html/connections.html
Some other message at the end
Processed URL: http://en.wikipedia.org/wiki/Xz
Some other message at the end
URL does not seem to exist: xxxxx
Here's the original error message:
cannot open the connection
Processed URL: xxxxx
Some other message at the end
Warning message:
In file(con, "r") : cannot open file 'xxxxx': No such file or directory
Examen de la sortie
> head(y[[1]])
[1] "<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">"
[2] "<html><head><title>R: Functions to Manipulate Connections</title>"
[3] "<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\">"
[4] "<link rel=\"stylesheet\" type=\"text/css\" href=\"R.css\">"
[5] "</head><body>"
[6] ""
> length(y)
[1] 3
> y[[3]]
[1] NA
Remarque additionnelle
tryCatch
tryCatch
renvoie la valeur associée à l'exécution expr
sauf en cas d'erreur ou d'avertissement. Dans ce cas, des valeurs de retour spécifiques (voir return(NA)
ci - dessus) peuvent être spécifiées en fournissant une fonction de gestionnaire respective (voir les arguments error
et warning
dans ?tryCatch
). Il peut s'agir de fonctions qui existent déjà, mais vous pouvez également les définir à l'intérieur tryCatch()
(comme je l'ai fait ci-dessus).
Les implications du choix de valeurs de retour spécifiques des fonctions de gestionnaire
Comme nous l'avons spécifié qui NA
doit être retourné en cas d'erreur, le troisième élément de y
is NA
. Si nous avions choisi NULL
d'être la valeur de retour, la longueur de y
aurait simplement été 2
au lieu de 3
comme lapply()
"ignorera" simplement les valeurs de retour qui le sont NULL
. Notez également que si vous ne spécifiez pas de valeur de retour explicite via return()
, les fonctions du gestionnaire retourneront NULL
(c'est-à-dire en cas d'erreur ou de condition d'avertissement).
Message d'avertissement "indésirable"
Comme warn=FALSE
cela ne semble pas avoir d'effet, une autre façon de supprimer l'avertissement (qui dans ce cas n'est pas vraiment intéressant) est d'utiliser
suppressWarnings(readLines(con=url))
au lieu de
readLines(con=url, warn=FALSE)
Expressions multiples
Notez que vous pouvez également placer plusieurs expressions dans la "partie des expressions réelles" (argument expr
de tryCatch()
) si vous les mettez entre crochets (comme je l'ai illustré dans la finally
partie).
paste
fonctions se termine par un espace, pourquoi ne pas omettre l'espace et lesep=""
?