Je suis après quelques exemples simples et les meilleures pratiques sur la façon d'utiliser les expressions régulières dans ANSI C. man regex.h
ne fournit pas beaucoup d'aide.
Je suis après quelques exemples simples et les meilleures pratiques sur la façon d'utiliser les expressions régulières dans ANSI C. man regex.h
ne fournit pas beaucoup d'aide.
Réponses:
En fait, les expressions régulières ne font pas partie d'ANSI C. Il semble que vous parliez peut-être de la bibliothèque d'expressions régulières POSIX, qui est fournie avec la plupart (tous?) * Nix. Voici un exemple d'utilisation des expressions régulières POSIX en C (basé sur ceci ):
#include <regex.h>
regex_t regex;
int reti;
char msgbuf[100];
/* Compile regular expression */
reti = regcomp(®ex, "^a[[:alnum:]]", 0);
if (reti) {
fprintf(stderr, "Could not compile regex\n");
exit(1);
}
/* Execute regular expression */
reti = regexec(®ex, "abc", 0, NULL, 0);
if (!reti) {
puts("Match");
}
else if (reti == REG_NOMATCH) {
puts("No match");
}
else {
regerror(reti, ®ex, msgbuf, sizeof(msgbuf));
fprintf(stderr, "Regex match failed: %s\n", msgbuf);
exit(1);
}
/* Free memory allocated to the pattern buffer by regcomp() */
regfree(®ex);
Vous pouvez également consulter PCRE , une bibliothèque d'expressions régulières compatibles Perl en C. La syntaxe Perl est à peu près la même syntaxe utilisée dans Java, Python et un certain nombre d'autres langages. La syntaxe POSIX est la syntaxe utilisée par grep
, sed
, vi
, etc.
regcomp
, cflags
est un masque de bits. De pubs.opengroup.org/onlinepubs/009695399/functions/regcomp.html : "L'argument cflags est le OU inclusif au niveau du bit de zéro ou plusieurs des indicateurs suivants ...". Si vous OU-ensemble zéro, vous obtiendrez 0. Je vois que la page de regcomp
manuel Linux pour dit "cflags peut être le bit au niveau d'un ou plusieurs des éléments suivants", ce qui semble trompeur.
regmatch_t matches[MAX_MATCHES]; if (regexec(&exp, sz, MAX_MATCHES, matches, 0) == 0) { memcpy(buff, sz + matches[1].rm_so, matches[1].rm_eo - matches[1].rm_so); printf("group1: %s\n", buff); }
notez que les correspondances de groupe commencent à 1, le groupe 0 est la chaîne entière. Ajouter des vérifications d'erreurs pour les hors limites, etc.
regfree
est nécessaire après un échec regcomp
, bien que cela soit vraiment sous-spécifié, cela suggère que cela ne devrait pas être fait: redhat.com/archives/libvir-list/2013-September/msg00276.html
Ce n'est probablement pas ce que vous voulez, mais un outil comme re2c peut compiler des expressions régulières POSIX (-ish) en ANSI C.Il est écrit en remplacement de lex
, mais cette approche vous permet de sacrifier la flexibilité et la lisibilité pour le dernier bit de vitesse, si vous en avez vraiment besoin.
man regex.h
signale qu'il n'y a pas d'entrée manuelle pour regex.h, mais man 3 regex
vous donne une page expliquant les fonctions POSIX pour la correspondance de modèles.
Les mêmes fonctions sont décrites dans La bibliothèque GNU C: Correspondance d'expressions régulières , qui explique que la bibliothèque C GNU supporte à la fois l'interface POSIX.2 et l'interface que la bibliothèque C GNU a depuis de nombreuses années.
Par exemple, pour un programme hypothétique qui imprime laquelle des chaînes passées en argument correspond au modèle passé en premier argument, vous pouvez utiliser un code similaire au suivant.
#include <errno.h>
#include <regex.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
void print_regerror (int errcode, size_t length, regex_t *compiled);
int
main (int argc, char *argv[])
{
regex_t regex;
int result;
if (argc < 3)
{
// The number of passed arguments is lower than the number of
// expected arguments.
fputs ("Missing command line arguments\n", stderr);
return EXIT_FAILURE;
}
result = regcomp (®ex, argv[1], REG_EXTENDED);
if (result)
{
// Any value different from 0 means it was not possible to
// compile the regular expression, either for memory problems
// or problems with the regular expression syntax.
if (result == REG_ESPACE)
fprintf (stderr, "%s\n", strerror(ENOMEM));
else
fputs ("Syntax error in the regular expression passed as first argument\n", stderr);
return EXIT_FAILURE;
}
for (int i = 2; i < argc; i++)
{
result = regexec (®ex, argv[i], 0, NULL, 0);
if (!result)
{
printf ("'%s' matches the regular expression\n", argv[i]);
}
else if (result == REG_NOMATCH)
{
printf ("'%s' doesn't the regular expression\n", argv[i]);
}
else
{
// The function returned an error; print the string
// describing it.
// Get the size of the buffer required for the error message.
size_t length = regerror (result, ®ex, NULL, 0);
print_regerror (result, length, ®ex);
return EXIT_FAILURE;
}
}
/* Free the memory allocated from regcomp(). */
regfree (®ex);
return EXIT_SUCCESS;
}
void
print_regerror (int errcode, size_t length, regex_t *compiled)
{
char buffer[length];
(void) regerror (errcode, compiled, buffer, length);
fprintf(stderr, "Regex match failed: %s\n", buffer);
}
Le dernier argument de regcomp()
doit être au moins REG_EXTENDED
, ou les fonctions utiliseront des expressions régulières de base , ce qui signifie que (par exemple) vous devrez utiliser a\{3\}
au lieu d' a{3}
utiliser des expressions régulières étendues , ce qui est probablement ce que vous vous attendez à utiliser.
POSIX.2 a également une autre fonction pour la correspondance générique: fnmatch()
. Il ne permet pas de compiler l'expression régulière, ou d'obtenir les sous-chaînes correspondant à une sous-expression, mais il est très spécifique pour vérifier quand un nom de fichier correspond à un joker (par exemple, il utilise le FNM_PATHNAME
drapeau).
Voici un exemple d'utilisation de REG_EXTENDED. Cette expression régulière
"^(-)?([0-9]+)((,|.)([0-9]+))?\n$"
Vous permet d'attraper des nombres décimaux dans le système espagnol et international. :)
#include <regex.h>
#include <stdlib.h>
#include <stdio.h>
regex_t regex;
int reti;
char msgbuf[100];
int main(int argc, char const *argv[])
{
while(1){
fgets( msgbuf, 100, stdin );
reti = regcomp(®ex, "^(-)?([0-9]+)((,|.)([0-9]+))?\n$", REG_EXTENDED);
if (reti) {
fprintf(stderr, "Could not compile regex\n");
exit(1);
}
/* Execute regular expression */
printf("%s\n", msgbuf);
reti = regexec(®ex, msgbuf, 0, NULL, 0);
if (!reti) {
puts("Match");
}
else if (reti == REG_NOMATCH) {
puts("No match");
}
else {
regerror(reti, ®ex, msgbuf, sizeof(msgbuf));
fprintf(stderr, "Regex match failed: %s\n", msgbuf);
exit(1);
}
/* Free memory allocated to the pattern buffer by regcomp() */
regfree(®ex);
}
}
Bien que la réponse ci-dessus soit bonne, je recommande d'utiliser PCRE2 . Cela signifie que vous pouvez littéralement utiliser tous les exemples de regex là-bas maintenant et ne pas avoir à traduire à partir d'une ancienne regex.
J'ai déjà répondu à cette question, mais je pense que cela peut aussi aider ici.
Regex In C pour rechercher des numéros de carte de crédit
// YOU MUST SPECIFY THE UNIT WIDTH BEFORE THE INCLUDE OF THE pcre.h
#define PCRE2_CODE_UNIT_WIDTH 8
#include <stdio.h>
#include <string.h>
#include <pcre2.h>
#include <stdbool.h>
int main(){
bool Debug = true;
bool Found = false;
pcre2_code *re;
PCRE2_SPTR pattern;
PCRE2_SPTR subject;
int errornumber;
int i;
int rc;
PCRE2_SIZE erroroffset;
PCRE2_SIZE *ovector;
size_t subject_length;
pcre2_match_data *match_data;
char * RegexStr = "(?:\\D|^)(5[1-5][0-9]{2}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4})(?:\\D|$)";
char * source = "5111 2222 3333 4444";
pattern = (PCRE2_SPTR)RegexStr;// <<<<< This is where you pass your REGEX
subject = (PCRE2_SPTR)source;// <<<<< This is where you pass your bufer that will be checked.
subject_length = strlen((char *)subject);
re = pcre2_compile(
pattern, /* the pattern */
PCRE2_ZERO_TERMINATED, /* indicates pattern is zero-terminated */
0, /* default options */
&errornumber, /* for error number */
&erroroffset, /* for error offset */
NULL); /* use default compile context */
/* Compilation failed: print the error message and exit. */
if (re == NULL)
{
PCRE2_UCHAR buffer[256];
pcre2_get_error_message(errornumber, buffer, sizeof(buffer));
printf("PCRE2 compilation failed at offset %d: %s\n", (int)erroroffset,buffer);
return 1;
}
match_data = pcre2_match_data_create_from_pattern(re, NULL);
rc = pcre2_match(
re,
subject, /* the subject string */
subject_length, /* the length of the subject */
0, /* start at offset 0 in the subject */
0, /* default options */
match_data, /* block for storing the result */
NULL);
if (rc < 0)
{
switch(rc)
{
case PCRE2_ERROR_NOMATCH: //printf("No match\n"); //
pcre2_match_data_free(match_data);
pcre2_code_free(re);
Found = 0;
return Found;
// break;
/*
Handle other special cases if you like
*/
default: printf("Matching error %d\n", rc); //break;
}
pcre2_match_data_free(match_data); /* Release memory used for the match */
pcre2_code_free(re);
Found = 0; /* data and the compiled pattern. */
return Found;
}
if (Debug){
ovector = pcre2_get_ovector_pointer(match_data);
printf("Match succeeded at offset %d\n", (int)ovector[0]);
if (rc == 0)
printf("ovector was not big enough for all the captured substrings\n");
if (ovector[0] > ovector[1])
{
printf("\\K was used in an assertion to set the match start after its end.\n"
"From end to start the match was: %.*s\n", (int)(ovector[0] - ovector[1]),
(char *)(subject + ovector[1]));
printf("Run abandoned\n");
pcre2_match_data_free(match_data);
pcre2_code_free(re);
return 0;
}
for (i = 0; i < rc; i++)
{
PCRE2_SPTR substring_start = subject + ovector[2*i];
size_t substring_length = ovector[2*i+1] - ovector[2*i];
printf("%2d: %.*s\n", i, (int)substring_length, (char *)substring_start);
}
}
else{
if(rc > 0){
Found = true;
}
}
pcre2_match_data_free(match_data);
pcre2_code_free(re);
return Found;
}
Installez PCRE en utilisant:
wget https://ftp.pcre.org/pub/pcre/pcre2-10.31.zip
make
sudo make install
sudo ldconfig
Compilez en utilisant:
gcc foo.c -lpcre2-8 -o foo
Vérifiez ma réponse pour plus de détails.