Expressions régulières

Quelques raccourcis :

La base
- illustration avec C++
- illustration avec JavaScript
Pédagogie
Quelques outils
Applications atypiques

Cet article porte sur les expressions régulières, un sujet vaste et plein de rebondissements. Je doute en arriver à un texte « définitif » sur le sujet, mais j'espère pouvoir mettre ici suffisamment d'information et de pistes pour faciliter le démarrage de celles et ceux qui rencontrent les expressions régulières pour la première fois, et dépanner celles et ceux qui les utilisent mais rencontrent des difficultés et sont à la recherche d'un petit coup de pouce.

La base

Les expressions régulières constituent un langage permettant de décrire des modèles (des patterns) par lesquels on pourra faire la correspondance avec des éléments d'un texte. Ce langage est concis, permettant d'exprimer des modèles complexes dans un espace somme toute restreint, et se prête à une représentation sous-jacent efficace (typiquement, un automate, parfois accompagné d'une pile).

Quelques exemples simples d'expressions régulières banales suivent :

Modèle	Correspond à	Ne correspond pas à	Remarques
`a`	`a`	`aa b ab ba`	J'ai utilisé a ici, mais on aurait pu utiliser n'importe quel texte « normal ». Un texte tel que abcd correspond, sans surprises, au texte abcd.
`.`	`a b A`	`aa abcdefg`	Le symbole . signifie « n'importe quel caractère », mais un seul à la fois.
`[aeiouy]`	`a u`	`aa c`	Placer des symboles entre crochets signifie « n'importe lequel d'entre eux ». Notre exemple ici correspond à toute voyelle, mais une seule d'entre elles.
`[a-zA-Z]+`	`int getName`	`abd123`	L'écriture a-z signifie « tout symbole inclusivement situé entre a et z », alors que A-Z signifie « tout symbole inclusivement situé entre A et Z ». Les crochets signifient essentiellement « l'un de... », donc [a-zA-Z] signifie « un symbole alphabétique ». Le suffixe + signifie « au moins un », donc [a-zA-Z]+ signifie une séquence d'au moins un symbole alphabétique.

Source

Illustration avec C++

À titre d'exemple, dans bien des langages de programmation, un identifiant (nom de constante, de variable, de fonction, etc.) débute par un symbole alphabétique ou un caractère de soulignement, suivi par zéro ou plus symboles alphanumériques ou de soulignement. Exprimé sous la forme d'une expression régulière, on parlerait de [a-zA-Z_]([a-zA-Z0-9_])* ce qui est, on en conviendra, plus compact. Un programme C++ mettant en relief cette fonctionnalité serait :

#include <iostream>
#include <regex>
#include <string>
#include <sstream>
using namespace std;
int main() {
   string texte { "int abc123 :$ 34 -8 _ bbb_ddd" };
   string pattern { "[a-zA-Z_]([a-zA-Z0-9_])*" };
   regex expression{ pattern };
   stringstream sstr{ texte };
   for (string s; sstr >> s;)
      if (regex_match(s, expression))
         cout << "Le mot \"" << s << "\" correspond au pattern \"" << pattern << "\"" << endl;
}

À l'exécution, ce programme affichera :

Le mot "int" correspond au pattern "[a-zA-Z_]([a-zA-Z0-9_])*"
Le mot "abc123" correspond au pattern "[a-zA-Z_]([a-zA-Z0-9_])*"
Le mot "_" correspond au pattern "[a-zA-Z_]([a-zA-Z0-9_])*"
Le mot "bbb_ddd" correspond au pattern "[a-zA-Z_]([a-zA-Z0-9_])*"

Les mots "$:", "34", et "-8" ne sont pas reconnus à l'aide de notre pattern, tel que prévu.

Règle du Max Munch

Les expressions régulières appliquent par défaut un comportement « gourmand », au sens où elles consomment la plus longue séquence possible correspondant au Pattern qui leur est donné. Ce comportement est raisonnable : c'est grâce à lui qu'il est possible de distinguer les mots for et for_each par exemple. C'est ce qu'on nomme la règle du Max Munch.

Prenons l'exemple suivant. Comparez les Patterns des expressions régulières re_vilain et re_mieux : les deux sont utilisables, mais donneront (avec une chaîne comme texte) des résultats bien différents :

#include <iostream>
#include <algorithm>
#include <string>
#include <regex>
using namespace std;
int main() {
   string texte = "<b>allo</b> <b>man</b>";
   regex re_vilain{ R"(<(.*?)>(.*)</(\1)>)" };
   regex re_mieux{ R"(<(.*?)>(.*?)</(\1)>)" };
   for_each(sregex_iterator{ begin(texte), end(texte), re_vilain }, sregex_iterator{}, [](const auto &s) {
      cout << "Trouve : " << s.str() << '\n';
   });
   cout << string(70, '-') << '\n';
   for_each(sregex_iterator{ begin(texte), end(texte), re_mieux }, sregex_iterator{}, [](const auto &s) {
      cout << "Trouve : " << s.str() << '\n';
   });
   cout << endl;
}

En effet, à l'exécution, ce programme affichera :

Trouve : <b>allo</b> <b>man</b>
----------------------------------------------------------------------
Trouve : <b>allo</b>
Trouve : <b>man</b>

En appliquant la règle du Max Munch, re_vilain consommera la plus longue séquence possible (car .* est gourmand) jusqu'au point où une balise fermante correspondant à la balise ouvrante rencontrée initialement sera rencontrée, alors que re_mieux progressera à petits pas (car .*? n'est pas gourmand).

Illustration avec JavaScript

Avec JavaScript, il est bien sûr possible d'utiliser des expressions régulières, et ce dans plusieurs fonctions de manipulation de chaînes de caractères. Quelques exemples suivent.

Séparer une chaîne à partir d'un critère : la méthode split() d'une string JavaScript accepte une expression régulière en tant que critère pour séparer les éléments d'une chaîne sur la base d'un pattern particulier. Faites le test par vous-mêmes!

Pattern :

Le pattern de séparation sera exclu du résultat. Ainsi, essayez la lettre e par exemple, ou encore un simple caractère d'espacement (\s ou \s+ vous donneront deux résultats distincts), pour constater des variations amusantes.

function testSplit(s,patt) {
   return s.split(patt);
}
function testSplitFunction() {
   var texte = document.getElementById("testSplitTextArea").value;
   var patt = document.getElementById("testSplitTextPatt").value;
   var résultat = testSplit(texte,new RegExp(patt));
   for(var i = 0; i != résultat.length; ++i) {
      alert("Élément " + i + " : " + résultat[i]);
   }
}

Reconnaître des sous-chaînes à partir d'un critère : la méthode match() d'une string JavaScript accepte une expression régulière en tant que critère pour reconnaître les éléments d'une chaîne sur la base d'un pattern particulier. Faites le test par vous-mêmes!

Pattern :

Ici, \w+ est un raccourci pour « tout mot », et \s signifie « suivi d'un blanc ». À titre d'expérience, enlevez le \s à la fin, ou utilisez [a-zA-Z]+ à titre de pattern. Si vous utilisez [a-z]+ à titre de pattern, cela devrait limiter la reconnaissance aux seules séquences de lettres minuscules. Si vous utilisez [a-zA-Z]+\. à titre de pattern, vous devriez obtenir les mots ne contenant que des symboles alphabétiques mais suivis immédiatement d'au moins un point (le \ avant le point signifie qu'on s'intéresse au symbole .; par défaut, le . signifie « n'importe quel symbole »).

function testMatch(s,patt) {
   return s.match(patt);
}
function testMatchFunction() {
   var texte = document.getElementById("testMatchTextArea").value;
   var patt = document.getElementById("testMatchTextPatt").value;
   var résultat = testMatch(texte,new RegExp(patt, "g"));
   if (résultat == null) {
      alert("Aucun match");
   } else {
      for(var i = 0; i != résultat.length; ++i) {
         alert("Élément " + i + " : " + résultat[i]);
      }
   }
}

L'exemple ci-dessous cherchera des patterns comprenant (par défaut; vous pouvez jouer avec le pattern) deux mots séparés par au moins un blanc, le deuxième mot devant être suivi par un ';' (il peut y avoir des blancs avant le ';' étant donné le pattern proposé par défaut). Ceci exclura par exemple un mot comprenant un caractère non-alphabétique et une paire de mots qui ne serait pas suivie d'un ';'.

Pattern :

Ici, les parenthèses permettraient d'indiquer que nous souhaitons que le pattern reconnu porte un nom ($1, $2, et ainsi de suite) pour être en mesure de lui référer par la suite.

function testManip(s,patt) {
   var res = s.match(patt);
   for(var i = 0; i != res.length; ++i) {
      if (res[i] != null && res[i] != "") {
         res[i] = res[i].substring(0, res[i].length - 1);
      }
   }
   return res;
}
function testManipFunction() {
   var texte = document.getElementById("testMatchTextArea").value;
   var patt = document.getElementById("testMatchTextPatt").value;
   var résultat = testManip(texte,new RegExp(patt, "g"));
   if (résultat == "" || résultat == null) {
      alert("Aucun match");
   } else {
      for(var i = 0; i != résultat.length; ++i) {
         alert("Élément " + i + " : " + résultat[i]);
      }
   }
}

Facile à intégrer, les expressions régulières? Ça dépend... http://www.commitstrip.com/en/2016/04/08/fing-patterns/
À quoi servent les expressions régulières? https://xkcd.com/208/

Pédagogie

Quelques sources d'information sur le sujet des expressions régulières :

Apprendre à utiliser les expressions régulières : https://github.com/zeeshanu/learn-regex
- il y a une version française : https://github.com/zeeshanu/learn-regex/blob/master/README-fr.md
Un guide de Mozilla, destiné à la programmation avec JavaScript : https://developer.mozilla.org/en-US/docs/Web/JavaScript/Guide/Regular_Expressions
En 2007, Russ Cox discute de la « performance » des expressions régulières selon les langages : http://web.archive.org/web/20130116115459/http:/swtch.com/~rsc/regexp/regexp1.html
Introduction aux expressions régulières, ou « apprenez les expressions régulières en 55 minutes » : http://qntm.org/files/re/re.html
Ensemble de ressources à propos des expressions régulières : http://www.regular-expressions.info/
- comparatif d'expressions régulières dans plusieurs langages : http://www.regular-expressions.info/refflavors.html
- comprendre le rôle du « . », texte de 2014 par Jan Goyvaerts : http://www.regular-expressions.info/dot.html
C++ et les expressions régulières : ../../Liens/Caracteristiques-Cplusplus--Liens.html#regexp
Haskell et les expressions régulières : http://www.haskell.org/haskellwiki/Regular_expressions
Mathematica et les expressions régulières, par John D. Cook : http://www.johndcook.com/mathematica_regex.html
Matlab et les expressions régulières : http://www.mathworks.com/help/matlab/matlab_prog/regular-expressions.html
Expressions régulières avec Perl et Python, par John D. Cook : http://www.johndcook.com/python_regex.html
Expressions régulières avec Perl, Python et Emacs, par John D. Cook en 2015 : http://www.johndcook.com/blog/regex-perl-python-emacs/
R et les expressions régulières, par John D. Cook : http://www.johndcook.com/r_language_regex.html
Rust et les expressions régulières, texte de 2014 par Andrew Gallant : http://blog.burntsushi.net/rust-regex-syntax-extensions
Texte de John D. Cook proposant un petit truc pour mieux comprendre les expressions régulières comprenant du Look-Behind (donc « trouver ce qui est précédé par... » ou « trouver ce qui n'est pas précédé par... » : http://www.johndcook.com/blog/2014/05/01/look-behind-regex/
Trouver l'expression régulière parfaite pour reconnaître une URL? Pas simple : http://mathiasbynens.be/demo/url-regex
Les expressions régulières expliquées aux analystes, par Magda Piatkowska en 2014 : http://www.coppelia.io/quick-start-regex-for-analysts-part-i/
Les expressions régulières avec C++ 11 et C++ 14, par Jiu Fu Guo en 2015 : https://www.ibm.com/developerworks/community/blogs/5894415f-be62-4bc0-81c5-3956e82276f3/entry/regular_expression_in_c_11_14?lang=en
Texte de Matthew Might en 2015 sur l'art de sculpter les chaînes de caractères à l'aide d'expressions régulières : http://matt.might.net/articles/sculpting-text/
Comme le rappelle Philip Szalwinski en 2015, les expressions régulières ne sont pas nécessairement très lisibles, alors mieux vaut les utiliser de manière à ce que le tout demeure compréhensible : http://blog.8thlight.com/philip-szalwinski/2015/04/22/refactoring-a-regex.html
Site où Russ Cox collige des ressources sur l'implémentation des expressions régulières : https://swtch.com/~rsc/regexp/
Implémenter des expressions régulières avec des tableaux de suffixes, par Nelson Elhage en 2015 : https://blog.nelhage.com/2015/02/regular-expression-search-with-suffix-arrays/
Comparer des expressions régulières, efficaces ou non, un texte de 2015 par Liz Bennett : https://www.loggly.com/blog/regexes-the-bad-better-best/
Quelques trucs pour des expressions régulières plus efficaces, par Liz Bennett en 2015 : https://www.loggly.com/blog/five-invaluable-techniques-to-improve-regex-performance/
Texte de 2015 par Rico Mariani qui liste ce qu'il vaut mieux savoir avant d'utiliser des expressions régulières : http://blogs.msdn.com/b/ricom/archive/2015/07/20/what-you-really-need-to-know-about-regular-expressions-before-using-them.aspx
Démystifier les expressions régulières à l'aide d'exemples pratiques, par Nicola Pietroluongo en 2015 : http://www.sitepoint.com/demystifying-regex-with-practical-examples/
Diaporama pour le moins divertissant sur le sujet, par Stephan T. Lavavej en 2012 : https://onedrive.live.com/view.aspx?resid=E66E02DC83EFB165!296&ithint=file%2cpptx&app=PowerPoint&authkey=!ADb3EObRMqpq1Bg
En 2016, Julia Evans constate qu'il est possible d'évaluer la dérivée d'une expression régulière : http://jvns.ca/blog/2016/04/24/how-regular-expressions-go-fast/
Réflexions de Darryl McAdams en 2016 sur la capacité et les moyens de distinguer deux expressions régulières : http://languagengine.co/blog/differentiating-regular-expressions/
Proposition par Olli Savolainen en 2016 pour présenter des expressions régulières de manière plus « visuelle » : https://medium.com/@savolai/regular-expressions-you-can-read-a-new-visual-syntax-526c3cf45df1
Déboguer une expression régulière, texte de 2016 par Ori Bernstein : https://eigenstate.org/notes/regex-debug
Des expressions régulières à la compilation, un projet un peu fou de Hana Dusíková : https://github.com/hanickadot/compile-time-regular-expressions
- diapositives provenant de CppCon 2017 : voir ceci
- sa présentation de CppCon 2018 (la meilleure de cet événement, selon moi) :
  - pour la vidéo, voir https://www.youtube.com/watch?v=QM3W36COnE4
  - pour les diapositives, voir ceci (mais c'est plus cool dans ce format)

Quelques outils

« Regex is like if ASCII had a plastic surgery addiction » (source)

Les expressions régulières ont leurs détracteurs, mais elles ont aussi leurs aficionados. Heureusement pour nous, certains de ces amants de la concision et de l'efficacité des expressions régulières ont mis au point des outils susceptibles de faciliter notre existence. En voici quelques-uns :

Pédagogie et exercices :
- quelques exercices pour vous faire la main : https://alf.nu/RegexGolf
- le regexone, pour apprendre par l'exemple : http://regexone.com/
- autre outil générant des expressions régulières sur la base d'exemples : http://regex.inginf.units.it/
- pour vous amuser : http://regexcrossword.com/
- un mot croisé hexagonal constitué d'expressions régulières, relaté par Greg Grothaus en 2015 : http://gregable.com/2015/12/regular-expression-crossword-puzzle.html
- RegExr, un outil d'apprentissage interactif en ligne pour les expressions régulières par Grant Skinner : http://regexr.com/
- une Cheat Sheet : http://overapi.com/regex
Des outils à télécharger :
- le Console Regular Expression Wizard, par Aurelio Jargas, qui prétend pouvoir convertir des phrases en langage naturel vers les expressions régulières correspondantes : http://aurelio.net/projects/txt2regex/
- le Visual Regexp, un éditeur d'expressions régulières proposé par Laurent Riesterer : http://laurent.riesterer.free.fr/regexp/
- le Regexp Buddy, un éditeur d'expressions régulières proposé par Jan Goyvaerts : http://www.regexbuddy.com/
- le Reginald Regexp Explorer, proposé par Michael Tyson et qui génère (pour Mac OSX seulement) des expressions régulières à partir de texte : http://atastypixel.com/blog/reginald-regex-explorer/
- le RegEx Coach, une application pour Microsoft Windows : http://weitz.de/regex-coach/
Des outils Web :
- Regulex, pour visualiser les expressions régulières : http://jex.im/regulex/
- le txt2re, outil Web de conversion de texte vers expression régulière, par Mark James Ennis : http://txt2re.com/index-perl.php3
- projet d'intelligence artificielle et outil Web générant des expressions régulières à partir de texte par évolution : http://regex.inginf.units.it/
- le regex101, outil Web qui fait la correspondance entre texte et expression régulière, tout en expliquant les expressions régulières en langage naturel : http://regex101.com/
- le regexper, outil Web générant un diagramme explicatif d'une expression régulière, par Jeff Avallone : http://www.regexper.com/
- le debuggex, outil de débogage d'expressions régulières : https://www.debuggex.com/
- le try regex, pour tester de manière interactive des expressions régulières JavaScript : http://tryregex.com/
- un autre outil d'apprentissage des expressions régulières : https://extendsclass.com/regex-tester.html
Apprendre les expressions régulières « à la dure », une formation : http://regex.learncodethehardway.org/

En complément, une petite explication de la manière par laquelle DuckDuckGo et Wolfram Alpha interfacent l'un avec l'autre à travers des expressions régulières : http://duckduckgo.com/walpha.html

Applications atypiques

Que peut-on faire avec des expressions régulières? Beaucoup de choses, en fait. Quelques applications atypiques suivent.

Une expression régulière pour reconnaître des nombres premiers, proposée par Avinash Meetoo en 2007 : http://www.noulakaz.net/weblog/2007/03/18/a-regular-expression-to-check-for-prime-numbers/
Utiliser des expressions régulières pour saisir des options au lancement d'un programme : http://thenewcpp.wordpress.com/2014/10/13/lightweight-c-options-parser/
Une expression régulière pour reconnaître des éléments chimiques? Texte de John D. Cook en 2016 : http://www.johndcook.com/blog/2016/02/04/regular-expression-to-match-a-chemical-element/