Bref – opérations atomiques primitives

Le nom le dit : ceci n'est qu'un bref, pas une description exhaustive du sujet.

Ce petit document se base sur Tanenbaum, pp. 124-125;131.

Ce qui suit décrit très brièvement quelques-unes des opérations atomiques primitives susceptibles d'être offertes sur des architectures multi-coeurs contemporaines.

Ces opérations ont été pensées à titre de solutions à ce qu'on nomme le problème du consensus, à savoir comment faire en sorte que $n$ processus concurrents conviennent d'un même état, par exemple pour prendre une décision comme celle de persister une transaction.

Le Test and Set Lock – TSL

L'opération TSL s'utilise selon la forme proposée à droite. Dans cette écriture :

Le terme Rx décrit un registre; et
Le terme LOCK décrit une adresse en mémoire.

Cette expression a le sens suivant : lire le contenu de LOCK et le déposer dans Rx, puis écrire une valeur non-nulle dans LOCK. Cette paire d'opérations se fait de manière atomique, au sens où aucun autre processeur et aucune autre coeur ne peut accéder à LOCK pendant ce temps.

TSL Rx,LOCK

L'atomicité de TSL implique un verrouillage du bus de mémoire pendant l'exécution de cette instruction. C'est donc une opération dispendieuse, comme le sont en général les opérations atomiques.

Un exemple d'utilisation typique (pseudocode assembleur) est proposé à droite. La partie enter_region itère jusqu'à ce qu'il soit clair que le verrou représenté par la zone LOCK ait été obtenu; la partie leave_region, qui suppose que LOCK soit possédé au préalable, est évidemment plus simple.

Visiblement, il est possible avec TSL d'implémenter une section critique.

enter_region:
   TSL Rx,LOCK
   CMP Rx,#0
   JNE enter_region
   RET

leave_region:
   MOVE LOCK,#0
   RET

Le TSL permet de solutionner le problème du consensus pour un nombre fini de processus concurrents. L'opération Compare and Exchange, survolée plus bas, est une approche équivalente mais dont la portée un peu plus générale que celle de TSL.

Pour plus d'informations, voir http://en.wikipedia.org/wiki/Test-and-set

Plusieurs écrivent aussi Compare-and-Swap, ou CAS.

Le Compare and Exchange – XCHG

Sur les architectures contemporaines, plutôt que TSL, on retrouve typiquement une implémentation de Compare and Exchange (nommée XCHG sur les architectures Intel).

L'opération XCHG s'utilise selon la forme proposée à droite. Dans cette écriture :

Le terme Rx décrit un registre, et
Le terme LOCK décrit une adresse en mémoire

Cette expression permute de manière atomique le contenu de LOCK et celui de Rx. Cette opération se fait de manière atomique, au sens où aucun autre processeur et aucune autre coeur ne peut accéder à LOCK pendant ce temps. Conséquemment, suite à l'opération, Rx contient la valeur qui se trouvait précédemment dans LOCK; c'est sur cette base que s'exprime la programmation à l'aide de l'opération XCHG.

XCHG Rx,LOCK

L'atomicité de XCHG implique un verrouillage du bus de mémoire pendant l'exécution de cette instruction. C'est donc une opération dispendieuse, comme le sont en général les opérations atomiques.

Un exemple d'utilisation typique (pseudocode assembleur) est proposé à droite. Ici, nous avons explicitement choisi de représenter par 1 un verrou saisi et 0 un verrou disponible.

La partie enter_region itère jusqu'à ce qu'il soit clair que le verrou représenté par la zone LOCK ait été obtenu. L'idée est, essentiellement :

Je dépose 1 dans LOCK et je vérifie que LOCK contenait 0 auparavant (donc que personne n'était dans la région visée)
Si c'est le cas, alors je suis celui qui possède le droit d'accès à cette région
Dans le cas contraire, quelqu'un y était déjà alors je ne peux y aller (mieux vaut essayer à nouveau plus tard)

La partie leave_region, qui suppose que LOCK soit possédé au préalable, est évidemment plus simple.

Visiblement, il est possible avec XCHG d'implémenter une section critique. Il est aussi possible d'implémenter plusieurs autres mécanismes de synchronisation à partir de cette opération. La mécanique générale est essentiellement toujours la même :

Lire la valeur $X_0$ à une certaine adresse LOCK. Cette valeur est une sorte d'invariant qui doit tenir pour l'ensemble de notre opération
Calculer une nouvelle valeur $X_1$ , peut-être à partir de $X_0$
Essayer de permuter de manière atomique le contenu deavec $X_1$ en s'assurant quecontenait encore $X_0$ (c'est ce que permet l'atomicité de XCHG), donc que l'invariant tient toujours
Si l'on constate quene contenait plus $X_0$ , donc que l'invariant ne tient plus, alors on recommence

enter_region:
   MOVE Rx,#1
   XCHG Rx,LOCK
   CMP Rx,#0
   JNE enter_region
   RET

leave_region:
   MOVE LOCK,#0
   RET

Comme cela a été mentionné à quelques reprises dans le cours, la permutation de deux états est une opération fondamentale, sans doute la plus importante en programmation.

Risques d'un ABA

Vous remarquerez peut-être un risque avec, soit le fait qu'il est possible avec certains algorithmes qu'entre le moment où l'ancienne valeur deest lue par un processus $P$ et le moment où l'écriture dansest réalisée par $P$ , un autre processus $P^{\prime}$ ait modifié deux fois l'état de LOCK.

Supposant queait valu $A$ lors de sa lecture par $P$ , puis que $P^{\prime}$ l'ait fait passer à $B$ puis à $A$ à nouveau avant que $P$ n'ait procédé à sa propre écriture dans, le double changement depourrait passer inaperçu pour $P$ .

C'est ce qu'on nomme le problème ABA. Il existe diverses solutions, heureusement, que vous pourrez lire si vous êtes curieuses ou curieux.

Dans son livre Concurrency in Action, Anthony Williams suggère que la technique la plus simple d'éviter un ABA soit d'associer un compteur à la donnée sur laquelle le Compare-Exchange est réalisé (sur la moitié des bits de l'entier manipulé, par exemple). Ceci fait en sorte que l'opération « échouera » même si elle aurait, en temps normal, réussi, du moins si un tiers réalise deux permutations pour provoquer un ABA entre-temps.

Pour plus de détails, voir http://en.cppreference.com/w/cpp/atomic/atomic/compare_exchange, ou encore http://www.boost.org/doc/libs/1_54_0/doc/html/atomic/interface.html pour la version de Boost.

En C++

Avec C++, les opérations de type Compare-Exchange se font., sans surprise, sur des atomiques, et s'expriment sous forme de méthodes (il existe aussi des versions de ces services sous forme de fonction globale).

Elle se déclinent en quelques grandes familles :

Les std::atomic::exchange() – prudence, car il existe aussi std::exchange() qui n'a rien à voir avec les atomiques!
Les compare_exchange_weak(), et
Les compare_exchange_strong()

Pour exchange(), la signature est...

template <class T>
   T std::atomic<T>::exchange(T desired, std::memory_order = std::memory_order_seq_cst);

Cette méthode permute atomiquement la valeur de *this avec celle de desired.

Pour compare_exchange_*, les signatures possibles sont les mêmes (au nom près) dans chaque cas; la nuance entre les déclinaisons *_weak() et *_strong() est que celles portant le suffixe _weak() sont typiquement un peu plus rapide que celles portant le suffixe _strong(), du moins sur certaines architectures matérielles, mais peut livrer de faux négatifs (retourner false même lors d'un succès).

Prenant pour exemple compare_exchange_weak(), nous avons...

template <class T>
   bool std::atomic<T>::compare_exchange_weak(
      T &expected, T desired,
      std::memory_order = std::memory_order_seq_cst
   );
template <class T>
   bool std::atomic<T>::compare_exchange_weak(
      T &expected, T desired,
      std::memory_order success, std::memory_order failure
   );

...de même que des déclinaisons permettant d'expliciter les contraintes de cohérence lors d'un succès et lors d'un échec (par défaut, la méthode utilise std::memory_order_seq_cst et garantit la cohérence séquentielle... en l'absence de conditions de course, bien entendu). Dans le cas où les contraintes de cohérence sont spécifiées individuellement pour un succès et un échec, certaines règles s'appliquent :

Lors d'un succès, tous les modèles de cohérence sont admissibles. Ces modèles de cohérence s'appliquent à l'écriture dans *this lors de l'opération atomique Read-Modify-Write
Lors d'un échec, le modèle de cohérence ne peut être plus fort que lors d'un succès, et ne peut être ni std::memory_order_release, ni std::memory_order_acq_rel. Ces modèles de cohérence s'appliquent à l'écriture de la valeur de *this dans expected

Ces méthodes sont déclinées avec et sans qualification volatile. Les compare_exchange_* retournent true seulement dans le cas d'un succès. La méthode exchange() retourne la valeur de la variable atomique avant l'appel.

Le sens d'un compare_exchange_* est de comparer la valeur de *this avec celle de expected; si elles sont égales, *this prendra la valeur de desired, sinon expected prendra la valeur de *this. Un exemple d'utilisation pour l'ajout d'un élément sur une pile implémentée sans verrous, tiré de Concurrency in Action, suit :

#include <atomic>
template <class T>
   class pile_sans_verrous { // ebauche
   public:
      using value_type = T;
   private:
      struct noeud {
         noeud *pred;
         value_type valeur;
         noeud(const value_type &valeur)
            : valeur{valeur}, pred{}
         {
         }
      };
      std::atomic<noeud*> tete;
   public:
      void push(const value_type &val) {
         auto nouveau = new noeud{val};
         nouveau->pred = tete.load();
         while(!tete.compare_exchange_weak(nouveau->pred, nouveau))
            ;
      }
      // ...
   };

Examinez la méthode push() :

Initialement, elle construit le noeud nouveau à ajouter sur la pile. Si ceci lève une exception, la pile demeure intacte
Ensuite, la valeur courante de tete est lue de manière atomique puis déposée dans nouveau->pred. À partir de ce moment, nouveau connaît son prédécesseur présumé, mais tete n'a pas changé
Enfin, la boucle itère en essayant de remplacer la valeur de tete par celle de nouveau, en présumant que la valeur de tete soit alors nouveau->pred
Chaque fois que ceci échoue, cela signifie que la tête telle que connue par nouveau->pred a été remplacée par les actions d'un tiers. Remarquez cependant que la valeur courante de tete est alors placée dans nouveau->pred, donc que ce dernier « apprend » l'identité de son remplaçant
Ainsi, lorsque, éventuellement, l'opération réussit, nouveau est bel et bien sur le dessus de la pile, et son prédécesseur est bel et bien l'ancienne tête... à ce moment

Selon vous, cette implémentation est-elle sensible à un ABA?

Implémenter un mutex

Sachant ce que sont les opérations atomiques primitives, il est possible d'examiner comment peuvent être implémentés les mutex par un système d'exploitation. Ce qui suit n'est qu'une illustration, car chaque plateforme a ses propres outils et ses propres particularités, et se limite au User Space pour fins de simplicité. En ce sens, c'est plus près d'une section critique ou d'un futex que d'un mutex.

Le pseudocode assembleur à droite utilise un registre Rx et une adresse MUTEX qu'on présumera celle d'un entier de la taille du mot mémoire. L'exemple est exprimé avec un TSL mais en pratique, il est nettement plus probable que XCHG soit utilisé.

L'étape mutex_lock cherche à verrouiller MUTEX. Si la tentative réussit, on saute à ok et on quitte. Si la tentative échoue, on appelle thread_yield pour ne pas consommer tout le temps du processeur et, au retour, on essaie à nouveau de verrouiller MUTEX.

L'étape mutex_unlock, comme c'est souvent le cas, est plus simple. Évidemment, ce code présume que MUTEX ait été verrouillé au préalable.

mutex_lock:
   TSL Rx,MUTEX
   CMP Rx,#0
   JZE ok
   CALL thread_yield
   JMP mutex_lock
ok:
   RET

mutex_unlock:
   MOVE MUTEX,#0
   RET

Je vous invite à essayer d'implémenter la même chose avec XCHG, bien entendu.

Avec C++ et une atomique

Il est possible d'implémenter un mutex (sous forme d'un Spin Lock) avec une atomique. Ce qui suit est tiré de Concurrency in Action :

#include <atomic>
class mutex_spinlock {
   std::atomic_flag fanion;
public:
   mutex_spinlock()
      : fanion{ ATOMIC_FLAG_INIT }
   {
   }
   void lock() {
      while(fanion.test_and_set(std::memory_order_acquire))
         ;
   }
   void unlock() {
      fanion.clear(std::memory_order_release);
   }
};

Le std::atomic_flag est l'entité la plus primitive du zoo atomique de C++. De tous les types atomiques, c'est le seul pour lequel le standard garantit une implémentation vraiment sans verrous (une « pure atomique »). On ne peut presque rien faire avec ce type :

On peut l'initialiser (la macro ATOMIC_FLAG_INIT représente false)
On peut réaliser un Test and Set dessus, comme le montre l'implémentation de la méthode lock() ci-dessus. Cette opération tente de déposer true dans la variable et retourne true seulement si la variable ne contenait pas déjà true
On peut le vider (le remettre à zéro, à false) avec clear()

Comme vous pouvez le constater, cette petite gamme de services suffit à implémenter un mutex.

Atomicité – pédagogie

Si votre compilateur C ou C++ ne supporte pas encore les variables atomiques, alors les bibliothèques http://mintomic.github.io/ et http://www.hpl.hp.com/research/linux/atomic_ops/ peuvent vous rendre de précieux services.

L'atomicité est un concept de bas niveau, mais nécessaire de la multiprogrammation à l'aide de processeurs contemporains. Avec ce concept, nous touchons à la fois à la question des opérations indivises du point de vue logique et celle des contraintes de réordonnancement des opérations par les processeurs et leurs coeurs. Ces questions sont plus qu'importantes; en effet :

Si i est un entier, alors une opération d'auto-incrémentation telle que i++ n'est pas atomique puisque, sur le plan matériel, cette opération implique :
- charger le contenu de i dans un registre
- incrémenter la valeur du registre, et
- déposer le fruit de l'incrémentation dans i
Si l'opération i++ est faite concurremment par deux threads sur le même i, alors il est possible que bien que les sources du programme laissent entendre que i serait incrémenté deux fois, en pratique la valeur de i n'augmente que de 1 (une faute logique grave). Sur un entier atomique, où une opération comme l'auto-incrémentation est indivise, ce problème disparaît;
Si un programme est bien écrit, il est théoriquement possible de raisonner sur lui à partir de son code source. Si un processeur réordonnance des opérations de manière à ce que le comportement manifeste du processus résultant à l'exécution diffère du comportement manifeste attendu à partir des sources, alors la cohérence séquentielle du programme est perdue, et on passe essentiellement de science à magie noire.

L'atomicité est donc un requis pour assurer la cohérence séquentielle des programmes; dans un système multiprogrammé, sans atomicité, il n'est parfois pas possible de tirer du sens des sources du programme.

Les opérations atomiques sont celles qui ont été définies pour le langage dû à leur correspondance avec ce que peut offrir le substrat matériel. Par exemple (merci à JF Bastien pour ce qui suit, pris de https://github.com/jfbastien/no-sane-compiler) :

Sur x86 ou x64, les opérations se présentent comme suit : https://jfbastien.github.io/no-sane-compiler/#/3/1
Sur Power, elles se présentent comme suit : https://jfbastien.github.io/no-sane-compiler/#/3/2
Sur ARM v7, l'état de la situation est : https://jfbastien.github.io/no-sane-compiler/#/3/3
Sur ARM v8 A64, par contre, nous avons : https://jfbastien.github.io/no-sane-compiler/#/3/4
Sur Itanium, nous avons : https://jfbastien.github.io/no-sane-compiler/#/3/5
Sur Alpha, euh... https://jfbastien.github.io/no-sane-compiler/#/3/6

Le type std::atomic<T>

De prime abord, C++ offre de manière standard une version de std::atomic<T> pour les types T suivants :

Le type bool (qui est un type entier, mais pas un type arithmétique)
Les types entiers (éventuellement, les nombres à virgule flottante)
Les pointeurs

Il est possible d'utiliser le template std::atomic<T> pour d'autres types T que ceux-ci, dans la mesure où le type T en question est TriviallyCopyable, donc ses instances peuvent être dupliquées par une vulgaire copie bit à bit. Un std::atomic<T> n'est ni copiable, ni déplaçable; c'est une objet à manipuler avec soin.

Outre le type std::atomic_flag, qui est implémenté sans verrous sur toutes les plateformes (c'est une exigence du standard), tout les autres types std::atomic<T> peuvent être soutenus par une forme de verrou dans leur implémentation, surtout si le type T occupe plus d'espace en mémoire que ne le font les types primitifs.

La fonction std::atomic_is_lock_free() permet de vérifier si un objet donné est implémenté (ou non) sans verrous; de plus, à partir de C++ 17, std::is_always_lock_free (qui est constexpr) permettra de savoir si un type donné est toujours implémenté sans verrous sur la plateforme choisie.

De plus, les

Modèles de cohérence

Le terme anglais Memory Ordering Constraint, que j'ai traduit un peu librement ici par « modèle de cohérence », décrit un ensemble de règles contraignant les réordonnancements permis au compilateur et au processeur lors d'opérations sur une atomique. Les modèles de cohérence sont applicables à la fois sur une variable, et sur les opérations prises sur une base individuelle.

Avec C++, les modèles de cohérence possibles sont les suivants.

Nom	Lecture seule?	Écriture seule?	Lecture-Modification-Écriture?	Concept modélisé
memory_order_seq_cst	X	X	X	SC-DRF
memory_order_acq_rel			X	Acquire-Release
memory_order_release		X	X	Acquire-Release
memory_order_acquire	X		X	Acquire-Release
memory_order_consume	X		X	Acquire-Release (ne lui touchez pas pour le moment; il sera déprécié avec C++ 17, pour être retravaillé et réintroduit ultérieurement)
memory_order_relaxed	X	X	X	Relaxed

Les modèles de cohérence permettent de décrire les relations de synchronisation primitives dans un programme multiprogrammé.

SC-DRF – Séquentiellement cohérent en l'absence de conditions de course

Ce modèle est typiquement le comportement souhaité d'un programme, mais selon les architectures, il est possible qu'il soit trop dispendieux à atteindre pour certains programmes. On associe ce comportement au modèle de cohérence memory_order_seq_cst, qui est le modèle par défaut des opérations atomiques.

En gros, une opération atomique respectant ce modèle ne pourra être réordonnancée par le processeur. Les opérations qui la précèdent dans le code source continueront de la précéder à l'exécution, et les opérations qui la suivent dans le code source la suivront aussi à l'exécution.

Dans un programme SC-DRF, tous les threads voient les écritures aux données partagées se produire dans un même ordre.

Description informelle

Pour se faire une image de la cohérence séquentielle, supposons ceci :

Lorsque nous écrivons un programme, nous plaçons les instructions dans l'ordre selon lequel nous souhaitons qu'elles soient exécutées
Certains réordonnancements des instructions sont possibles sans briser la logique de notre programme, soit ceux entre opérations dont les données sont indépendantes. Par exemple, ci-dessous, nous pouvons faire $A$ et $B$ dans l'ordre qui nous convient et ça ne change rien :

x ← a + b; // A
y ← c + d; // B

Par contre, ci-dessous, si l'ordre des opérations $C$ et $D$ est permuté, le programme est brisé :

x ← a + b; // C
y ← x + c; // D

Ce dernier exemple montre une dépendance de données (Data Dependency), au sens où $D$ dépend du résultat de $C$ pour être raisonnable. Maintenant, il faut comprendre que quand un programme n'a qu'un seul thread, le compilateur (et par la suite, le processeur) voit la séquence entière d'exécution et peut déterminer un ordre raisonnable d'exécution qui soit efficace et qui respecte la cohérence de ce que décrit le code source.

Quand un programme n'est pas séquentiellement cohérent, cette garantie, qui nous permet de raisonner sur la base du code source pour évaluer ce que sera le comportement du programme, disparait. Il arrive qu'on puisse s'en accommoder, dans des circonstances pointues et pour des raisons de vitesse, mais en général on veut que nos programmes soient SC-DRF (séquentiellement cohérent en l'absence de conditions de course). C'est la garantie qu'offrent, par défaut, les langages contemporains (C++, mais aussi Java, C et C#).

Si des Data Races sont introduites dans un programme, la garantie SC s'en va et nous sommes sérieusement dans le pétrin.

En général, une Data Race, c'est simple à définir :

Au moins deux threads accèdent à un même objet
Au moins un des accès est en écriture
Il n'y a pas de synchronisation

Par « objet » ici, on entend une zone mémoire capable d'entreposer une valeur, pas seulement des trucs complexes comme des classes ou des instances de ces classes. Au sens de cette définition du terme « objet », en fait, un humble int est un objet.

Acquire-Release

Verrouiller un mutex est une opération Acquire, alors que le libérer est une opération Release sur la même variable

Ce modèle ne garantit pas d'ordonnancement total sur les écritures aux variables partagées d'un programme, mais permet des synchronisations plus locales, entre paires d'opérations.

Une opération Release se synchronise avec (synchronizes-with) une opération Acquire sur la même variable. Ceci permet à l'écriture d'une variable dans un thread et à la lecture de cette variable dans un autre thread d'être cohérentes entre elles, sans donner plus de garanties sur l'ensemble du programme. Ces synchronisations peuvent être transitives, ce qui peut permettre par exemple d'utiliser des opérations d'écriture Relaxed jusqu'à un Release dans un thread, puis de précéder les lectures Relaxed d'une lecture Acquire dans un autre thread, et de synchroniser du même coup plusieurs lectures et écritures à coût réduit.

Le cas de memory_order_consume est particulier du fait qu'il ne suppose une dépendance Acquire-Release que sur la base des dépendances entre les données, qui surviennent quand une opération modifie A, qui est utilisé pour modifier B, qui sert ensuite pour modifier C, etc.. Sur certaines architectures, les opérations pour lesquelles les dépendances ne reposent que sur un tel enchaînement de modifications à des données sont naturelles, alors que d'autres opérations requièrent des modalités plus strictes (et sont par conséquent plus lentes à exécuter).

Relâché (Relaxed)

Une atomique relâchée est telle que les opérations qui s'appliquent sur elle sont indivises... et c'est tout. Il arrive que cette contrainte seule soit suffisante dans un programme, typiquement pour des raisons contextuelles, mais mieux vaut éviter de toucher à cette bestiole qui a pour impact concret dans un programme de faire en sorte que plusieurs threads d'un même programme voient les écritures aux variables partagées se faire potentiellement dans plus d'un ordre distinct.

En résumé avec un accès atomique relâché :

Il y a possibilité de course sur chaque accès
Chaque accès est fait de manière indivise
La cohérence de la Cache demeure garantie
La visibilité d'une écriture par un threads n'est pas immédiate dans les autres threads

Sachant cela, pourquoi utiliserait-on des atomiques relâchées? Il y a quelques cas. Pensons par exemple à deux threads qui doivent incrémenter concurremment un même compteur : si notre seule préoccupation est que, suite à l'exécution des threads, la valeur du compteur soit cohérente, alors une incrémentation relâchée suffit. Notez toutefois qu'une atomique relâchée peut être plus rapide qu'une atomique séquentiellement cohérente, mais qu'elle ne le sera pas nécessairement, alors vérifiez vos hypothèses!

Implémenter un mutex simpliste avec lock(), try_lock() et unlock()

L'exemple qui suit est adapté d'un exemple d'un excellent article du brillant Jeff Preshing, article que vous trouverez sur http://preshing.com/20121019/this-is-why-they-call-it-a-weakly-ordered-cpu/ si vous souhaitez en savoir plus sur le sujet.

Implémentons un mutex « maison » à l'aide d'opérations atomiques. Notre mutex exposera les services de base attendus d'un tel type, soit lock(), try_lock() et unlock(). Une version de base serait :

#include <atomic>
class mini_mutex {
   std::atomic<int> fanion;
public:
   mini_mutex()
      : fanion{ 0 }
   {
   }
   bool try_lock() {
      int attendu = 0;
      return fanion.compare_exchange_strong(attendu, 1));
   }
   void lock() {
      int attendu = 0;
      while (!fanion.compare_exchange_weak(attendu, 1))
         ;
   }
   // precondition: le mutex est verrouillé
   void unlock() {
      fanion.store(0);
   }
};

Cette version utilise des opérations exigeant une pleine cohérence séquentielle, reposant sur le modèle opératoire par défaut qui est (implicitement) std::memory_order_seq_cst. Il se trouve qu'avec cette petite classe, nous n'avons pas besoin d'aussi fortes garanties, notre réel besoin étant d'assurer une synchronisation entre la prise du mutex et sa libération.

Une version opérationnellement équivalente mais potentiellement plus rapide car moins restrictive appliquerait des critères d'ordonnancement plus précis aux opérations sur l'attribut atomique fanion :

#include <atomic>
class mini_mutex {
   std::atomic<int> fanion;
public:
   mini_mutex()
      : fanion{ 0 }
   {
   }
   bool try_lock() {
      int attendu = 0;
      return fanion.compare_exchange_strong(attendu, 1, memory_order_acquire));
   }
   void lock() {
      int attendu = 0;
      while (!fanion.compare_exchange_weak(attendu, 1, memory_order_acquire))
         ;
   }
   // precondition: le mutex est verrouillé
   void unlock() {
      fanion.store(0, memory_order_release);
   }
};

Les opérations de type Acquire se synchronisent-avec les opérations de type Release sur une même variable.

Relations de synchronisation

On doit à Leslie Lamport la précieuse relation Happens-Before. Avec des atomiques séquentiellement cohérentes, Happens-Before sera respecté par défaut.

La relation Sequenced-Before décrit l'ordre « normal » d'exécution d'un programme dans une expression donnée : l'ordre des opérations dans le code source, essentiellement. Cette règle couvre des trucs tels que var = expr; où expr sera évalué avant l'écriture dans val (sauf si un comportement indéfini en découle).

La relation Synchronizes-With a trait aux paires Release et Acquire sur une même variable, au sens où le Release fait précédemment par un thread se produira avant le Acquire correspondant sur un autre thread, du moins dans la mesure où les modèles de cohérence choisis le permettent.

La relation Carries-Dependency, surtout utile avec memory_order_consume, permet au code de respecter les dépendances reposant strictement sur l'ordre transitif de modification de données. On pourrait parler de Release-Consume. Si les compilateurs parviennent un jour à en tirer profit, memory_order_consume pourrait être un équivalent plus léger des paires memory_order_acquire et memory_order_release, mais au moment d'écrire ceci, nous n'en sommes pas encore là.

Une relation Dependency-Ordered-Before est une opération Acquire-Release qui ne dépend que de Carries-Dependency.

Une relation Inter-Thread-Happens-Before est faite d'une séquence transitive de Synchronizes-With et de Carries-Dependency, avec certaines subtilités quand à la nature des opérations impliquées.

La relation Happens-Before prend effet dans le cas d'un Sequenced-Before ou d'un Inter-Thread-Happens-Before.

Pointeurs intelligents atomiques

Avant de lire ce qui suit, mieux vaut être familière ou familier avec les pointeurs intelligents.

Ce dont nous discutons ci-dessous fait partie de la spécification technique sur la concurrence de C++ telle que prévue pour expérimentation, probablement en vue d'une inclusion dans le standard à partir de C++ 17.

Avec C++ 14, il est possible de faire un pointeur intelligent sur une atomique mais le standard n'offre pas de pointeur atomique intelligent. En vue de C++ 17, une paire des types clés envisagés est celle faite des types atomic_shared_ptr<T> et de atomic_weak_ptr<T>. Il semble qu'un atomic_unique_ptr<T> ne semble pas immédiatement pertinent, alors ce type est exclu des discussions pour le moment.

Outre les services habituels offerts par les versions non-atomiques de ces pointeurs intelligents, les services proposés de manière spécifique aux versions atomiques sont :

Une méthode is_lock_free(), qui serait constexpr et const
La gamme des services compare_exchange_*() communes pour les atomiques
Le service général exchange()
Une méthode store(), et
Une méthode load()

Évidemment, les divers services atomiques ont trait au pointeur, pas au pointé.

À l'aide de pointeurs intelligents atomiques, en particulier avec un atomic_shared_ptr<T>, il est possible d'éviter avec une certaine élégance le très vilain problème d'ABA susceptible de survenir sur des structures de données sans verrous. Herb Sutter en parle d'ailleurs dans https://www.youtube.com/watch?v=CmxkPChOcvw. Évidemment, on peut s'en sortir sans avoir accès à un tel pointeur intelligent, mais c'est beaucoup plus laborieux :

Avec un atomic_shared_ptr Sans un atomic_shared_ptr Notes

Avec un atomic_shared_ptr	Sans un atomic_shared_ptr	Notes
atomic_shared_ptr<T> asp;	shared_ptr<T> sp;	Bien entendu, sp n'est pas atomique, mais on peut manipuler ce vers quoi il pointe avec des opérations atomiques
auto p = asp.load();	auto p = atomic_load(&sp);	On peut appliquer une opération atomique sur l'adresse de sp comme on peut appliquer une opération (implicitement atomique) sur asp. Il faut par contre le faire de manière volontaire, puisque ce n'est pas un automatisme sun un shared_ptr usuel.
`asp.compare_exchange_weak( attendu, souhaite );`	`atomic_compare_exchange_weak( &sp, attendu, souhaite );`

atomic_shared_ptr<T> asp;

shared_ptr<T> sp;

Bien entendu, sp n'est pas atomique, mais on peut manipuler ce vers quoi il pointe avec des opérations atomiques

auto p = asp.load();

auto p = atomic_load(&sp);

On peut appliquer une opération atomique sur l'adresse de sp comme on peut appliquer une opération (implicitement atomique) sur asp.

Il faut par contre le faire de manière volontaire, puisque ce n'est pas un automatisme sun un shared_ptr usuel.

asp.compare_exchange_weak(
   attendu, souhaite
);

atomic_compare_exchange_weak(
   &sp, attendu, souhaite
);

Lectures complémentaires

Herb Sutter a rendu disponible ses diapositives sur les atomiques à l'adresse https://onedrive.live.com/view.aspx?resid=4E86B0CF20EF15AD!24884&app=WordPdf&authkey=!AMtj_EflYn2507c

Aide en ligne sur les atomiques de C++ 11 :

Qu'est-ce qu'une opération atomique?

http://eversystems.eu/Document/28/What_is_an_atomic_operation
Texte de Danny Kalev en 2003 : http://www.informit.com/guides/content.aspx?g=cplusplus&seqNum=469
Texte de Jean-François Dubé en 2011 : http://jfdube.wordpress.com/2011/11/30/understanding-atomic-operations/
Explication par Jeff Preshing en 2012 : http://preshing.com/20120612/an-introduction-to-lock-free-programming
Explication détaillée par Bruce Dawson : http://msdn.microsoft.com/en-us/library/windows/desktop/ee418650%28v=vs.85%29.aspx
Explications de Rainer Grimm en 2016 : http://www.modernescpp.com/index.php/atomics
L'opération atomique la plus connue est l'opération Compare and Swap, mieux connu sous le vocable CAS, expliqué dans ce Wiki : http://en.wikipedia.org/wiki/Compare-and-swap
Certains préconisent aussi le Double CAS dans certains cas : http://en.wikipedia.org/wiki/Double_Compare_And_Swap
Pour un exemple de macro en langage C utilisant CAS, voir http://publib.boulder.ibm.com/infocenter/iseries/v5r3/index.jsp?topic=/rzahw/rzahwrzahwcascasco.htm
Texte décrivant le recours à CAS dans des algorithmes sans verrous : http://dissertations.ub.rug.nl/FILES/faculties/science/2005/h.gao/c4.pdf
Présentation sur le Multiple CAS : http://www.gilith.com/research/talks/arm2002.pdf
En 2012, Herb Sutter explique comment exprimer CAS avec des std::atomic de C++ 11 : http://herbsutter.com/2012/08/31/reader-qa-how-to-write-a-cas-loop-using-stdatomics/
- en 2014, un de ses lecteurs s'est questionné ouvertement à savoir si un Compare-Exchange était véritablement implémentable avec C++ 11, ce qui a amené Herb Sutter à montrer un peu ce qui peut se faire pour y arriver : http://herbsutter.com/2014/02/19/reader-qa-is-stdatomic_compare_exchange_-implementable/
Le coût de la contention sur des opérations atomiques, exploré par Fabian Giesen en 2014 : https://fgiesen.wordpress.com/2014/08/18/atomics-and-contention/
Atomicité avec C11, expliquée par Jonathan Corbet
- texte de 2014 sur l'atomicité dans le noyau de Linux : https://lwn.net/Articles/586838/
- le modèle de cohérence Consume, texte de 2014 : https://lwn.net/Articles/588300/
En 2014, Raymond Chen répond à la question « Est-ce que WriteProcessMemory() est une opération atomique? » : http://blogs.msdn.com/b/oldnewthing/archive/2014/05/15/10525620.aspx
Exploration de Spinlocks et de Read-Write Locks, code C à l'appui, en 2010 : http://locklessinc.com/articles/locks/
La cohérence séquentielle, expliquée par Rainer Grimm en 2016 :
- http://www.modernescpp.com/index.php/sequential-consistency
- http://www.modernescpp.com/index.php/sequential-consistency-applied
- http://www.modernescpp.com/index.php/ongoing-optiimization-sequential-consistency-with-cppmem
En 2016, Rainer Grimm explique std::atomic<bool> : http://www.modernescpp.com/index.php/the-atomic-boolean
Les garanties d'ordonnancement, expliquées par Rainer Grimm en 2016 : http://www.modernescpp.com/index.php/synchronization-and-ordering-constraints
Dans ces textes de 2016, Rainer Grimm explique la sémantique Acquire-Release :
- http://www.modernescpp.com/index.php/acquire-release-semantic
- http://www.modernescpp.com/index.php/transivity-of-the-acquire-release-semantic
- http://www.modernescpp.com/index.php/acquire-release-semantic-the-typical-misunderstanding
Rainer Grimm, dans ce texte de 2016, explique quelques cas pour lesquels une atomique relaxée peut suffire : http://www.modernescpp.com/index.php/relaxed-semantic (pour voir clairement l'impact de ces atomiques, voir http://www.modernescpp.com/index.php/ongoing-optimization-relaxed-semantic-with-cppmem)
En 2014, Raymond Chen explique comment il est possible de construire d'autres opérations Interlocked (comme un ++ atomiques par exemple) sur la base de Compare-Exchange : https://blogs.msdn.microsoft.com/oldnewthing/20140516-00/?p=973/
Quelques autres fonctions Interlocked utilitaires, proposées par Raymond Chen en 2015 : https://blogs.msdn.microsoft.com/oldnewthing/20151109-00/?p=92002/

Ordonnancement en mémoire et réordonnancements des opérations :

https://en.wikipedia.org/wiki/Out-of-order_execution
Explication de l'ordonnancement des opérations en mémoire sur des processeurs contemporains, par Paul E. McKenney en 2005 : http://www.linuxjournal.com/article/8211
Texte de Jean-François Dubé en 2012 : http://jfdube.wordpress.com/2012/03/08/understanding-memory-ordering/
Texte de Bartosz Milewski en 2008 : http://bartoszmilewski.com/2008/12/01/c-atomics-and-memory-ordering/

Les opérations RCU (Read-Copy-Update), qui permettent de réaliser certaines actions synchronisées de manière extrêmement efficaces avec Linux, mais qui sont très difficiles à implémenter en termes de la sémantique d'un langage de programmation :

https://www.kernel.org/doc/Documentation/RCU/rcu_dereference.txt

Série de textes très pédagogiques par le sympathique Jeff Preshing (les commentaires valent souvent la peine aussi, incluant des interventions d'experts tels que Bruce Dawson ou Herb Sutter) :

Texte depour comprendre ce que signifie la capacité qu'a un processeur de réodonnancer les opérations qu'il va exécuter, et constater les impacts de ces réordonnancements, le tout avec des exemples. La « beauté » du texte de Jeff Preshing est qu'elle montre que les réordonnancements sont contextuels : le même code peut être réordonnancé à l'occasion, mais pas à d'autres moments (dans son exemple, le réordonnancement examiné a lieu environ chaque $\frac{1}{6600}$ itération en moyenne!). Le texte montre aussi comment prévenir le réordonnancement constaté (sur x86 et x64), maisà l'aide d'assembleur inline, pas de manière portable : http://preshing.com/20120515/memory-reordering-caught-in-the-act/
Texte de 2012 proposant une introduction aux réordonnancements que réalisent les compilateurs à partir du code source. L'idée de base exposée est que les optimisations réalisées par un compilateur sur le code source ne doivent pas modifier le comportement observable d'un programme monoprogrammé; bien que le texte discute du contrôle des réordonnancements faits par le compilateur, ce contrôle ne suffit pas sur un ordinateur muni de plusieurs coeurs. Ce texte explique aussi pourquoi certaines optimisations, qui introduiraient une écriture dans une variable partagée par au moins deux threads là où il pourrait ne pas y en avoir eu dans le code source, sont des optimisations illégales en situation multiprogrammée : http://preshing.com/20120625/memory-ordering-at-compile-time/
Texte de 2012 proposant une introduction aux réordonnancements réalisés par les processeurs, sur le code machine généré par le compilateur (et potentiellement réordonnancé depuis les sources originales). Ce texte discute des sortes de clôtures susceptibles d'apparaître dans du code machine, de même que des réordonnancements que chacune de ces clôtures préviendra : http://preshing.com/20120710/memory-barriers-are-like-source-control-operations/
Les sémantiques d'acquisition et de libération sont des outils extrêmement primitifs pour permettre à deux threads de se passer de l'information de manière coopérative. Les atomiques de C++ 11 offrent par défaut une pleine cohérence séquentielle, et y arrivent en assurant que pour toute opération sur une atomique, une opération la précédant ne puisse pas être déplacée après elle et une opération lui succédant ne puisse pas être déplacée avant elle. Cependant, il est possible de réduire les exigences de synchronisation au niveau de la machine pour accélérer l'exécution d'un programme lorsque la situation s'y prête. Texte de 2012 sur le sujet : http://preshing.com/20120913/acquire-and-release-semantics/

Dans les mots de l'auteur :

« Acquire semantics prevent memory reordering of the read-acquire with any read or write operation which follows it in program order » et « Release semantics prevent memory reordering of the write-release with any read or write operation which precedes it in program order »

Les exemples proposés montrent comment établir des relations sur la base de ces sémantiques avec des clôtures explicites, de même qu'avec des opérations sur des atomiques prises sur une base individuelle.

Dans ce texte de 2012, l'auteur distingue quatre familles de modèles mémoires, soit : « très faibles », « faibles mais avec dépendances d'ordonnancement dans les données » (ce qui signifie qu'accéder à un membre d'un objet par indirection implique que le membre sera au moins aussi récent que l'objet auquel il appartient), « habituellement forts » et « séquentiellement cohérents ». Le texte donne ensuite des détails sur chacun des modèles et des exemples des impacts du modèle sur le code. Un détail : selon l'auteur, les modèles séquentiellement cohérents ne sont (ou n'étaient, en 2012) raisonnables que sur le plan logiciel; si le logiciel requiert une telle contrainte, alors il lui faut en général l'imposer au matériel par des opérations particulières (des clôtures, par exemple) : http://preshing.com/20120930/weak-vs-strong-memory-models/
Texte très pertinent de 2012 où l'auteur présente un appareil sur lequel la cohérence séquentielle n'est absolument pas garantie, et ou le modèle mémoire est « très faible », soit le iPhone 4S, un appareil à deux coeurs où il est possible qu'un thread voit deux opérations A et B se produire dans cet ordre alors qu'un autre thread voit B se produire avant A : http://preshing.com/20121019/this-is-why-they-call-it-a-weakly-ordered-cpu/
Dans ce texte de 2013, l'auteur décrit les opérations atomiques ou non, fait la distinction entre une condition de course et ce que le standard C++ 11 nomme une Data Race, et détaille à la fois des opérations machines non-atomiques et des opérations sur des données qui nécessitent plus d'un accès pour être lues ou écrites en entier : http://preshing.com/20130618/atomic-vs-non-atomic-operations/
Ce texte de 2013 explique l'importante relation Happens-Before, que nous devons à Leslie Lamport et qui nous permet de raisonner sur des programmes parallèles et concurrents, mais du point de vue de nos langages de programmation et du comportement de nos compilateurs. On y trouve aussi la distinction fine entre l'ordre d'occurrence des événements et l'ordre apparent dans lequel ils sont survenus : http://preshing.com/20130702/the-happens-before-relation/
Texte de 2013 qui propose une discussion d'un concept très contemporain, et qui implique Happens-Before : la relation Synchronizes-With. Ce texte montre la relation entre un Store-Release (signalement d'une condition) et un Load-Acquire (constat de la réalisation de cette condition). Concept clé : la relation Synchronizes-With est une relation dans la dynamique d'exécution du programme, pas dans le code source : http://preshing.com/20130823/the-synchronizes-with-relation/
Texte de 2013 portant sur les clôtures en acquisition et en libération : http://preshing.com/20130922/acquire-and-release-fences/

Selon l'auteur :

« An acquire fence prevents the memory reordering of any read which precedes it in program order with any read or write which follows it in program order » alors que « A release fence prevents the memory reordering of any read or write which precedes it in program order with any write which follows it in program order »

Décrit simplement, pour un programme strictement séquentiel et lu de haut en bas, une clôture en acquisition ne peut être déplacée vers le haut (tout ce qui la précède doit la précéder) alors qu'une clôture en libération ne peut être déplacée vers le bas (tout ce qui lui succède doit lui succéder).

Impact intéressant du modèle mémoire de C++ 11 : le Double-Checked Locking, technique préconisée entre autres pour assurer la création unique d'un singleton dynamique, redevient une approche acceptable. Ce texte de 2013 explique aussi comment un compilateur C++ implémentera maintenant (du moins, la plupart du temps) le caractère Thread-Safe de l'initialisation des variables statiques : http://preshing.com/20130930/double-checked-locking-is-fixed-in-cpp11/
En 2013, l'auteur, inspiré en partie par une réaction à une déclaration de Raymond Chen, explique les nuances entre de telles choses que Release Operation et Release Fence, expliquant au passage les sémantiques qui se dégagent (ou non) de l'une et de l'autre. En particulier, une clôture bloque le réordonnancement de toutes les opérations alors qu'une opération bloque le réordonnancement des opérations sur les mêmes données : http://preshing.com/20131125/acquire-and-release-fences-dont-work-the-way-youd-expect/
Le premier texte compréhensible, en 2014, sur lequel je sois tombé à propos du modèle de cohérence memory_order_consume :http://preshing.com/20140709/the-purpose-of-memory_order_consume-in-cpp11/
Corriger l'implémentation déficiente que fait gcc des opérations de type memory_order_consume, texte de 2014 : http://preshing.com/20141124/fixing-gccs-implementation-of-memory_order_consume/
Ce que l'on peut faire (et on peut faire beaucoup!) avec des opérations atomiques de type RMW, ou Read-Modify-Write, texte de 2015 : http://preshing.com/20150402/you-can-do-any-kind-of-atomic-read-modify-write-operation/

Les conditions de course découlant d'une mauvaise compréhension de l'atomicité, par Larry Osterman en 2005 : http://blogs.msdn.com/b/larryosterman/archive/2005/02/11/371205.aspx

La question de l'atomicité est une question difficile, surtout face à la capacité qu'ont les compilateurs de réorganiser le code pour réaliser des optimisations. Plusieurs articles ont été écrits sur l'atomicité en fonction de C++ 11, plusieurs par Hans Boehm :

En Java, l'atomicité tend à être étudiée sous l'angle de la mémoire transactionnelle, mais le langage offre aussi des classes atomiques :

http://www.ibm.com/developerworks/java/library/j-jtp11234/
Le mot clé volatile de Java n'a pas le sens d'atomique. Pour les nuances entre ces deux concepts, un article de Mark Brooker en 2012 : http://brooker.co.za/blog/2012/11/13/increment.html

Valider les clôtures et l'atomicité dans le noyau de Linux, par Paul E. McKenney en 2011 : http://lwn.net/Articles/470681/

Concevoir des verrous à partir d'opérations atomiques, un texte de Steven Fuerst : http://locklessinc.com/articles/locks/

Réflexions sur les clôtures atomiques de C++ 11, par Charles Bloom en 2012 :

Atomicité et langage C (depuis C11) :

Variables atomiques et le noyau de Linux, par Jonathan Corbet en 2014 : https://lwn.net/Articles/586838/
Mieux tirer profit des atomiques avec C11, série d'articles de 2016 :
- http://developerblog.redhat.com/2016/01/14/toward-a-better-use-of-c11-atomics-part-1/
- http://developerblog.redhat.com/2016/01/19/toward-a-better-use-of-c11-atomics-part-2/

Atomicité et langages .NET :

Un texte pédagogique, simple et bien fait, par Orion Edwards en 2012 : http://blog.orionedwards.com/2012/09/teched-2012-leadup-demo-1.html
De l'importance de distinguer atomicité et immuabilité dans le monde .NET, une série d'articles par Eric Lippert :
Est-il sage d'omettre un verrou lors d'une lecture d'un entier sur 32 bits en C#? Eric Lippert, en 2014, signale que ce n'est probablement pas le cas : http://blog.coverity.com/2014/03/12/can-skip-lock-reading-integer/

Comparaison du code généré pour des calculs sur un entier, un entier volatile et un entier atomique, par Marc Brooker en 2013 : http://brooker.co.za/blog/2013/01/06/volatile.html

Combiner programmation sur le GPU et variables atomiques, par Elmar Westphal en 2015 : https://devblogs.nvidia.com/parallelforall/voting-and-shuffling-optimize-atomic-operations/

Exemples mettant de l'avant des appareils dont le modèle mémoire est faible :

Texte de Pierre Lebeaupin en 2011 : http://wanderingcoder.net/2011/04/01/arm-memory-ordering/
Texte de Cory Doras en 2007 : http://ridiculousfish.com/blog/posts/barrier.html

Survol des modèles de cohérence de C++ 11, par Dan Maharry en 2012 : http://www.developerfusion.com/article/138018/memory-ordering-for-atomic-operations-in-c0x/

La programmation de structures synchronisées sans verrous, même si elle peut mener à des gains appréciables de rapidité, est une entreprise pour le moins périlleuse :

Quelques pièges typiques de ce type de programmation, relevés par David Stolp en 2013 : http://blog.memsql.com/common-pitfalls-in-writing-lock-free-algorithms/
Comparatif de 2015 entre la programmation synchronisée sans verrous et la programmation synchronisée à l'aide des mutex standards de C++ 11, par Willi Goesgens : https://www.arangodb.com/2015/02/16/comparing-atomic-mutex-rwlocks

À propos des pointeurs intelligents atomiques :

Il n'est pas possible de simplement écrire std::atomic<std::shared_ptr<T>> car un shared_ptr n'est pas copiable bit à bit. En retour, la nécessité d'un tel type a été démontrée à plusieurs reprises, entre autres pour résoudre certains cas d'ABA, ce qui explique que la spécification technique de C++ sur la concurrence intègre un type std::atomic_shared_ptr<T>
Texte d'Anthony Williams en 2015 expliquant en quoi ils sont nécessaires : https://www.justsoftwaresolutions.co.uk/threading/why-do-we-need-atomic_shared_ptr.html

Présentation d'Anthony Williams :

Comment ne pas se tirer dans les pieds avec les atomiques, en 2016 : https://www.justsoftwaresolutions.co.uk/files/ndc_oslo_2016_safety_off.pdf