Synchronisation par mémoire transactionnelle

Pour des ressources plus générales sur la synchronisation, voir Synchronisation.html

Plusieurs y croient, mais ça demeure expérimental sous bien des plateformes. L'idée est de travailler de manière optimiste : les opérations dans une zone transactionnelle ont lieu comme si elles avaient été faites sans que quelque situation de concurrence se soit produite, puis prennent effet si c'est bel et bien le cas (sinon, on recommence).

On comprendra que cette approche peut être dispendieuse s'il faut recommencer plusieurs fois la transaction, surtout si le travail réalisé dans la transaction est important.

La mémoire transactionnelle semble être la seule avenue vraiment envisageable pour synchroniser de manière générale des opérations impliquant plusieurs objets, comme par exemple std::swap() en C++. En effet, examinons une implémentation plausible de std::swap() :

namespace std {
   template <class T>
      void swap(T &a, T &b) {
         auto temp = std::move(a);
         a = std::move(b);
         b = std::move(temp);
      }
}

Cette fonction est essentielle : elle permet d'exprimer de manière idiomatique l'opérateur d'affectation, et intervient dans une multitude d'algorithmes standards, en particulier dans pratiquement tous les algorithmes de tri. Pourtant, en situation de concurrence, cette fonction est brisée : comment garantir l'absence de conditions de course sur a et b à travers l'ensemble des opérations? Utiliser des mutex est hors de question (ne sachant pas dans quel ordre les prendre, ou lesquels sont déjà pris, nous risquerions un interblocage).

Ce que nous voulons en fait est s'assurer que cette séquence s'exécute sans aucune interférence, ou du moins qu'elle soit reprise si une interférence est constatée. En d'autres termes, nous souhaitons que cette opération exprime une transaction, donc une séquence d'opérations qui n'aura d'effets visibles que lorsqu'elle aura été pleinement complétée sans interférences.

Selon la terminologie qui s'annonce pour C++ 20, nous voulons en fait ceci :

namespace std {
   template <class T>
      void swap(T &a, T &b) {
         atomic {
            auto temp = std::move(a);
            a = std::move(b);
            b = std::move(temp);
         }
      }
}

Évidemment, C++ étant ce qu'il est, il importe que l'approche que sous-tendra l'implémentation soit telle que l'ajout du bloc atomic, qui transforme cette séquence en transaction, soit essentiellement à coût nul si aucune interférence ne survient.

Mémoire transactionnelle avec C++

Pour un survol de ce qu'est la mémoire transactionnelle avec C++, de même que des problèmes qu'elle résout, permettez-moi de reformuler un extrait d'un blogue de Michael Wong lui-même (voir https://www.ibm.com/developerworks/community/blogs/5894415f-be62-4bc0-81c5-3956e82276f3/entry/The_view_from_the_May_2015_C_Standard_meeting?lang=en pour le texte original, qui couvre aussi plusieurs autres sujets, et voir http://www.open-std.org/jtc1/sc22/wg21/docs/papers/2015/n4514.pdf pour la spécification technique).

Nouveaux mots clés

Avec l'avènement de la mémoire transactionnelle en C++, quelques nouveaux mots clés s'ajoutent au langage.

Mot clé	Rôle
`atomic_noexcept`	Annonce un bloc de transaction et définit la sémantique de sa complétion
`atomic_commit`	Annonce un bloc de transaction et définit la sémantique de sa complétion
`atomic_cancel`	Annonce un bloc de transaction et définit la sémantique de sa complétion
`synchronized`	Annonce un bloc de transaction
`transaction_safe`	Explicite le comportement d'une fonction/ d'une méthode ou d'un pointeur de fonction/ de méthode
`transaction_safe_dynamic`	Explicite le comportement d'une méthode virtuelle
`[[transaction_unsafe]]`	Annotation destinée à guider la génération de code de manière optionnelle. Donne au compilateur un indice quand aux optimisations possibles. Le compilateur peut en tenir compte ou non, à sa convenance, ce qui explique qu'il s'agisse d'une annotation
`[[optimized_for_synchronized]]`	Annotation destinée à guider la génération de code de manière optionnelle. Indique le souhait une version spéculative pour les blocs synchronized pour le cas « typique » où aucune fonction considérée unsafe ne serait appelée

Les mots transaction_safe et transaction_safe_dynamic doivent être des mots clés à part entière car ils impactent la sémantique du code tel que généré. Ils sont placés à la suite de la parenthèse fermante donnant la liste des paramètres, p. ex. :

int f() transaction_safe;

Blocs transactionnels

Une transaction est délimitée par un bloc (une portée). Les blocs transactionnels peuvent être des blocs synchronized ou des blocs atomiques, qu'il s'agisse de blocs atomic_noexcept, atomic_commit ou atomic_cancel.

Une Data Race s'exécutant dans un bloc synchronized ou dans un bloc atomique n'est pas en situation de condition de course avec une condition de course dans un autre bloc synchronized ou atomique; elle peut toutefois se trouve en condition de course avec des opérations exécutées hors de blocs synchronized ou atomiques. Sans surprises, un programme contenant une Data Race tombe dans le domaine du comportement indéfini, ici comme ailleurs.

Bloc synchronized

La caractéristique d'un bloc synchronized est que, dans un programme, tous les blocs synchronized se comportent « comme si » ils étaient protégés d'un même mutex récursif global. Il n'est pas possible d'en arriver à un interblocage dans un programme où les blocs synchronized sont les seuls mécanismes de synchronisation utilisés.

Évidemment, on parle bien d'un « comme si », d'un comportement manifeste au sens de la synchronisation; en pratique, il est peu probable qu'une implémentation offre un mécanisme aussi inefficace. Cependant, en fonction du matériel et du système d'exploitation, les stratégies pour implémenter un bloc synchronized varieront beaucoup : verouillage spéculatif, détection de conflits et autres techniques d'analyse statique de code sont possibles ici, et certaines architectures matérielles offrent un support direct à la mémoire transactionnelle. Ceci explique que le standard de C++ laisse les détails de l'implémentation de ces blocs aux gens qui implémentent les divers compilateurs.

Pour en arriver à un programme efficace, il est préférable de restreindre les blocs synchronized à des zones de taille limitée, et de réduire les risques de conflits entre opérations dans des blocs synchronized distincts. De gros blocs synchronized ou des blocs où les opérations sont sujettes à forte contention mènent à des programmes moins rapides. Enfin, certaines opérations ne peuvent être exécutées de manière spéculative (p. ex. : les entrées / sorties), alors mieux vaut les éviter dans les blocs synchronized.

Le rôle des blocs synchronized est de résoudre quelques-uns des irritants associés à l'utilisation de mutex pour synchroniser de la mémoire. Avec un bloc synchronized, les programmeuses et les programmeurs n'ont pas à associer un verrou avec une zone mémoire, et n'ont pas non plus à se discipliner quant à la gestion des verrous (ordre de saisie, saine libération) pour éviter un interblocage.

Blocs atomiques

Les blocs atomiques sont ceux qu'on nomme blocs transactionnels atomiques, ou tout simplement blocs transactionnels. Ces blocs s'exécutent « comme si » ils s'exécutaient sans interférence externe et sans concurrence avec un autre bloc synchronized, à mois que le bloc atomique ne fasse lui-même partie d'un bloc synchronized bien sûr. De par son caractère transactionnel, un bloc atomique dicte le comportement à adopter lorsqu'une exception est levée dans le bloc mais n'y est pas attrapée.

Certaines opérations sont interdites dans un bloc atomique du fait qu'il serait impossible / ardu / coûteux (selon le cas) de les supporter. On dit de ces opérations qu'elles sont Transaction-Unsafe.

Comme pour les blocs synchronized, les blocs atomiques visent à remplacer des cas de synchronisation par verrous et à réduire les risques d'interblocage. Ici encore, mieux vaut se restreindre à des blocs atomiques de petite taille et englobant des opérations à faible contention pour « maximiser le retour sur l'investissement ».

Si un tel bloc se complète sans laisser sortir d'exception et sans appeler std::abort(), alors ses effets de bord deviennent visibles au reste du programme.

Un bloc atomic_noexcept affirme qu'il ne laissera pas sortir une exception du bloc transactionnel. Briser cette promesse mène à un programme au comportement indéfini.
Un bloc atomic_commit est tel que les opérations ayant eu lieu dans la transaction seront visibles hors du bloc transactionnel même si une exception sort du bloc transactionnel.
Enfin, un bloc atomic_cancel est tel que si l'exception levée est Transaction-Safe, alors la transaction est annulée (ses effets de bord ne seront pas constatés hors du bloc transactionnel) et l'exception sera levée. Lever une exception qui ne soit pas Transaction-Safe dans un tel bloc mène à un comportement indéfini.

Transaction-Safety

Certaines opérations sont Transaction-Unsafe et ne peuvent être exécutées dans un bloc atomique ou dans le code de fonctions appelées, directement ou non, d'un tel bloc. Le mot clé transaction_safe a été ajouté au langage pour faciliter l'analyse statique de cette propriété des fonctions d'un programme.

Élément intéressant et un peu novateur de C++ avec la mémoire transactionnelle : une fonction est présumée Transaction-Safe si sa définition ne contient pas de code Transaction-Unsafe. Cela s'applique aussi aux fonctions non-virtuelles dont le compilateur ne voit pas la définition (dans un tel cas, la vérification sera faite au moment de l'édition des liens). Le mot clé transaction_safe_dynamic permet à une méthode virtuelle de signaler qu'elle est transaction_safe et constitue un engagement pour ses classes dérivées.

Exemple de pertinence

Michael Wong signale avoir pris les exemples qui suivent de Generic Programming Needs Transactional Memory par Justin Gottschlich et Hans Boehm (TRANSACT 2013)

La programmation générique à l'aide de verrous mène parfois à des situations inextricables d'interblocage... Inextricables en l'absence de mémoire transactionnelle, du moins.

L'exemple suivant présente une telle situation à partir de l'interaction entre trois entités synchronisées à partir de verrous sur une base individuelle :

Un concurrent_sack<T>, permettant d'entreposer ou de consulter un T de manière synchronisée
Un objet global (pour fins de simplifcation de l'illustration) ze_log, de type log, qui permet une écriture synchronisée dans une string partagée, et
Une classe X dont les instances pourraient être déposées dans un concurrent_sack<X>

Dans tous les cas, les inclusions et les using sont présumés faits, pour alléger le propos.

Le concurrent_sack<T> est trivial, au sens mathématique du terme, n'offrant que deux services pour modifier et consulter de manière synchronisée un T.

template <class T>
   class concurrent_sack {
      T item;
      mutex m;
   public:
      // ...
      void set(T const &obj) {
         lock_guard<mutex> _{m};
         item = obj;
      }
      T const & get() const {
         lock_guard<mutex> _{m};
         return item;
      }
   };

La classe log permet d'ajouter de manière synchronisée du texte à ce qui s'y est accumulé. Les auteurs de cette classe ont choisi d'exposer des services explicites pour verrouiller et déverrouiller un log dans l'optique, on peut le présumer, de faire des ajouts en bloc.

L'objet ze_log est une instance globale de log, tout simplement.

class log {
   recursive_mutex m;
   string l_;
public:
   // ...
   void add(string const &s) {
      lock_guard<recursive_mutex> _{m};
      l_ += s;
   }
   void lock() {
      m.lock();
   }
   void unlock() {
      m.unlock();
   }
} ze_log;

Enfin, un X accepte l'affectation si ses invariants sont respectés (sorte d'encapsulation mal foutue) et écrit un message dans ze_log si l'affectation est refusée. Un X se convertit en std::string par son service to_str().

class X {
public:
   // ...
   X& operator=(X const &rhs) {
      if (!check_invariants(rhs))
         ze_log.add("non-respect d'invariant (encapsulation brisee)");
      return *this;
   }
   bool check_invariants(X const& rhs) {
      return /* verification selon le type */;
   }
   string to_str() const {
      return "...";
   }
};

Le problème est qu'avec ces classes, les extraits de programme ci-dessous tombent en Deadlock, et cet interblocage ne peut être résolu en permutant l'ordre de saisie des verrous.

Code global

Code global
`concurrent_sack<X> sack;`
Thread A	Thread B
`// obtenir sack.m sack.set(X{}); // le problème: veut obtenir ze_log.m (deadlock) // si dans X::operator=(), X::check_invariants(), // retourne false`	`// obtenir ze_log.m lock_guard<log> _{ze_log}; // pour faire ce qui suit, doit obtenir // sack.m (deadlock!) ze_log.add(sack.get().to_str()); ze_log.add("...");`

concurrent_sack<X> sack;

Thread A Thread B

// obtenir sack.m
sack.set(X{});
// le problème: veut obtenir ze_log.m (deadlock)
// si dans X::operator=(), X::check_invariants(),
// retourne false

// obtenir ze_log.m
lock_guard<log> _{ze_log};
// pour faire ce qui suit, doit obtenir
// sack.m (deadlock!)
ze_log.add(sack.get().to_str());
ze_log.add("...");

En réécrivant une partie de ce programme à l'aide de blocs transactionnels, toutefois, le problème s'évapore. La classe X ne change pas. Pour le reste :

Le concurrent_sack<T> est encore plus simple qu'auparavant, n'ayant plus besoin d'un mutex.

template <class T>
   class concurrent_sack    {
      T item;
   public:
      // ...
      void set(T const &obj) {
         atomic_cancel { item = obj; }
      }
      T const & get() const {
         atomic_cancel { return item; }
      }
   };

Il en va de même pour classe log. L'objet ze_log demeure une instance globale de log, tout simplement.

class log {
   string l_;
public:
   // ...
   void add(string const &s) {
      atomic_cancel { l_ += s; }
   }
} ze_log;

Code global

Code global
`concurrent_sack<X> sack;`
Thread A	Thread B
`// début d'une transaction sur sack sack.set(X{}); // si dans X::operator=(), X::check_invariants(), // retourne false, alors début une transaction // sur ze_log`	`// début d'une transaction locale atomic_cancel { // débute une transction sur sack, // puis sur ze_log ze_log.add(sack.get().to_str()); ze_log.add("..."); }`

concurrent_sack<X> sack;

Thread A Thread B

// début d'une transaction sur sack
sack.set(X{});
// si dans X::operator=(), X::check_invariants(),
// retourne false, alors début une transaction
// sur ze_log

// début d'une transaction locale
atomic_cancel
{
   // débute une transction sur sack,
   // puis sur ze_log
   ze_log.add(sack.get().to_str());
   ze_log.add("...");
}

L'ordre dans lequel les opérations synchronisées a lieu n'influence pas les risques d'interblocage puisqu'il n'y a pas de verrous nommés à verrouiller. Le recours aux blocs transactionnels apporte une abstraction plus épurée, moins entremêlée avec les détails d'implémentation.

Lectures complémentaires

Quelques liens suivent pour enrichir le propos.

Un Wiki sur le sujet : http://en.wikipedia.org/wiki/Software_transactional_memory
Texte important de Maurice P. Herlihy et J. Eliot B. Moss en 1993 : http://cs.brown.edu/~mph/HerlihyM93/herlihy93transactional.pdf
Un article important sur cette approche, par Tim Harris et Keir Fraser en 2003 : http://research.microsoft.com/en-us/um/people/tharris/papers/2003-oopsla.pdf
Une présentation de l'idée et des enjeux, par Ali-Reza Adl-Tabatabai, Christos Kozyrakis et Bratin Saha en 2006 : http://queue.acm.org/detail.cfm?id=1189288
Une analogie entre la mémoire transactionnelle et la collecte d'ordures, par Dan Grossman en 2007 (c'est le texte qui m'a introduit à ce concept, personnellement) : http://www.cs.washington.edu/homes/djg/papers/analogy_oopsla07.pdf
Une thèse sur les enjeux de la conception d'une mémoire transactionnelle hybride, par Chì Cao Minh en 2008 : http://tcc.stanford.edu/publications/tcc_thesis_caominh.pdf
Critiques de ce modèle :
- par Patrick Logan en 2007 : http://patricklogan.blogspot.com/2007/02/misguided-road-not-to-be-travelled.html
- par Bryan Cantrill en 2008 : http://dtrace.org/blogs/bmc/2008/11/03/concurrencys-shysters/
- selon Hans Boehm, en 2009, la mémoire transactionnelle devrait être une technique d'implémentation, pas une interface de programmation : http://www.hpl.hp.com/techreports/2009/HPL-2009-45.pdf
- du point de vue de Python : http://www.artima.com/forums/flat.jsp?forum=122&thread=327467
Succès de ce modèle :
- pour Haskell, par Simon Peyton-Jones en 2010 : http://article.gmane.org/gmane.comp.lang.haskell.cafe/78833
- étude des erreurs de programmation, avec et sans mémoire transactionnelle, par Christopher J. Rossbach, Owen S. Hofmann et Emmett Witchel en 2009 : http://www.cs.utexas.edu/users/rossbach/pubs/wddd09-rossbach.pdf
- autre étude comparative, par Victor Pankratius en 2009 : http://www.ipd.uka.de/Tichy/uploads/publikationen/222/pankratius-TMStudy-Pankratius-ICSE2009.pdf
- cas d'utilisation, décrit en 2013 : http://joeyh.name/blog/entry/the_newinwheezy_game:_STM/
L'impact de la sémantique de mouvement sur la sécurité face aux exceptions et sur l'optimisation dans les mémoires transactionnelles, texte de 2008 par Justin E. Gottschlich, Jeremy Siek et Daniel A. Connors : http://eces.colorado.edu/~gottschl/pubs/icooolps08-exception.pdf
Python aurait besoin de mémoire transactionnelle, selon Armin Rigo :
- texte de 2011 : http://morepypy.blogspot.com/2011/08/we-need-software-transactional-memory.html
- texte de 2012 : http://morepypy.blogspot.com/2012/01/transactional-memory-ii.html
- À propos de l'approche que prend Python dans l'implémentation PyPy, textes d'Armin Rigo en 2012 :
  - http://morepypy.blogspot.se/2012/04/stm-update-and-thanks-everybody.html
  - http://morepypy.blogspot.ca/2012/05/stm-update-back-to-threads.html
  - état de la situation en 2013, du moins avec PyPy, le tout rapporté par Maciej Fijalkowski (pour Remi Meier et Armin Rigo) : http://morepypy.blogspot.jp/2013/07/software-transactional-memory-lisp.html
- suivi du dossier, par Armin Rigo :
  - texte de 2013 : http://morepypy.blogspot.ca/2013/08/update-on-stm.html
  - texte de 2014 : http://morepypy.blogspot.ca/2014/04/stm-results-and-second-call-for.html
  - texte de 2014, indiquant qu'on en serait enfin à une version digne d'intérêt : http://morepypy.blogspot.ca/2014/07/pypy-stm-first-interesting-release.html
Sur le design de mémoires transactionnelles : http://portal.acm.org/citation.cfm?id=1066660... (il vous faudra un accès au ACM).
Discussion riche et intéressante par plusieurs spécialistes et portant sur cet outil, en 2008 et du point de vue de Clojure : http://web.archive.org/web/20100405125722/http://blogs.azulsystems.com/cliff/2008/05/clojure-stms-vs.html
Avec C++ et C sous gcc, un projet expérimental de mémoire transactionnelle est décrit de manière succincte dans : http://gcc.gnu.org/wiki/TransactionalMemory
Les expérimenations de Microsoft en ce sens :
- implémenter une mémoire transactionnelle en C# pur, par Sandro Magi en 2011 : http://higherlogics.blogspot.com/2011/09/software-transactional-memory-in-pure-c.html
- texte de S. Somasegar en 2009 : http://blogs.msdn.com/b/somasegar/archive/2009/07/27/stm-net-in-devlabs.aspx
- pourquoi ces expérimentations ont été abandonnées :
  - selon Jonathan Allen en 2010 : http://www.infoq.com/news/2010/05/STM-Dropped
  - selon Joe Duffy (un texte plus touffu), en 2010 : http://www.bluebytesoftware.com/blog/2010/01/03/ABriefRetrospectiveOnTransactionalMemory.aspx
  - aussi selon Joe Duffy, en 2010 : http://www.bluebytesoftware.com/blog/2010/05/17/MoreThoughtsOnTransactionalMemory.aspx
À propos de l'approche que prend Java :
- un texte de R. Mark Volkmann en 2009 : http://java.ociweb.com/mark/stm/article.html
- texte de Peter Lawrey en 2014 : http://vanillajava.blogspot.com.es/2014/02/hardware-transactional-memory-in-java.html
À propos de l'approche que prend Scala, un texte de Daniel Spiewak en 2008 : http://www.codecommit.com/blog/scala/software-transactional-memory-in-scala
Une implémentation matérielle chez IBM :
- texte de 2011 : http://arstechnica.com/hardware/news/2011/08/ibms-new-transactional-memory-make-or-break-time-for-multithreaded-revolution.ars
- texte de 2012, en lien avec le processeur « Haswell » : http://software.intel.com/en-us/blogs/2012/02/07/transactional-synchronization-in-haswell/
- analyse du modèle préconisé par « Haswell », texte de David Kanter en 2012 : http://www.realworldtech.com/page.cfm?ArticleID=RWT021512050738
Ce qu'on nomme le Lock Elision, optimisation du modèle de mémoire transactionnelle qui se présente comme suit :
- une séquence d'opérations (la transaction) est tentée de manière spéculative et optimiste;
- si rien n'interfère avec cette séquence, alors le dossier est clos;
- dans le cas où une interférence survient, la transaction est avortée et un verrou est pris pour tenter à nouveau la transaction, mais cette fois avec synchronisation.
L'idée derrière la mémoire transactionnelle est de présumer qu'en général, les transactions optimistes réussiront, ce qui évitera le coût de la synchronisation, mais d'accepter de recommencer (avec synchronisation, donc de manière plus coûteuse) le cas échéant. À ce sujet :
- texte d'Andi Kleen en 2013 : http://lwn.net/SubscriberLink/534758/bcb45583bc25268d/
- texte de Nathan Willis en 2013 : http://lwn.net/Articles/557222/
Mémoire transactionnelle dans le noyau de Linux, texte de Jonathan Corbet en 2013 : http://lwn.net/Articles/568984/
Avec Ruby, selon Rei Odaira et Jose G. Castanosen 2014, il semble possible de se débarrasser d'un verrous.html#gil en utilisant de la mémoire transactionnelle : http://researcher.watson.ibm.com/researcher/view_person_subpage.php?id=4800
Rapport de Brett Hall en 2015 sur l'utilisation dans de véritables projets d'une implémentation commerciale (autre que celle mise de l'avant pour C++ 20) de mémoire transactionnelle en C++ : https://backwardsincompatibilities.files.wordpress.com/2015/04/stm-paper.pdf
Un bogue possible avec la mémoire transactionnelle est la « famine mémoire », provoquée parce qu'une transaction ne parvient pas à se compléter du fait qu'un tiers accède en écriture aux données dont elle dépend, et ce de manière régulière. En 2015, Brett Hall décrit une occurrence de ce problème, et explique la difficulté de le contourner : https://backwardsincompatibilities.wordpress.com/2015/07/09/incomplete-mitigation/
Mesurer l'impact d'une mémoire transactionnelle sur la vitesse d'un programme, par Josip Bakić en 2014 : https://josipbakic.wordpress.com/2014/03/15/benchmarking-an-stm/