Passer un paramètre par valeur ou par référence-vers-const?

Ce qui suit a été écrit dans une séance en classe suite à une pertinente question des chics Luc Lessard et Pierre-Marc Bérubé, étudiants de la cohorte 07 du DDJV à l'Université de Sherbrooke.

Notez que les équations dans ce document sont affichées à l'aide de MathJax. Notez aussi que j'ai utilisé std::rand(), un générateur de nombres pseudoaléatoires aujourd'hui déprécié, dans le but de simplifier le propos, mais que vous devriez éviter de faire de même dans du code de production; voir ../Divers--cplusplus/prng.html pour en savoir plus.

Pour comprendre la fonction test que nous utiliserons, voir ../AuSecours/Mesurer-le-temps.html

Quand doit-on passer un paramètre par valeur ou par référence-vers-const? En C++, langage où les objets sont souvent manipulés directement plutôt qu'indirectement, comme en Java ou en C#, cette question a un impact sur la vitesse d'exécution des programmes. Ce qui suit escamote évidemment le cas des références non-const, car ce cas n'est pas sémantiquement équivalent à un passage par valeur (la fonction recevant la référence en paramètre peut accéder au référé de manière à le modifier, du moins si l'interface du référé le permet).

Plusieurs autres enjeux sont à considérer dans le choix d'un type de passage de paramètre ou de l'autre, en particulier le contexte. Si vous avez recours à de la multiprogrammation, et s'il y a un risque que l'objet original soit manipulé en écriture par un autre thread, alors mieux vaut avoir recours à une copie. La qualification const n'est applicable que localement, après tout, et rien n'est plus surprenant que de manipuler une « constante » qui, par l'action d'un autre tronçon de programme, change subitement d'état.

Dans ce petit article, nous nous intéresserons surtout à la question de la taille des objets. À partir de quel moment est-il préférable d'éviter une copie, même pour un POD dont la Sainte-Trinité est implictement correcte? Cette question touche directement une partie de mes étudiants, qui manipulent une grande quantité de D3DXVECTOR3, vecteurs 3D de DirectX, que je remplacerai ci-dessous par un simulacre nommé TiVecteur par souci de simplicité.

Notez au passage la syntaxe que j'ai choisi d'utiliser ici pour les attributs (publics, noms destinés à être utilisés par le code client) et pour les noms des paramètres (le même que celui des attributs, mais en préconstruction ceci ne provoque pas d'ambiguïté) passés au constructeur paramétrique. Sans que je ne sois un fervent défenseur de cette approche, elle est légale et, occasionnellement, préconisée par des penseurs tels qu'Andrew Koenig, dans un cas comme celui-ci où l'objet, de par ses états, est sa propre interface.

Examinons maintenant le code de test auquel nous aurons recours pour réaliser le comparatif en question. Notre première version montrera le code de test en entier, alors que les versions subséquentes se limiteront à présenter les nuances et versions alternatives.

Les résultats à l'exécution de ces tests, sur mon ordinateur portatif, vont comme suit (l'affichage de la somme cumulée est purement bidon, évidemment) :

Temps total: 560 ms.
6.71089e+007
Temps total: 718 ms.
6.71089e+007
Appuyez sur une touche pour continuer...

Ainsi, malgré les accès indirects aux attributs, la version référence-vers-const est ici significativement plus rapide que la version recevant un paramètre par valeur. Notez que nous utilisons ici des objets plus gros que la taille des registres, du moins sur une machine 32 bits.

Les résultats à l'exécution de ces tests, sur mon ordinateur portatif, vont comme suit :

Temps total: 515 ms.
3.35544e+007
Temps total: 697 ms.
3.35544e+007
Appuyez sur une touche pour continuer...

Encore une fois, la version appliquant la référence-vers-const est nettement plus rapide que celle procédant par valeur.

Les résultats à l'exécution de ces tests, sur mon ordinateur portatif, vont alors comme suit :

Temps total: 695 ms.
3.35544e+007
Temps total: 673 ms.
3.35544e+007
Appuyez sur une touche pour continuer...

Sans grande surprise, la copie manuelle est moins efficace (de peu) que celle, implicite, faite par le compilateur.

Tests un peu plus poussés

Dans le but de mieux comprendre la dernière gamme de résultats, je me suis permis une série supplémentaire de tests. Dans ce qui suit, nous construirons une liste de types, puis nous testerons des appels de fonctions recevant en paramètre des instances de ces types (a) dans un enrobage simple passé par valeur, (b) dans un enrobage simple passé par référence-vers-const, et (c) par valeur, sans enrobage. Nous obtiendrons ainsi des comparatifs de performances dans chaque cas.

Notez que, dans le cas de types dont la copie est nécessairement coûteuse (par exemple des instances de std::string, qui sont responsables de la gestion de mémoire allouée dynamiquement pour les données entreposées à l'interne), nous adaptons les tests de manière à ce que les tests soient résolus dans un temps raisonnable, et ne provoquent pas un épuisement des ressources disponibles (un manque de mémoire).

Type double, sizeof(double): 8, sizeof(Wrap<double>): 8, 40000000 tests
	Wrap<double>, par valeur: 390.916 ms.
	Wrap<double>, par ref-to-const: 82.9237 ms.
	double, par valeur: 78.0677 ms.
	double, par ref-to-const: 76.9429 ms.
Type struct point3D, sizeof(struct point3D): 12, sizeof(Wrap<struct point3D>): 12, 40000000 tests
	Wrap<struct point3D>, par valeur: 409.007 ms.
	Wrap<struct point3D>, par ref-to-const: 413.761 ms.
	struct point3D, par valeur: 416.922 ms.
	struct point3D, par ref-to-const: 445.863 ms.
Type struct point2D, sizeof(struct point2D): 8, sizeof(Wrap<struct point2D>): 8, 40000000 tests
	Wrap<struct point2D>, par valeur: 329.589 ms.
	Wrap<struct point2D>, par ref-to-const: 351.761 ms.
	struct point2D, par valeur: 330.858 ms.
	struct point2D, par ref-to-const: 333.001 ms.
Type string, sizeof(string): 28, sizeof(Wrap<string>): 28, 80000 tests
	Wrap<string>, par valeur: 13324.5 ms.
	Wrap<string>, par ref-to-const: 4688.57 ms.
	string, par valeur: 5024 ms.
	string, par ref-to-const: 4637.68 ms.
Type float, sizeof(float): 4, sizeof(Wrap<float>): 4, 40000000 tests
	Wrap<float>, par valeur: 219.235 ms.
	Wrap<float>, par ref-to-const: 215.845 ms.
	float, par valeur: 216.211 ms.
	float, par ref-to-const: 217.646 ms.
Type long, sizeof(long): 4, sizeof(Wrap<long>): 4, 40000000 tests
	Wrap<long>, par valeur: 42.146 ms.
	Wrap<long>, par ref-to-const: 41.2557 ms.
	long, par valeur: 40.7634 ms.
	long, par ref-to-const: 41.2694 ms.
Type int, sizeof(int): 4, sizeof(Wrap<int>): 4, 40000000 tests
	Wrap<int>, par valeur: 40.0836 ms.
	Wrap<int>, par ref-to-const: 40.1995 ms.
	int, par valeur: 67.3221 ms.
	int, par ref-to-const: 39.4935 ms.
Type short, sizeof(short): 2, sizeof(Wrap<short>): 2, 40000000 tests
	Wrap<short>, par valeur: 32.8086 ms.
	Wrap<short>, par ref-to-const: 50.0433 ms.
	short, par valeur: 30.3995 ms.
	short, par ref-to-const: 30.1335 ms.
Type char, sizeof(char): 1, sizeof(Wrap<char>): 1, 40000000 tests
	Wrap<char>, par valeur: 27.9922 ms.
	Wrap<char>, par ref-to-const: 28.09 ms.
	char, par valeur: 28.1164 ms.
	char, par ref-to-const: 39.2361 ms.
Type double, sizeof(double): 8, sizeof(Wrap<double>): 8, 40000000 tests
	Wrap<double>, par valeur: 393.712 ms.
	Wrap<double>, par ref-to-const: 82.6255 ms.
	double, par valeur: 95.9937 ms.
	double, par ref-to-const: 82.3362 ms.

Tout d'abord, pour faciliter la rédaction d'un code de génération d'instances de TiVecteur, j'utiliserai une fonction génératrice (une méthode de classe dans TiVecteur aurait aussi été convenable ici). Pour les besoins de la cause, chaque TiVecteur aura des coordonnées situées inclusivement entre 0.0f et 1.0f. Je créerai chaque coordonnée avec une expression λ pour garder le tout concis.	`#include <cstdlib> TiVecteur creer() { using std::rand; auto creer_elem = [] { return static_cast<float>(rand())/RAND_MAX; }; return { creer_elem(), creer_elem(), creer_elem() }; }`
La fonction par_copie() réalisera une opération sur une copie d'un TiVecteur, alors que la fonction par_ref_to_const() réalisera la même opération sur une référence vers un TiVecteur qualifié const. L'idée ici est de répéter plusieurs fois ces opérations pour constater leur poids en termes de temps d'exécution.	`float par_copie(TiVecteur tv) { return tv.x + tv.y + tv.z; } float par_ref_to_const(const TiVecteur &tv) { return tv.x + tv.y + tv.z; }`
Le programme de test sera simple : Tout d'abord, un vecteur standard sera initialisé de manière à contenir une grande quantité d'instance de TiVecteur, tous créés « au hasard » (ici, le générateur de nombres pseudo-aléatoires n'est pas initialisé pour faire en sorte que les tests soient stables) Notez brièvement que l'opération la plus lente ici est probablement d'allouer dynamiquement l'espace pour N instances de TiVecteur, étant donné la valeur de N Notez aussi qu'un test comme celui-ci n'a de sens que sur du code compilé avec pleine optimisation. Sur un code « en mode Debug », les résultats ne sont pas pertinents	#include <vector> #include <algorithm> #include <numeric> #include <iostream> #include <iterator> #include <chrono> #include <utility> using namespace std; using namespace std::chrono; template <class F, class ... Args> auto test(F f, Args &&... args) { auto pre = high_resolution_clock::now(); auto res = f(std::forward<Args>(args)...); auto post = high_resolution_clock::now(); return pair{ res, post - pre }; } int main() { enum { N = 100'000'000 }; vector<TiVecteur> v; v.reserve(N); generate_n(back_inserter(v), int{N}, creer);
Ensuite, pour les fins du test, nous appelons plusieurs fois chacune de nos deux fonctions de test (plus haut), et nous cumulons une somme bidon que nous afficherons pour empêcher le compilateur d'optimiser le code à un point tel que ces fonctions, somme toute inutiles, ne soient pas appelées	auto [r0, dt0] = test([&v] { return accumulate( begin(v), end(v), float{}, [](float a_date, const TiVecteur &tv) { return a_date + par_ref_to_const(tv); }); }); cout << "Temps total: " << duration_cast<milliseconds>(dt0).count() << " ms." << endl; cout << r0 << endl; auto [r1, dt1] = test([&v] { return accumulate( begin(v), end(v), 0.0f, [](float a_date, TiVecteur tv) { return a_date + par_copie(tv); }); }); cout << "Temps total: " << duration_cast<milliseconds>(dt1).count() << " ms." << endl; cout << r1 << endl; }

Pour éviter de polluer l'affichage des résultats par des sorties peu pertinentes, nous utiliserons un flux bidon, global, que j'ai nommé ici nullout. Ce sera le pseudo /dev/null de notre programme.	`#include <ostream> #include <ctime> #include <algorithm> #include <numeric> #include <fstream> #include <chrono> std::ofstream nullout;`
Sur le compilateur utilisé pour mes tests, les noms obtenus par RTTI pour les types primitifs convenaient à mes besoins, mais ceux pour les templates comme std::string, qui est en fait un alias pour le type suivant : `class std::basic_string<char,struct std::char_traits<char>,class std::allocator<char>>` ...ce qui est un peu verbeux. J'ai donc défini des traits pour obtenir des noms plus près de ce que je souhaitais avoir pour fins d'affichage.	`template <class T> struct traits_types { static const char* name() { return typeid(T).name(); } }; template <> struct traits_types<std::string> { static constexpr const char* name() { return "string"; } };`
Les tests en soi seront plus simples que le code ne le suggère : Nous projetons tout d'abord quelques informations sur les types impliqués et sur le nombre de tests à réaliser (un par élément du vecteur source) Pour chaque type de test, nous réalisons une accumulation des valeurs des divers éléments du vecteur source. Notez que dans certains cas (ceux de types tels que std::string), ceci peut être extrêmement coûteux dû aux multiples allocations de mémoire Nous affichons chaque fois le cumul sur nullout, pour forcer le compilateur à générer le code de test (s'il n'y a aucun effet secondaire à nos calculs, le compilateur les éliminera sans gêne) Le code à droite peut être simplifié de plusieurs manières, si la chose vous amuse : Ajouter un chronomètre RAII pour saisir les temps avant et après un test Remplacer l'affichage du temps écoulé par une fonction Évidemment, le choix d'appels à std::accumulate() pour les tests est arbitraire. Vous pouvez procéder autrement si le coeur vous en dit.	#include <vector> #include <iterator> template <class T> void tester(std::ostream &os, const std::vector<Wrap<T>> &v) { using namespace std; using namespace std::chrono; const char *nom = traits_types<T>::name(); os << "Type " << nom << ", " << "sizeof(" << nom << "): " << sizeof(T) << ", " << "sizeof(Wrap<" << nom << ">): " << sizeof(Wrap<T>) << ", " << v.size() << " tests" << endl; cout << "Type " << nom << ", " << "sizeof(" << nom << "): " << sizeof(T) << ", " << "sizeof(Wrap<" << nom << ">): " << sizeof(Wrap<T>) << ", " << v.size() << " tests" << endl; { auto avant = system_clock::now(); T res = accumulate(begin(v), end(v), T(), [](T so_far, Wrap<T> w) { return so_far + par_valeur(w); }); auto apres = system_clock::now(); os << "\tWrap<" << nom << ">, par valeur: " << duration_cast<milliseconds>(apres-avant) << " ms." << endl; nullout << "\tBidon: " << res << endl; } { auto avant = system_clock::now(); T res = accumulate(begin(v), end(v), T(), [](T so_far, const Wrap<T> &w) { return so_far + par_ref_to_const(w); }); auto apres = system_clock::now(); os << "\tWrap<" << nom << ">, par ref-to-const: " << duration_cast<milliseconds>(apres-avant) << " ms." << endl; nullout << "\tBidon: " << res << endl; } vector<T> raw; transform(begin(v), end(v), back_inserter(raw), [](const Wrap<T> &w) { return w.valeur; }); { auto avant = system_clock::now(); T res = accumulate(begin(raw), end(raw), T(), [](T so_far, T val) { return so_far + pass_thru(val); }); auto apres = system_clock::now(); os << "\t" << nom << ", par valeur: " << duration_cast<milliseconds>(apres-avant) << " ms." << endl; nullout << "\tBidon: " << res << endl; } { auto avant = system_clock::now(); T res = accumulate(begin(raw), end(raw), T(), [](T so_far, const T &val) { return so_far + pass_thru(val); }); auto apres = system_clock::now(); os << "\t" << nom << ", par ref-to-const: " << duration_cast<milliseconds>(apres-avant) << " ms." << endl; nullout << "\tBidon: " << res << endl; } }
Étant donné la différence importante entre les temps de tests sur des primitifs et sur des objets responsables d'allouer dynamiquement de la mémoire, j'ai choisi d'ajouter une indirection pour déterminer le nombre de tests à faire, pour réduire le nombre de tests dans le cas de ces types. Le facteur de réduction choisi ici est empirique.	`template <class, int N> struct traits_taille { enum { value = N }; }; template <int N> struct traits_taille<std::string, N> { enum { value = N / 500 }; };`
La fonction tester() construit un vecteur standard de Wrap<T>, et base la taille de ce vecteur sur les traits de taille associés au type T, le tout avant de débuter les tests à proprement dit. Les affichages des tests se feront sur std::clog, qui correspondra au fichier choisi en fonction des besoins (ici, dans main()).	`#include <iostream> template <class T, int N> void tester() { using namespace std; vector<Wrap<T>> v; enum { NB = traits_taille<T,N>::value }; v.reserve(NB); generate_n(back_inserter(v), int{NB}, creer_wrap<T>); tester(clog, v); }`
Étant donné qu'il n'est pas possible d'appliquer une approche itérative sur une liste de types, nous procéderons par une approche récursive, un type à la fois, à l'aide du type appliquer. Ce type appliquera la méthode (générique) execute() d'une classe oper (du type Op) donnée ur chaque type d'une liste de types. Il est hautement probable que le type Op ici soit un foncteur. Notez que cette partie de l'exemple devrait être modernisée pour s'exprimer sous forme de Fold Expression. Je le ferai quand j'aurai quelques minutes...	`template <class> struct appliquer; template <class T, class Q> struct appliquer<type_list<T,Q>> { template <class Op> static void execute(Op oper) { oper.execute<T>(); appliquer<Q>::execute(oper); } }; template <class T> struct appliquer<type_list<T,Vide>> { template <class Op> static void execute(Op oper) { oper.execute<T>(); } };`
Le démarage des tests passera par la classe tests<N>, à travers la méthode execute<T>(). Le nombre de tests sera donc fixé au global, alors que la réalisation de chaque test sera typée.	`template <int N> struct tests { template<class T> void execute() { tester<T,N>(); } };`
Pour répondre en partie à la question initiale, en lien avec un agrégat de nombres à virgule flottante, nous utiliserons aussi les types point2D et point3D, qui rejoindront conceptuellement et structurellement les instances de TiVecteur dans les tests initiaux. J'ai adapté les outils de création d'objets (fonctions génératrices creer_wrap<T>()) à ces types, pour que le code de test demeure aussi simple que possible. Le recours à un opérateur + pour chaque type de point tient au fait que cet opérateur est utilisé par nos implémentations des opérations suppléées à std:accumulate() dans le code de test.	struct point2D { float x{}, y{}; point2D() = default; point2D(float x, float y) : x{x}, y{y} { } }; point2D operator+(point2D a, point2D b) { return { a.x + b.x, a.y + b.y }; } std::ostream& operator<<(std::ostream &os, const point2D &pt) { return os << pt.x << ',' << pt.y; } template <> Wrap<point2D> creer_wrap<point2D>() { using std::rand; auto creer = [] { return static_cast<float>(rand()) / RAND_MAX; }; return { point2D{ creer(), creer() } }; } struct point3D { float x{}, y{}, z{}; point3D() = default; point3D(float x, float y, float z) : x{x}, y{y}, z{z} { } }; point3D operator+(point3D a, point3D b) { return {a.x + b.x, a.y + b.y, a.z + b.z}; } std::ostream& operator<<(std::ostream &os, const point3D &pt) { return os << pt.x << ',' << pt.y << ',' << pt.z; } template <> Wrap<point3D> creer_wrap<point3D>() { using std::rand; auto creer = [] { return static_cast<float>(rand()) / RAND_MAX; }; return { point3D{ creer(), creer(), creer() } }; }

T	double	char	short	int	long	float	std::string	point2D	point3D	double
Wrap<T>	393,712 ms.	27,9922 ms.	32,8086 ms.	40,0836 ms.	42,146 ms.	219,235 ms.	13324,5 ms.	329,589 ms.	409,007 ms.	390,916 ms.
const Wrap<T>&	82,6255 ms.	28,09 ms.	50,0433 ms.	40,1995 ms.	41,2557 ms.	215,845 ms.	4688,57 ms.	351,761 ms.	413,761 ms.	82,9237 ms.
T	95,9937 ms.	28,1164 ms.	30,3995 ms.	67,3221 ms.	40,7634 ms.	216,211 ms.	5024 ms.	330,858 ms.	416,922 ms.	78,0877 ms.
const T&	82,3362 ms.	39,2361 ms.	30,1335 ms.	39,4935 ms.	41,2694 ms.	217,646 ms.	4637,68 ms.	333,001 ms.	445,863 ms.	76,9429 ms.
sizeof(T)	8	1	2	4	4	4	28	8	12	8
sizeof(Wrap<T>)	8	1	2	4	4	4	28	8	12	8
N	40000000	40000000	40000000	40000000	40000000	40000000	80000	40000000	40000000	40000000

Passer un paramètre par valeur ou par référence-vers-const?

Tests un peu plus poussés

Lectures complémentaires