mercredi 24 février 2016

Statgraphics XVII - Exemple 01

Dans cet article nous allons reprendre les données de l'étude de cas relative à la formulation de propergol, afin d'illustrer et de commenter la mise en œuvre de cet exemple à partir du logiciel Statgraphics, dans sa version XVII.

Cet exemple de plan de mélange renvoie à l'utilisation d'un réseau de type Simplex Centroid Design complété par des points axiaux, à partir duquel on cherche à mélanger un liant, un comburant et un combustile, pour atteindre une valeur particulière du module d'élasticité tout en minimisant la teneur en liant.

Les données de cet exemple sont issues de la publication de I.S. Kurotori en 1966, les réseaux de type Simplex Centroid Design ayant été proposés par Henry Scheffé en 1963.

La première séquence concerne la création du plan de mélange, avec un rappel succinct de la différence entre les réseaux de type Simplex Lattice Design et les réseaux de type Simplex Centroid Design. Il s'agit ici d'une procédure classique de création du plan d'expériences, la procédure renvoyant à l'utilisation d'un assistant fera quant à elle l'objet de la troisième séquence.


La deuxième séquence concerne l'analyse du plan de mélange. Cette séquence permet de commenter les différents résultats associés à l'analyse mathématique, à l'analyse statistique et à l'analyse graphique. Après avoir estimé les coefficients du modèle synergique de degré 3 ainsi que les résidus, on commentera différents aspects des diagnostics du modèle s'appuyant sur le tableau d'analyse de régression. Viendra enfin le temps de la restitution graphique sous forme de surface de réponse, de courbes d'isoréponse et enfin de trace de la surface de réponse. L'étape d'optimisation marque la fin de cette deuxième séquence.


La troisième séquence met en valeur l'assistant de création et d'analyse d'un plan de mélange qui guide, étape par étape, l'utilisateur en lui apportant des informations bien utiles telles que la valeur des leviers, la valeur des coefficients de variance, les courbes d'isovariance ou encore leur trace. On insistera essentiellement sur les étapes conduisant à la création du plan, les étapes d'analyse étant très similaires à celles présentées dans la deuxième séquence.


D'autres applications du logiciel Statgraphics dans le domaine des plans de mélange viendront compléter ce premier article.

mercredi 17 février 2016

Excel - Calculs matriciels et méthode des moindres carrés

La méthode des moindres carrés dont la paternité est attribuée conjointement à Carl Friedrich Gauss (1777 - 1855) et à Adrien Marie Legendre (1752 - 1833) reste la méthode la plus couramment utilisée pour l'estimation des paramètres d'un modèle lors de l'analyse des résultats d'un plan de mélange. Par voie de conséquence, cette méthode est souvent la seule qui est évoquée dans les techniques d'analyse de régression utilisée dans les plans d'expériences.

La minimisation de la somme des carrés des écarts entre les valeurs observées et les valeurs restituées par la partie déterministe d'un modèle conduit à générer un système de p équations à p inconnues, p représentant le nombre de paramètres du modèle que l'on souhaite estimer. Les équations de ce système sont parfois appelées les équations normales, notamment dans les techniques d'étalonnage. 

Dans le contexte particulier d'une courbe d'étalonnage matérialisée par une droite avec constante, la démarche consiste à résoudre alors un système de deux équations à deux inconnues ; la méthode de substitution ou la méthode de Cramer permettent très rapidement d'estimer l'ordonnée à l'origine et la pente de la droite. Dès que le modèle devient plus complexe et que le nombre de régresseurs devient plus important, le recours à une approche matricielle devient incontournable pour inverser des matrices carrées de rang p. C'est naturellement le cas dans les plans de mélange y compris en présence d'un mélange binaire qui nous servira ici à illustrer les étapes de la démarche.

Les tableurs informatiques possèdent tous des fonctions matricielles qui vont permettre les transpositions, les produits et les inversions nécessaires à la mise en œuvre de la méthode. Toutes ces opérations nécessitent de sélectionner la zone de résultat préalablement à l'utilisation de la fonction matricielle dont on valide la mise en oeuvre à partir des touches CTRL+SHIFT+ENTREE. Il faut donc prévoir à l'avance la dimension des différentes matrices et des différents vecteurs apparaissant dans la démarche. Des rappels de cours précèdent l'illustration de l'utilisation du tableur Excel.



La démarche présentée à partir d'un mélange binaire et de la forme canonique d'un modèle polynomial de degré 3 est naturellement généralisable à des mélanges présentant un nombre plus important de constituants et/ou à d'autres formes canoniques ou non de modèles linéaires moyennant quelques précautions :

  1. Il faut s'assurer tout d'abord que la somme des proportions des constituants soit constante, de manière à ne pas propager rapidement des erreurs d'arrondi lors des multiplications entre les proportions dans les différentes opérations matricielles.
  2. Les proportions étant représentées par des nombres réels inférieurs ou égaux à 1, le produit de ces proportions devient rapidement petit, en particulier quand on souhaite estimer les paramètres de modèles de degré élevé. Par ailleurs, la contrainte relationnelle implicite traduisant la constance de la somme des proportions implique une quasi-colinéarité entre les colonnes de la matrice du modèle et, tout au moins des corrélations fortes produisant un phénomène qualifié de "ill-conditioned matrix". Tout ceci a pour conséquence de conduire à une valeur de déterminant parfois très faible pour la matrice d'information. La fonction permettant d'inverser une matrice renvoie à un algorithme qui peut présenter des limites en deçà desquelles la fonction renvoie un message d'erreur. L'utilisation d'une transformation en pseudo-constituants permet parfois de contourner le problème, mais le recours à un logiciel reste souvent incontournable. Il est difficile de donner une valeur à cette limite, mais une valeur inférieure à 10-40 ou 10-50 pour le déterminant de la matrice d'information doit inviter l'utilisateur à s'interroger sur l'exactitude des calculs.
  3. Il peut être utile d'installer des "détrompeurs", c'est-à-dire des cellules qui permettent de vérifier des propriétés numériques inhérentes à la méthode des moindres carrés. La moyenne des valeurs de la réponse observée est égale à la moyenne des valeurs de la réponse calculée à partir du modèle et, par voie de conséquence, la moyenne des résidus est nulle. La somme des valeurs sur une ligne de la matrice H est unitaire, tout comme la somme des valeurs dans une colonne pour cette même matrice. La somme des valeurs de la matrice H est donc égale au nombre N de mélanges mis en œuvre. De même, la somme des termes diagonaux de cette matrice est égale au nombre p de paramètres à estimer dans le modèle.

Cette présentation n'a en aucun cas l'ambition de rivaliser avec tel ou tel logiciel, si ce n'est cependant lorsqu'on est confronté à l'étude d'un mélange binaire, cas particulier pour lequel même les meilleurs logiciels restent impuissants ! Excepté ce cas de figure, que l'on rencontre toutefois de temps à autre, le tableur doit être considéré comme un accompagnement pédagogique aidant à mieux comprendre la logique de construction des plans de mélange. L'interactivité d'une feuille de calcul reste inégalée par rapport aux possibilités offertes par un logiciel.

Comme je l'ai indiqué dans le film associé à cet article, en faisant varier les coordonnées des mélanges au sein de la matrice d'expériences, on peut constater immédiatement les conséquences de ces modifications sur des indicateurs algébriques, tels que le déterminant de la matrice d'information, les éléments de la trace de la matrice de dispersion ou encore les leviers, termes diagonaux de la matrice H.

Cet article et ce film représentent un préambule à de futurs chapitres qui parleront des indicateurs algébriques en leur donnant un sens, puis des méthodes de construction de plans optimaux, ces derniers visant à optimiser tel ou tel critère algébrique.

Je vous invite vivement à mettre en oeuvre ce petit exemple afin de découvrir ou de redécouvrir les possibilités d'un tableur que vous utilisez parfois quotidiennement.

mercredi 10 février 2016

Ouvrage de référence

Goupy J., Plans d'expériences : Les mélanges, Dunod, Ed. Paris, 2000, 290 pages.

La parution d'ouvrages consacrés spécifiquement aux plans d'expériences en langue française est assez chaotique, avec de longues périodes marquées par l'absence de nouveautés chez les libraires. Il y a eu toutefois des époques fastes, où un auteur publiait quasiment tous les ans un nouvel ouvrage. C'est le cas de Jacques Goupy, qui après avoir publié un premier livre à caractère généraliste sur les plans d'expériences, produisit en quelques années des mises à jours et de nouveaux opus dans le domaine des plans pour l'étude des surfaces de réponse et des plans de mélange. La parution date de l'an 2000.

Il s'agit, pour l'instant, du seul et unique ouvrage en langue française intégralement consacré aux plans d'expériences en formulation. Ce livre appartient à une collection initiée par les éditions Dunod, collection intitulée "Technique et ingénierie" dans une série relative au génie industriel.

Écrire un livre n'est pas une tâche facile, même si elle peut être plaisante pour son auteur. Une des difficultés essentielles, outre la maîtrise du sujet que l'on souhaite présenter, est la définition du public visé :

  • Est-ce un public étudiant, pour lequel le livre viendra apporter des compléments aux traditionnels supports de cours, en particulier en période de projets et de stages ? 
  • Est-ce un public industriel, pour lequel le livre se voudra avant tout pragmatique et évitera de se perdre dans des démonstrations inutiles, préférant l'utilisation de solutions informatiques ? 
  • Est-ce un public très ciblé et spécialisé, comme les acteurs du monde de la chimiométrie par exemple, qui rechercheront des approches originales à côté d'exemples plus traditionnels ?
L'absence de définition d'une cible ne facilite pas la rédaction de commentaires et ceux que je vais proposer dans cet article se veulent être objectifs et argumentés par de nombreuses lectures attentives de l'ouvrage. La seule indication se trouve en quatrième de couverture où l'auteur s'adresse à des expérimentateurs. On pourrait donc s'attendre à trouver des préconisations à caractère expérimental au fil des chapitres, pour la mise en oeuvre de plans de mélange. L'auteur semble avoir privilégié l'approche matricielle en recommandant au lecteur de s'intéresser, à juste titre, au calcul matriciel. Il manque toutefois le lien entre la méthode des moindres carrés et plus généralement l'analyse de régression et le calcul matriciel. Si une démonstration formelle aurait probablement dépassé le cadre de cet ouvrage, on aurait aimé trouver au moins une justification à partir d'un exemple, fut-il un exemple de mélange binaire. En effet, comme pour de nombreux auteurs, l'application des plans de mélange commence ici à partir de trois constituants ! Un mariage harmonieux entre des considérations mathématico-statistiques et des considérations à la fois d'ordre métrologique et expérimental, aurait sans nul doute donné une autre dimension à l'ouvrage.

Cependant, l'expérimentateur confronté à des mélanges ternaires ne manquera pas de trouver son bonheur, tant le maillage de ce domaine expérimental, soumis ou non à des contraintes explicites, est décrit dans ce livre, au point d'en occuper la grande majorité des chapitres. On appréciera au passage quelques éléments à propos des contraintes relationnelles explicites rapportés dans un chapitre spécifique. Les mélanges de trois constituants se prêtent volontiers à des représentations graphiques dont l'auteur fait un usage abondant pour illustrer ses propos. Les figures sont claires, bien renseignées et homogènes d'un chapitre à l'autre, mais une taille parfois plus réduite aurait permis, sans nuire à la lisibilité, d'apporter des compléments très utiles aux expérimentateurs,

Les méthodes faisant appel à des constructions empiriques d'une matrice d'expériences sont bien illustrées à partir de nombreux exemples ; on retrouve ici majoritairement les méthodes proposées par Henry Scheffé (Simplex Lattice Design et Simplex Centroid Design) et dans une moindre mesure la méthode proposée par McLean et Anderson (Extreme Vertices Design). Les méthodes faisant appel à des constructions algorithmiques (D-Optimal Design) auraient mérité une place plus importante, mais, en resituant la publication de l'ouvrage en l'an 2000, on doit être indulgent compte-tenu des possibilités encore limitées offertes par les logiciels dans leur grande majorité à cette date.

Les techniques de restitution graphique des informations contenues dans l'équation du modèle et dans le vecteur des résidus auraient gagné à être plus approfondies, car on ne communique pas à l'aide d'une équation, dont l'interprétation des coefficients se révèle délicate. Confondre les coefficients et les effets peut s'avérer dangereux. Il eût été préférable de juxtaposer une surface de réponse - ce type de graphique n'est utilisé qu'à deux reprises par l'auteur malgré les très nombreux exemples de mélanges ternaires - avec la trace de la surface de réponse, afin de bien comprendre le potentiel de ce type de restitution. L'étude de cas consacrée aux verres nucléaires, rare exemple mettant en oeuvre 6 constituants, aurait mérité un approfondissement de la spécifique notion d'effet dans les problèmes de formulation.

Dans les problèmes de formulation, les expérimentateurs sont le plus souvent confrontés à l'étude de plusieurs réponses dont on modélise les variations afin de chercher, in fine, un optimum dit multi-critères. La majorité des exemples ne s'intéresse hélas qu'à l'étude d'une seule réponse. Les mots désirabilité et optimisation font défaut dans les entrées de l'index, faute d'avoir donné lieu à des développements dans le livre ! C'est, à mon sens, un manque difficilement explicable dans un ouvrage placé sous le signe de la technique et de l'ingénierie.

La bibliographie aurait mérité moins de parti pris, en particulier pour les exemples de plans de mélange qui auraient pu bénéficier d'une typologie bien plus détaillée. L'auteur cite des références de normes dans sa bibliographie ; le lien avec les normes portant sur le modèle de l'assurance qualité ne transparaît pas à la lecture des chapitres du livre. Était-ce un effet de mode à l'aube d'un nouveau siècle ? La terminologie usitée par l'auteur est parfois singulière, mais cohérente à la lecture du livre. Elle serait aujourd'hui un peu en porte-à-faux avec les recommandations terminologiques préconisées à la fois par le Vocabulaire International de Métrologie et les normes définissant un vocabulaire dans le domaine des statistiques et de leur utilisation.

Les 18 chapitres du livre se lisent cependant agréablement, alternant des considérations plutôt théoriques et des présentations d'études de cas. L'auteur n'abuse pas ici du renvoi systématique à un logiciel particulier. Les chapitres sont regroupés en 4 grandes parties dont les titres gagneraient à être plus descriptifs pour les expérimentateurs, destinataires indiqués de l'ouvrage.

En conclusion, mes critiques auraient été moins sévères si le titre avait pris soin de mentionner la notion d'introduction aux plans de mélange. Ce livre me paraît en effet tout à fait destiné à un public débutant et jeune, car encore peu éloigné de notions mathématiques scolaires ou universitaires que l'on a tendance à vite oublier avec le temps. Il me paraît bien adapté à un public fréquentant des licences professionnelles orientées vers les métiers de la formulation. L'enseignant devra alors apporter des compléments relatifs aux techniques d'optimisation et reprendre les exemples du livre à l'aide de logiciels, aujourd'hui accessibles à tarif préférentiel pour les étudiants. Il reste à regretter que le calcul matriciel, si cher à l'auteur et très utile à celui qui sait bien le maîtriser, soit si mal maîtrisé aujourd'hui par les étudiants "techniciens".

Ce livre trouvera sa place sur les rayons d'une bibliothèque universitaire ou chez tous les passionnés par les outils d'aide à la formulation. En feuilletant les pages ou en approfondissant le contenu d'un chapitre spécifique, nous aurons tous une pensée émue pour Jacques Goupy, décédé en décembre 2015. Sa mémoire perdurera au travers de ses livres.

mercredi 3 février 2016

Editorial Février 2016

Les articles publiés au mois de Janvier ont permis d'illustrer quelques utilisations "annexes" du logiciel Excel, applicables toutefois à l'analyse des données issues un plan de mélange. La construction d'une fonction de répartition avant toute analyse représente, à mon sens, une étape incontournable et trop souvent oubliée dans les présentations "classiques" ayant trait aux plans d'expériences.

Nous allons continuer à présenter ce mois-ci des applications du logiciel Excel, permettant de revenir sur l'approche matricielle d'estimation des coefficients d'un modèle, à partir de la méthode des moindres carrés. On peut se demander quel peut être l'intérêt d'une telle présentation, alors que bon nombre d'utilisateurs "industriels" des plans de mélange utilisent des logiciels.

Le premier intérêt consiste d'abord à éprouver le plaisir de réussir à faire soi-même un calcul qui peut paraître au demeurant compliqué, en (re)découvrant qu'un tableur possède parfois des fonctions insoupçonnées transposables à d'autres applications. On utilisera en fait très peu de fonctions qui permettront tour à tour de transposer une matrice, d'effectuer le produit de deux matrices et enfin d'inverser une matrice carrée. On associera à l'inversion d'une matrice le calcul préalable d'un déterminant, puis l'extraction de termes diagonaux pour en faire une analyse ultérieure. On ne peut pas dire que le calcul matriciel soit un point fort dans la formation des ingénieurs aujourd'hui. A défaut de donner des définitions ardues relevant de l'algèbre linéaire, on illustrera ici une utilisation du calcul matriciel.

Le second intérêt consiste ensuite à utiliser la feuille de calcul comme un simulateur permettant de bien comprendre le rôle de la disposition des mélanges au sein du domaine expérimental sur la qualité des estimations réalisées a posteriori. On s'attachera ainsi au calcul et à l'analyse du déterminant de la matrice d'information, à la trace de la matrice de dispersion et aux termes diagonaux de la matrice H, désignés sous le nom de leviers. Cette présentation servira donc de préambule à un chapitre ultérieur relatif aux indicateurs algébriques et à la construction des plans optimaux. L'interactivité d'un tableur est, dans ce contexte, incomparable avec ce que les logiciels du marché peuvent offrir aujourd'hui. L'objectif n'est donc pas de concurrencer les solutions informatiques existantes, mais de permettre une meilleure compréhension de la démarche de construction d'un plan de mélange pour les utilisateurs. Cette interactivité maîtrisée pourrait être considérée comme un allié pédagogique dans de nombreux exposés, aussi bien académiques qu'industriels.

Une étude de cas sera également présentée ce mois-ci, inaugurant ainsi une nouvelle rubrique consacrée aux plans de mélange en galénique. Cette étude de cas renverra à l'utilisation d'un dispositif expérimental de type Simplex Centroid Design, largement décrit par ailleurs dans différents articles de ce blog. Ce sera l'occasion d'illustrer la démarche d'analyse en présence de plusieurs réponses, aussi bien dans le cadre de l'analyse globale que dans la partie consacrée à l'optimisation. Des techniques d'analyse multivariée, au même titre que l'utilisation des fonctions de désirabilité, seront dévoilées dans cette étude de cas.

N'hésitez à revoir le cours consacré aux aspects mathématiques de l'analyse de régression pour mieux comprendre la mise en oeuvre de la méthode des moindres carrés avec un tableur en général et Excel en particulier. Bientôt, si ce n'est déjà fait, la validation des fonctions matricielles à l'aide des touches CTRL+SHIFT+ENTREE n'aura plus de secrets pour vous !