mercredi 30 décembre 2015

Formulation d'un verre nucléaire A (Partie II)

Cet article est consacré à la présentation de l'analyse des résultats, issus d'une publication de Gregory F. Piepel en 1992, à propos des verres nucléaires.

Tout d'abord, la sixième séquence rappelle les principes de mise en œuvre de la méthode des moindres carrés pour l'estimation des coefficients du modèle et des résidus. Classiquement appelée analyse mathématique, les étapes de cette démarche représentent une introduction à l'analyse de régression.



Pour porter un jugement sur les résultats de l'analyse mathématique, on a recours à des techniques statistiques, parfaitement formalisées, qui vont permettre ici de comparer pour chacune des réponses la qualité descriptive et prédictive des formes canoniques des modèles polynomiaux. C'est l'objet de cette septième séquence.



La distribution des valeurs de certaines réponses pouvait laisser supposer le nécessaire recours à une transformation. Le choix de la meilleure transformation renvoie à l'utilisation de la méthode proposée en 1964 par G.E.P. Box et D.R. Cox. On illustre dans cette huitième séquence l'usage d'une transformation inverse, d'une transformation en racine carrée ou encore d'une transformation logarithmique.



Disposant maintenant du meilleur modèle pour décrire le plus fidèlement possible la variation de chacune des réponses, il ne reste plus qu'à le représenter en utilisant la technique de la trace de la surface de réponse. La présentation de cette technique et les résultats qui en découlent font l'objet de cette neuvième séquence.



La dixième et dernière séquence consacrée à cette étude de cas porte sur l'interprétation de la trace de la surface de réponse et rappelle, dans une conclusion générale, les points-clés de cette présentation.


D'autres études de cas reviendront d'une part sur l'estimation des effets des variations des proportions des constituants et d'autre part sur la formulation des verres nucléaires.

mercredi 23 décembre 2015

Formulation d'un verre nucléaire A (Partie I)

De nombreux articles ont été publiés à l'initiative de Gregory F. Piepel dans le contexte des plans de mélange, avec de multiples applications dans le domaine des verres nucléaires. Nous allons dans cet article présenter un exemple mettant en jeu trois constituants dans un domaine sous contraintes. La construction du plan de mélanges s'appuie sur la méthode empirique proposée en 1966 par McLean et Anderson. Cette présentation est un préambule à la démarche d'estimation des effets des variations des proportions des constituants autour d'un mélange de référence ; cette problématique fera l'objet de développements plus détaillés dans quelques semaines.

La première séquence permet de rappeler non seulement le plan de la présentation de cette étude de cas, mais aussi les objectifs de l'étude et les réponse mesurées, à la fois en terme de viscosité et en terme de conductivité électrique. Ces réponses sont mesurées à haute température, puisque l'étude se situe dans le domaine de la vitrification de déchets.



La deuxième séquence rappelle les principes d'une approche indirecte, approche qui consiste à s'appuyer sur la construction et l'interprétation d'un modèle pour apporter des éléments de réponse aux questions posées. L'estimation des paramètres du modèle nécessite alors la mise en œuvre d'un plan d'expériences et cette deuxième séquence s'achève sur la présentation des facteurs, à savoir les fractions massiques des constituants utilisés comme facteurs dans cette étude.



La troisième séquence permet de présenter, à partir de cet exemple simple, la démarche méthodologique à adopter pour caractériser la géométrie du domaine expérimental. En effet, lorsque les contraintes individuelles explicites affectant les variations des proportions des constituants génèrent un polyèdre convexe, il convient de définir le nombre de sommets et d'arêtes de ce dernier. Plus généralement il faudra définir le nombre de sous-espaces dont les centres représentent des mélanges potentiellement candidats à l'expérimentation. On termine cette séquence en rappelant quelques éléments sur les formes canoniques des modèles polynomiaux.



La quatrième séquence présente pas à pas la construction de la matrice d'expériences et illustre à nouveau l'utilisation du graphe des leviers. La méthode retenue par les auteurs s'inspire de l'approche proposée par McLean et Anderson en 1966, approche appelée Extreme Vertices Design. Les mélanges internes sont judicieusement choisis par les auteurs, sans doute inspirés par une approche plus géométrique qu'algorithmique.



La cinquième séquence rapporte les résultats de l'expérimentation et fait ressortir, dans l'analyse globale, les possibilités d'usage des fonctions de répartition et des corrélations de rang afin d'anticiper le recours à certaines transformations lors des étapes consacrées à l'analyse mathématique et statistique. Il y a en effet, intuitivement, une relation entre la température nécessaire pour atteindre une viscosité égale à 10 Pa.s d'une part et la viscosité mesurée pour une température de 1330°C d'autre part. Cette corrélation se retrouvera plus tard dans l'analyse de la trace de la surface de réponse.



La seconde partie de la présentation de cette étude de cas illustrera, dès la semaine prochaine, les étapes de l'analyse de régression et de restitution graphique des informations apportées par les différents modèles.

mercredi 16 décembre 2015

Construire un simplexe autour d'un mélange de référence

Dans tout problème d'optimisation, il est recommandé de disposer d'un mélange de référence représentant un point de fonctionnement pour lequel on souhaite améliorer les performances. Naturellement, on ne sait pas dans quelle direction ni à quelle distance se situe ce meilleur mélange, et à condition naturellement que celui-ci existe.

Partant de ce point de fonctionnement, on peut adopter une approche directe d'optimisation, encore appelée méthode d'optimisation séquentielle du simplexe. On peut également définir un voisinage à partir de contraintes explicites, puis définir des expériences au sein de ce domaine afin de construire un modèle que l'on exploitera à des fins d'optimisation. S'il prend la forme d'un simplexe, ce domaine permettra d'adopter des méthodes bien connues pour définir un plan de mélange, en faisant en particulier référence aux dispositifs proposés par Henry Scheffé. Il s'agit alors d'une approche indirecte d'optimisation. 

La première séquence permet de présenter les différentes stratégies disponibles lorsqu'on dispose d'un mélange référence.



La deuxième séquence rappelle des règles de base sur la géométrie des simplexes, la définition des coordonnées des sommets et l'usage des pseudo-constituants.



La troisième séquence illustre la construction du plus grand simplexe qu'il est possible de développer autour d'un mélange de référence. On s'intéresse également dans cette séquence à la situation particulière qui impose des contraintes individuelles inférieures explicites aux variations des proportions des constituants.



La quatrième et dernière séquence s'intéresse à la présence de contraintes bilatérales définies autour d'un mélange de référence. Il s'agit alors de construire le plus grand simplexe possible dans un polyèdre convexe.



N'oubliez pas de répondre aux questions des quizz qui ponctuent chacune des séquences !

mercredi 9 décembre 2015

Excel - Construction d'un diagramme ternaire

Les représentations triangulaires sont utilisées à de nombreuses reprises, souvent à des fins pédagogiques dans les supports de cours, pour illustrer les différents concepts de maillage proposés par Henry Scheffé ou pour représenter la conséquence de contraintes explicites sur la géométrie du domaine expérimental. Par ailleurs, on rencontre dans la littérature de nombreuses études de cas présentant l'utilisation des plans de mélange faisant appel à trois constituants. Enfin, l'usage des diagrammes ternaires ne se limite pas au contexte de la formulation : on peut trouver des applications de ce type de représentation graphique dans des méthodes d'analyse multidimensionnelle, telles que l'analyse factorielle des correspondance par exemple.

On ne trouve pas de possibilité de représentation triangulaire correspondant aux objectifs précités parmi les très nombreux graphiques accessibles depuis les menus du tableur Excel. Seuls des nuages radars présentant trois axes pourraient être apparentés à des diagrammes ternaires, mais leur usage se révélerait assez vite limité pour une application dans le contexte des plans de mélange.

Il m'a semblé opportun, pour répondre à de nombreuses demandes, de consacrer un article à ce type de représentation, en essayant de proposer une méthode formelle, qui contrairement à ce que l'on trouve parfois sur Internet, permettra à un utilisateur d'aller au-delà d'une simple représentation triangulaire, comme vous allez pouvoir le découvrir à partir des quatre séquences suivantes. Certes, nous ferons appel à la définition de la normale à une surface et à l'usage du gradient d'une fonction scalaire, puis au produit vectoriel de deux vecteurs, mais cet effort minime se trouvera vite récompensé.

Dans la première séquence, je rappelle tout d'abord quels sont les objectifs auxquels les diagrammes ternaires permettent de répondre, quand on est confronté à la mise en œuvre de mélanges à partir de trois constituants. J'introduis ensuite, à partir d'un mélange binaire, la notion essentielle à la base de la construction de la figure : la rotation barycentrique.




L'utilisation d'une rotation barycentrique nécessite dans un premier temps une translation au centre du domaine, puis dans un second temps, le recours à une matrice de rotation. L'objet de cette deuxième séquence consiste à présenter, pas à pas, la construction de cette matrice dans le cas d'un mélange ternaire.



Dès lors que l'on dispose de la méthode, il convient de tabuler correctement les données dans une feuille Excel, de façon à parvenir aisément au résultat escompté. Cette troisième séquence va illustrer des exemples de tabulation, à la fois pour représenter un quadrillage au sein d'un diagramme ternaire et pour transformer un maillage de type Simplex Lattice Design en courbes d'isoréponse, à partir de l'équation du modèle.




La quatrième séquence nous invite à rejoindre la salle informatique pour une mise en œuvre concrète du tableur Excel, avant de revenir sur une conclusion générale.



Il ne vous reste plus qu'à faire bon usage de cette transformation barycentrique !

mercredi 2 décembre 2015

Editorial Décembre 2015

Avant de présenter le programme du mois de décembre, je me dois de remercier un certain nombre de personnes qui contribuent au développement de ce blog depuis bientôt six mois. En effet, ce blog donnera lieu en juin prochain à la mise en ligne d'un ensemble de ressources dans le cadre d'une université numérique, ressources que je vous fais partager au fur et à mesure de la publication des articles dans ce blog. Ce blog continuera à exister quant à lui avec des parutions régulières, au delà de la mise en ligne d'une université numérique, car je crois que nous sommes loin d'avoir épuisé le sujet.

Le premier remerciement s'adresse à Fabrice, dessinateur qui a réalisé le bandeau d'accès aux trois ressources essentielles dans le cadre d'une université numérique : les supports de cours, les études de cas et la partie dédiée à l'informatique. Le cahier des charges imposait de faire référence au nouveau bâtiment qui accueille l’École Nationale Supérieure de Céramique Industrielle à Limoges depuis 2010. C'est ainsi que l'on retrouve le bâtiment des amphithéâtres sous la forme d'une pyramide inversée et la spirale du peintre et artiste Felice Varini, constituant l’œuvre d'art de l'établissement.

Il convient également de remercier Halima, chargée de communication auprès de la Société Chimique de France, qui a accepté de référencer le blog sur la page "Blogs et réseaux sociaux", malgré la refonte et la réorganisation en cours du site Internet de la SCF. Merci également à Gilles, webmestre du groupe enseignement de la Société Française De Statistiques, qui va référencer ce blog dans les prochaines semaines dans la page "Ressources pour l'enseignement / par filières" du site de la SFDS.

Merci grandement à Agnès et Christian, représentants de deux sociétés diffusant en France des solutions informatiques, pour m'avoir octroyé et aidé à installer une licence gratuite de leur logiciel de plans d'expériences. Les dernières versions des logiciels Statgraphics et Minitab donneront ainsi lieu à des articles illustrant des applications de ces logiciels dans le domaine des plans de mélange.

Merci enfin pour les amicales et constructives remarques que je reçois de temps à autre, m'encourageant dans le développement de nouveaux articles ; l'éditorial du mois de janvier présentera la finalisation d'un programme pour le premier semestre 2016.

Venons-en maintenant au programme du mois de Décembre qui va permettre d'enrichir la boîte à outils en présentant d'une part une méthode de construction d'un simplexe autour d'un mélange de référence et d'autre part, la mise en oeuvre du tableur Excel pour des représentations triangulaires, encore désignées sous le nom de diagramme ternaire. Je sais que beaucoup d'entre-vous attendent avec impatience, le moyen et la méthode pour représenter des courbes d'isoréponse dans un diagramme ternaire à l'aide d'un tableur : votre vœu sera exaucé avant les agapes de fin d'année !

Je laisse encore planer le mystère pour le contenu des deux derniers articles de l'année, mais rassurez-vous, ils contribueront à remplir des pages encore bien vides de ce blog et vous aideront à passer, agréablement je l'espère, la période tant redoutée de la trêve des confiseurs.

Avant de clore l'année 2015, je vous souhaite à toutes et à tous un agréable mois de Décembre et d'excellentes fêtes de fin d'année.

mercredi 25 novembre 2015

Formulation d'un liant pouzzolanique A (Partie II)

Après avoir détaillé, étape par étape la construction de la matrice d'expériences, nous allons décrire maintenant les articulations de l'analyse des résultats, depuis l'analyse globale jusqu'à la restitution graphique du modèle, sous forme de trace de la surface de réponse et de courbes d'isoréponse. C'est l'objet des six séquences publiées dans ce nouvel article.

Rappelons avant toute chose que les auteurs souhaitent maximiser la résistance d'un liant minéral constitué d'un mélange de cendres volantes (fly ash), de chaux (lime) et d'eau (water). Les performances mécaniques observées après 28 jours de vieillissement dans l'eau sont liées à la réactivité des cendres volantes, finement divisées et riches en silice soluble, provoquant ainsi une réaction qualifiée de pouzzolanique par les spécialistes.

Dans la cinquième séquence, nous allons aborder l'analyse globale des valeurs observées. Les courbures que l'on peut pressentir en reportant les valeurs observées sur un graphique laissent présager la présence de termes quadratiques ou cubiques significatifs traduisant des synergies. Par ailleurs, l'analyse de la fonction de répartition des valeurs observées révèle une différence importante entre le mélange situé au centre du domaine et les mélanges représentés par les sommets et les milieux des arêtes.


La sixième séquence est consacrée à l'analyse mathématique. Cette analyse consiste à estimer les coefficients du modèle et les résidus, à savoir les écarts de description entre les valeurs observées et les valeurs prévues à partir de l'équation du modèle. La méthode d'ajustement fait appel classiquement au critère des moindres carrés.


La septième séquence aborde l'analyse statique au travers de l'estimation de la qualité descriptive et de la qualité prédictive des modèles. Si la forme canonique du modèle de degré 1 se révèle de piètre qualité en raison des synergies provoquées par le mélange, la forme canonique du modèle de degré 2 et le modèle synergique de degré 3 présentent une qualité descriptive très satisfaisante. Toutefois, la forme canonique du modèle de degré 2 est un peu plus prédictive que le modèle synergique de degré 3 : elle sera retenue dans la suite de l'analyse.


La huitième séquence est dédiée à l'application d'une transformation de Box-Cox de la réponse pour améliorer encore la qualité du modèle. On retiendra l'utilisation d'une transformation logarithmique dans cette étude de cas.


La neuvième séquence porte sur la restitution graphique de l'équation du modèle : on représente dans cette étude de cas les courbes d'isoréponse et la trace de la surface de réponse dont on rappelle le principe de construction.


La dixième et dernière séquence illustre au travers de la conclusion de cette étude, la construction d'un second plan de mélange pour valider les résultats produits par le premier plan de mélange. Les auteurs utilisent les meilleurs essais du premier plan et les complètent par de nouveaux mélanges afin de modéliser la variation de la réponse dans ce nouveau domaine, plus restreint et mieux centré sur la zone d'intérêt d'un point de vue des performances mécaniques du liant pouzzolanique.


Si la méthode de construction d'un plan de mélange proposée par McLean et Anderson se limite à l'étude de mélanges présentant un nombre restreint de constituants, la démarche utilisée pour la définition des coordonnées des sommets et des centres des différents sous-espaces reste toujours d'actualité lors de la construction de plans optimaux que nous aborderons dans les prochains mois.

mercredi 18 novembre 2015

Formulation d'un liant pouzzolanique A (Partie I)

Les débutants apprécieront sûrement cette étude de cas, car elle permet d'illustrer la méthode de construction des plans de mélange proposée par McLean et Anderson, à partir d'un mélange ternaire qui offre la possibilité de représenter graphiquement de façon simple le domaine expérimental et les mélanges retenus dans la matrice d'expériences. Nous allons découvrir cette semaine sous forme de quatre séquences, les étapes qui conduisent de la définition du problème à la construction de la matrice d'expériences.

La première séquence rappelle l'origine des données et le contexte expérimental. Les auteurs cherchent à tirer profit de la réactivité chimique d'une cendre volante, riche en silice et en alumine, en la mélangeant à une poudre calcaire et à de l'eau pour former un liant pouzzonalique. Ce liant sera caractérisé après 28 jours de vieillissement dans de l'eau par un essai mécanique de compression dont la valeur représentera la seule réponse de l'étude. Il convient de maximiser cette performance.


La deuxième séquence propose différentes stratégies expérimentales offertes dans un contexte de formulation. La méthode d'optimisation séquentielle du simplexe sera évoquée et comparée à la stratégie retenue par les auteurs, à savoir une stratégie de type Component Proportions. En s'orientant vers un plan d'expériences, on suppose que les éléments d'information proviendront de l'analyse et de l'interprétation d'un modèle qualifié de modèle empirique. Construire un plan d'expériences consiste à définir ici un nombre nécessaire et suffisant de mélanges, ainsi que leur nature, de manière à estimer efficacement les paramètres du modèle. Un diagramme d'Ishikawa permet de présenter les facteurs de l'étude et les contraintes explicites associées à la variation de ces facteurs.


La troisième séquence s'intéresse à la caractérisation du domaine expérimental d'un point de vue géométrique en introduisant des notions utiles lorsqu'on ne peut plus matérialiser à partir d'une simple figure la géométrie de ce domaine. Lorsque les contraintes explicites représentant des réalités physico-chimiques exprimées par les experts conduisent à explorer un polyèdre convexe, il faut alors définir le nombre de sous-espaces de ce polyèdre. Il s'agit dans cet exemple de calculer le nombre de sommets et le nombre d'arêtes. On s'intéresse également dans cette séquence aux modèles destinés à l'exploration du domaine. Il s'agit de polynômes dont on retient la forme canonique ou la forme synergique. Le nombre de paramètres d'un modèle représente le nombre d'inconnues à estimer et il convient de satisfaire une première condition nécessaire dans la construction d'un plan d'expériences : le nombre de mélanges distincts doit être supérieur ou égal au nombre de monômes des modèles polynomiaux potentiellement utiles pour l'analyse de la variation de la réponse. En se limitant à l'utilisation d'un modèle synergique de degré 3, équivalent ici à la forme du modèle polynomial de degré 3 réduit, on sait qu'il est nécessaire de réaliser au moins 7 mélanges distincts.


La quatrième séquence illustre la construction de la matrice d'expériences en utilisant la méthode Extreme Vertices Design proposée en 1966 par McLean et Anderson. Cette méthode, pratique à mettre en œuvre en présence d'un nombre limité de constituants, a conduit les auteurs à retenir les 6 sommets du domaine, les milieux des 6 arêtes et le centre des sommets. Les 13 mélanges ainsi définis permettront d'estimer les paramètres des différents modèles envisagés lors de la séquence précédente. La matrice d'expériences retenue par les auteurs est également celle que propose un bon nombre de logiciels, notamment le logiciel Statistica qui est utilisé par les auteurs.

Pourtant, le dessin du domaine et des mélanges proposés au sein du polyèdre convexe auraient dû inciter les auteurs à envisager une stratégie alternative, généralement plus satisfaisante en terme de couverture "uniforme" ou "homogène" de l'espace expérimental, afin d'interpoler plus "sereinement" la variation de la réponse entre le centre du domaine et l'ensemble des autres mélanges situés à la périphérie du domaine ...


La seconde partie de la présentation de cette étude illustrera, dès la semaine prochaine, l'analyse des résultats.

mercredi 11 novembre 2015

Ouvrage de référence



Smith W.F., Experimental Design for Formulation, SIAM, Ed. Philadelphia, ASA, Ed. Alexandria, 2005, 368 pages.


Ce livre apparu il y a une dizaine d’années complète fort utilement l’ouvrage de John A. Cornell, considéré comme l’ouvrage de référence sur les plans de mélange.

L’auteur, Wendell F. Smith, marque de son empreinte industrielle chez Eastman Kodak, en particulier dans les laboratoires de recherche, la rédaction des différents chapitres. L’ouvrage est plus concis et sans doute plus appliqué pour l’industrie. Malgré un nombre plus restreint de pages, la lecture des différents chapitres permet d’appréhender de manière efficace la démarche associée à la construction et à l’analyse d’un plan de mélange. Les exemples choisis et les quelques 175 références bibliographiques se révèlent très pertinents ; ils invitent le lecteur à approfondir ses connaissances dans le domaine des plans d’expériences appliqués aux problèmes de formulation.

L’ouvrage est construit autour de 4 grandes parties, elles-mêmes découpées en chapitres. Les chapitres ne sont pas ponctués par des exercices d’application mais les nombreux exemples permettent, au fil des paragraphes, d’appliquer les concepts présentés par l’auteur. Il est parfois fait référence aux logiciels Minitab, Mixsoft, Design Expert ou Jmp pour des graphiques ou des options d’analyse.

  1. La première partie est une introduction (Chapitre 1) qui positionne les plans de mélange parmi les nombreux types de plans d’expériences en spécifiant tout d’abord (Chapitre 2) la nature spécifique du domaine expérimental en présence de facteurs tels que des fractions massiques, volumiques ou molaires, puis (Chapitre 3) les modèles classiques sous-jacents à la construction et à l’analyse des plans de mélange, renvoyant à la stratégie de type Component Proportions.


  2. La deuxième partie, plus conséquente, porte sur les principes de construction des plans de mélange, que ce soit de manière empirique ou algorithmique. Cette partie débute par un chapitre dédié à l’exploration de domaines expérimentaux dont la géométrie est celle d’un simplexe (Chapitre 4). Certes on retrouve les dispositifs proposés par Henry Scheffé en 1958 et en 1969 sous le nom de Simplex Lattice Design et Simplex Centroid Design, mais également, les dispositifs de type Simplex Screening Design, moins connus mais fort utiles pour estimer les effets des variations des proportions des constituants quand le domaine expérimental se présente sous la forme d’un simplexe. Dès que les contraintes transforment la géométrie du domaine en polyèdre convexe, l’auteur passe en revue (Chapitre 5) différents algorithmes de construction de la matrice d’expériences. La présentation des différents critères algébriques retenus pour converger vers une matrice optimale est claire et accessible, mais on ne peut que recommander au lecteur de reprendre l’exploration de ce chapitre après avoir parcouru le chapitre suivant. Les différentes matrices utilisées dans la mise en œuvre de la méthode d’ajustement au sens des moindres carrés, (matrice d’information, matrice de dispersion, matrice H), ou encore la fonction de variance standardisée sont présentées ici (Chapitre 6) en faisant ressortir le rôle des leviers et la définition de la G-Optimalité. Cette deuxième partie consacrée à la construction des plans de mélange s’achève sur un chapitre traitant de l’organisation de la campagne expérimentale sous forme de blocs homogènes (Chapitre 7), concept important dans les principes d’expérimentation proposés par Ronald Fisher au début du XXe siècle.

     
  3. La troisième partie est consacrée à l’analyse des résultats en commençant (Chapitre 8) par l’étude de la qualité descriptive des modèles, puis de la qualité prédictive. La décomposition de la somme des écarts entre les valeurs observées et leur moyenne conduit à la construction d’un ou plusieurs tableaux d'analyse de régression, illustrés par des exemples. L’étude des résidus, avec leurs éventuelles transformations, fait l’objet du chapitre suivant (Chapitre 9) et représente une aide appréciable en complément de celle fournie par les logiciels. Une distribution particulière des valeurs de la réponse peut nuire localement à la qualité descriptive d’un modèle ou empêcher la validation des hypothèses sous-jacentes à l’analyse de régression, comme par exemple la vérification de la normalité des résidus. Un long chapitre (Chapitre 10) est consacré à ces aspects que les logiciels ne peuvent pas prendre en compte de façon automatique. La personne qui analyse les résultats doit savoir utiliser des transformations à bon escient, que ce soit pour la réponse avec une transformation de Box-Cox par exemple ou que ce soit en proposant une autre forme de modélisation. Même si ce chapitre est riche d’informations utiles, il mériterait à lui seul une partie entière du livre, tant ces aspects sont fréquents dans l’utilisation des plans de mélange et leur analyse. L’estimation des effets des variations des proportions des constituants fait l’objet du chapitre suivant (Chapitre 11). Cette approche des plans de mélange est hélas méconnue et rarement intégrée dans les logiciels, si ce n’est au travers de l’étude de la trace d’une surface de réponse. Les effets de Cox et les effets de Piepel sont clairement présentés mais on aurait apprécié un paragraphe spécifique sur les modèles de Cox et leur estimation, au même titre qu’un paragraphe sur la régression PLS qui peut s’avérer très efficace quand on s’intéresse aux effets des facteurs dans un problème de formulation. Le chapitre 12 vient clôturer cette troisième partie en faisant une large place aux techniques d’optimisation associées à l’usage des fonctions de désirabilité.

  4. La quatrième et dernière partie aborde les plans d’expériences qui associent des variables externes aux proportions des constituants dans un plan de mélange, ce qui conduit à une stratégie de type Mixture Process Variables (Chapitre 13). On aurait apprécié des développements plus importants dans ce chapitre, à la fois d’un point de vue méthodologique et d’un point de vue formalisme mathématique et numérique, car les logiciels conduisent souvent à des matrices d’expériences très coûteuses lorsqu’on associe ces deux types de variables. La nature même des facteurs, à savoir des proportions dont la somme est égale à une constante, induit des problèmes numériques spécifiques aux plans de mélange, problèmes que l’on regroupe sous la locution « Collinearity ». Ce dernier chapitre (Chapitre 14) aborde ces problèmes et précise des indicateurs statistiques tels que les facteurs d’inflation de variance ou l’indice de conditionnement d’une matrice. La régression au sens des moindres carrés est très sensible « numériquement » à ces phénomènes ; elle devrait céder sa place en présence de nombreux constituants et de domaines très anisotropes à d’autres méthodes de régression, comme la régression PLS évoquée précédemment. Encore faut-il que ces approches alternatives soient disponibles et bien documentées dans les logiciels de plans d’expériences ! Si ce n’était pas le cas en 2005 lors de la parution de ce livre, les logiciels de plans d’expériences intègrent de plus en plus aujourd’hui ces méthodes de régression. On peut espérer qu’une nouvelle édition vienne combler un jour ce manque !

En conclusion, cet ouvrage trouvera naturellement sa place sur l'étagère des livres consacrés aux plans d'expériences en général et aux plans de mélange en particulier. S'il y a bien moins de démonstrations que dans l'ouvrage de John Cornell, le lecteur appréciera ici une approche plus industrielle des plans de mélange, même si ce livre se limite en grande partie à la stratégie Component Proportions. Enfin, la troisième partie du livre consacrée à l'analyse des résultats peut représenter une excellente aide pour comprendre et bien interpréter les boîtes de dialogues et les résultats produits par les logiciels de plans de mélange.

mercredi 4 novembre 2015

Editorial Novembre 2015

La stratégie expérimentale proposée par McLean et Anderson en 1966 va donner lieu ce mois-ci à une nouvelle illustration au travers d'une étude de cas dont voici le contexte.

L'exemple choisi appartient au monde du ciment, liant minéral qui mélangé à de l'eau fait prise et durcit, même sous l'eau, ce qui lui vaut le qualificatif de liant hydraulique. Le ciment est un produit qui résulte d'un mélange de calcaire et d'argile que l'on cuit à haute température. Le produit formé, appelé clinker, est ensuite broyé et mélangé avec d'autres constituants pour atteindre des performances requises. Toutes ces transformations font de ce liant un ciment artificiel.

Il existe cependant des liants naturels pour lesquels on exploite les propriétés de pouzzolanicité. Ce dénominatif doit son origine à une petite ville, Pouzzoles au pied du Vésuve, où des cendres volcaniques ont manifesté des propriétés remarquables de cohésion, à un tel point qu'elles font partie des liants connus depuis l'Antiquité. Aujourd'hui, des sous-produits industriels tels que les cendres volantes issues des centrales thermiques présentent des analyses chimiques comparables aux cendres de Pouzzoles. Riches en silice et en alumine, des cendres volantes vont être mélangées à une poudre calcaire et à de l'eau en différentes proportions afin d'optimiser une propriété mécanique du mélange.

Cette étude de cas revisitée sera présentée sous la forme de 10 séquences au cours des deux dernières semaines du mois de novembre. Le domaine expérimental sous forme de polyèdre convexe se prête bien à l'approche proposée par McLean et Anderson, même s'il est possible de proposer, certes a posteriori, une approche alternative séduisante. On mettra en œuvre à nouveau la méthode de Box-Cox pour choisir une transformation judicieuse de la réponse. Enfin, il est original de constater que la validation du premier plan de mélange proposé par les auteurs fait appel à un second plan de mélange.

Avant d'aborder cette étude de cas apparentée au domaine de la céramique, des verres et des bétons, je présenterai un troisième ouvrage de référence dans ce blog. Il s'agit du livre publié par Wendell F. Smith en 2005 et intitulé : "Experimental Design for Formulation". Bien que plus concis, il est très complémentaire de l'ouvrage de John A. Cornell, avec une vision plus industrielle et moins académique des plans de mélange.

Je profite de cet éditorial pour vous annoncer l'organisation d'une journée technique sur les plans d'expériences destinés à estimer et à comparer les effets des facteurs. Cette journée, organisée par le Pôle Européen de la Céramique, aura lieu à Vierzon le 10 décembre prochain. Vous trouverez ci-dessous une courte présentation de cette journée sous forme d'un petit clip vidéo. N'hésitez pas à me contacter pour plus d'informations.


Enfin, je suis ravi que ce blog puisse inspirer les enseignants chargés de la mise en oeuvre d'une partie de la réforme du BTS Chimie. Je remercie Cécile, professeure dans un grand lycée parisien, de contribuer à la diffusion de ce blog auprès de ces nombreux collègues en quête d'idées et d'informations.

mercredi 28 octobre 2015

Formulation d'une fusée de détresse A (Partie II)

Après avoir illustré la construction de la matrice d'expériences proposée par McLean et Anderson pour la modélisation ultérieure de la variation de l'intensité lumineuse provoquée par un mélange de 4 constituants, nous allons aborder la partie consacrée à l'analyse des résultats.
La sixième séquence nous invite à observer la variation de la réponse et à reporter la valeur de l'intensité lumineuse pour chacun des mélanges réalisés, directement sur la maquette du domaine expérimental. La valeur maximale a été observée au centre du domaine, ce qui laisse présager que les auteurs ont sans doute voulu confirmer qu'il s'agissait là d'un optimum connu, peut-être sous la forme d'un point de fonctionnement. Si un "meilleur" mélange existe, la forme canonique du modèle polynomial de degré 2 postulée a priori nous invitera alors à le rechercher près du centre du domaine.


L'analyse mathématique présentée dans cette septième séquence consiste, en utilisant la méthode des moindres carrés, à estimer d'une part les coefficients du modèle et d'autre part les résidus, à savoir les écarts entre les valeurs observées et les valeurs restituées par le modèle pour chacun des mélanges mis en œuvre. Le graphe des résidus illustre la difficulté du modèle à décrire convenablement la réponse au centre du domaine, mélange pour lequel la réponse observée est maximale. Un modèle qui décrit mal la zone du domaine où les mélanges pourraient satisfaire les objectifs à atteindre, va poser tôt ou tard des problèmes dans la démarche d'optimisation.


Dans la huitième séquence, on reprend pas à pas les étapes de calcul destinées à l'estimation de la qualité descriptive et de la qualité prédictive d'un modèle. On illustre le rôle des leviers, représentant des amplificateurs des résidus, à savoir des écarts de description, pour l'évaluation des écarts de prédiction. Les modèles alternatifs évoqués dans une des séquences de la première partie ne pourront guère faire mieux que la forme canonique du modèle polynomial de degré 2. On profite de cette séquence pour présenter le rôle "bénéfique" des pseudo-constituants dans les parties de l'analyse nécessitant le recours à des calculs, notamment pour des calculs matriciels.


Bien que le modèle ne présente pas une qualité prédictive satisfaisante dans la zone d'intérêt des expérimentateurs, on se livre pour l'exemple dans cette neuvième séquence à la restitution de l'équation du modèle sous forme de trace de la surface de réponse. Ce type de représentation devient incontournable quand, au-delà de trois constituants, on ne peut plus représenter de manière simple des surfaces de réponse et des courbes d'isoréponse.


La conclusion présentée dans cette dixième séquence permet d'illustrer l'organisation d'une feuille de calcul pour faire de l'optimisation dite non-linéaire et rechercher un "meilleur" mélange de manière numérique. On revient enfin sur les points clés présentés dans cette étude de cas.


D'autres études de cas faisant appel à la méthode proposée par McLean et Anderson pour la construction d'un plan de mélange seront régulièrement présentées dans ce blog.

mercredi 21 octobre 2015

Formulation d'une fusée de détresse A (Partie I)

La circulation de convois ferroviaires impose le respect de règles strictes pour garantir la sécurité des biens et des personnes transportées. Un incident en pleine voie doit être immédiatement signalé, mais quand les moyens téléphoniques modernes que nous connaissons aujourd'hui n'existaient pas, le danger était signalé pour le train suiveur à partir d'une fusée de détresse. Cet équipement est toujours d'actualité parmi les agrès de sécurité présents dans la cabine d'une locomotive.

Cette fusée de détresse est réalisée à partir d'un mélange de poudres dont l'homogénéité et la stabilité sont garanties par un liant et parmi lesquelles du magnésium, associé à du nitrate de sodium et du nitrate de strontium, provoque une intensité lumineuse importante que l'on va tenter de maximiser.

Cet exemple, qualifié de Flare Experiment par les anglo-saxons, a été proposé en 1966 par McLean et Anderson pour illustrer une méthode de construction d'une matrice d'expériences que l'on classe, au même titre que les réseaux proposés par Henry Scheffé, parmi les méthodes empiriques.

Cet exemple a été régulièrement revisité dans la littérature. La première partie de la présentation de cette étude de cas nous permettra de passer des objectifs de l'étude à la construction de la matrice d'expériences.

Dans la première séquence, la présentation du plan de l'exposé permet d'identifier les différentes articulations de la démarche et les points clés qui seront abordés au fil des séquences. Cette première séquence permet également de positionner le problème en terme d'objectif à atteindre et de réponse à mesurer. Les auteurs cherchent ici à maximiser une intensité lumineuse exprimée en candela.


La deuxième séquence d'une étude de cas est typiquement consacrée au choix d'une stratégie expérimentale supposée utile et efficace pour atteindre les objectifs fixés. Dans un problème d'optimisation, il faut toujours comparer les avantages et les inconvénients d'une approche indirecte de type Design Of Experiments avec ceux d'une méthode directe de type Sequential Simplex Optimization.


La troisième séquence, quelque peu longue, débute par la présentation des facteurs et des contraintes limitant la variation des proportions des constituants. Un problème d'incompatibilité de contraintes nécessite un ajustement de ces dernières avant de passer à la caractérisation géométrique du domaine. Nous sommes en présence d'un polyèdre convexe présentant 8 sommets, 12 arêtes et 6 faces et nous apprendrons à construire la maquette de ce domaine par pliage. Cette approche pédagogique et accessible à tous permet de bien comprendre par la suite la logique du maillage proposée par les auteurs.


Pour répondre à la question sur le nombre de mélanges à mettre en œuvre, il faut postuler a priori un type de modèle particulier pour décrire par la suite la variation de la réponse au sein du domaine expérimental. Les auteurs ont choisi classiquement la forme canonique d'un modèle polynomial de degré 2, complétée par la suite par des modèles alternatifs que l'on présentera dans cette quatrième séquence.


La cinquième séquence de cette première partie nous conduit à justifier le choix des auteurs qui ont retenu, comme plan de mélange, un ensemble constitué par les sommets, les centres de faces et l'incontournable centre du domaine.


Vous découvrirez dès la semaine prochaine la suite de cette étude de cas, depuis la mise en œuvre de l'expérimentation jusqu'à l'exploitation graphique de l'équation du modèle sous forme de trace de la surface de réponse.

mercredi 14 octobre 2015

Plans de mélange : Extreme Vertices Design

Lorsque des contraintes explicites transforment la géométrie du domaine expérimental en polyèdre convexe, il convient naturellement d'adapter les approches dédiées à la modélisation au sein d'un simplexe de hauteur unitaire ou de hauteur réduite.

La modélisation au sein d'un polyèdre convexe présente aujourd'hui de nombreux aspects, à la fois méthodologiques, géométriques et algorithmiques. Quand McLean et Anderson publièrent leur article fondateur en 1966, ils eurent l'idée d'associer une approche empirique à la définition géométrique du domaine expérimental. Ce dernier est caractérisé par un nombre de sommets strictement supérieur au nombre de constituants. Les coordonnées des sommets permettent alors de définir les coordonnées des centres de nombreux sous-espaces parmi lesquels on retrouve des arêtes et des faces, plus ou moins longues ou plus ou moins régulières. En présence d'un nombre restreint de constituants, un maillage du domaine ou du moins de sa périphérie, à partir des sommets et des différents centres permet de définir un nombre nécessaire et suffisant de mélanges pour estimer par la suite les coefficients de la forme canonique d'un modèle polynomial de degré 2. Ce maillage empirique peut être construit de façon manuelle et cette méthode empirique, mais néanmoins performante, est typiquement désignée par la locution Extreme Vertices Design.

La première séquence illustre la méthode de vérification de la compatibilité des contraintes individuelles inférieures et supérieures explicites. En effet, toutes les contraintes doivent contribuer à la définition du domaine expérimental, les coordonnées des sommets étant par la suite définies à partir de l'intersection des contraintes. On présente également dans cette séquence la méthode d'ajustement des contraintes incompatibles et un logigramme permettant de prédire de façon simple, la nature géométrique du domaine sous forme de simplexe ou de polyèdre convexe.


La deuxième séquence utilise différents mélanges à trois constituants pour illustrer une typologie des configurations géométriques. On peut ainsi rencontrer des polyèdres convexes isotropes ou fortement anisotropes qui, par voie de conséquence, vont limiter la possibilité d'un maillage uniforme de façon simple.


La troisième séquence explique, à partir d'un exemple, comment calculer facilement les coordonnées des sommets d'un polyèdre convexe, à partir de l'intersection des différentes contraintes individuelles inférieures et supérieures explicites. On utilise alors les coordonnées des sommets pour calculer les coordonnées du centre des sommets à qui l'on attribue, un peu à tort, le nom de centre du domaine. Il est primordial d'introduire systématiquement ce centre dans la matrice d'expériences.


La quatrième et dernière séquence de ce cours permet de compléter dans un premier temps le maillage précédent à partir de mélanges positionnés au milieu des arêtes. Dans un second temps, on montre la limite de la méthode proposée par McLean et Anderson au delà de cinq ou six constituants pour construire une matrice d'expériences à partir de règles empiriques simples. On évoque alors l'existence de méthodes algorithmiques ou géométriques que l'on présentera ultérieurement dans ce blog.


Différentes études de cas viendront illustrer les concepts présentés dans cet article en élargissant en particulier la démarche à des mélanges présentant 4 constituants.

Chacune des séquences est ponctuée par un quizz de quelques questions ; en répondant à ces questions, vous capitaliserez ainsi les connaissances apprises lors de ce chapitre.

mercredi 7 octobre 2015

Editorial Octobre 2015

Les publications proposées par Henry Scheffé en 1958 et en 1963 pour le maillage expérimental d'un domaine sous forme de simplexe ont rapidement été complétées en 1966, afin d'offrir une stratégie expérimentale lorsque des contraintes explicites affectant la variation des proportions des constituants transforment la géométrie du domaine en polyèdre convexe.

L'initiative est due à McLean et Anderson en 1966 dans un article dont le titre indique que les sommets du domaine expérimental vont jouer un rôle important dans la construction du plan de mélange et qui donnera le nom à la méthode : Extreme Vertices Design. Il s'agit encore une fois d'une méthode empirique et pragmatique, les critères d'optimalité, les algorithmes d'échanges et l'accès aux calculs numériques étant rares ou encore inexistants à cette époque. Mais cette méthode tire encore aujourd'hui largement son épingle du jeu et inspire même la construction de viviers de mélanges candidats pour la mise en œuvre des algorithmes d'échanges, dont on reparlera plus tard.

Le mois d'octobre sera donc consacré à cette approche empirique, tout d'abord grâce à un cours introductif basé sur des mélanges ternaires, puis avec une présentation revisitée de la publication proposée par McLean et Anderson en 1966 mettant en œuvre 4 constituants.

La semaine prochaine vous découvrirez les séquences du cours, qui invitent à comprendre les conséquences de l'application des contraintes explicites sur la géométrie du domaine à partir d'un mélange ternaire.

La semaine suivante, les premières séquences de présentation de l'exemple de McLean et Anderson vous montreront comment la construction d'une maquette permet de comprendre, d'un point de vue géométrique, le bien-fondé de la méthode de maillage. Cette approche rendue possible en raison de la présence de 4 constituants uniquement sera reproduite à plusieurs reprises dans ce blog, pour illustrer de nombreuses études de cas.

En dernière semaine, la suite des séquences de présentation de l'exemple de McLean et Anderson nous renverra à l'application de la méthode des moindres carrés. L'estimation des coefficients et des résidus relève de l'approche mathématique tandis que l'estimation de la qualité descriptive et prédictive du modèle relève de l'approche statistique de l'analyse de régression. La restitution de l'équation du modèle, même si sa qualité prédictive est faible, permettra de revenir sur la méthode de construction et d'interprétation de la trace de la surface de réponse.

Depuis le mois de juin, nous avons posé, article après article, les bases fondatrices de la méthode des plans d'expériences dédiés aux problèmes de formulation, en se limitant il est vrai à la stratégie de type Component Proportions. Si les méthodes de construction présentées depuis le début (Simplex Lattice Design, Simplex Centroid Design, Extreme Vertices Design) peuvent être qualifiées d'empiriques, elles sont néanmoins nécessaires pour la compréhension de méthodes de construction complémentaires que l'on qualifiera d'algorithmiques et que l'on présentera au fil de prochains articles.

Le glossaire s'étoffe au fil des semaines et de la publication de nouveaux articles. Il offrira bientôt près de 40 entrées ; n'hésitez pas à consulter régulièrement cette page évolutive ! Le mois d'octobre sera consacré à l'enregistrement des premières séquences qui alimenteront d'ici la fin de l'année la page "Excel & Logiciels". D'autres études de cas dans le domaine de la galénique et de la céramique sont également en cours de préparation avant d'aborder de nouvelles séquences de cours. Nous en reparlerons dans un prochain éditorial. Merci enfin à tous ceux qui m'adressent des remerciements pour ce blog, des encouragements et des remarques. Un clin d’œil particulier ira ce mois-ci à Mohammed qui enseigne les plans d'expériences depuis une dizaine d'années et qui se reconnaîtra dans ce message.

mercredi 30 septembre 2015

Normes françaises et plans d'expériences

Lorsqu'on s'intéresse aux plans d'expériences, on finit tôt ou tard par découvrir qu'il existe des documents normatifs, le plus souvent sous forme de fascicules de documentation. Même si ces documents ne sont pas d'une grande utilité dans le domaine des plans de mélange qu'ils évoquent trop succinctement, ils méritent quelques commentaires pouvant inciter les lecteurs de ce blog à s'y reporter en cas de besoin sur les plans d'expériences en général.



X 06-080, Application de la statistique,
Plan d'expériences, Vocabulaire et indications générales, AFNOR, Ed. Paris, Novembre 1989, 25 pages.

Cette première référence commence à accuser son âge, mais représente sans doute le premier document de ce type publié en langue française. Les plans pour l'étude de mélanges occupent un court paragraphe dans la partie consacrée aux principaux types de plans d'expériences. Ce paragraphe renvoie exclusivement aux méthodes de maillage proposées par Henry Scheffé (Simplex Lattice Design et Simplex Centroid Design) et la présentation se limite donc à une stratégie de type Component Proportions. Il est précisé qu'il existe des plans d'expériences spécifiques lorsque la géométrie du domaine expérimental se traduit par un polyèdre convexe sous l'effet de contraintes explicites. La partie consacrée à la présentation des principaux types de modèles ignore hélas les différentes formes canoniques des modèles polynomiaux utiles ou encore les modèles synergiques sous-jacents à la construction des plans de mélange et à l'analyse des résultats expérimentaux.

Cependant, cette première norme permettait au lecteur de trouver des définitions pour les principaux termes usuels, complétées par des éléments de nature méthodologique à une époque où les livres en langue française consacrés aux plans d'expériences étaient peu nombreux. Les exemples, plutôt simplistes, se limitent à la construction d'un plan factoriel complet et d'un plan en carré latin. On pourra regretter qu'aucun exemple d'analyse et de restitution des résultats ne soit présenté.



FD X 06-081, Plan d'expériences,
Guide pour le choix d'un plan d'expériences, AFNOR, Ed. Paris, Juin 2003, 43 pages.

Apparu plus d'une dizaine d'année après la référence normative précédente, ce fascicule de documentation est une des conséquences du déploiement des formations consacrées aux plans d'expériences dans les entreprises et l'enseignement supérieur, au cours de la dernière décennie du XXe siècle. En raison du développement des logiciels dédiés offrant très souvent un catalogue important de plans d'expériences, il est apparu nécessaire de proposer aux utilisateurs un guide de choix.

Les plans de mélange occupent une place plus importante dans ce guide. Une typologie est proposée pour distinguer la géométrie du domaine expérimental en fonction des contraintes explicites qui affectent les variations des proportions des constituants.
  • Les plans de type I sont définis dans un simplexe de hauteur unitaire : aucune contrainte explicite ne vient limiter le domaine. Derrière ce type de plans, on retrouve les dispositifs proposés par Henry Scheffé de type Simplex Lattice Design et Simplex Centroid Design.
  • Les plans de type II sont définis dans un simplexe de hauteur réduite, mais de même orientation que le simplexe initial de hauteur unitaire. La conséquence de la définition de contraintes individuelles inférieures explicites autorise une adaptation des dispositifs associés aux plans de type I en utilisant une transformation en pseudo-constituants.
  • Les plans de type III sont associés à des études pour lesquelles les valeurs des contraintes individuelles inférieures et supérieures explicites génèrent un domaine expérimental sous forme de polyèdre convexe. C'est du moins ce que sous-entend la norme qui propose uniquement des méthodes de construction algorithmiques (D-Optimalité et G-Optimalité) pour la définition des plans de mélange dans ce contexte. On peut regretter que l'approche empirique, mais néanmoins efficace proposée par McLean et Anderson en 1966, ne soit pas évoquée et proposée, mais il est vrai que les logiciels n'intègrent pas cette approche dans leurs menus, préférant le recours aux plans dits optimaux.
  • Les plans de type IV correspondent à la stratégie appelée Slack Variable, pour laquelle un des constituants, majoritaire en proportion, sert de variable d'ajustement. La norme propose alors de construire le plan de mélange à partir d'un plan factoriel complet ou fractionnaire.
  • La norme présente enfin sous le nom de plans mixtes, les dispositifs expérimentaux permettant d'associer des variables internes et des variables externes, correspondant à la stratégie Mixture Process Variables. Il est suggéré d'utiliser la régression PLS pour l'analyse des résultats.

Des exemples, de nature plutôt académiques, permettent d'illustrer les différents paragraphes de ce fascicule de documentation. Des captures d'écran du logiciel Statgraphics complètent la présentation de ces exemples.


FD ISO/TR 12845, Illustrations choisies de plans d'expériences factoriels fractionnaires, AFNOR, Ed. Paris, Septembre 2010, 81 pages.
Ce fascicule de documentation est conséquent par son nombre de pages. Sa publication est liée au déploiement de la méthode dite Six Sigma dans les entreprises, méthode qui recommande dans sa démarche d'amélioration continue, l'application de plans factoriels fractionnaires à deux niveaux. On peut regretter que cette méthode ignore une typologie plus générale des plans d'expériences et que les problématiques de criblage (Screening Design) ne fassent référence qu'à des plans à deux niveaux.

Comme l'indique le titre de ce fascicule, le lecteur ne trouvera pas ici un document spécifiquement destiné à un public concerné par un problème de formulation. Toutefois, deux des six exemples présentés peuvent être intéressants à parcourir :
  • L'optimisation d'une émulsion de polymère associe cinq variables internes représentées par les proportions de cinq constituants à deux variables externes correspondant à une température et un temps d'alimentation. L'organisation de l'expérimentation fait appel à la définition de blocs dont l'origine est due à deux opérateurs et à deux types de réacteurs.
  • L'étude de formulations de mousse PVC se rapproche d'une stratégie de type Slack Variable en étudiant les effets de neuf constituants mineurs à l'aide d'un plan factoriel fractionnaire qui fait appel à seize combinaisons expérimentales distinctes, complétées par trois répétitions de la formule de référence.
Ce fascicule de documentation est résolument tourné vers des applications industrielles, illustrées parfois par la mise en œuvre d'un logiciel. Il représente une excellente source d'inspiration pour des formations universitaires ou en entreprises. On s'éloigne radicalement d'exemples trop "simplistes" et la prise en compte de plusieurs réponses traduit une réalité de terrain.


NF ISO 3534-3, Statistique - Vocabulaire et symboles - Partie 3 : Plans d'expériences, AFNOR, Ed. Paris, Juin 2013, 96 pages.
Dans la série ISO 3534, on trouve trois opus très riches en définitions, que ce soit dans le domaine des statistiques et des probabilités, dans le domaine de la statistique appliquée et dans le domaine des plans d'expériences.

La dernière version de la norme ISO 3534-3 est, à mon sens, très complète et la cohérence des différentes définitions est fortement appréciable. La mise en pages sur deux colonnes permet de juxtaposer la définition en langue française et la définition en langue anglaise. D'inspiration très agronomique (le "s" dans la locution "plan d'expérience" est absent dans la définition, mais présent dans le titre de la norme !), les définitions sont naturellement applicables dans de nombreux domaines.

Les plans pour l'étude de mélanges, encore appelés plans d'expériences avec mélanges font encore office de parent pauvre, puisque un seul et unique paragraphe de quinze lignes leur est consacré ! Et dans ce paragraphe, il convient de considérer une longue note tentant de résumer un exemple. Il faudra donc se contenter ici d'une définition, assez restrictive, indiquant que nous sommes en présence de plans d'expériences élaborés pour traiter la situation dans laquelle la somme des variables de prédiction est égale à une quantité fixée. Cela exclut donc d'une part bon nombre de stratégies autres que la stratégie de type Component Proportions et d'autre part, la possibilité de prendre en compte toutes les extensions de la matrice dexpériences, sous forme de produits par exemple, nécessaires dans les formes canoniques de degré supérieur à un.

Cette norme est suffisamment riche par ailleurs pour que l'on puisse pardonner aux auteurs quelques oublis ou inexactitudes dans le domaine des plans de mélange. Il s'agit là d'un véritable document de référence pour qui a besoin d'un dictionnaire cohérent et dans l'ensemble fort rigoureux de nombreux termes appliqués aux plans d'expériences.

En conclusion, on pourra regretter que le prix de vente de ces différents documents soit très élevé et dépasse largement celui de livres de référence, pourtant plus volumineux, dans bien des domaines d'application des plans d'expériences en général et des plans de mélange en particulier. Cela représente nécessairement un frein à la diffusion de tels documents, que ce soit en milieu universitaire ou en milieu industriel. On limite hélas ainsi, pour raisons économiques que l'on a du mal à percevoir de façon apparente, l'accès à la culture de la normalisation et à son riche patrimoine.

mercredi 23 septembre 2015

Plans de mélange : Aspects statistiques

Les aspects statistiques présentés dans cet article se restreignent à l'estimation de la qualité descriptive et de la qualité prédictive des modèles.

La première séquence rappelle que l'analyse mathématique a permis d'obtenir, en faisant appel à la méthode des moindres carrés, un modèle, c'est-à-dire une équation dont les coefficients représentent une estimation des paramètres du modèle et des résidus, traduisant les écarts entre les valeurs observées et les valeurs restituées par l'équation du modèle. Pour juger de la qualité descriptive d'un modèle, on peut rapprocher ces deux ensembles de valeurs, soit de façon graphique en construisant le graphe d'adéquation, soit de façon numérique en calculant la somme des carrés des écarts.


La somme des carrés des écarts représente une des composantes de l'équation d'analyse de régression. On présente dans cette deuxième séquence, la construction du tableau d'analyse de régression, puis son exploitation pour calculer d'une part le coefficient de détermination R2 et d'autre part le coefficient de détermination R2ajusté. Ce dernier coefficient permet de comparer d'un point de vue descriptif des modèles ne faisant pas appel au même nombre de paramètres.



En faisant toujours appel à l'exemple d'un mélange binaire de sable et de gravier, cette troisième séquence illustre l'estimation de la qualité prédictive d'un modèle, en faisant appel à une méthode de validation croisée. Suite au plan de mélange, on crée une partition constituée d'un échantillon d'apprentissage et d'un échantillon de validation. L'approche illustrée dans cette séquence permet de positionner la matrice H (Hat matrix) dans la démarche et ses termes diagonaux appelés des leviers. Cette matrice est régulièrement utilisée, à la fois pour la construction des plans de mélange et pour l'analyse des résultats.



Chacune des séquences est ponctuée par un quizz de quelques questions ; en répondant à ces questions, vous capitaliserez ainsi les connaissances apprises lors de ce chapitre.

mercredi 16 septembre 2015

Plans de mélange : Aspects mathématiques

Comme nous l'avons vu dans un précédent article consacré à la présentation d'un ouvrage de référence, l'analyse de régression est un groupement de procédures associées à l'évaluation d'un modèle.

D'un point de vue pédagogique, il me semble utile de distinguer deux parties que j'ai respectivement intitulées : analyse mathématique et analyse statistique. Le présent article porte sur la première de ces deux analyses en s'appuyant sur trois séquences vidéos.

L'analyse mathématique consiste à estimer les paramètres d'un modèle et les écarts entre les valeurs observées et les valeurs restituées à partir de l'équation du modèle. La méthode des moindres carrés sera la méthode d'ajustement utilisée ici, les écarts portant alors le nom de résidus. On retrouvera les données de l'exemple du mélange binaire de sable et de gravier, présenté dans le chapitre consacré à la position du problème.

La première séquence permet de rappeler la position du modèle dans la boucle de la formulation, puis la définition d'un modèle. La méthode des moindres carrés dont l'écriture matricielle sera présentée dans les séquences suivantes est schématiquement introduite ici, en positionnant les différentes matrices et leur nom qui interviennent successivement dans la démarche. On consacre également du temps dans cette séquence pour présenter l'origine des formes canoniques des modèles polynomiaux de degré d, avec en particulier les formes réduites pour les modèles de degré 3 et de degré 4, puis pour présenter l'expression générique d'un modèle synergique du modèle de degré q.


La deuxième séquence présente le passage de la matrice d'expériences à la matrice du modèle. Le nombre d'équations disponibles étant inférieur au nombre d'inconnues à estimer, on justifie alors que la méthode des moindres carrés permet de générer les équations manquantes, en minimisant la somme des carrés des écarts. Les équations manquantes permettent de construire une matrice carrée, appelée matrice d'information dont le déterminant jouera un rôle important dans les méthodes de construction des plans de mélange faisant appel non plus à des critères empiriques ou géométriques, mais à des critères algébriques. L'inversion de cette matrice, lorsqu'elle est possible, conduit à la définition des composantes de la matrice de dispersion, les termes diagonaux de cette matrice étant appelés des coefficients de variance.


La troisième et dernière séquence conduit à l'expression du vecteur des coefficients, puis au vecteur des résidus avant de se livrer à un bilan récapitulatif de l'analyse mathématique.


Chacune des séquences est ponctuée par un quizz de quelques questions ; en répondant à ces questions, vous capitaliserez ainsi les connaissances apprises lors de ce chapitre.

Les conseils de mise en œuvre de la méthode à l'aide d'un tableur présentés dans les séquences de ce chapitre devraient vous inciter à estimer les coefficients et les résidus pour la forme canonique du modèle de degré 3 et la forme canonique du modèle de degré 4. Bien souvent, l'offre des logiciels s'avère assez incomplète pour l'étude des mélanges binaires et le recours à un tableur devient alors incontournable.




mercredi 9 septembre 2015

Ouvrage de référence

Dodge Y., Rousson V., Analyse de régression appliquée, Dunod, Ed. Paris, 2e édition, 2004, 280 pages.

Les utilisateurs des plans de mélange sont tôt ou tard confrontés à un problème d'analyse de régression, non pas dans la mise en oeuvre de cette méthode car les logiciels sont aujourd'hui bien présents pour les aider, mais plutôt pour l'interprétation des résultats fournis par ces mêmes logiciels. Certes l'aide en ligne peut apporter des éléments de réponse aux questions posées, mais il me semble opportun de consacrer un article à un ouvrage sur le sujet, qui plus est, un ouvrage en langue française et dont la lecture est abordable pour un large public !

Parmi les auteurs, Yadolah Dodge est connu pour d'autres ouvrages qu'il a publiés, notamment un dictionnaire encyclopédique et un livre intitulé "Premiers pas en statistiques" que l'on peut recommander pour mettre en pratique des méthodes statistiques élémentaires.

Qu'est-ce que l'analyse de régression ?


Pour répondre à cette question, je vais reprendre la définition donnée dans la norme ISO 3534-3 que l'on commentera pour une application dans le domaine des plans de mélange.
Groupement de procédures associées à l’évaluation des modèles liant les variables de prédiction aux variables de réponse.
Il y a un avantage à disposer de procédures : il suffit de les suivre pour aboutir au résultat et ces procédures sont largement implémentées dans les logiciels ! Dans nos préoccupations, les variables de prédiction que l'on appelle des facteurs seront le plus souvent représentées par les proportions des constituants, à savoir des fractions massiques, volumiques ou molaires. La nature de ces facteurs, à savoir des nombres réels compris le plus largement entre 0 et 1 nécessite quelques adaptations que l'on précise au fil des chapitres de ce blog et quelques règles de prudence pour déjouer des problèmes de conditionnement (ill-conditioned matrix en langue anglaise). L'évaluation des modèles commence tout d'abord par l'estimation des paramètres de ces modèles, autrement dit des coefficients, ce qui nécessite une ou plusieurs méthodes, parmi lesquelles la régression au sens des moindres carrés occupe une place importante. Un modèle n'étant qu'une approximation de la réalité, il convient d'analyser ensuite, à l'aide de procédures statistiques spécifiques, les écarts entre les valeurs observées et les valeurs restituées par l'équation du modèle. 
L’analyse de régression est couramment associée au procédé d’estimation des paramètres d’un modèle théorique par optimisation d’une fonction objective (par exemple en minimisant la somme des différences carrées entre les réponses observées et celles prévues par le modèle). L’existence de logiciels statistiques a supprimé la plupart du travail fastidieux quant à l’obtention des estimations de paramètres, leurs erreurs-types, et un grand nombre de diagnostics de modèle.
Le manque d'ajustement du modèle d'une part (lack-of-fit) et les nombreuses sources d'incertitudes d'autres part vont naturellement se répercuter sur la qualité du modèle, nécessitant un grand nombre de tests statistiques, depuis les tests de signification des coefficients jusqu'aux tests portant sur la distribution des résidus. En parlant des résidus, la liste est longue et parfois déroutante : résidus, résidus standardisés, résidus studentisés internes, résidus studentisés externes, etc ... Ce livre, même s'il n'est pas spécifiquement dédié aux plans de mélange, me semble apporter de façon claire des précisions sur ces différents points. 
L’analyse de régression joue un rôle similaire à celui de l’analyse de variance et s’avère particulièrement adaptée au cas où les niveaux des facteurs sont continus, l’accent étant davantage porté sur un modèle explicite de prédiction.
Ce dernier extrait de la norme ISO 3534-3 me semble parfaitement convenir au contexte des plans de mélange, les proportions des constituants variant de façon continue. Qui plus est, la majorité des applications consiste à la recherche d'un optimum, démarche dans laquelle il convient de s'intéresser à la qualité prédictive des modèles. Si l'analyse de régression joue un rôle similaire à celui de l'analyse de variance, c'est qu'il y a de nombreux points communs, notamment dans la synthèse des résultats sous forme d'un tableau (tableau d'analyse de régression ou tableau d'analyse de variance), mais il y a aussi des différences, subtiles à percevoir. C'est en particulier pour cette raison qu'il vaut mieux parler de modalités plutôt que de niveaux pour distinguer les états des facteurs quand on cherche à estimer les effets des facteurs dans la grande famille des plans d'expériences dits "factoriels". On ne peut que regretter l'absence d'un livre de référence sur l'analyse de variance avec une application "industrielle".

L'analyse de régression est donc l'outil incontournable pour la construction et une interprétation statistique des modèles après la mise en oeuvre d'un plan d'expériences en formulation.

A propos du contenu de ce livre ...


Ce livre comporte 10 chapitres qui intègrent des exercices dont des éléments de correction sont disponibles  à la fin de l'ouvrage.

Les deux premiers chapitres portent sur la régression linéaire simple qui produit ce qu'il est courant d'appeler la droite des moindres carrés, puisqu'elle permet de modéliser la variation d'une réponse Y en fonction d'une seule variable X par une droite. Toutes les personnes confrontées à des problèmes d'étalonnage "simples" trouveront dans ces chapitres des démonstrations rigoureuses et pourront apprécier la présence d'un long paragraphe sur le modèle sans constante, fréquemment rencontré en pratique mais rarement décrit dans les livres.

Faisant suite à la régression linéaire simple, on trouve tout naturellement un chapitre consacré à la régression linéaire multiple, traduisant la présence de plusieurs variables de prédiction, ce qui donne l'occasion aux auteurs d'introduire l'approche matricielle de la méthode des moindres carrés que l'on retrouvera à de nombreuses reprises dans ce blog, parce qu'elle est incontournable dans les plans de mélange, dès que l'on s'éloigne de cas de figures simples que l'on pourrait qualifier de cas d'école.

Le quatrième chapitre porte sur la notion de corrélation, l'objectif étant de montrer au lecteur le lien entre cette notion et celle de régression. Si ce chapitre aurait à mon sens une place plus justifiée dans un ouvrage consacré  l'analyse multidimensionnelle des données, on saura apprécier dans ce chapitre un descriptif sur les corrélations partielles, les corrélations sérielles et les corrélations de rang. Comme dans les plans de mélange on observe généralement plusieurs réponses qui traduisent des grandeurs différentes et s'expriment dans des unités différentes, il est parfois utile lors de l'analyse des résultats de s'intéresser à la corrélation entre les différentes réponses ; l'utilisation des corrélations de rang trouvera au moins une application dans les études de cas présentées dans ce blog. 

Le chapitre suivant intitulé "Diagnostics", au sens dans lequel ce mot a été utilisé dans la norme ISO 3534-3, permettra au lecteur de trouver de nombreuses informations sur l'analyse des résidus et une introduction fort utile à la matrice H (Hat Matrix) à laquelle on fait souvent référence aussi bien pour la construction des plans de mélange que pour l'analyse des résultats qui en découlent.

Avec le sixième chapitre, les auteurs abordent des méthodes de sélection de variables pour améliorer la qualité descriptive des modèles. Parmi ces méthodes, c'est souvent la procédure stepwise que l'on recommande d'utiliser quand on cherche à "simplifier" la forme canonique des modèles polynomiaux de degré élevé ou encore les modèles synergiques de degré q, en ne conservant que les monômes qui contribuent le plus à la qualité descriptive des modèles. Le logiciel Minitab intègre en particulier cette procédure dans les menus d'analyse des résultats des plans de mélange.

Le septième chapitre tente de montrer les points communs entre l'analyse de variance et l'analyse de régression à partir d'un exemple d'analyse de variance à un facteur. Complété par un exemple d'analyse de variance à deux facteurs, ce chapitre peut représenter une courte introduction aux méthodes d'analyse de variance mais ne présente pas un grand intérêt, à mon sens, pour les utilisateurs de plans de mélange.

Le huitième chapitre devrait intéresser à plus d'un titre les utilisateurs des plans de mélange car il présente une méthode de régression alternative à la méthode des moindres carrés : la régression ridge. A plusieurs reprises dans les notes de cours et les études de cas, on évoque le déterminant de la matrice d'information, dont la valeur peut devenir très petite au point de poser des problèmes numériques d'inversion matricielle et d'estimation des coefficients. Ce constat est dû en particulier à la nature des facteurs dans les plans de mélange. La contrainte relationnelle implicite affectant la somme des proportions des constituants contribue à créer des corrélations entre les colonnes de la matrice d'expériences et, au delà, entre les colonnes de la matrice du modèle. La détection des problèmes de colinéarité peut faire appel au calcul des facteurs d'inflation de variance et à leur interprétation. Un exemple bien connu de modélisation entre la chaleur d'hydratation d'un ciment et les proportions de ces constituants minéralogiques permet d'illustrer ce phénomène et de présenter la régression ridge qui, en acceptant un biais faible, permet de minimiser très fortement les variances, donc les incertitudes affectant les coefficients du modèle. La régression PLS pourrait également représenter une alternative intéressante, mais elle n'est pas présentée dans cet ouvrage.

Plutôt que de chercher à minimiser la somme des carrés des écarts, on pourrait choisir comme critère la minimisation de la somme des valeurs absolues des écarts ; c'est l'objet du neuvième chapitre qui présente la régression LAD (Least Absolute Deviations). Cette méthode itérative associée à la branche des estimations robustes en statistique n'étant pas implémentée dans les logiciels de plans de mélange, il est difficile d'en apprécier son potentiel dans ce contexte.

La conclusion fait l'objet du dixième chapitre, précédent les éléments de correction apportés aux exercices et une bibliographie assez riche.

En conclusion ...


Certains lecteurs trouveront toujours à redire, mais les auteurs ont réussi le pari de rendre accessibles les nombreuses facettes de l'analyse de régression en un nombre contenu de pages, sans bâcler pour autant les démonstrations. Ce livre ne se lit pas comme un roman, mais chacun peut aller y chercher de l'information selon ses besoins. Il est très complémentaire de l'aide en ligne offerte dans les logiciels et, rappelons-le, l'analyse de régression ne se limite pas à des applications pour les plans de mélange. Vous pourrez donc déployer le bénéfice de sa lecture à de nombreux domaines qui nécessitent des outils de modélisation.