mercredi 9 mars 2016

Minitab 17 - Exemple 01

Dans cet article nous allons reprendre les données de l'étude de cas relative à la formulation d'un détergent, afin d'illustrer et de commenter la mise en œuvre de cet exemple à partir du logiciel Minitab, dans sa version 17.

Cet exemple de plan de mélange renvoie à l'utilisation d'un réseau de type Simplex Lattice Design avec un degré de maillage égal à 4, à partir duquel on cherche à mélanger de l'eau, de l'alcool et de l'urée, pour atteindre un compromis entre deux réponses soumises aux contraintes du cahier des charges.

Les données de cet exemple sont issues de la publication de deux auteurs français en 1972, J.P. Narcy et J. Renaud, les réseaux de type Simplex Lattice Design ayant été proposés par Henry Scheffé en 1958.

La première séquence concerne la création du plan de mélange, avec un rappel concernant la différence entre les maillages proposés par des réseaux de type  Simplex Centroid Design, des réseaux de type Extreme Vertices Design et des réseaux de type Simplex Lattice Design. On visualisera le domaine expérimental et le maillage retenu par les auteurs à la fin de cette première séquence.



La seconde séquence concerne l'analyse du plan de mélange. Cette séquence permet de commenter les différents résultats associés à l'analyse mathématique, à l'analyse statistique et à l'analyse graphique. On présentera en détail les différentes étapes du paramétrage de l'analyse en rappelant tout d'abord l'écriture des différentes formes canoniques des modèles polynomiaux. On commentera le tableau d'analyse de régression pour la forme canonique du modèle de degré 2.

Après avoir estimé les coefficients du modèle quartique (forme canonique du modèle polynomial de degré 4), on utilisera les nombreuses possibilités de restitution graphique telles que les courbes d'isoréponse ou la trace de la surface de réponse afin de rechercher un compromis acceptable par superposition des contours, lors de l'étape d'optimisation.



D'autres applications du logiciel Minitab dans le domaine des plans de mélange viendront compléter ce premier article.

mercredi 2 mars 2016

Editorial Mars 2016

Après avoir longuement parlé de méthodes de construction empiriques pour les plans de mélange, nous allons commencer à aborder la présentation de méthodes algorithmiques, indissociables de critères algébriques propres à la méthode des moindres carrés, comme par exemple le déterminant de la matrice d'information et la trace de la matrice de dispersion.

Un article général sur les critères algébriques précédera un article illustrant l'utilisation d'une fonction méconnue permettant de faire aisément de la simulation à l'aide d'un tableur. On reviendra ici sur le rôle des mélanges axiaux en complément des mélanges d'un dispositif de type Simplex Centroid Design. On étudiera l'influence de la position des mélanges axiaux sur la variation du déterminant de la matrice d'information, sur la variation des termes de la trace de la matrice de dispersion et enfin, sur la variation des valeurs de la fonction de variance, fonction qui traduit l'incertitude propagée par un modèle lorsque l'on fait des prévisions. Tous ces critères sont associés à la D-optimalité, à la A-optimalité, à la G-optimalité et à la I-optimalité. On disposera ainsi d'une introduction à un futur article relatif aux méthodes de construction de plans optimaux à partir d'algorithmes d'échange. L'approche pédagogique renverra souvent à la construction d'un plan d'expériences pour l'étude d'un mélange binaire.

On consacrera également un article à la présentation d'une application du logiciel Minitab pour compléter la rubrique dédiée aux logiciels. On reprendra ici une étude de cas mettant en oeuvre un dispositif de type Simplex Lattice Design à propos de la formulation de produits ménagers et de détergents.

Enfin, un exemple de mélange binaire issu de la littérature dans le domaine pharmaceutique permettra d'illustrer l'utilisation de modèles avec des termes inverses. Cette étude de cas présentera trois applications faisant essentiellement appel à des techniques liées à l'analyse de régression. Les articles précédents relatifs à l'utilisation d'un tableur pourront être  ici utilement mis en pratique, car rares sont les logiciels qui permettent la construction et l'analyse de plans de mélange en présence de deux constituants.

La présentation d'une étude de cas relative à une optimisation multi-critères annoncée par anticipation le mois dernier trouvera sa place un peu plus tard dans ce blog. Elle a laissé place à la présentation d'un article illustrant une utilisation du logiciel Statgraphics.

Le printemps des plans d'expériences qui arrive à grand pas sera donc consacré essentiellement aux plans optimaux !


mercredi 24 février 2016

Statgraphics XVII - Exemple 01

Dans cet article nous allons reprendre les données de l'étude de cas relative à la formulation de propergol, afin d'illustrer et de commenter la mise en œuvre de cet exemple à partir du logiciel Statgraphics, dans sa version XVII.

Cet exemple de plan de mélange renvoie à l'utilisation d'un réseau de type Simplex Centroid Design complété par des points axiaux, à partir duquel on cherche à mélanger un liant, un comburant et un combustile, pour atteindre une valeur particulière du module d'élasticité tout en minimisant la teneur en liant.

Les données de cet exemple sont issues de la publication de I.S. Kurotori en 1966, les réseaux de type Simplex Centroid Design ayant été proposés par Henry Scheffé en 1963.

La première séquence concerne la création du plan de mélange, avec un rappel succinct de la différence entre les réseaux de type Simplex Lattice Design et les réseaux de type Simplex Centroid Design. Il s'agit ici d'une procédure classique de création du plan d'expériences, la procédure renvoyant à l'utilisation d'un assistant fera quant à elle l'objet de la troisième séquence.


La deuxième séquence concerne l'analyse du plan de mélange. Cette séquence permet de commenter les différents résultats associés à l'analyse mathématique, à l'analyse statistique et à l'analyse graphique. Après avoir estimé les coefficients du modèle synergique de degré 3 ainsi que les résidus, on commentera différents aspects des diagnostics du modèle s'appuyant sur le tableau d'analyse de régression. Viendra enfin le temps de la restitution graphique sous forme de surface de réponse, de courbes d'isoréponse et enfin de trace de la surface de réponse. L'étape d'optimisation marque la fin de cette deuxième séquence.


La troisième séquence met en valeur l'assistant de création et d'analyse d'un plan de mélange qui guide, étape par étape, l'utilisateur en lui apportant des informations bien utiles telles que la valeur des leviers, la valeur des coefficients de variance, les courbes d'isovariance ou encore leur trace. On insistera essentiellement sur les étapes conduisant à la création du plan, les étapes d'analyse étant très similaires à celles présentées dans la deuxième séquence.


D'autres applications du logiciel Statgraphics dans le domaine des plans de mélange viendront compléter ce premier article.

mercredi 17 février 2016

Excel - Calculs matriciels et méthode des moindres carrés

La méthode des moindres carrés dont la paternité est attribuée conjointement à Carl Friedrich Gauss (1777 - 1855) et à Adrien Marie Legendre (1752 - 1833) reste la méthode la plus couramment utilisée pour l'estimation des paramètres d'un modèle lors de l'analyse des résultats d'un plan de mélange. Par voie de conséquence, cette méthode est souvent la seule qui est évoquée dans les techniques d'analyse de régression utilisée dans les plans d'expériences.

La minimisation de la somme des carrés des écarts entre les valeurs observées et les valeurs restituées par la partie déterministe d'un modèle conduit à générer un système de p équations à p inconnues, p représentant le nombre de paramètres du modèle que l'on souhaite estimer. Les équations de ce système sont parfois appelées les équations normales, notamment dans les techniques d'étalonnage. 

Dans le contexte particulier d'une courbe d'étalonnage matérialisée par une droite avec constante, la démarche consiste à résoudre alors un système de deux équations à deux inconnues ; la méthode de substitution ou la méthode de Cramer permettent très rapidement d'estimer l'ordonnée à l'origine et la pente de la droite. Dès que le modèle devient plus complexe et que le nombre de régresseurs devient plus important, le recours à une approche matricielle devient incontournable pour inverser des matrices carrées de rang p. C'est naturellement le cas dans les plans de mélange y compris en présence d'un mélange binaire qui nous servira ici à illustrer les étapes de la démarche.

Les tableurs informatiques possèdent tous des fonctions matricielles qui vont permettre les transpositions, les produits et les inversions nécessaires à la mise en œuvre de la méthode. Toutes ces opérations nécessitent de sélectionner la zone de résultat préalablement à l'utilisation de la fonction matricielle dont on valide la mise en oeuvre à partir des touches CTRL+SHIFT+ENTREE. Il faut donc prévoir à l'avance la dimension des différentes matrices et des différents vecteurs apparaissant dans la démarche. Des rappels de cours précèdent l'illustration de l'utilisation du tableur Excel.



La démarche présentée à partir d'un mélange binaire et de la forme canonique d'un modèle polynomial de degré 3 est naturellement généralisable à des mélanges présentant un nombre plus important de constituants et/ou à d'autres formes canoniques ou non de modèles linéaires moyennant quelques précautions :

  1. Il faut s'assurer tout d'abord que la somme des proportions des constituants soit constante, de manière à ne pas propager rapidement des erreurs d'arrondi lors des multiplications entre les proportions dans les différentes opérations matricielles.
  2. Les proportions étant représentées par des nombres réels inférieurs ou égaux à 1, le produit de ces proportions devient rapidement petit, en particulier quand on souhaite estimer les paramètres de modèles de degré élevé. Par ailleurs, la contrainte relationnelle implicite traduisant la constance de la somme des proportions implique une quasi-colinéarité entre les colonnes de la matrice du modèle et, tout au moins des corrélations fortes produisant un phénomène qualifié de "ill-conditioned matrix". Tout ceci a pour conséquence de conduire à une valeur de déterminant parfois très faible pour la matrice d'information. La fonction permettant d'inverser une matrice renvoie à un algorithme qui peut présenter des limites en deçà desquelles la fonction renvoie un message d'erreur. L'utilisation d'une transformation en pseudo-constituants permet parfois de contourner le problème, mais le recours à un logiciel reste souvent incontournable. Il est difficile de donner une valeur à cette limite, mais une valeur inférieure à 10-40 ou 10-50 pour le déterminant de la matrice d'information doit inviter l'utilisateur à s'interroger sur l'exactitude des calculs.
  3. Il peut être utile d'installer des "détrompeurs", c'est-à-dire des cellules qui permettent de vérifier des propriétés numériques inhérentes à la méthode des moindres carrés. La moyenne des valeurs de la réponse observée est égale à la moyenne des valeurs de la réponse calculée à partir du modèle et, par voie de conséquence, la moyenne des résidus est nulle. La somme des valeurs sur une ligne de la matrice H est unitaire, tout comme la somme des valeurs dans une colonne pour cette même matrice. La somme des valeurs de la matrice H est donc égale au nombre N de mélanges mis en œuvre. De même, la somme des termes diagonaux de cette matrice est égale au nombre p de paramètres à estimer dans le modèle.

Cette présentation n'a en aucun cas l'ambition de rivaliser avec tel ou tel logiciel, si ce n'est cependant lorsqu'on est confronté à l'étude d'un mélange binaire, cas particulier pour lequel même les meilleurs logiciels restent impuissants ! Excepté ce cas de figure, que l'on rencontre toutefois de temps à autre, le tableur doit être considéré comme un accompagnement pédagogique aidant à mieux comprendre la logique de construction des plans de mélange. L'interactivité d'une feuille de calcul reste inégalée par rapport aux possibilités offertes par un logiciel.

Comme je l'ai indiqué dans le film associé à cet article, en faisant varier les coordonnées des mélanges au sein de la matrice d'expériences, on peut constater immédiatement les conséquences de ces modifications sur des indicateurs algébriques, tels que le déterminant de la matrice d'information, les éléments de la trace de la matrice de dispersion ou encore les leviers, termes diagonaux de la matrice H.

Cet article et ce film représentent un préambule à de futurs chapitres qui parleront des indicateurs algébriques en leur donnant un sens, puis des méthodes de construction de plans optimaux, ces derniers visant à optimiser tel ou tel critère algébrique.

Je vous invite vivement à mettre en oeuvre ce petit exemple afin de découvrir ou de redécouvrir les possibilités d'un tableur que vous utilisez parfois quotidiennement.

mercredi 10 février 2016

Ouvrage de référence

Goupy J., Plans d'expériences : Les mélanges, Dunod, Ed. Paris, 2000, 290 pages.

La parution d'ouvrages consacrés spécifiquement aux plans d'expériences en langue française est assez chaotique, avec de longues périodes marquées par l'absence de nouveautés chez les libraires. Il y a eu toutefois des époques fastes, où un auteur publiait quasiment tous les ans un nouvel ouvrage. C'est le cas de Jacques Goupy, qui après avoir publié un premier livre à caractère généraliste sur les plans d'expériences, produisit en quelques années des mises à jours et de nouveaux opus dans le domaine des plans pour l'étude des surfaces de réponse et des plans de mélange. La parution date de l'an 2000.

Il s'agit, pour l'instant, du seul et unique ouvrage en langue française intégralement consacré aux plans d'expériences en formulation. Ce livre appartient à une collection initiée par les éditions Dunod, collection intitulée "Technique et ingénierie" dans une série relative au génie industriel.

Écrire un livre n'est pas une tâche facile, même si elle peut être plaisante pour son auteur. Une des difficultés essentielles, outre la maîtrise du sujet que l'on souhaite présenter, est la définition du public visé :

  • Est-ce un public étudiant, pour lequel le livre viendra apporter des compléments aux traditionnels supports de cours, en particulier en période de projets et de stages ? 
  • Est-ce un public industriel, pour lequel le livre se voudra avant tout pragmatique et évitera de se perdre dans des démonstrations inutiles, préférant l'utilisation de solutions informatiques ? 
  • Est-ce un public très ciblé et spécialisé, comme les acteurs du monde de la chimiométrie par exemple, qui rechercheront des approches originales à côté d'exemples plus traditionnels ?
L'absence de définition d'une cible ne facilite pas la rédaction de commentaires et ceux que je vais proposer dans cet article se veulent être objectifs et argumentés par de nombreuses lectures attentives de l'ouvrage. La seule indication se trouve en quatrième de couverture où l'auteur s'adresse à des expérimentateurs. On pourrait donc s'attendre à trouver des préconisations à caractère expérimental au fil des chapitres, pour la mise en oeuvre de plans de mélange. L'auteur semble avoir privilégié l'approche matricielle en recommandant au lecteur de s'intéresser, à juste titre, au calcul matriciel. Il manque toutefois le lien entre la méthode des moindres carrés et plus généralement l'analyse de régression et le calcul matriciel. Si une démonstration formelle aurait probablement dépassé le cadre de cet ouvrage, on aurait aimé trouver au moins une justification à partir d'un exemple, fut-il un exemple de mélange binaire. En effet, comme pour de nombreux auteurs, l'application des plans de mélange commence ici à partir de trois constituants ! Un mariage harmonieux entre des considérations mathématico-statistiques et des considérations à la fois d'ordre métrologique et expérimental, aurait sans nul doute donné une autre dimension à l'ouvrage.

Cependant, l'expérimentateur confronté à des mélanges ternaires ne manquera pas de trouver son bonheur, tant le maillage de ce domaine expérimental, soumis ou non à des contraintes explicites, est décrit dans ce livre, au point d'en occuper la grande majorité des chapitres. On appréciera au passage quelques éléments à propos des contraintes relationnelles explicites rapportés dans un chapitre spécifique. Les mélanges de trois constituants se prêtent volontiers à des représentations graphiques dont l'auteur fait un usage abondant pour illustrer ses propos. Les figures sont claires, bien renseignées et homogènes d'un chapitre à l'autre, mais une taille parfois plus réduite aurait permis, sans nuire à la lisibilité, d'apporter des compléments très utiles aux expérimentateurs,

Les méthodes faisant appel à des constructions empiriques d'une matrice d'expériences sont bien illustrées à partir de nombreux exemples ; on retrouve ici majoritairement les méthodes proposées par Henry Scheffé (Simplex Lattice Design et Simplex Centroid Design) et dans une moindre mesure la méthode proposée par McLean et Anderson (Extreme Vertices Design). Les méthodes faisant appel à des constructions algorithmiques (D-Optimal Design) auraient mérité une place plus importante, mais, en resituant la publication de l'ouvrage en l'an 2000, on doit être indulgent compte-tenu des possibilités encore limitées offertes par les logiciels dans leur grande majorité à cette date.

Les techniques de restitution graphique des informations contenues dans l'équation du modèle et dans le vecteur des résidus auraient gagné à être plus approfondies, car on ne communique pas à l'aide d'une équation, dont l'interprétation des coefficients se révèle délicate. Confondre les coefficients et les effets peut s'avérer dangereux. Il eût été préférable de juxtaposer une surface de réponse - ce type de graphique n'est utilisé qu'à deux reprises par l'auteur malgré les très nombreux exemples de mélanges ternaires - avec la trace de la surface de réponse, afin de bien comprendre le potentiel de ce type de restitution. L'étude de cas consacrée aux verres nucléaires, rare exemple mettant en oeuvre 6 constituants, aurait mérité un approfondissement de la spécifique notion d'effet dans les problèmes de formulation.

Dans les problèmes de formulation, les expérimentateurs sont le plus souvent confrontés à l'étude de plusieurs réponses dont on modélise les variations afin de chercher, in fine, un optimum dit multi-critères. La majorité des exemples ne s'intéresse hélas qu'à l'étude d'une seule réponse. Les mots désirabilité et optimisation font défaut dans les entrées de l'index, faute d'avoir donné lieu à des développements dans le livre ! C'est, à mon sens, un manque difficilement explicable dans un ouvrage placé sous le signe de la technique et de l'ingénierie.

La bibliographie aurait mérité moins de parti pris, en particulier pour les exemples de plans de mélange qui auraient pu bénéficier d'une typologie bien plus détaillée. L'auteur cite des références de normes dans sa bibliographie ; le lien avec les normes portant sur le modèle de l'assurance qualité ne transparaît pas à la lecture des chapitres du livre. Était-ce un effet de mode à l'aube d'un nouveau siècle ? La terminologie usitée par l'auteur est parfois singulière, mais cohérente à la lecture du livre. Elle serait aujourd'hui un peu en porte-à-faux avec les recommandations terminologiques préconisées à la fois par le Vocabulaire International de Métrologie et les normes définissant un vocabulaire dans le domaine des statistiques et de leur utilisation.

Les 18 chapitres du livre se lisent cependant agréablement, alternant des considérations plutôt théoriques et des présentations d'études de cas. L'auteur n'abuse pas ici du renvoi systématique à un logiciel particulier. Les chapitres sont regroupés en 4 grandes parties dont les titres gagneraient à être plus descriptifs pour les expérimentateurs, destinataires indiqués de l'ouvrage.

En conclusion, mes critiques auraient été moins sévères si le titre avait pris soin de mentionner la notion d'introduction aux plans de mélange. Ce livre me paraît en effet tout à fait destiné à un public débutant et jeune, car encore peu éloigné de notions mathématiques scolaires ou universitaires que l'on a tendance à vite oublier avec le temps. Il me paraît bien adapté à un public fréquentant des licences professionnelles orientées vers les métiers de la formulation. L'enseignant devra alors apporter des compléments relatifs aux techniques d'optimisation et reprendre les exemples du livre à l'aide de logiciels, aujourd'hui accessibles à tarif préférentiel pour les étudiants. Il reste à regretter que le calcul matriciel, si cher à l'auteur et très utile à celui qui sait bien le maîtriser, soit si mal maîtrisé aujourd'hui par les étudiants "techniciens".

Ce livre trouvera sa place sur les rayons d'une bibliothèque universitaire ou chez tous les passionnés par les outils d'aide à la formulation. En feuilletant les pages ou en approfondissant le contenu d'un chapitre spécifique, nous aurons tous une pensée émue pour Jacques Goupy, décédé en décembre 2015. Sa mémoire perdurera au travers de ses livres.

mercredi 3 février 2016

Editorial Février 2016

Les articles publiés au mois de Janvier ont permis d'illustrer quelques utilisations "annexes" du logiciel Excel, applicables toutefois à l'analyse des données issues un plan de mélange. La construction d'une fonction de répartition avant toute analyse représente, à mon sens, une étape incontournable et trop souvent oubliée dans les présentations "classiques" ayant trait aux plans d'expériences.

Nous allons continuer à présenter ce mois-ci des applications du logiciel Excel, permettant de revenir sur l'approche matricielle d'estimation des coefficients d'un modèle, à partir de la méthode des moindres carrés. On peut se demander quel peut être l'intérêt d'une telle présentation, alors que bon nombre d'utilisateurs "industriels" des plans de mélange utilisent des logiciels.

Le premier intérêt consiste d'abord à éprouver le plaisir de réussir à faire soi-même un calcul qui peut paraître au demeurant compliqué, en (re)découvrant qu'un tableur possède parfois des fonctions insoupçonnées transposables à d'autres applications. On utilisera en fait très peu de fonctions qui permettront tour à tour de transposer une matrice, d'effectuer le produit de deux matrices et enfin d'inverser une matrice carrée. On associera à l'inversion d'une matrice le calcul préalable d'un déterminant, puis l'extraction de termes diagonaux pour en faire une analyse ultérieure. On ne peut pas dire que le calcul matriciel soit un point fort dans la formation des ingénieurs aujourd'hui. A défaut de donner des définitions ardues relevant de l'algèbre linéaire, on illustrera ici une utilisation du calcul matriciel.

Le second intérêt consiste ensuite à utiliser la feuille de calcul comme un simulateur permettant de bien comprendre le rôle de la disposition des mélanges au sein du domaine expérimental sur la qualité des estimations réalisées a posteriori. On s'attachera ainsi au calcul et à l'analyse du déterminant de la matrice d'information, à la trace de la matrice de dispersion et aux termes diagonaux de la matrice H, désignés sous le nom de leviers. Cette présentation servira donc de préambule à un chapitre ultérieur relatif aux indicateurs algébriques et à la construction des plans optimaux. L'interactivité d'un tableur est, dans ce contexte, incomparable avec ce que les logiciels du marché peuvent offrir aujourd'hui. L'objectif n'est donc pas de concurrencer les solutions informatiques existantes, mais de permettre une meilleure compréhension de la démarche de construction d'un plan de mélange pour les utilisateurs. Cette interactivité maîtrisée pourrait être considérée comme un allié pédagogique dans de nombreux exposés, aussi bien académiques qu'industriels.

Une étude de cas sera également présentée ce mois-ci, inaugurant ainsi une nouvelle rubrique consacrée aux plans de mélange en galénique. Cette étude de cas renverra à l'utilisation d'un dispositif expérimental de type Simplex Centroid Design, largement décrit par ailleurs dans différents articles de ce blog. Ce sera l'occasion d'illustrer la démarche d'analyse en présence de plusieurs réponses, aussi bien dans le cadre de l'analyse globale que dans la partie consacrée à l'optimisation. Des techniques d'analyse multivariée, au même titre que l'utilisation des fonctions de désirabilité, seront dévoilées dans cette étude de cas.

N'hésitez à revoir le cours consacré aux aspects mathématiques de l'analyse de régression pour mieux comprendre la mise en oeuvre de la méthode des moindres carrés avec un tableur en général et Excel en particulier. Bientôt, si ce n'est déjà fait, la validation des fonctions matricielles à l'aide des touches CTRL+SHIFT+ENTREE n'aura plus de secrets pour vous !

mercredi 27 janvier 2016

Excel - Zone de liste déroulante

Dans les problèmes de formulation, il est fréquent de devoir prendre en considération plusieurs réponses. On peut ainsi caractériser les mélanges à partir de réponses de nature physico-chimique, sensorielle ou économique, comme la viscosité et la conductivité électrique qui représentent les données de l'exemple traité dans cet article.

L'analyse de la variation des valeurs observées doit être effectuée pour chacune des réponses, que ce soit pour produire des graphiques tels que la représentation de la fonction de répartition et la trace de la surface de réponse, ou bien pour estimer les coefficients et les résidus associés à un modèle donné.

On pourrait envisager de créer autant de fichiers qu'il y a de réponses, ce qui peut rendre compliquée l'analyse des résultats. Il est possible, en quelques clics de souris, de créer à partir d'une même feuille de calcul, un menu déroulant permettant de sélectionner la réponse dont on souhaite analyser et restituer la variation. Ce menu déroulant porte le nom de zone de liste déroulante.

La création d'une zone de liste déroulante est accessible à partir du ruban Développeur du tableur Excel. Dans le film qui suit, on rappelle la procédure d'installation de ce ruban, si ce n'est déjà fait sur votre ordinateur. Vous apprendrez dans cette séquence le rôle primordial de la tabulation des données et de l'utilisation raisonnée des noms, pour définir des plages de cellules.

Vous découvrirez également comment mettre à jour automatiquement le titre d'un axe en fonction de la réponse analysée.



Je vous invite naturellement à mettre en œuvre une zone de liste déroulante à partir de vos données qu'elles soient relatives ou non à l'analyse d'un plan de mélange ! Vous pourrez appliquer la même démarche pour comprendre le fonctionnement des autres contrôles de formulaire disponibles à partir du tableur Excel.


mercredi 20 janvier 2016

Excel - Représentation d'une fonction de répartition

Nous allons présenter dans cet article une méthode simple pour obtenir la fonction de répartition des valeurs d'une réponse à l'aide du tableur Excel.

La fonction de répartition est matérialisée à l'aide d'un nuage de points qui illustre comment les valeurs d'une réponse sont réparties de la plus petite à la plus grande d'entre-elles. La variation des valeurs est reportée sur l'axe horizontal, l'axe vertical indiquant la probabilité ou la fréquence associée à chacune des abscisses. On associe une probabilité égale à 0% à la plus petite valeur et une probabilité égale à 100 % à la plus grande des valeurs observées. La probabilité provient d'une transformation du rang des valeurs, ce dernier résultant d'un tri par ordre non décroissant.

La fonction de répartition permet de mettre en évidence l'étendue de variation des valeurs et la présence d'éventuelles discontinuités. Elle permet d'émettre des hypothèses invitant à utiliser une transformation des valeurs de la réponse lors des étapes consacrées à l'analyse mathématique et à l'analyse statistique du modèle. La méthode proposée par G.E.P. Box et D.R. Cox en 1964 permet alors de retenir la meilleure transformation.



La construction et l'analyse de la fonction de répartition relève de l'étape d'analyse globale des résultats. Elle devrait être systématiquement mise en oeuvre dans les études de cas même si cette démarche n'est pas toujours facilement disponible dans les logiciels.

N'hésitez pas à reproduire la démarche avec vos données !  

mercredi 13 janvier 2016

Ouvrage de référence

Sinha B.K., Mandal N.K., Pal M., Das P., Optimal Mixture Experiments, Springer, Ed. New Delhi, 2014, 210 pages.

Il n'est jamais simple d'écrire une monographie, qui plus est en se limitant à 200 pages à propos d'un sujet qui bien que récent - les plans de mélange n'ont qu'une soixantaine d'années d'existence - a donné lieu à de très nombreux développements théoriques illustrés par d'innombrables applications industrielles.

Les auteurs, comme le titre l'indique, ont pris le parti d'oublier les constructions empiriques des plans de mélange pour positionner leur monographie dans le domaine des plans optimaux aux sens de critères algébriques associés à l'application d'une méthode de régression : la méthode des moindres carrés. Seuls quatre chapitres sur les douze chapitres que compte le livre n'intègrent pas la notion d'optimalité dans leur titre. Ce choix ravira sans doute un lectorat passionné par l'approche algébrique des méthodes de régression, mais laissera sans doute sur sa faim l'ingénieur ou le technicien chargé de mettre en oeuvre très concrètement un plan de mélange. De même ce livre ne m'a pas semblé pas très utile pour choisir la meilleure option parmi celles proposées dans les logiciels, lorsqu'on a recours à un algorithme d'échanges pour la construction d'un plan de mélange. Cet ouvrage est donc à positionner dans le rayon des mathématiques théoriques plutôt que dans le rayon des mathématiques appliquées. Le chapitre consacré aux applications des plans de mélange traite le sujet en onze pages en citant succinctement des cas concrets dans le domaine de la formulation de boissons ou dans le domaine galénique.

Cependant, les ouvrages intégralement aux plans de mélange étant rares, il convient de positionner ce livre en langue anglaise en tant qu'ouvrage de référence, au même titre que l'ouvrage de John Cornell et celui de Wendell Smith.

Rappelons ici que la construction d'un plan d'expériences optimal consiste à définir, de façon analytique ou algorithmique, le nombre et la nature des mélanges à mettre en oeuvre de manière à minimiser les incertitudes qui affectent les estimations des paramètres d'un modèle postulé a priori et les prévisions faites à partir de ce même modèle a posteriori.

Dès leur apparition, les plans de mélange proposés par Henri Scheffé ont privilégié le pragmatisme à l'optimalité, sans toutefois mettre à mal les critères algébriques proposés par Jack Kiefer de façon contemporaine. Vouloir satisfaire à tout prix des critères d'optimalité conduit alors à imposer des répétitions alors que l'expérimentateur préférerait bien logiquement "tester" de nouvelles formules. De même, les fractions massiques des mélanges sélectionnés dans les approches empiriques doivent être remplacées par des formules complexes, certes exactes mais impossibles à mémoriser sans l'aide d'une solution informatique, qui semble renvoyer loin de la paillasse et du malaxeur des préoccupations plus industrielles. L'approche empirique proposée par McLean et Anderson est injustement ignorée pour l'estimation des paramètres de modèles quadratiques lorsque les contraintes explicites transforment le domaine expérimental en polyèdre convexe, alors qu'elle associe, en présence d'un petit nombre de constituants, pragmatisme et efficacité.

Cette monographie ne s'intéresse pas uniquement aux formes canoniques des modèles polynomiaux et aux modèles synergiques que l'on rencontre le plus souvent dans la littérature et dans les logiciels. La lecture de ce livre offre donc comme point positif la possibilité de découverte de nombreuses familles de modèles pour lesquelles le choix des mélanges retenus dans le plan d'expériences est discuté. Mais est-il possible de postuler à l'avance une forme alambiquée pour un modèle, alors que l'on ne dispose encore d'aucun résultat ? On regrettera au premier chapitre une confusion, sans doute typographique, entre les notations de la forme canonique complète et celles de la forme canonique réduite du modèle polynomial de degré 3.

Si la stratégie de type Component Proportions est la plus représentée et commentée dans les chapitres de cette monographie, on appréciera les quelques paragraphes consacrés à la stratégie Mixture Amount au même titre que ceux consacrés à l'organisation de la campagne expérimentale sous forme de blocs.

Ce livre, trop éloigné de la majorité des préoccupations industrielles, doit toutefois inciter un lectorat plus universitaire à se livrer à quelques simulations numériques à partir des formules analytiques qui, quand elles ne sont pas intégralement démontrées, sont correctement commentées. De nombreuses et patientes simulations numériques pourront ainsi permettre de mieux comprendre le gain, que l'on jugera tantôt important ou tantôt faible, apporté par les plans optimaux par rapport aux approches plus empiriques, que l'on soit dans des domaines sous forme de simplexe ou sous forme de polyèdre convexe. C'est ainsi qu'à force d'exercices, on peut se forger un point de vue objectif sur les critères d'optimalité et proposer aux utilisateurs un conseil raisonné cherchant à satisfaire à la fois les besoins d'un pragmatisme expérimental et la rigueur inflexible de développements mathématiques, tout en contenant le nombre de mélanges pour respecter les inévitables contraintes économiques. Ce me semble être la meilleure façon d'apprécier, avec le temps, les pages de cette monographie.




mercredi 6 janvier 2016

Editorial Janvier 2016

Les consultations internationales de ce blog devraient m'inciter à m'exprimer en anglais, mais je conserve toutefois ma langue maternelle empreinte d'un accent toulousain pour vous souhaiter, à toutes et à tous, une excellente année 2016, avec un clin d’œil particulier aux anciennes et anciens élèves de l’École Nationale Supérieure de Céramique Industrielle pour qui ce blog rappelle de bons souvenirs ... "Avec l'accent, on s'y croirait presque" me dit Marie qui se reconnaîtra sans doute et que je remercie pour son gentil message, au même titre que Marianne pour ses compliments et encouragements à base de douceurs en chocolat.

Je forme le vœu que ce blog puisse continuer à vous aider à mieux comprendre les intérêts et les usages des plans d'expériences dédiés aux problèmes de formulation, mais aussi leurs limites. La diffusion hebdomadaire d'articles, souvent agrémentés de vidéos semble répondre à un réel besoin, puisque, nous avons dépassé en un semestre le seuil des 5300 pages vues. Merci donc à tous les internautes qui consultent régulièrement ce blog, favorisant ainsi son référencement naturel.

Je vais profiter maintenant de l'éditorial du mois de janvier pour dresser un carnet de route qui devrait nous accompagner plusieurs mois durant et vous donner un aperçu des thèmes qui seront abordés pour compléter les différentes pages de ce blog.

2016 : une année riche de ressources !

A. Supports de cours


Nous n'en sommes qu'à un début, puisque les supports de cours mis en ligne ne concernent pour l'instant que des approches empiriques associées à la création des plans de mélange. De nombreux compléments vont apparaître au fil de semaines. En voici une première typologie.

A.1. Estimation des effets des variations des proportions des constituants


Très orientés vers des problématiques d'optimisation, les premiers articles et les premières études de cas publiées dans ce blog n'ont pas fait la part belle à un besoin pourtant bien présent qui est celui d'estimer les effets des variations des proportions des constituants autour d'un mélange de référence. Cet aspect des choses est rarement développé dans les livres et nous y consacrerons au moins deux chapitres. Un premier chapitre exposera une méthode encore une fois très pragmatique dite Simplex Screening Design, tandis qu'un second chapitre plus "mathématique" s'intéressera aux modèles de Cox dont les coefficients peuvent être directement interprétés en tant qu'effets. Je ne promets rien pour l'instant quant à l'utilisation de la régression PLS pour répondre à cette problématique car, pour bénéficier de clarté pédagogique, l'exposé doit être long et détaillé, nécessitant de surcroît de trouver le bon exemple. Il y aura cependant un article dédié à des techniques de régressions avancées.

A.2. Les enjeux des plans optimaux et des constructions algorithmiques


Ce n'est que lorsque les ordinateurs ont permis d'accéder plus aisément à des calculs itératifs que des méthodes alternatives aux approches empiriques ont pu voir des réelles applications dans le domaine des plans d'expériences en général et des plans de mélange en particulier. Ces approches rebutent parfois les utilisateurs en raison d'un manque de pédagogie à propos des critères algébriques sur lesquels elles fondent leur fonctionnement. En effet, préoccupé dans son environnement industriel, l'homme de la formulation à parfois du mal à comprendre le bien fondé de l'usage du déterminant d'une matrice. Avant d'aborder un chapitre dédié aux plans de mélanges optimaux, on s'intéressera à la présentation et à l'interprétation d'indicateurs algébriques. L'aspect ludique et interactif de la présentation devrait inciter une généralisation de la mise en œuvre de telles approches, lorsque cela est nécessaire. Ces chapitres devraient contribuer à éclairer l'utilisateur de solutions informatiques quant au sens qu'il convient de donner à certaines boîtes de dialogue. Un troisième chapitre, indépendant des deux précédents, sera consacré à une approche géométrique de construction des plans de mélange appelée Distance Based Design.

A.3. Quelques autres stratégies expérimentales


Nous avons exclusivement parlé de la stratégie de type Component Proportions dans le cadre des approches directes. Il sera temps d'aborder la stratégie de type Slack Variable, très utile lorsqu'un constituant majoritaire sert de variable d'ajustement, sans réel effet supposé sur les variations de la réponse observée, ces dernières étant alors imputées aux constituants minoritaires. Ce sera l'occasion de revenir sur les notions d'effet principal et d'interaction, classiquement associées à l'étude des plans "factoriels". On abordera également la stratégie de type Mathematically Independent Variables que l'on illustrera par la suite dans un contexte agro-alimentaire. Enfin, c'est dans cette rubrique qu'il convient de classer la présentation de méthodes directes d'optimisation, plus connues sous le nom de méthodes séquentielles d'optimisation du simplexe. Souvent citées dans les présentations des études de cas comme stratégie alternative à la méthode des plans de mélange, on consacrera un chapitre à ces méthodes efficaces et souvent méconnues.

A.4. Aller plus loin avec des techniques avancées


C'est sous ce titre générique que j'ai décidé de classer quelques chapitres incontournables. Tout d'abord, nous consacrerons un chapitre aux bien-fondés et aux bénéfices des transformations. Nous avons déjà utilisé lors des présentations d'études de cas des transformations en pseudo-constituants dans l'espace des facteurs et des transformations de Box-Cox dans l'espace des réponses. Nous reviendrons dans le détail sur ces transformations en les complétant, en particulier par la transformation des valeurs d'une réponse en indice de satisfaction, plus communément appelé désirabilité. Nous aborderons ensuite la présentation de techniques statistiques d'analyses descriptives multidimensionnelles, s'appuyant sur des analyses en composantes principales et des techniques de classification. En effet, nombreux sont les exemples de plans de mélange pour lesquels on dispose de plusieurs réponses. Les techniques "classiques" liées à l'analyse de régression au sens des moindres carrés imposent de décrire les réponses indépendamment les unes des autres. Les représentations graphiques offertes par l'analyse multidimensionnelle sont très complémentaires et restituent les corrélations entre les différentes variables. Enfin, nous compléterons cette partie dédiée aux techniques avancées, par la présentation d'autres techniques de régression afin de contourner les problèmes de colinéarité liés à la contrainte relationnelle implicite liant les fractions massiques des constituants. On peut citer ici la régression ridge et la régression PLS. Ce sera l'occasion d'introduire en particulier la notion de facteur d'inflation de variance. Des compléments sur l'analyse statistique des modèles de régression feront également l'objet d'un chapitre permettant d'aller au delà des simples critères de qualité descriptive et prédictive des modèles.


B. Études de cas


Le blog affiche aujourd'hui 5 études de cas. Les 10 séquences qui permettent de décrire une étude de cas sont diffusées sous forme de deux articles consécutifs. Généralement, la première partie rappelle la méthode de construction de la matrice d'expériences tandis que la seconde partie s'intéresse à l'analyse des résultats. Ces études de cas sont complémentaires aux supports de cours auxquels elles renvoient. Elles s'appuient sur une publication qui est revisitée pour l'occasion avec un regard neuf, permettant d'introduire de nouvelles techniques ou des approches complémentaires afin de donner des idées à de futurs utilisateurs des plans de mélange. Ces études de cas seront utilisées à nouveau pour illustrer la mise en œuvre de logiciels dédiés.

Ces études de cas ont été classées en fonction des secteurs industriels d'application, et au cours de l'année 2016, vont apparaître de nouveaux secteurs tandis que des secteurs existants seront complétés. En voici un rapide aperçu, non exhaustif.

B.1. Formulation d'un détergent & produits ménagers


Cette rubrique sera complétée par deux nouvelles études de cas, illustrant en particulier la mise en œuvre d'algorithmes d'échange pour la construction de plans optimaux.


B.2. Formulation de poudres et explosifs


Nous découvrirons ensemble un nouvel article sur la formulation de propergol et la mise en œuvre des fonctions de désirabilité pour la recherche d'un optimum multicritères.


B.3. Formulation de verres, céramiques et bétons


De nouveaux articles viendront compléter les articles parus dans le domaine des verres nucléaires d'une part et des liants hydrauliques d'autre part. Par ailleurs, des articles viendront illustrer l'utilisation des plans de mélange dans le domaine des céramiques traditionnelles, notamment dans le secteur de la terre cuite et des émaux.


B.4. Formulation des huiles, des essences et des lubrifiants


Les exemples proposés par Ronald Snee, contributeur très actif au travers de publications traitant de plans de mélange, seront revisités, à la fois pour illustrer la notion d'effet et la mise en œuvre d'algorithmes d'échange pour la construction de plans optimaux. Il s'agit d'une nouvelle rubrique.


B.5. Formulation de produits cosmétiques et pharmaceutiques


Nouvelle rubrique également permettant d'utiliser à des fins pédagogiques quelques publications issues de ce secteur industriel, en commençant, ce qui est sans doute très original, par des exemples de mélanges binaires que vous serez invités à mettre en œuvre à l'aide du tableur Excel.


B.6. Formulation de peintures et colorants


Deux études de cas sont d'ores et déjà largement avancées dans leur préparation et donneront lieu à des articles vous incitant à nouveau à construire la maquette du domaine expérimental. En présence de 4 constituants, cette maquette permet parfois de déjouer les pièges d'une construction algorithmique, un peu trop automatisée. Il s'agit également d'une nouvelle rubrique.


B.7. Formulation de produits agro-alimentaires


Succinctement évoquée de façon amusante lors du dernier article paru au mois de juillet, la formulation de produits agro-alimentaires donnera lieu à différents articles. Parmi ces articles, on trouvera des applications de la stratégie Mathematically Independent Variables pour la fabrication de cookies.


C. Excel & logiciels


Cette rubrique fait pour l'instant office de parent pauvre, essentiellement en raison de problèmes techniques de captation qui ont encore du mal à être résolus, si l'on souhaite une qualité d'image équivalente à celle des supports de cours ou des études de cas. J'ai toutefois mis en ligne le mois dernier une application du tableur Excel pour la construction de représentations triangulaires.


C.1. Application du tableur Excel


Nous reviendrons sur l'application de la méthode des moindres carrés à partir d'exemples simples qui nous permettront en particulier de créer des simulateurs pour mieux comprendre le sens des critères algébriques, tels que le déterminant de la matrice d'information, la trace de la matrice de dispersion, les termes diagonaux de la matrice H. Nous utiliserons également le tableur Excel pour construire en quelques clics de souris la fonction de répartition des valeurs d'une variable de réponse, étape importante dans l'analyse préalable des résultats. Nous illustrerons par ailleurs l'utilisation des transformations de Box-Cox en faisant appel une nouvelle fois à une fonction bien pratique mais méconnue : la fonction TABLE. Comme un plan de mélange comporte souvent plusieurs réponses, nous montrerons comment créer un menu déroulant, à la fois dans une feuille de calcul et dans une feuille graphique pour bénéficier d'une meilleure interactivité entre l'utilisateur et le tableur.


C.2. Les plans de mélange et les logiciels


Les préparations de captation des logiciels Statgraphics et Minitab sont bien avancées sur plusieurs études de cas. J'espère pouvoir illustrer l'utilisation des logiciels Design Expert, Modde et Statistica pour enrichir ce blog. Dès que les problèmes techniques seront résolus, des vidéos illustratives seront mises en ligne.


D. Dictionnaire / Glossaire / Lexique


La liste d'entrée qu'il convient de créer ne cesse de s'allonger au fil des publications d'articles, mais la rédaction de définitions cohérentes demande du temps et un travail de lecture importants avant de passer à la phase de rédaction. On devrait disposer d'une centaine d'entrées dans cette rubrique lors de la mise en ligne des ressources dans le cadre d'une université numérique.

E. Bibliographie


Le nombre d'ouvrages en langue française ou anglaise consacrés exclusivement aux plans de mélange est fort restreint. Nous avons atteint la moitié du parcours en commentant deux références. Il reste donc à commenter une monographie sous forme d'un ouvrage collectif paru chez Springer sous le titre "Optimal Mixture Experiments" et le livre de Jacques Goupy paru chez Dunod sous le titre "Plans d'expériences : les mélanges". Ce sera l'objet de deux nouveaux articles.

Il m'a semblé important de commenter également l'ouvrage "Sequential Simplex Optimization" qui bien que n'étant pas spécifiquement destiné aux formulateurs, présente de nombreuses perspectives d'application dans le domaine des sciences expérimentales lorsqu'on est confronté à un problème d'optimisation.

Je consacrerai un ou plusieurs articles pour commenter des fascicules parus dans la collection des Techniques de l'Ingénieur, en lien direct avec l'objet de ce blog. Ces fascicules en langue française sont souvent méconnus, bien qu'ils soient très facilement accessibles pour un public universitaire et dans bon nombre de médiathèques.

Sans doute, d'autres références viendront compléter la page consacrée à la bibliographie.

2016 : une année riche de ressources ! Bonne année à toutes et à tous !