Les plans d'expériences dédiés aux problèmes de formulation: Bibliographie

Affichage des articles dont le libellé est Bibliographie. Afficher tous les articles

mercredi 10 février 2016

Ouvrage de référence

Goupy J., Plans d'expériences : Les mélanges, Dunod, Ed. Paris, 2000, 290 pages.

La parution d'ouvrages consacrés spécifiquement aux plans d'expériences en langue française est assez chaotique, avec de longues périodes marquées par l'absence de nouveautés chez les libraires. Il y a eu toutefois des époques fastes, où un auteur publiait quasiment tous les ans un nouvel ouvrage. C'est le cas de Jacques Goupy, qui après avoir publié un premier livre à caractère généraliste sur les plans d'expériences, produisit en quelques années des mises à jours et de nouveaux opus dans le domaine des plans pour l'étude des surfaces de réponse et des plans de mélange. La parution date de l'an 2000.

Il s'agit, pour l'instant, du seul et unique ouvrage en langue française intégralement consacré aux plans d'expériences en formulation. Ce livre appartient à une collection initiée par les éditions Dunod, collection intitulée "Technique et ingénierie" dans une série relative au génie industriel.

Écrire un livre n'est pas une tâche facile, même si elle peut être plaisante pour son auteur. Une des difficultés essentielles, outre la maîtrise du sujet que l'on souhaite présenter, est la définition du public visé :

Est-ce un public étudiant, pour lequel le livre viendra apporter des compléments aux traditionnels supports de cours, en particulier en période de projets et de stages ?
Est-ce un public industriel, pour lequel le livre se voudra avant tout pragmatique et évitera de se perdre dans des démonstrations inutiles, préférant l'utilisation de solutions informatiques ?
Est-ce un public très ciblé et spécialisé, comme les acteurs du monde de la chimiométrie par exemple, qui rechercheront des approches originales à côté d'exemples plus traditionnels ?

L'absence de définition d'une cible ne facilite pas la rédaction de commentaires et ceux que je vais proposer dans cet article se veulent être objectifs et argumentés par de nombreuses lectures attentives de l'ouvrage. La seule indication se trouve en quatrième de couverture où l'auteur s'adresse à des expérimentateurs. On pourrait donc s'attendre à trouver des préconisations à caractère expérimental au fil des chapitres, pour la mise en oeuvre de plans de mélange. L'auteur semble avoir privilégié l'approche matricielle en recommandant au lecteur de s'intéresser, à juste titre, au calcul matriciel. Il manque toutefois le lien entre la méthode des moindres carrés et plus généralement l'analyse de régression et le calcul matriciel. Si une démonstration formelle aurait probablement dépassé le cadre de cet ouvrage, on aurait aimé trouver au moins une justification à partir d'un exemple, fut-il un exemple de mélange binaire. En effet, comme pour de nombreux auteurs, l'application des plans de mélange commence ici à partir de trois constituants ! Un mariage harmonieux entre des considérations mathématico-statistiques et des considérations à la fois d'ordre métrologique et expérimental, aurait sans nul doute donné une autre dimension à l'ouvrage.

Cependant, l'expérimentateur confronté à des mélanges ternaires ne manquera pas de trouver son bonheur, tant le maillage de ce domaine expérimental, soumis ou non à des contraintes explicites, est décrit dans ce livre, au point d'en occuper la grande majorité des chapitres. On appréciera au passage quelques éléments à propos des contraintes relationnelles explicites rapportés dans un chapitre spécifique. Les mélanges de trois constituants se prêtent volontiers à des représentations graphiques dont l'auteur fait un usage abondant pour illustrer ses propos. Les figures sont claires, bien renseignées et homogènes d'un chapitre à l'autre, mais une taille parfois plus réduite aurait permis, sans nuire à la lisibilité, d'apporter des compléments très utiles aux expérimentateurs,

Les méthodes faisant appel à des constructions empiriques d'une matrice d'expériences sont bien illustrées à partir de nombreux exemples ; on retrouve ici majoritairement les méthodes proposées par Henry Scheffé (Simplex Lattice Design et Simplex Centroid Design) et dans une moindre mesure la méthode proposée par McLean et Anderson (Extreme Vertices Design). Les méthodes faisant appel à des constructions algorithmiques (D-Optimal Design) auraient mérité une place plus importante, mais, en resituant la publication de l'ouvrage en l'an 2000, on doit être indulgent compte-tenu des possibilités encore limitées offertes par les logiciels dans leur grande majorité à cette date.

Les techniques de restitution graphique des informations contenues dans l'équation du modèle et dans le vecteur des résidus auraient gagné à être plus approfondies, car on ne communique pas à l'aide d'une équation, dont l'interprétation des coefficients se révèle délicate. Confondre les coefficients et les effets peut s'avérer dangereux. Il eût été préférable de juxtaposer une surface de réponse - ce type de graphique n'est utilisé qu'à deux reprises par l'auteur malgré les très nombreux exemples de mélanges ternaires - avec la trace de la surface de réponse, afin de bien comprendre le potentiel de ce type de restitution. L'étude de cas consacrée aux verres nucléaires, rare exemple mettant en oeuvre 6 constituants, aurait mérité un approfondissement de la spécifique notion d'effet dans les problèmes de formulation.

Dans les problèmes de formulation, les expérimentateurs sont le plus souvent confrontés à l'étude de plusieurs réponses dont on modélise les variations afin de chercher, in fine, un optimum dit multi-critères. La majorité des exemples ne s'intéresse hélas qu'à l'étude d'une seule réponse. Les mots désirabilité et optimisation font défaut dans les entrées de l'index, faute d'avoir donné lieu à des développements dans le livre ! C'est, à mon sens, un manque difficilement explicable dans un ouvrage placé sous le signe de la technique et de l'ingénierie.

La bibliographie aurait mérité moins de parti pris, en particulier pour les exemples de plans de mélange qui auraient pu bénéficier d'une typologie bien plus détaillée. L'auteur cite des références de normes dans sa bibliographie ; le lien avec les normes portant sur le modèle de l'assurance qualité ne transparaît pas à la lecture des chapitres du livre. Était-ce un effet de mode à l'aube d'un nouveau siècle ? La terminologie usitée par l'auteur est parfois singulière, mais cohérente à la lecture du livre. Elle serait aujourd'hui un peu en porte-à-faux avec les recommandations terminologiques préconisées à la fois par le Vocabulaire International de Métrologie et les normes définissant un vocabulaire dans le domaine des statistiques et de leur utilisation.

Les 18 chapitres du livre se lisent cependant agréablement, alternant des considérations plutôt théoriques et des présentations d'études de cas. L'auteur n'abuse pas ici du renvoi systématique à un logiciel particulier. Les chapitres sont regroupés en 4 grandes parties dont les titres gagneraient à être plus descriptifs pour les expérimentateurs, destinataires indiqués de l'ouvrage.

En conclusion, mes critiques auraient été moins sévères si le titre avait pris soin de mentionner la notion d'introduction aux plans de mélange. Ce livre me paraît en effet tout à fait destiné à un public débutant et jeune, car encore peu éloigné de notions mathématiques scolaires ou universitaires que l'on a tendance à vite oublier avec le temps. Il me paraît bien adapté à un public fréquentant des licences professionnelles orientées vers les métiers de la formulation. L'enseignant devra alors apporter des compléments relatifs aux techniques d'optimisation et reprendre les exemples du livre à l'aide de logiciels, aujourd'hui accessibles à tarif préférentiel pour les étudiants. Il reste à regretter que le calcul matriciel, si cher à l'auteur et très utile à celui qui sait bien le maîtriser, soit si mal maîtrisé aujourd'hui par les étudiants "techniciens".

Ce livre trouvera sa place sur les rayons d'une bibliothèque universitaire ou chez tous les passionnés par les outils d'aide à la formulation. En feuilletant les pages ou en approfondissant le contenu d'un chapitre spécifique, nous aurons tous une pensée émue pour Jacques Goupy, décédé en décembre 2015. Sa mémoire perdurera au travers de ses livres.

mercredi 13 janvier 2016

Ouvrage de référence

Sinha B.K., Mandal N.K., Pal M., Das P., Optimal Mixture Experiments, Springer, Ed. New Delhi, 2014, 210 pages.

Il n'est jamais simple d'écrire une monographie, qui plus est en se limitant à 200 pages à propos d'un sujet qui bien que récent - les plans de mélange n'ont qu'une soixantaine d'années d'existence - a donné lieu à de très nombreux développements théoriques illustrés par d'innombrables applications industrielles.

Les auteurs, comme le titre l'indique, ont pris le parti d'oublier les constructions empiriques des plans de mélange pour positionner leur monographie dans le domaine des plans optimaux aux sens de critères algébriques associés à l'application d'une méthode de régression : la méthode des moindres carrés. Seuls quatre chapitres sur les douze chapitres que compte le livre n'intègrent pas la notion d'optimalité dans leur titre. Ce choix ravira sans doute un lectorat passionné par l'approche algébrique des méthodes de régression, mais laissera sans doute sur sa faim l'ingénieur ou le technicien chargé de mettre en oeuvre très concrètement un plan de mélange. De même ce livre ne m'a pas semblé pas très utile pour choisir la meilleure option parmi celles proposées dans les logiciels, lorsqu'on a recours à un algorithme d'échanges pour la construction d'un plan de mélange. Cet ouvrage est donc à positionner dans le rayon des mathématiques théoriques plutôt que dans le rayon des mathématiques appliquées. Le chapitre consacré aux applications des plans de mélange traite le sujet en onze pages en citant succinctement des cas concrets dans le domaine de la formulation de boissons ou dans le domaine galénique.

Cependant, les ouvrages intégralement aux plans de mélange étant rares, il convient de positionner ce livre en langue anglaise en tant qu'ouvrage de référence, au même titre que l'ouvrage de John Cornell et celui de Wendell Smith.

Rappelons ici que la construction d'un plan d'expériences optimal consiste à définir, de façon analytique ou algorithmique, le nombre et la nature des mélanges à mettre en oeuvre de manière à minimiser les incertitudes qui affectent les estimations des paramètres d'un modèle postulé a priori et les prévisions faites à partir de ce même modèle a posteriori.

Dès leur apparition, les plans de mélange proposés par Henri Scheffé ont privilégié le pragmatisme à l'optimalité, sans toutefois mettre à mal les critères algébriques proposés par Jack Kiefer de façon contemporaine. Vouloir satisfaire à tout prix des critères d'optimalité conduit alors à imposer des répétitions alors que l'expérimentateur préférerait bien logiquement "tester" de nouvelles formules. De même, les fractions massiques des mélanges sélectionnés dans les approches empiriques doivent être remplacées par des formules complexes, certes exactes mais impossibles à mémoriser sans l'aide d'une solution informatique, qui semble renvoyer loin de la paillasse et du malaxeur des préoccupations plus industrielles. L'approche empirique proposée par McLean et Anderson est injustement ignorée pour l'estimation des paramètres de modèles quadratiques lorsque les contraintes explicites transforment le domaine expérimental en polyèdre convexe, alors qu'elle associe, en présence d'un petit nombre de constituants, pragmatisme et efficacité.

Cette monographie ne s'intéresse pas uniquement aux formes canoniques des modèles polynomiaux et aux modèles synergiques que l'on rencontre le plus souvent dans la littérature et dans les logiciels. La lecture de ce livre offre donc comme point positif la possibilité de découverte de nombreuses familles de modèles pour lesquelles le choix des mélanges retenus dans le plan d'expériences est discuté. Mais est-il possible de postuler à l'avance une forme alambiquée pour un modèle, alors que l'on ne dispose encore d'aucun résultat ? On regrettera au premier chapitre une confusion, sans doute typographique, entre les notations de la forme canonique complète et celles de la forme canonique réduite du modèle polynomial de degré 3.

Si la stratégie de type Component Proportions est la plus représentée et commentée dans les chapitres de cette monographie, on appréciera les quelques paragraphes consacrés à la stratégie Mixture Amount au même titre que ceux consacrés à l'organisation de la campagne expérimentale sous forme de blocs.

Ce livre, trop éloigné de la majorité des préoccupations industrielles, doit toutefois inciter un lectorat plus universitaire à se livrer à quelques simulations numériques à partir des formules analytiques qui, quand elles ne sont pas intégralement démontrées, sont correctement commentées. De nombreuses et patientes simulations numériques pourront ainsi permettre de mieux comprendre le gain, que l'on jugera tantôt important ou tantôt faible, apporté par les plans optimaux par rapport aux approches plus empiriques, que l'on soit dans des domaines sous forme de simplexe ou sous forme de polyèdre convexe. C'est ainsi qu'à force d'exercices, on peut se forger un point de vue objectif sur les critères d'optimalité et proposer aux utilisateurs un conseil raisonné cherchant à satisfaire à la fois les besoins d'un pragmatisme expérimental et la rigueur inflexible de développements mathématiques, tout en contenant le nombre de mélanges pour respecter les inévitables contraintes économiques. Ce me semble être la meilleure façon d'apprécier, avec le temps, les pages de cette monographie.

mercredi 11 novembre 2015

Ouvrage de référence

Smith W.F., Experimental Design for Formulation, SIAM, Ed. Philadelphia, ASA, Ed. Alexandria, 2005, 368 pages.

Ce livre apparu il y a une dizaine d’années complète fort utilement l’ouvrage de John A. Cornell, considéré comme l’ouvrage de référence sur les plans de mélange.

L’auteur, Wendell F. Smith, marque de son empreinte industrielle chez Eastman Kodak, en particulier dans les laboratoires de recherche, la rédaction des différents chapitres. L’ouvrage est plus concis et sans doute plus appliqué pour l’industrie. Malgré un nombre plus restreint de pages, la lecture des différents chapitres permet d’appréhender de manière efficace la démarche associée à la construction et à l’analyse d’un plan de mélange. Les exemples choisis et les quelques 175 références bibliographiques se révèlent très pertinents ; ils invitent le lecteur à approfondir ses connaissances dans le domaine des plans d’expériences appliqués aux problèmes de formulation.

L’ouvrage est construit autour de 4 grandes parties, elles-mêmes découpées en chapitres. Les chapitres ne sont pas ponctués par des exercices d’application mais les nombreux exemples permettent, au fil des paragraphes, d’appliquer les concepts présentés par l’auteur. Il est parfois fait référence aux logiciels Minitab, Mixsoft, Design Expert ou Jmp pour des graphiques ou des options d’analyse.

La première partie est une introduction (Chapitre 1) qui positionne les plans de mélange parmi les nombreux types de plans d’expériences en spécifiant tout d’abord (Chapitre 2) la nature spécifique du domaine expérimental en présence de facteurs tels que des fractions massiques, volumiques ou molaires, puis (Chapitre 3) les modèles classiques sous-jacents à la construction et à l’analyse des plans de mélange, renvoyant à la stratégie de type Component Proportions.

La deuxième partie, plus conséquente, porte sur les principes de construction des plans de mélange, que ce soit de manière empirique ou algorithmique. Cette partie débute par un chapitre dédié à l’exploration de domaines expérimentaux dont la géométrie est celle d’un simplexe (Chapitre 4). Certes on retrouve les dispositifs proposés par Henry Scheffé en 1958 et en 1969 sous le nom de Simplex Lattice Design et Simplex Centroid Design, mais également, les dispositifs de type Simplex Screening Design, moins connus mais fort utiles pour estimer les effets des variations des proportions des constituants quand le domaine expérimental se présente sous la forme d’un simplexe. Dès que les contraintes transforment la géométrie du domaine en polyèdre convexe, l’auteur passe en revue (Chapitre 5) différents algorithmes de construction de la matrice d’expériences. La présentation des différents critères algébriques retenus pour converger vers une matrice optimale est claire et accessible, mais on ne peut que recommander au lecteur de reprendre l’exploration de ce chapitre après avoir parcouru le chapitre suivant. Les différentes matrices utilisées dans la mise en œuvre de la méthode d’ajustement au sens des moindres carrés, (matrice d’information, matrice de dispersion, matrice H), ou encore la fonction de variance standardisée sont présentées ici (Chapitre 6) en faisant ressortir le rôle des leviers et la définition de la G-Optimalité. Cette deuxième partie consacrée à la construction des plans de mélange s’achève sur un chapitre traitant de l’organisation de la campagne expérimentale sous forme de blocs homogènes (Chapitre 7), concept important dans les principes d’expérimentation proposés par Ronald Fisher au début du XX^e siècle.
La troisième partie est consacrée à l’analyse des résultats en commençant (Chapitre 8) par l’étude de la qualité descriptive des modèles, puis de la qualité prédictive. La décomposition de la somme des écarts entre les valeurs observées et leur moyenne conduit à la construction d’un ou plusieurs tableaux d'analyse de régression, illustrés par des exemples. L’étude des résidus, avec leurs éventuelles transformations, fait l’objet du chapitre suivant (Chapitre 9) et représente une aide appréciable en complément de celle fournie par les logiciels. Une distribution particulière des valeurs de la réponse peut nuire localement à la qualité descriptive d’un modèle ou empêcher la validation des hypothèses sous-jacentes à l’analyse de régression, comme par exemple la vérification de la normalité des résidus. Un long chapitre (Chapitre 10) est consacré à ces aspects que les logiciels ne peuvent pas prendre en compte de façon automatique. La personne qui analyse les résultats doit savoir utiliser des transformations à bon escient, que ce soit pour la réponse avec une transformation de Box-Cox par exemple ou que ce soit en proposant une autre forme de modélisation. Même si ce chapitre est riche d’informations utiles, il mériterait à lui seul une partie entière du livre, tant ces aspects sont fréquents dans l’utilisation des plans de mélange et leur analyse. L’estimation des effets des variations des proportions des constituants fait l’objet du chapitre suivant (Chapitre 11). Cette approche des plans de mélange est hélas méconnue et rarement intégrée dans les logiciels, si ce n’est au travers de l’étude de la trace d’une surface de réponse. Les effets de Cox et les effets de Piepel sont clairement présentés mais on aurait apprécié un paragraphe spécifique sur les modèles de Cox et leur estimation, au même titre qu’un paragraphe sur la régression PLS qui peut s’avérer très efficace quand on s’intéresse aux effets des facteurs dans un problème de formulation. Le chapitre 12 vient clôturer cette troisième partie en faisant une large place aux techniques d’optimisation associées à l’usage des fonctions de désirabilité.
La quatrième et dernière partie aborde les plans d’expériences qui associent des variables externes aux proportions des constituants dans un plan de mélange, ce qui conduit à une stratégie de type Mixture Process Variables (Chapitre 13). On aurait apprécié des développements plus importants dans ce chapitre, à la fois d’un point de vue méthodologique et d’un point de vue formalisme mathématique et numérique, car les logiciels conduisent souvent à des matrices d’expériences très coûteuses lorsqu’on associe ces deux types de variables. La nature même des facteurs, à savoir des proportions dont la somme est égale à une constante, induit des problèmes numériques spécifiques aux plans de mélange, problèmes que l’on regroupe sous la locution « Collinearity ». Ce dernier chapitre (Chapitre 14) aborde ces problèmes et précise des indicateurs statistiques tels que les facteurs d’inflation de variance ou l’indice de conditionnement d’une matrice. La régression au sens des moindres carrés est très sensible « numériquement » à ces phénomènes ; elle devrait céder sa place en présence de nombreux constituants et de domaines très anisotropes à d’autres méthodes de régression, comme la régression PLS évoquée précédemment. Encore faut-il que ces approches alternatives soient disponibles et bien documentées dans les logiciels de plans d’expériences ! Si ce n’était pas le cas en 2005 lors de la parution de ce livre, les logiciels de plans d’expériences intègrent de plus en plus aujourd’hui ces méthodes de régression. On peut espérer qu’une nouvelle édition vienne combler un jour ce manque !

En conclusion, cet ouvrage trouvera naturellement sa place sur l'étagère des livres consacrés aux plans d'expériences en général et aux plans de mélange en particulier. S'il y a bien moins de démonstrations que dans l'ouvrage de John Cornell, le lecteur appréciera ici une approche plus industrielle des plans de mélange, même si ce livre se limite en grande partie à la stratégie Component Proportions. Enfin, la troisième partie du livre consacrée à l'analyse des résultats peut représenter une excellente aide pour comprendre et bien interpréter les boîtes de dialogues et les résultats produits par les logiciels de plans de mélange.

mercredi 9 septembre 2015

Ouvrage de référence

Dodge Y., Rousson V., Analyse de régression appliquée, Dunod, Ed. Paris, 2^e édition, 2004, 280 pages.

Les utilisateurs des plans de mélange sont tôt ou tard confrontés à un problème d'analyse de régression, non pas dans la mise en oeuvre de cette méthode car les logiciels sont aujourd'hui bien présents pour les aider, mais plutôt pour l'interprétation des résultats fournis par ces mêmes logiciels. Certes l'aide en ligne peut apporter des éléments de réponse aux questions posées, mais il me semble opportun de consacrer un article à un ouvrage sur le sujet, qui plus est, un ouvrage en langue française et dont la lecture est abordable pour un large public !

Parmi les auteurs, Yadolah Dodge est connu pour d'autres ouvrages qu'il a publiés, notamment un dictionnaire encyclopédique et un livre intitulé "Premiers pas en statistiques" que l'on peut recommander pour mettre en pratique des méthodes statistiques élémentaires.

Qu'est-ce que l'analyse de régression ?

Pour répondre à cette question, je vais reprendre la définition donnée dans la norme ISO 3534-3 que l'on commentera pour une application dans le domaine des plans de mélange.

Groupement de procédures associées à l’évaluation des modèles liant les variables de prédiction aux variables de réponse.

Il y a un avantage à disposer de procédures : il suffit de les suivre pour aboutir au résultat et ces procédures sont largement implémentées dans les logiciels ! Dans nos préoccupations, les variables de prédiction que l'on appelle des facteurs seront le plus souvent représentées par les proportions des constituants, à savoir des fractions massiques, volumiques ou molaires. La nature de ces facteurs, à savoir des nombres réels compris le plus largement entre 0 et 1 nécessite quelques adaptations que l'on précise au fil des chapitres de ce blog et quelques règles de prudence pour déjouer des problèmes de conditionnement (ill-conditioned matrix en langue anglaise). L'évaluation des modèles commence tout d'abord par l'estimation des paramètres de ces modèles, autrement dit des coefficients, ce qui nécessite une ou plusieurs méthodes, parmi lesquelles la régression au sens des moindres carrés occupe une place importante. Un modèle n'étant qu'une approximation de la réalité, il convient d'analyser ensuite, à l'aide de procédures statistiques spécifiques, les écarts entre les valeurs observées et les valeurs restituées par l'équation du modèle.

L’analyse de régression est couramment associée au procédé d’estimation des paramètres d’un modèle théorique par optimisation d’une fonction objective (par exemple en minimisant la somme des différences carrées entre les réponses observées et celles prévues par le modèle). L’existence de logiciels statistiques a supprimé la plupart du travail fastidieux quant à l’obtention des estimations de paramètres, leurs erreurs-types, et un grand nombre de diagnostics de modèle.

Le manque d'ajustement du modèle d'une part (lack-of-fit) et les nombreuses sources d'incertitudes d'autres part vont naturellement se répercuter sur la qualité du modèle, nécessitant un grand nombre de tests statistiques, depuis les tests de signification des coefficients jusqu'aux tests portant sur la distribution des résidus. En parlant des résidus, la liste est longue et parfois déroutante : résidus, résidus standardisés, résidus studentisés internes, résidus studentisés externes, etc ... Ce livre, même s'il n'est pas spécifiquement dédié aux plans de mélange, me semble apporter de façon claire des précisions sur ces différents points.

L’analyse de régression joue un rôle similaire à celui de l’analyse de variance et s’avère particulièrement adaptée au cas où les niveaux des facteurs sont continus, l’accent étant davantage porté sur un modèle explicite de prédiction.

Ce dernier extrait de la norme ISO 3534-3 me semble parfaitement convenir au contexte des plans de mélange, les proportions des constituants variant de façon continue. Qui plus est, la majorité des applications consiste à la recherche d'un optimum, démarche dans laquelle il convient de s'intéresser à la qualité prédictive des modèles. Si l'analyse de régression joue un rôle similaire à celui de l'analyse de variance, c'est qu'il y a de nombreux points communs, notamment dans la synthèse des résultats sous forme d'un tableau (tableau d'analyse de régression ou tableau d'analyse de variance), mais il y a aussi des différences, subtiles à percevoir. C'est en particulier pour cette raison qu'il vaut mieux parler de modalités plutôt que de niveaux pour distinguer les états des facteurs quand on cherche à estimer les effets des facteurs dans la grande famille des plans d'expériences dits "factoriels". On ne peut que regretter l'absence d'un livre de référence sur l'analyse de variance avec une application "industrielle".

L'analyse de régression est donc l'outil incontournable pour la construction et une interprétation statistique des modèles après la mise en oeuvre d'un plan d'expériences en formulation.

A propos du contenu de ce livre ...

Ce livre comporte 10 chapitres qui intègrent des exercices dont des éléments de correction sont disponibles à la fin de l'ouvrage.

Les deux premiers chapitres portent sur la régression linéaire simple qui produit ce qu'il est courant d'appeler la droite des moindres carrés, puisqu'elle permet de modéliser la variation d'une réponse Y en fonction d'une seule variable X par une droite. Toutes les personnes confrontées à des problèmes d'étalonnage "simples" trouveront dans ces chapitres des démonstrations rigoureuses et pourront apprécier la présence d'un long paragraphe sur le modèle sans constante, fréquemment rencontré en pratique mais rarement décrit dans les livres.

Faisant suite à la régression linéaire simple, on trouve tout naturellement un chapitre consacré à la régression linéaire multiple, traduisant la présence de plusieurs variables de prédiction, ce qui donne l'occasion aux auteurs d'introduire l'approche matricielle de la méthode des moindres carrés que l'on retrouvera à de nombreuses reprises dans ce blog, parce qu'elle est incontournable dans les plans de mélange, dès que l'on s'éloigne de cas de figures simples que l'on pourrait qualifier de cas d'école.

Le quatrième chapitre porte sur la notion de corrélation, l'objectif étant de montrer au lecteur le lien entre cette notion et celle de régression. Si ce chapitre aurait à mon sens une place plus justifiée dans un ouvrage consacré l'analyse multidimensionnelle des données, on saura apprécier dans ce chapitre un descriptif sur les corrélations partielles, les corrélations sérielles et les corrélations de rang. Comme dans les plans de mélange on observe généralement plusieurs réponses qui traduisent des grandeurs différentes et s'expriment dans des unités différentes, il est parfois utile lors de l'analyse des résultats de s'intéresser à la corrélation entre les différentes réponses ; l'utilisation des corrélations de rang trouvera au moins une application dans les études de cas présentées dans ce blog.

Le chapitre suivant intitulé "Diagnostics", au sens dans lequel ce mot a été utilisé dans la norme ISO 3534-3, permettra au lecteur de trouver de nombreuses informations sur l'analyse des résidus et une introduction fort utile à la matrice H (Hat Matrix) à laquelle on fait souvent référence aussi bien pour la construction des plans de mélange que pour l'analyse des résultats qui en découlent.

Avec le sixième chapitre, les auteurs abordent des méthodes de sélection de variables pour améliorer la qualité descriptive des modèles. Parmi ces méthodes, c'est souvent la procédure stepwise que l'on recommande d'utiliser quand on cherche à "simplifier" la forme canonique des modèles polynomiaux de degré élevé ou encore les modèles synergiques de degré q, en ne conservant que les monômes qui contribuent le plus à la qualité descriptive des modèles. Le logiciel Minitab intègre en particulier cette procédure dans les menus d'analyse des résultats des plans de mélange.

Le septième chapitre tente de montrer les points communs entre l'analyse de variance et l'analyse de régression à partir d'un exemple d'analyse de variance à un facteur. Complété par un exemple d'analyse de variance à deux facteurs, ce chapitre peut représenter une courte introduction aux méthodes d'analyse de variance mais ne présente pas un grand intérêt, à mon sens, pour les utilisateurs de plans de mélange.

Le huitième chapitre devrait intéresser à plus d'un titre les utilisateurs des plans de mélange car il présente une méthode de régression alternative à la méthode des moindres carrés : la régression ridge. A plusieurs reprises dans les notes de cours et les études de cas, on évoque le déterminant de la matrice d'information, dont la valeur peut devenir très petite au point de poser des problèmes numériques d'inversion matricielle et d'estimation des coefficients. Ce constat est dû en particulier à la nature des facteurs dans les plans de mélange. La contrainte relationnelle implicite affectant la somme des proportions des constituants contribue à créer des corrélations entre les colonnes de la matrice d'expériences et, au delà, entre les colonnes de la matrice du modèle. La détection des problèmes de colinéarité peut faire appel au calcul des facteurs d'inflation de variance et à leur interprétation. Un exemple bien connu de modélisation entre la chaleur d'hydratation d'un ciment et les proportions de ces constituants minéralogiques permet d'illustrer ce phénomène et de présenter la régression ridge qui, en acceptant un biais faible, permet de minimiser très fortement les variances, donc les incertitudes affectant les coefficients du modèle. La régression PLS pourrait également représenter une alternative intéressante, mais elle n'est pas présentée dans cet ouvrage.

Plutôt que de chercher à minimiser la somme des carrés des écarts, on pourrait choisir comme critère la minimisation de la somme des valeurs absolues des écarts ; c'est l'objet du neuvième chapitre qui présente la régression LAD (Least Absolute Deviations). Cette méthode itérative associée à la branche des estimations robustes en statistique n'étant pas implémentée dans les logiciels de plans de mélange, il est difficile d'en apprécier son potentiel dans ce contexte.

La conclusion fait l'objet du dixième chapitre, précédent les éléments de correction apportés aux exercices et une bibliographie assez riche.

En conclusion ...

Certains lecteurs trouveront toujours à redire, mais les auteurs ont réussi le pari de rendre accessibles les nombreuses facettes de l'analyse de régression en un nombre contenu de pages, sans bâcler pour autant les démonstrations. Ce livre ne se lit pas comme un roman, mais chacun peut aller y chercher de l'information selon ses besoins. Il est très complémentaire de l'aide en ligne offerte dans les logiciels et, rappelons-le, l'analyse de régression ne se limite pas à des applications pour les plans de mélange. Vous pourrez donc déployer le bénéfice de sa lecture à de nombreux domaines qui nécessitent des outils de modélisation.

mercredi 10 juin 2015

Ouvrage de référence

Cornell J.A., Experiments with Mixtures, Designs, Models, and the Analysis of Mixture Data, Third Edition, Wiley, Ed. New-York, 2002, 649 pages.

Peu de livres sont intégralement consacrés aux plans de mélange ; ils seront présentés au fil des semaines dans ce blog. Il semble opportun de commencer par l’ouvrage de John Cornell : « Experiments with Mixtures » reprenant ainsi le titre de la publication fondatrice produite par Henry Scheffé en 1958.

Après une première édition en 1980, puis une deuxième édition en 1990, on dispose depuis 2002 d’une troisième édition que beaucoup considèrent à juste titre comme l’ouvrage de référence sur les plans de mélange.

On va s’attarder dans cet article à commenter le sous-titre qui s’articule autour de trois concepts :

Designs : Il s’agit ici de la conception d’une campagne expérimentale qui requiert de définir le nombre et la nature des expériences à réaliser. Dans les problèmes de formulation, la nature des variables est le plus souvent représentée par les proportions des constituants, sans toutefois exclure des variables dites externes, comme des variables technologiques ou la quantité de mélange utilisée. Mais la conception d’une campagne expérimentale ne s’arrête pas là. Il convient d’intégrer la notion d’ordre de mise en œuvre des mélanges et la notion de répétition, deux principes chers à Ronald Fisher (1890-1962) qui posa au début du XXe siècle les bases de l’expérimentation et des plans d’expériences. Un peu plus de 200 pages sont consacrés à la construction des plans d’expériences dédiés aux problèmes de formulation dans cet ouvrage.

De nombreux exemples viennent illustrer les propos de l’auteur aussi bien pour des constructions empiriques faisant appel à des maillages de type Simplex lattice design, Simplex centroid design ou encore Extreme vertices design, que pour des constructions algorithmiques faisant appel à des critères algébriques conduisant à des maillages de type D-optimal design par exemple. On pourra regretter l’absence de constructions plus géométriques comme les matrices d’expériences produites par des approches de type Distance based design ou encore Uniform design. Mais cette troisième édition a été publié en 2002 et ne pouvait intégrer des développements plus récents.
Models : Quand on met en œuvre un plan d’expériences, on espère a posteriori estimer les coefficients d’un modèle permettant de décrire, de la meilleure façon possible, la variation d'une ou plusieurs réponses en fonction d’une ou plusieurs variables de prédiction qui, rappelons-le, sont souvent représentées par les proportions massiques, volumiques ou molaires des constituants. Or, dans l’espace mathématique, les proportions sont des nombres réels dont les valeurs varient dans un intervalle d’amplitude maximale égale à l’unité, et parfois moins lorsque des contraintes, dictées par l’expertise des métiers, limitent les plages de variation. Par ailleurs, la somme des proportions des constituants que l’on souhaite faire varier doit respecter une valeur constante, cette somme ne pouvant excéder une valeur maximale égale à 100%. C’est pour ces raisons que des modèles spécifiques ont été associés à la construction puis à l’analyse des plans de mélange.

Une large part est faite ici aux formes canoniques des modèles polynomiaux ou aux modèles synergiques sans oublier toutefois les possibilités de modélisation à partir de variables indépendantes, comme par exemple les rapports judicieusement choisis entre les proportions des constituants. D'autres formes de modélisation sont présentées comme les modèles homogènes de degré un ou l’utilisation de termes inverses. Une partie plus importante pourrait être consacrée au modèle de Cox, bien utile lorsqu’on souhaite interpréter directement les coefficients d’un modèle en tant qu’effet des variations des proportions des constituants. Il faut toujours garder en mémoire que la construction d’un plan d’expériences nécessite de postuler a priori une forme particulière de modélisation, afin d’analyser a posteriori la variation des réponses observées. Cette partie consacrée aux modèles est ici encore largement illustrée.
Analysis of Mixture Data : il existe des techniques d’analyse bien spécifiques aux plans de mélange, bien que largement inspirées des techniques d’analyse de régression. L’estimation des modèles à partir de la méthode des moindres carrés est abondamment décrite dans cet ouvrage, au même titre que différentes méthodes de restitution graphique de l’information contenue dans l’expression du modèle.

Les aspects statistiques sous-jacents à l’analyse sont présentés de façon très complète avec un formalisme rigoureux. Par contre, on peut regretter qu’il ne soit pas fait mention de méthodes alternatives à la méthode des moindres carrés, comme par exemple la méthode de régression PLS ou la modélisation par réseaux de neurones. Au même titre, une présentation de méthodes d’analyse multidimensionnelle des données aurait été pertinente compte-tenu du nombre important de réponses que l’on rencontre souvent dans les problèmes de mélange et que dire de l’analyse des réponses qualitatives ? Pour la recherche d’un optimum multi-critères, la présentation de l’utilisation des fonctions de désirabilité mériterait des développements plus conséquents ou des propositions alternatives, tant ce type de problématique est rencontré fréquemment. C’est donc sûrement ce troisième volet qui mériterait d’être le plus approfondi dans une nouvelle édition, au risque d’aboutir à un ouvrage trop important …

Pour terminer, cet ouvrage qui date de 2002 est très agréable à lire. Chacun pourra apprécier suivant ses besoins les nombreuses références bibliographiques, les nombreux exercices d’application et leurs éléments de correction, ainsi que quelques lignes de programmation rapportées en annexe. Les développements mathématiques, certes essentiels mais de moindre importance pour la compréhension des chapitres, sont souvent reportés à la fin de ces derniers, ce qui permet différents niveaux de lecture et de recherche d’information.

L’ouvrage de John Cornell est un ouvrage de référence que les utilisateurs de plans de mélange se doivent de consulter régulièrement.

Les plans d'expériences dédiés aux problèmes de formulation

Nombre total de pages vues

Pages

mercredi 10 février 2016

Ouvrage de référence

mercredi 13 janvier 2016

Ouvrage de référence

mercredi 11 novembre 2015

Ouvrage de référence

mercredi 9 septembre 2015

Ouvrage de référence

Qu'est-ce que l'analyse de régression ?

A propos du contenu de ce livre ...

En conclusion ...

mercredi 10 juin 2015

Ouvrage de référence