Les plans d'expériences dédiés aux problèmes de formulation: septembre 2015

mercredi 30 septembre 2015

Normes françaises et plans d'expériences

Lorsqu'on s'intéresse aux plans d'expériences, on finit tôt ou tard par découvrir qu'il existe des documents normatifs, le plus souvent sous forme de fascicules de documentation. Même si ces documents ne sont pas d'une grande utilité dans le domaine des plans de mélange qu'ils évoquent trop succinctement, ils méritent quelques commentaires pouvant inciter les lecteurs de ce blog à s'y reporter en cas de besoin sur les plans d'expériences en général.

X 06-080, Application de la statistique,
Plan d'expériences, Vocabulaire et indications générales, AFNOR, Ed. Paris, Novembre 1989, 25 pages.

Cette première référence commence à accuser son âge, mais représente sans doute le premier document de ce type publié en langue française. Les plans pour l'étude de mélanges occupent un court paragraphe dans la partie consacrée aux principaux types de plans d'expériences. Ce paragraphe renvoie exclusivement aux méthodes de maillage proposées par Henry Scheffé (Simplex Lattice Design et Simplex Centroid Design) et la présentation se limite donc à une stratégie de type Component Proportions. Il est précisé qu'il existe des plans d'expériences spécifiques lorsque la géométrie du domaine expérimental se traduit par un polyèdre convexe sous l'effet de contraintes explicites. La partie consacrée à la présentation des principaux types de modèles ignore hélas les différentes formes canoniques des modèles polynomiaux utiles ou encore les modèles synergiques sous-jacents à la construction des plans de mélange et à l'analyse des résultats expérimentaux.

Cependant, cette première norme permettait au lecteur de trouver des définitions pour les principaux termes usuels, complétées par des éléments de nature méthodologique à une époque où les livres en langue française consacrés aux plans d'expériences étaient peu nombreux. Les exemples, plutôt simplistes, se limitent à la construction d'un plan factoriel complet et d'un plan en carré latin. On pourra regretter qu'aucun exemple d'analyse et de restitution des résultats ne soit présenté.

FD X 06-081, Plan d'expériences,
Guide pour le choix d'un plan d'expériences, AFNOR, Ed. Paris, Juin 2003, 43 pages.

Apparu plus d'une dizaine d'année après la référence normative précédente, ce fascicule de documentation est une des conséquences du déploiement des formations consacrées aux plans d'expériences dans les entreprises et l'enseignement supérieur, au cours de la dernière décennie du XX^e siècle. En raison du développement des logiciels dédiés offrant très souvent un catalogue important de plans d'expériences, il est apparu nécessaire de proposer aux utilisateurs un guide de choix.

Les plans de mélange occupent une place plus importante dans ce guide. Une typologie est proposée pour distinguer la géométrie du domaine expérimental en fonction des contraintes explicites qui affectent les variations des proportions des constituants.

Les plans de type I sont définis dans un simplexe de hauteur unitaire : aucune contrainte explicite ne vient limiter le domaine. Derrière ce type de plans, on retrouve les dispositifs proposés par Henry Scheffé de type Simplex Lattice Design et Simplex Centroid Design.

Les plans de type II sont définis dans un simplexe de hauteur réduite, mais de même orientation que le simplexe initial de hauteur unitaire. La conséquence de la définition de contraintes individuelles inférieures explicites autorise une adaptation des dispositifs associés aux plans de type I en utilisant une transformation en pseudo-constituants.

Les plans de type III sont associés à des études pour lesquelles les valeurs des contraintes individuelles inférieures et supérieures explicites génèrent un domaine expérimental sous forme de polyèdre convexe. C'est du moins ce que sous-entend la norme qui propose uniquement des méthodes de construction algorithmiques (D-Optimalité et G-Optimalité) pour la définition des plans de mélange dans ce contexte. On peut regretter que l'approche empirique, mais néanmoins efficace proposée par McLean et Anderson en 1966, ne soit pas évoquée et proposée, mais il est vrai que les logiciels n'intègrent pas cette approche dans leurs menus, préférant le recours aux plans dits optimaux.

Les plans de type IV correspondent à la stratégie appelée Slack Variable, pour laquelle un des constituants, majoritaire en proportion, sert de variable d'ajustement. La norme propose alors de construire le plan de mélange à partir d'un plan factoriel complet ou fractionnaire.

La norme présente enfin sous le nom de plans mixtes, les dispositifs expérimentaux permettant d'associer des variables internes et des variables externes, correspondant à la stratégie Mixture Process Variables. Il est suggéré d'utiliser la régression PLS pour l'analyse des résultats.

Des exemples, de nature plutôt académiques, permettent d'illustrer les différents paragraphes de ce fascicule de documentation. Des captures d'écran du logiciel Statgraphics complètent la présentation de ces exemples.

FD ISO/TR 12845, Illustrations choisies de plans d'expériences factoriels fractionnaires, AFNOR, Ed. Paris, Septembre 2010, 81 pages.

Ce fascicule de documentation est conséquent par son nombre de pages. Sa publication est liée au déploiement de la méthode dite Six Sigma dans les entreprises, méthode qui recommande dans sa démarche d'amélioration continue, l'application de plans factoriels fractionnaires à deux niveaux. On peut regretter que cette méthode ignore une typologie plus générale des plans d'expériences et que les problématiques de criblage (Screening Design) ne fassent référence qu'à des plans à deux niveaux.

Comme l'indique le titre de ce fascicule, le lecteur ne trouvera pas ici un document spécifiquement destiné à un public concerné par un problème de formulation. Toutefois, deux des six exemples présentés peuvent être intéressants à parcourir :

L'optimisation d'une émulsion de polymère associe cinq variables internes représentées par les proportions de cinq constituants à deux variables externes correspondant à une température et un temps d'alimentation. L'organisation de l'expérimentation fait appel à la définition de blocs dont l'origine est due à deux opérateurs et à deux types de réacteurs.

L'étude de formulations de mousse PVC se rapproche d'une stratégie de type Slack Variable en étudiant les effets de neuf constituants mineurs à l'aide d'un plan factoriel fractionnaire qui fait appel à seize combinaisons expérimentales distinctes, complétées par trois répétitions de la formule de référence.

Ce fascicule de documentation est résolument tourné vers des applications industrielles, illustrées parfois par la mise en œuvre d'un logiciel. Il représente une excellente source d'inspiration pour des formations universitaires ou en entreprises. On s'éloigne radicalement d'exemples trop "simplistes" et la prise en compte de plusieurs réponses traduit une réalité de terrain.

NF ISO 3534-3, Statistique - Vocabulaire et symboles - Partie 3 : Plans d'expériences, AFNOR, Ed. Paris, Juin 2013, 96 pages.

Dans la série ISO 3534, on trouve trois opus très riches en définitions, que ce soit dans le domaine des statistiques et des probabilités, dans le domaine de la statistique appliquée et dans le domaine des plans d'expériences.

La dernière version de la norme ISO 3534-3 est, à mon sens, très complète et la cohérence des différentes définitions est fortement appréciable. La mise en pages sur deux colonnes permet de juxtaposer la définition en langue française et la définition en langue anglaise. D'inspiration très agronomique (le "s" dans la locution "plan d'expérience" est absent dans la définition, mais présent dans le titre de la norme !), les définitions sont naturellement applicables dans de nombreux domaines.

Les plans pour l'étude de mélanges, encore appelés plans d'expériences avec mélanges font encore office de parent pauvre, puisque un seul et unique paragraphe de quinze lignes leur est consacré ! Et dans ce paragraphe, il convient de considérer une longue note tentant de résumer un exemple. Il faudra donc se contenter ici d'une définition, assez restrictive, indiquant que nous sommes en présence de plans d'expériences élaborés pour traiter la situation dans laquelle la somme des variables de prédiction est égale à une quantité fixée. Cela exclut donc d'une part bon nombre de stratégies autres que la stratégie de type Component Proportions et d'autre part, la possibilité de prendre en compte toutes les extensions de la matrice dexpériences, sous forme de produits par exemple, nécessaires dans les formes canoniques de degré supérieur à un.

Cette norme est suffisamment riche par ailleurs pour que l'on puisse pardonner aux auteurs quelques oublis ou inexactitudes dans le domaine des plans de mélange. Il s'agit là d'un véritable document de référence pour qui a besoin d'un dictionnaire cohérent et dans l'ensemble fort rigoureux de nombreux termes appliqués aux plans d'expériences.

En conclusion, on pourra regretter que le prix de vente de ces différents documents soit très élevé et dépasse largement celui de livres de référence, pourtant plus volumineux, dans bien des domaines d'application des plans d'expériences en général et des plans de mélange en particulier. Cela représente nécessairement un frein à la diffusion de tels documents, que ce soit en milieu universitaire ou en milieu industriel. On limite hélas ainsi, pour raisons économiques que l'on a du mal à percevoir de façon apparente, l'accès à la culture de la normalisation et à son riche patrimoine.

mercredi 23 septembre 2015

Plans de mélange : Aspects statistiques

Les aspects statistiques présentés dans cet article se restreignent à l'estimation de la qualité descriptive et de la qualité prédictive des modèles.

La première séquence rappelle que l'analyse mathématique a permis d'obtenir, en faisant appel à la méthode des moindres carrés, un modèle, c'est-à-dire une équation dont les coefficients représentent une estimation des paramètres du modèle et des résidus, traduisant les écarts entre les valeurs observées et les valeurs restituées par l'équation du modèle. Pour juger de la qualité descriptive d'un modèle, on peut rapprocher ces deux ensembles de valeurs, soit de façon graphique en construisant le graphe d'adéquation, soit de façon numérique en calculant la somme des carrés des écarts.

La somme des carrés des écarts représente une des composantes de l'équation d'analyse de régression. On présente dans cette deuxième séquence, la construction du tableau d'analyse de régression, puis son exploitation pour calculer d'une part le coefficient de détermination R² et d'autre part le coefficient de détermination R²_ajusté. Ce dernier coefficient permet de comparer d'un point de vue descriptif des modèles ne faisant pas appel au même nombre de paramètres.

En faisant toujours appel à l'exemple d'un mélange binaire de sable et de gravier, cette troisième séquence illustre l'estimation de la qualité prédictive d'un modèle, en faisant appel à une méthode de validation croisée. Suite au plan de mélange, on crée une partition constituée d'un échantillon d'apprentissage et d'un échantillon de validation. L'approche illustrée dans cette séquence permet de positionner la matrice H (Hat matrix) dans la démarche et ses termes diagonaux appelés des leviers. Cette matrice est régulièrement utilisée, à la fois pour la construction des plans de mélange et pour l'analyse des résultats.

Chacune des séquences est ponctuée par un quizz de quelques questions ; en répondant à ces questions, vous capitaliserez ainsi les connaissances apprises lors de ce chapitre.

mercredi 16 septembre 2015

Plans de mélange : Aspects mathématiques

Comme nous l'avons vu dans un précédent article consacré à la présentation d'un ouvrage de référence, l'analyse de régression est un groupement de procédures associées à l'évaluation d'un modèle.

D'un point de vue pédagogique, il me semble utile de distinguer deux parties que j'ai respectivement intitulées : analyse mathématique et analyse statistique. Le présent article porte sur la première de ces deux analyses en s'appuyant sur trois séquences vidéos.

L'analyse mathématique consiste à estimer les paramètres d'un modèle et les écarts entre les valeurs observées et les valeurs restituées à partir de l'équation du modèle. La méthode des moindres carrés sera la méthode d'ajustement utilisée ici, les écarts portant alors le nom de résidus. On retrouvera les données de l'exemple du mélange binaire de sable et de gravier, présenté dans le chapitre consacré à la position du problème.

La première séquence permet de rappeler la position du modèle dans la boucle de la formulation, puis la définition d'un modèle. La méthode des moindres carrés dont l'écriture matricielle sera présentée dans les séquences suivantes est schématiquement introduite ici, en positionnant les différentes matrices et leur nom qui interviennent successivement dans la démarche. On consacre également du temps dans cette séquence pour présenter l'origine des formes canoniques des modèles polynomiaux de degré d, avec en particulier les formes réduites pour les modèles de degré 3 et de degré 4, puis pour présenter l'expression générique d'un modèle synergique du modèle de degré q.

La deuxième séquence présente le passage de la matrice d'expériences à la matrice du modèle. Le nombre d'équations disponibles étant inférieur au nombre d'inconnues à estimer, on justifie alors que la méthode des moindres carrés permet de générer les équations manquantes, en minimisant la somme des carrés des écarts. Les équations manquantes permettent de construire une matrice carrée, appelée matrice d'information dont le déterminant jouera un rôle important dans les méthodes de construction des plans de mélange faisant appel non plus à des critères empiriques ou géométriques, mais à des critères algébriques. L'inversion de cette matrice, lorsqu'elle est possible, conduit à la définition des composantes de la matrice de dispersion, les termes diagonaux de cette matrice étant appelés des coefficients de variance.

La troisième et dernière séquence conduit à l'expression du vecteur des coefficients, puis au vecteur des résidus avant de se livrer à un bilan récapitulatif de l'analyse mathématique.

Chacune des séquences est ponctuée par un quizz de quelques questions ; en répondant à ces questions, vous capitaliserez ainsi les connaissances apprises lors de ce chapitre.

Les conseils de mise en œuvre de la méthode à l'aide d'un tableur présentés dans les séquences de ce chapitre devraient vous inciter à estimer les coefficients et les résidus pour la forme canonique du modèle de degré 3 et la forme canonique du modèle de degré 4. Bien souvent, l'offre des logiciels s'avère assez incomplète pour l'étude des mélanges binaires et le recours à un tableur devient alors incontournable.

mercredi 9 septembre 2015

Ouvrage de référence

Dodge Y., Rousson V., Analyse de régression appliquée, Dunod, Ed. Paris, 2^e édition, 2004, 280 pages.

Les utilisateurs des plans de mélange sont tôt ou tard confrontés à un problème d'analyse de régression, non pas dans la mise en oeuvre de cette méthode car les logiciels sont aujourd'hui bien présents pour les aider, mais plutôt pour l'interprétation des résultats fournis par ces mêmes logiciels. Certes l'aide en ligne peut apporter des éléments de réponse aux questions posées, mais il me semble opportun de consacrer un article à un ouvrage sur le sujet, qui plus est, un ouvrage en langue française et dont la lecture est abordable pour un large public !

Parmi les auteurs, Yadolah Dodge est connu pour d'autres ouvrages qu'il a publiés, notamment un dictionnaire encyclopédique et un livre intitulé "Premiers pas en statistiques" que l'on peut recommander pour mettre en pratique des méthodes statistiques élémentaires.

Qu'est-ce que l'analyse de régression ?

Pour répondre à cette question, je vais reprendre la définition donnée dans la norme ISO 3534-3 que l'on commentera pour une application dans le domaine des plans de mélange.

Groupement de procédures associées à l’évaluation des modèles liant les variables de prédiction aux variables de réponse.

Il y a un avantage à disposer de procédures : il suffit de les suivre pour aboutir au résultat et ces procédures sont largement implémentées dans les logiciels ! Dans nos préoccupations, les variables de prédiction que l'on appelle des facteurs seront le plus souvent représentées par les proportions des constituants, à savoir des fractions massiques, volumiques ou molaires. La nature de ces facteurs, à savoir des nombres réels compris le plus largement entre 0 et 1 nécessite quelques adaptations que l'on précise au fil des chapitres de ce blog et quelques règles de prudence pour déjouer des problèmes de conditionnement (ill-conditioned matrix en langue anglaise). L'évaluation des modèles commence tout d'abord par l'estimation des paramètres de ces modèles, autrement dit des coefficients, ce qui nécessite une ou plusieurs méthodes, parmi lesquelles la régression au sens des moindres carrés occupe une place importante. Un modèle n'étant qu'une approximation de la réalité, il convient d'analyser ensuite, à l'aide de procédures statistiques spécifiques, les écarts entre les valeurs observées et les valeurs restituées par l'équation du modèle.

L’analyse de régression est couramment associée au procédé d’estimation des paramètres d’un modèle théorique par optimisation d’une fonction objective (par exemple en minimisant la somme des différences carrées entre les réponses observées et celles prévues par le modèle). L’existence de logiciels statistiques a supprimé la plupart du travail fastidieux quant à l’obtention des estimations de paramètres, leurs erreurs-types, et un grand nombre de diagnostics de modèle.

Le manque d'ajustement du modèle d'une part (lack-of-fit) et les nombreuses sources d'incertitudes d'autres part vont naturellement se répercuter sur la qualité du modèle, nécessitant un grand nombre de tests statistiques, depuis les tests de signification des coefficients jusqu'aux tests portant sur la distribution des résidus. En parlant des résidus, la liste est longue et parfois déroutante : résidus, résidus standardisés, résidus studentisés internes, résidus studentisés externes, etc ... Ce livre, même s'il n'est pas spécifiquement dédié aux plans de mélange, me semble apporter de façon claire des précisions sur ces différents points.

L’analyse de régression joue un rôle similaire à celui de l’analyse de variance et s’avère particulièrement adaptée au cas où les niveaux des facteurs sont continus, l’accent étant davantage porté sur un modèle explicite de prédiction.

Ce dernier extrait de la norme ISO 3534-3 me semble parfaitement convenir au contexte des plans de mélange, les proportions des constituants variant de façon continue. Qui plus est, la majorité des applications consiste à la recherche d'un optimum, démarche dans laquelle il convient de s'intéresser à la qualité prédictive des modèles. Si l'analyse de régression joue un rôle similaire à celui de l'analyse de variance, c'est qu'il y a de nombreux points communs, notamment dans la synthèse des résultats sous forme d'un tableau (tableau d'analyse de régression ou tableau d'analyse de variance), mais il y a aussi des différences, subtiles à percevoir. C'est en particulier pour cette raison qu'il vaut mieux parler de modalités plutôt que de niveaux pour distinguer les états des facteurs quand on cherche à estimer les effets des facteurs dans la grande famille des plans d'expériences dits "factoriels". On ne peut que regretter l'absence d'un livre de référence sur l'analyse de variance avec une application "industrielle".

L'analyse de régression est donc l'outil incontournable pour la construction et une interprétation statistique des modèles après la mise en oeuvre d'un plan d'expériences en formulation.

A propos du contenu de ce livre ...

Ce livre comporte 10 chapitres qui intègrent des exercices dont des éléments de correction sont disponibles à la fin de l'ouvrage.

Les deux premiers chapitres portent sur la régression linéaire simple qui produit ce qu'il est courant d'appeler la droite des moindres carrés, puisqu'elle permet de modéliser la variation d'une réponse Y en fonction d'une seule variable X par une droite. Toutes les personnes confrontées à des problèmes d'étalonnage "simples" trouveront dans ces chapitres des démonstrations rigoureuses et pourront apprécier la présence d'un long paragraphe sur le modèle sans constante, fréquemment rencontré en pratique mais rarement décrit dans les livres.

Faisant suite à la régression linéaire simple, on trouve tout naturellement un chapitre consacré à la régression linéaire multiple, traduisant la présence de plusieurs variables de prédiction, ce qui donne l'occasion aux auteurs d'introduire l'approche matricielle de la méthode des moindres carrés que l'on retrouvera à de nombreuses reprises dans ce blog, parce qu'elle est incontournable dans les plans de mélange, dès que l'on s'éloigne de cas de figures simples que l'on pourrait qualifier de cas d'école.

Le quatrième chapitre porte sur la notion de corrélation, l'objectif étant de montrer au lecteur le lien entre cette notion et celle de régression. Si ce chapitre aurait à mon sens une place plus justifiée dans un ouvrage consacré l'analyse multidimensionnelle des données, on saura apprécier dans ce chapitre un descriptif sur les corrélations partielles, les corrélations sérielles et les corrélations de rang. Comme dans les plans de mélange on observe généralement plusieurs réponses qui traduisent des grandeurs différentes et s'expriment dans des unités différentes, il est parfois utile lors de l'analyse des résultats de s'intéresser à la corrélation entre les différentes réponses ; l'utilisation des corrélations de rang trouvera au moins une application dans les études de cas présentées dans ce blog.

Le chapitre suivant intitulé "Diagnostics", au sens dans lequel ce mot a été utilisé dans la norme ISO 3534-3, permettra au lecteur de trouver de nombreuses informations sur l'analyse des résidus et une introduction fort utile à la matrice H (Hat Matrix) à laquelle on fait souvent référence aussi bien pour la construction des plans de mélange que pour l'analyse des résultats qui en découlent.

Avec le sixième chapitre, les auteurs abordent des méthodes de sélection de variables pour améliorer la qualité descriptive des modèles. Parmi ces méthodes, c'est souvent la procédure stepwise que l'on recommande d'utiliser quand on cherche à "simplifier" la forme canonique des modèles polynomiaux de degré élevé ou encore les modèles synergiques de degré q, en ne conservant que les monômes qui contribuent le plus à la qualité descriptive des modèles. Le logiciel Minitab intègre en particulier cette procédure dans les menus d'analyse des résultats des plans de mélange.

Le septième chapitre tente de montrer les points communs entre l'analyse de variance et l'analyse de régression à partir d'un exemple d'analyse de variance à un facteur. Complété par un exemple d'analyse de variance à deux facteurs, ce chapitre peut représenter une courte introduction aux méthodes d'analyse de variance mais ne présente pas un grand intérêt, à mon sens, pour les utilisateurs de plans de mélange.

Le huitième chapitre devrait intéresser à plus d'un titre les utilisateurs des plans de mélange car il présente une méthode de régression alternative à la méthode des moindres carrés : la régression ridge. A plusieurs reprises dans les notes de cours et les études de cas, on évoque le déterminant de la matrice d'information, dont la valeur peut devenir très petite au point de poser des problèmes numériques d'inversion matricielle et d'estimation des coefficients. Ce constat est dû en particulier à la nature des facteurs dans les plans de mélange. La contrainte relationnelle implicite affectant la somme des proportions des constituants contribue à créer des corrélations entre les colonnes de la matrice d'expériences et, au delà, entre les colonnes de la matrice du modèle. La détection des problèmes de colinéarité peut faire appel au calcul des facteurs d'inflation de variance et à leur interprétation. Un exemple bien connu de modélisation entre la chaleur d'hydratation d'un ciment et les proportions de ces constituants minéralogiques permet d'illustrer ce phénomène et de présenter la régression ridge qui, en acceptant un biais faible, permet de minimiser très fortement les variances, donc les incertitudes affectant les coefficients du modèle. La régression PLS pourrait également représenter une alternative intéressante, mais elle n'est pas présentée dans cet ouvrage.

Plutôt que de chercher à minimiser la somme des carrés des écarts, on pourrait choisir comme critère la minimisation de la somme des valeurs absolues des écarts ; c'est l'objet du neuvième chapitre qui présente la régression LAD (Least Absolute Deviations). Cette méthode itérative associée à la branche des estimations robustes en statistique n'étant pas implémentée dans les logiciels de plans de mélange, il est difficile d'en apprécier son potentiel dans ce contexte.

La conclusion fait l'objet du dixième chapitre, précédent les éléments de correction apportés aux exercices et une bibliographie assez riche.

En conclusion ...

Certains lecteurs trouveront toujours à redire, mais les auteurs ont réussi le pari de rendre accessibles les nombreuses facettes de l'analyse de régression en un nombre contenu de pages, sans bâcler pour autant les démonstrations. Ce livre ne se lit pas comme un roman, mais chacun peut aller y chercher de l'information selon ses besoins. Il est très complémentaire de l'aide en ligne offerte dans les logiciels et, rappelons-le, l'analyse de régression ne se limite pas à des applications pour les plans de mélange. Vous pourrez donc déployer le bénéfice de sa lecture à de nombreux domaines qui nécessitent des outils de modélisation.

mercredi 2 septembre 2015

Editorial Septembre 2015

C'est la rentrée et l'occasion d'annoncer son traditionnel programme !

Durant les deux derniers mois, vous avez pu découvrir deux méthodes de construction d'un plan de mélange lorsque le domaine expérimental prend la forme d'un simplexe. Les dispositifs expérimentaux proposés par Henry Scheffé sous le nom de Simplex Lattice Design en 1958, puis de Simplex Centroid Design en 1963 ont été tout d'abord introduits sous forme d'un cours magistral, puis illustrés à partir de deux études de cas. D'autres études de cas sont d'ores et déjà programmées pour montrer l'application de cette démarche dans différents secteurs industriels.

Afin d'estimer les coefficients des modèles sous-jacents à l'analyse de la variation des valeurs observées, j'ai fait appel systématiquement à deux approches : une approche pragmatique d'une part et la mise en oeuvre de la méthode des moindres carrés d'autre part.

Le pragmatisme provient du fait que le nombre de mélanges proposés par les dispositifs précédemment cités est rigoureusement égal au nombre de coefficients à estimer. On a donc autant d'équations que d'inconnues. Par ailleurs, les proportions des constituants mises en oeuvre dans le plan de mélange permettent d'écrire très facilement des formules analytiques pour calculer les coefficients. Certes, on peut reprocher à la majorité des dispositifs proposés par Henry Scheffé de ne pas être des plans optimaux au sens des critères algébriques sur lesquels on reviendra dans un article spécifique, mais ils offraient (et offrent encore aujourd'hui) aux expérimentateurs une stratégie d'étude cohérente et facile à mettre en oeuvre quand on ne dispose que de moyens de calculs modestes.

Toutefois, lorsque le domaine expérimental devient un polyèdre convexe en raison des contraintes explicites imposées par les expérimentateurs, ou bien quand le nombre de mélanges dépasse le nombre de coefficients à estimer, le pragmatisme des précédentes méthodes de calcul prend fin et il convient de recourir à une méthode d'estimation plus générale.

Issus de la lignée des plans d'expériences pour l'étude des surfaces de réponse, les plans de mélange font le plus souvent appel à la méthode des moindres carrés comme méthode d'ajustement des modèles. C'est en quelque sorte une méthode "historique" d'estimation des coefficients due à Adrien Marie Legendre en 1805 d'une part et à Johan Carl Friedrich Gauss en 1809 d'autre part. Comme chacun le sait, ou le découvrira dans les séquences diffusées ce mois-ci, la méthode des moindres carrés permet de minimiser la somme des carrés des écarts entre les valeurs observées et les valeurs restituées par le modèle. Plus cette somme des carrés des écarts devient faible, plus le modèle présente généralement une qualité descriptive importante.

Lors de la présentation des deux premières études de cas dans les articles de ce blog, j'ai rappelé succinctement les étapes de mise en oeuvre de la méthode des moindres carrés, sans revenir sur quelques démonstrations et justifications qui me semblent aujourd'hui nécessaires. Ce sera donc l'objet des prochains articles à paraître, articles que l'on pourrait regrouper sous un titre générique tel que l'analyse de régression.

La semaine prochaine, je commenterai assez longuement un livre en français consacré à ce sujet. Bien que le contenu de ce livre ne soit pas spécifique aux plans de mélange, je recommande vivement cet ouvrage aux utilisateurs qui trouveront des réponses aux questions que l'on se pose souvent, notamment pour l'analyse des résidus et les diagnostics d'un modèle.

La semaine suivante, nous retrouverons l'exemple d'un mélange binaire de sable et de gravier pour démontrer et justifier l'écriture de la méthode des moindres carrés sous forme matricielle. Ces aspects mathématiques donnent l'occasion d'introduire des noms de matrice, comme par exemple la matrice d'information ou la matrice de dispersion. Les invariants de ces matrices, tels que le déterminant de la matrice d'information et la trace de la matrice de dispersion apparaîtront plus tard dans des articles consacrés aux critères algébriques et à la construction de plans optimaux.

Après avoir abordé les aspects mathématiques, nous traiterons des aspects statistiques, en se limitant à des concepts simples de l'analyse de régression. Nous estimerons la qualité descriptive des modèles puis, après avoir défini la matrice H et la notion de levier, nous estimerons la qualité prédictive des modèles.

Le contenu de la dernière semaine n'est pas encore arrêté, mais rassurez-vous, la publication d'un nouvel article permettra de maintenir le rythme auquel vous vous êtes habitués !

Concernant la forme, le blog a changé légèrement d'aspect en intégrant des pages sous son bandeau frontal. J'ai pris l'initiative de créer quelques rubriques afin de classer les articles du blog, chaque nouvel article publié apparaissant dans la page accueil. Au fur et à mesure de la publication des articles, des liens hyper-textes vous permettent d'atteindre le sujet recherché depuis des pages intitulées "Support de cours", "Etudes de cas", "Excel et Logiciels", "Bibliographie" et "Dictionnaire / Glossaire / Lexique". Cette page suggérée par Pascal, fidèle abonné qui se reconnaîtra depuis sa retraite fourasine, sera implémentée au fur et à mesure de la publication de nouveaux articles. N'hésitez pas à la consulter régulièrement et à me suggérer de nouvelles entrées et de nouvelles définitions pour ce glossaire.

Bonne rentrée à toutes et à tous !

Les plans d'expériences dédiés aux problèmes de formulation

Nombre total de pages vues

Pages