Dodge Y., Rousson V., Analyse de régression appliquée, Dunod, Ed. Paris, 2e édition, 2004, 280 pages.
Les utilisateurs des plans de mélange sont tôt ou tard confrontés à un problème d'analyse de régression, non pas dans la mise en oeuvre de cette méthode car les logiciels sont aujourd'hui bien présents pour les aider, mais plutôt pour l'interprétation des résultats fournis par ces mêmes logiciels. Certes l'aide en ligne peut apporter des éléments de réponse aux questions posées, mais il me semble opportun de consacrer un article à un ouvrage sur le sujet, qui plus est, un ouvrage en langue française et dont la lecture est abordable pour un large public !
Parmi les auteurs, Yadolah Dodge est connu pour d'autres ouvrages qu'il a publiés, notamment un dictionnaire encyclopédique et un livre intitulé "Premiers pas en statistiques" que l'on peut recommander pour mettre en pratique des méthodes statistiques élémentaires.
Qu'est-ce que l'analyse de régression ?
Pour répondre à cette question, je vais reprendre la définition donnée dans la norme ISO 3534-3 que l'on commentera pour une application dans le domaine des plans de mélange.
Groupement de procédures associées à l’évaluation des modèles liant les variables de prédiction aux variables de réponse.
Il y a un avantage à disposer de procédures : il suffit de les suivre pour aboutir au résultat et ces procédures sont largement implémentées dans les logiciels ! Dans nos préoccupations, les variables de prédiction que l'on appelle des facteurs seront le plus souvent représentées par les proportions des constituants, à savoir des fractions massiques, volumiques ou molaires. La nature de ces facteurs, à savoir des nombres réels compris le plus largement entre 0 et 1 nécessite quelques adaptations que l'on précise au fil des chapitres de ce blog et quelques règles de prudence pour déjouer des problèmes de conditionnement (ill-conditioned matrix en langue anglaise). L'évaluation des modèles commence tout d'abord par l'estimation des paramètres de ces modèles, autrement dit des coefficients, ce qui nécessite une ou plusieurs méthodes, parmi lesquelles la régression au sens des moindres carrés occupe une place importante. Un modèle n'étant qu'une approximation de la réalité, il convient d'analyser ensuite, à l'aide de procédures statistiques spécifiques, les écarts entre les valeurs observées et les valeurs restituées par l'équation du modèle.
L’analyse de régression est couramment associée au procédé d’estimation des paramètres d’un modèle théorique par optimisation d’une fonction objective (par exemple en minimisant la somme des différences carrées entre les réponses observées et celles prévues par le modèle). L’existence de logiciels statistiques a supprimé la plupart du travail fastidieux quant à l’obtention des estimations de paramètres, leurs erreurs-types, et un grand nombre de diagnostics de modèle.
Le manque d'ajustement du modèle d'une part (lack-of-fit) et les nombreuses sources d'incertitudes d'autres part vont naturellement se répercuter sur la qualité du modèle, nécessitant un grand nombre de tests statistiques, depuis les tests de signification des coefficients jusqu'aux tests portant sur la distribution des résidus. En parlant des résidus, la liste est longue et parfois déroutante : résidus, résidus standardisés, résidus studentisés internes, résidus studentisés externes, etc ... Ce livre, même s'il n'est pas spécifiquement dédié aux plans de mélange, me semble apporter de façon claire des précisions sur ces différents points.
L’analyse de régression joue un rôle similaire à celui de l’analyse de variance et s’avère particulièrement adaptée au cas où les niveaux des facteurs sont continus, l’accent étant davantage porté sur un modèle explicite de prédiction.
Ce dernier extrait de la norme ISO 3534-3 me semble parfaitement convenir au contexte des plans de mélange, les proportions des constituants variant de façon continue. Qui plus est, la majorité des applications consiste à la recherche d'un optimum, démarche dans laquelle il convient de s'intéresser à la qualité prédictive des modèles. Si l'analyse de régression joue un rôle similaire à celui de l'analyse de variance, c'est qu'il y a de nombreux points communs, notamment dans la synthèse des résultats sous forme d'un tableau (tableau d'analyse de régression ou tableau d'analyse de variance), mais il y a aussi des différences, subtiles à percevoir. C'est en particulier pour cette raison qu'il vaut mieux parler de modalités plutôt que de niveaux pour distinguer les états des facteurs quand on cherche à estimer les effets des facteurs dans la grande famille des plans d'expériences dits "factoriels". On ne peut que regretter l'absence d'un livre de référence sur l'analyse de variance avec une application "industrielle".
L'analyse de régression est donc l'outil incontournable pour la construction et une interprétation statistique des modèles après la mise en oeuvre d'un plan d'expériences en formulation.
A propos du contenu de ce livre ...
Ce livre comporte 10 chapitres qui intègrent des exercices dont des éléments de correction sont disponibles à la fin de l'ouvrage.
Les deux premiers chapitres portent sur la régression linéaire simple qui produit ce qu'il est courant d'appeler la droite des moindres carrés, puisqu'elle permet de modéliser la variation d'une réponse Y en fonction d'une seule variable X par une droite. Toutes les personnes confrontées à des problèmes d'étalonnage "simples" trouveront dans ces chapitres des démonstrations rigoureuses et pourront apprécier la présence d'un long paragraphe sur le modèle sans constante, fréquemment rencontré en pratique mais rarement décrit dans les livres.
Faisant suite à la régression linéaire simple, on trouve tout naturellement un chapitre consacré à la régression linéaire multiple, traduisant la présence de plusieurs variables de prédiction, ce qui donne l'occasion aux auteurs d'introduire l'approche matricielle de la méthode des moindres carrés que l'on retrouvera à de nombreuses reprises dans ce blog, parce qu'elle est incontournable dans les plans de mélange, dès que l'on s'éloigne de cas de figures simples que l'on pourrait qualifier de cas d'école.
Le quatrième chapitre porte sur la notion de corrélation, l'objectif étant de montrer au lecteur le lien entre cette notion et celle de régression. Si ce chapitre aurait à mon sens une place plus justifiée dans un ouvrage consacré l'analyse multidimensionnelle des données, on saura apprécier dans ce chapitre un descriptif sur les corrélations partielles, les corrélations sérielles et les corrélations de rang. Comme dans les plans de mélange on observe généralement plusieurs réponses qui traduisent des grandeurs différentes et s'expriment dans des unités différentes, il est parfois utile lors de l'analyse des résultats de s'intéresser à la corrélation entre les différentes réponses ; l'utilisation des corrélations de rang trouvera au moins une application dans les études de cas présentées dans ce blog.
Le chapitre suivant intitulé "Diagnostics", au sens dans lequel ce mot a été utilisé dans la norme ISO 3534-3, permettra au lecteur de trouver de nombreuses informations sur l'analyse des résidus et une introduction fort utile à la matrice H (Hat Matrix) à laquelle on fait souvent référence aussi bien pour la construction des plans de mélange que pour l'analyse des résultats qui en découlent.
Avec le sixième chapitre, les auteurs abordent des méthodes de sélection de variables pour améliorer la qualité descriptive des modèles. Parmi ces méthodes, c'est souvent la procédure stepwise que l'on recommande d'utiliser quand on cherche à "simplifier" la forme canonique des modèles polynomiaux de degré élevé ou encore les modèles synergiques de degré q, en ne conservant que les monômes qui contribuent le plus à la qualité descriptive des modèles. Le logiciel Minitab intègre en particulier cette procédure dans les menus d'analyse des résultats des plans de mélange.
Le septième chapitre tente de montrer les points communs entre l'analyse de variance et l'analyse de régression à partir d'un exemple d'analyse de variance à un facteur. Complété par un exemple d'analyse de variance à deux facteurs, ce chapitre peut représenter une courte introduction aux méthodes d'analyse de variance mais ne présente pas un grand intérêt, à mon sens, pour les utilisateurs de plans de mélange.
Le huitième chapitre devrait intéresser à plus d'un titre les utilisateurs des plans de mélange car il présente une méthode de régression alternative à la méthode des moindres carrés : la régression ridge. A plusieurs reprises dans les notes de cours et les études de cas, on évoque le déterminant de la matrice d'information, dont la valeur peut devenir très petite au point de poser des problèmes numériques d'inversion matricielle et d'estimation des coefficients. Ce constat est dû en particulier à la nature des facteurs dans les plans de mélange. La contrainte relationnelle implicite affectant la somme des proportions des constituants contribue à créer des corrélations entre les colonnes de la matrice d'expériences et, au delà, entre les colonnes de la matrice du modèle. La détection des problèmes de colinéarité peut faire appel au calcul des facteurs d'inflation de variance et à leur interprétation. Un exemple bien connu de modélisation entre la chaleur d'hydratation d'un ciment et les proportions de ces constituants minéralogiques permet d'illustrer ce phénomène et de présenter la régression ridge qui, en acceptant un biais faible, permet de minimiser très fortement les variances, donc les incertitudes affectant les coefficients du modèle. La régression PLS pourrait également représenter une alternative intéressante, mais elle n'est pas présentée dans cet ouvrage.
Plutôt que de chercher à minimiser la somme des carrés des écarts, on pourrait choisir comme critère la minimisation de la somme des valeurs absolues des écarts ; c'est l'objet du neuvième chapitre qui présente la régression LAD (Least Absolute Deviations). Cette méthode itérative associée à la branche des estimations robustes en statistique n'étant pas implémentée dans les logiciels de plans de mélange, il est difficile d'en apprécier son potentiel dans ce contexte.
La conclusion fait l'objet du dixième chapitre, précédent les éléments de correction apportés aux exercices et une bibliographie assez riche.
Certains lecteurs trouveront toujours à redire, mais les auteurs ont réussi le pari de rendre accessibles les nombreuses facettes de l'analyse de régression en un nombre contenu de pages, sans bâcler pour autant les démonstrations. Ce livre ne se lit pas comme un roman, mais chacun peut aller y chercher de l'information selon ses besoins. Il est très complémentaire de l'aide en ligne offerte dans les logiciels et, rappelons-le, l'analyse de régression ne se limite pas à des applications pour les plans de mélange. Vous pourrez donc déployer le bénéfice de sa lecture à de nombreux domaines qui nécessitent des outils de modélisation.
Le septième chapitre tente de montrer les points communs entre l'analyse de variance et l'analyse de régression à partir d'un exemple d'analyse de variance à un facteur. Complété par un exemple d'analyse de variance à deux facteurs, ce chapitre peut représenter une courte introduction aux méthodes d'analyse de variance mais ne présente pas un grand intérêt, à mon sens, pour les utilisateurs de plans de mélange.
Le huitième chapitre devrait intéresser à plus d'un titre les utilisateurs des plans de mélange car il présente une méthode de régression alternative à la méthode des moindres carrés : la régression ridge. A plusieurs reprises dans les notes de cours et les études de cas, on évoque le déterminant de la matrice d'information, dont la valeur peut devenir très petite au point de poser des problèmes numériques d'inversion matricielle et d'estimation des coefficients. Ce constat est dû en particulier à la nature des facteurs dans les plans de mélange. La contrainte relationnelle implicite affectant la somme des proportions des constituants contribue à créer des corrélations entre les colonnes de la matrice d'expériences et, au delà, entre les colonnes de la matrice du modèle. La détection des problèmes de colinéarité peut faire appel au calcul des facteurs d'inflation de variance et à leur interprétation. Un exemple bien connu de modélisation entre la chaleur d'hydratation d'un ciment et les proportions de ces constituants minéralogiques permet d'illustrer ce phénomène et de présenter la régression ridge qui, en acceptant un biais faible, permet de minimiser très fortement les variances, donc les incertitudes affectant les coefficients du modèle. La régression PLS pourrait également représenter une alternative intéressante, mais elle n'est pas présentée dans cet ouvrage.
Plutôt que de chercher à minimiser la somme des carrés des écarts, on pourrait choisir comme critère la minimisation de la somme des valeurs absolues des écarts ; c'est l'objet du neuvième chapitre qui présente la régression LAD (Least Absolute Deviations). Cette méthode itérative associée à la branche des estimations robustes en statistique n'étant pas implémentée dans les logiciels de plans de mélange, il est difficile d'en apprécier son potentiel dans ce contexte.
La conclusion fait l'objet du dixième chapitre, précédent les éléments de correction apportés aux exercices et une bibliographie assez riche.