Conditions d'optimalité (dimension finie)

Conditions d'optimalité (dimension finie): En optimisation mathématique, les conditions d'optimalité sont un ensemble d'équations, d'inéquations (i.e., des inégalités) et d'expressions diverses (e.g., la semi-définie positivité de matrices sur des cônes) vérifiées par une solution d'un problème d'optimisation (on parle alors de conditions nécessaires d'optimalité) ou qui permettent d'affirmer qu'un point qui les vérifie est solution du problème d'optimisation considéré (on parle alors de conditions suffisantes d'optimalité). Ces expressions analytiques de l'optimalité sont utiles en autres pour :

calculer les solutions d'un problème d'optimisation,

vérifier l'optimalité d'un point donné,

concevoir des algorithmes de résolution.

Cet article se limite aux conditions d'optimalité des problèmes d'optimisation différentiable et de dimension finie. Le terme différentiable signale que les fonctions définissant le problème sont supposées différentiables au sens classique (celui de Fréchet). Lorsque la différentiabilité a lieu dans un sens plus faible on parle d'splines (représentés par un nombre fini de paramètres). Les conditions d'optimalité des problèmes d'optimisation de dimension infinie sont considérées ailleurs.

On parle de conditions du premier ordre si ces conditions font intervenir les dérivées premières des objets définissant le problème (il faudra définir ce que l'on entend par la dérivée de l'ensemble admissible du problème), mais pas les dérivées d'ordre supérieur, et de conditions du second ordre si ces conditions font intervenir les dérivées secondes des objets définissant le problème, mais pas les dérivées d'ordre supérieur.

Les conditions d'optimalité d'un problème d'optimisation avec contraintes introduisent des variables cachées, les multiplicateurs ou variables duales, qui n'apparaissent pas dans l'énoncé du problème et qui sont donc difficiles à appréhender (elles appartiennent à un autre espace que celui des variables à optimiser). Elles jouent cependant un rôle crucial dans la compréhension du problème, notamment parce qu'elles s'interprètent comme des coûts marginaux, très utiles en pratique ; il est donc important de s'y familiariser.

Les conditions d'optimalité sont présentées ci-dessous pour des problèmes d'optimisation de généralité (et de difficulté) croissante. Celles énoncées pour un problème d'une certaine généralité peuvent être utilisées pour exprimer les conditions d'optimalité d'un problème qui l'est moins, car celui-ci pourra toujours être vu comme un cas particulier du premier problème. Le lecteur pressé peut donc directement aborder le cas du problème le plus abstrait, mais il lui manquera alors certaines notions coutumièrement utilisées à des niveaux d'abstraction moindres.

Connaissances supposées : le calcul différentiel, l'algèbre linéaire, les bases de l'analyse convexe (en particulier le lemme de Farkas).

Sommaire

1 Le problème générique

1.1 Le problème (P_X)

1.2 Forme géométrique de l'optimalité au premier ordre

2 Problèmes d'optimisation sans contrainte

2.1 Conditions du premier ordre sans contrainte

2.2 Conditions du deuxième ordre sans contrainte

3 Problèmes d'optimisation avec contraintes d'égalité

3.1 Le problème (P_E)

3.2 Conditions du premier ordre avec contraintes d'égalité

3.2.1 Le cône tangent à X_E

3.2.2 Condition de Lagrange

3.2.3 Minimisation d'une fonction de n variables soumise à m contraintes

3.3 Conditions du deuxième ordre avec contraintes d'égalité

3.4 Interprétation marginaliste des multiplicateurs de Lagrange

3.5 Exemple : vecteurs propres et quotient de Rayleigh

4 Problèmes d'optimisation avec contraintes d'égalité et d'inégalité

4.1 Le problème (P_EI)

4.2 Conditions du premier ordre avec contraintes d'égalité et d'inégalité

4.2.1 Le cône tangent à X_EI

4.2.2 Conditions de Karush, Kuhn et Tucker (KKT)

4.2.3 Résolution analytique des conditions d'optimalité

4.3 Conditions du deuxième ordre avec contraintes d'égalité et d'inégalité

4.4 Interprétation marginaliste des multiplicateurs de Karush, Kuhn et Tucker

4.5 Exemples

4.5.1 Inégalités de Hölder

4.5.1.1 Cas où p = ∞

4.5.1.2 Cas où 1 < p < ∞

4.5.1.3 Cas où p = 1

4.5.2 Minimisation d'une fonction quadratique sur la boule euclidienne

5 Problèmes d'optimisation avec contraintes abstraites

5.1 Le problème (P_K)

5.2 Conditions du premier ordre

5.3 Conditions du deuxième ordre

6 Annexes

6.1 Notes

6.2 Articles connexes

6.3 Liens externes

6.4 Ouvrages généraux

Le problème générique

Le problème (P_X)

Soit $\mathbb{E}$ un espace vectoriel sur $\mathbb{R}$ de dimension finie, qui désigne l'ensemble auquel appartiennent les paramètres que l'on cherche à optimiser. Étant de dimension finie, il n'y a pas de restriction à supposer que cet espace vectoriel est muni d'un produit scalaire, noté $\langle\cdot,\cdot\rangle$ , qui en fait un espace euclidien. La norme associée à ce produit scalaire est notée $\|\cdot\|$ . Le problème d'optimisation considéré s'exprime mathématiquement comme celui qui consiste à minimiser une fonction $f:\mathbb{E}\to\mathbb{R}$ sur une partie $X$ de $\mathbb{E}$ . La fonction $f$ a de nombreuses appellations, ce qui permet de varier le vocabulaire : fonction-coût, coût, fonction-objectif, objectif, critère, etc. L'ensemble $X$ est appelé l'ensemble admissible du problème et un point lui appartenant est appelé point admissible. Ce problème, désigné ci-après $(P X)$ , s'écrit au choix comme suit :

$(P_X)\qquad\inf_{x\in X}\;f(x)\qquad\mbox{ou}\qquad\inf\;\{f(x):x\in X\}\qquad\mbox{ou}\qquad\begin{cases}\inf\;f(x)\\x\in X\end{cases}$ .

Une solution ou minimum ou minimiseur de ce problème est un point $x *$ de l'espace vectoriel $\mathbb{E}$ vérifiant deux conditions : il doit être admissible et minimiser le critère sur l'ensemble admissible. Ceci s'écrit

$x_*\in X\qquad\mbox{et}\qquad f(x_*)\leqslant f(x)\quad\mbox{pour tout}\quad x\in X$ .

On adjoint souvent le qualificatif global à cette notion de solution pour la distinguer d'autres notions présentées ci-dessous. Signalons également que l'on remplace parfois ‘‘ $inf$ ’’ par ‘‘ $min$ ’’ dans l'écriture du problème d'optimisation $(P X)$ lorsqu'il est certain que ce problème a une solution.

Dans certaines sous-disciplines de l'optimisation, on utilise parfois la locution malheureuse solution optimale qui, avec le sens de solution donné ci-dessus, est un pléonasme (dans cette locution, le mot solution signifie en réalité point admissible, mais il nous semble préférable de laisser au mot solution son sens habituel de solution d'un problème).

On introduit aussi d'autres notions de solutions. Ainsi on dit que $x *$ est une solution locale ou minimum local ou minimiseur local du problème $(P X)$ s'il existe un voisinage $V$ de $x *$ tel que $x *$ minimise $f$ sur $X\cap V$ . Par ailleurs, on dit que $x *$ est une solution stricte [resp. une solution locale stricte] si $x *$ est admissible et si $f (x *) < f (x)$ (inégalité stricte) pour tout $x\in X$ différent de $x *$ [resp. pour tout $x\in X\cap V$ différent de $x *$ où $V$ est un voisinage de $x *$ ].

Forme géométrique de l'optimalité au premier ordre

Lorsqu'une fonction atteint un minimum en un point, elle varie peu dans le voisinage de ce point. Mathématiquement, cette observation se traduit par le fait que sa dérivée y est nulle. Ceci est une condition d'optimalité du premier ordre bien connue pour un problème sans contrainte (ces conditions sont présentées à la section problèmes sans contrainte ci-dessous). Si l'on veut établir une expression similaire dans le cas des problèmes avec contrainte, il est nécessaire de dire ce qu'est l'approximation au premier ordre de l'ensemble admissible en un point, de linéariser cet ensemble en ce point, comme on peut le faire pour la fonction-coût. Ceci conduit à la notion de cône tangent, développée dans un autre article.

Rappelons quand même ici qu'une partie $K$ de $\mathbb{E}$ (un espace vectoriel suffit pour cette notion) est un cône si $\mathbb{R}_{++}K\subset K$ , ce qui signifie que $t d$ doit appartenir à $K$ chaque fois que $t$ est un réel positif (i.e., $t\geqslant 0$ ) et $d\in K$ . Un cône n'est pas un objet de l'algèbre linéaire, mais de l'analyse convexe. On rencontre donc ici une première manifestation de l'importance de cette dernière théorie en optimisation.

Nous utiliserons ici la notion de cône tangent au sens de Boulignand^[1], qui suffit en dimension fnie. Précisions que ce cône tangent à $X$ en $x$ , noté $T x X$ ci-dessous, est l'ensemble des directions tangentes à $X$ en $x$ , c'est-à-dire des directions $d$ pour lesquelles il existe des suites $\{x_k\} \subset\mathbb{E}$ et $\{t_k\}\subset\mathbb{R}$ telles que

$\{x_k\} \subset X,\qquad t_k \downarrow 0\qquad\mbox{et}\qquad\frac{x_k - x}{t_k}\to d.$

La notion de cône tangent permet d'obtenir aisément une condition nécessaire d'optimalité du premier ordre pour le problème générique $(P X)$ — on suppose donc ici que le critère de ce problème est différentiable. Cette condition exprime que la fonction-coût $f$ croît depuis un minimum local $x *$ en suivant une direction tangente, ce qui se traduit mathématiquement par

$\forall\,d\in T_{x_*}X:\qquad f'(x_*)\cdot d\geqslant 0.$

C'est ce que nous appellerons la forme géométrique de l'optimalité au premier ordre. Ce résultat avait déjà été exprimé par Peano dès 1887^[2]^,^[3], puis par Kantorovitch en 1940^[4], mais il est passé inaperçu ou a été oublié^[5]^,^[6]. On peut en donner une expression plus compacte en introduisant les notions de gradient et de cône dual.

La dérivée première $f'(x)$ de $f$ en $x$ étant une application linéaire de $\mathbb{E}$ dans $\mathbb{R}$ , par le théorème de Riesz-Fréchet, il existe un unique vecteur $\nabla f(x)\in\mathbb{E}$ vérifiant

$\forall\,h\in\mathbb{E}:\qquad\langle\nabla f(x),h\rangle=f'(x)\cdot h.$
Ce vecteur $\nabla f(x)$ est appelé le gradient de $f$ en $x$ . Il dépend manifestement du produit scalaire de l'espace euclidien $\mathbb{E}$ .

Soit $P$ une partie non vide de l'espace euclidien $\mathbb{E}$ . Le cône dual (positif) de $P$ est l'ensemble défini par

$P^+:=\{d\in\mathbb{E}:\langle d,x\rangle\geqslant 0$ pour tout $x\in P\}.$
C'est un cône convexe fermé non vide.

Avec ces deux concepts, l'expression géométrique de l'optimalité donnée ci-dessus devient

$\nabla f(x_*)\in(T_{x_*}X)^+.$

Cette condition est générique et c'est elle qui sera particularisée ci-dessous à des problèmes dont l'ensemble admissible a une structure plus précise. Le travail sera dans chaque cas celui de trouver une expression plus pratique, plus accessible au calcul, du cône dual du cône tangent, conduisant ainsi à la forme analytique de l'optimalité.

Résumons le résultat obtenu. On utilise l'abréviation CN1 pour désigner une condition nécessaire d'optimalité du premier ordre.

CN1 générique — Si $x *$ est un minimum local de $(P X)$ et si $f$ est dérivable en $x *$ , on a

$\forall d \in T_{x_*} X\,:\quad f'(x_*) \cdot d \geqslant 0$ ,

ce qui s'écrit aussi

$\nabla f(x_*) \in (T_{x_*}X)^+$ .

On dit que $x *$ est un point stationnaire ou un point critique du problème $(P X)$ , si ce point est admissible et s'il vérifie la condition d'optimalité du premier ordre donnée dans le résultat ci-dessus.

Lorsque l'ensemble admissible est convexe, on dispose d'une CN1 ne faisant pas intervenir le cône tangent. On y a noté $f'(x; d)$ la dérivée directionnelle de $f$ en $x$ dans la direction $d$ , c'est-à-dire la limite lorsque $t\downarrow0$ du quotient différentiel $(f (x + h) - f (x)) / t$ .

CN1 générique lorsque $X$ est convexe — Si l'ensemble admissible $X$ est convexe, si $x *$ est un minimum local de $(P X)$ et si $f$ admet des dérivées directionnelles en $x *$ , on a

$\forall x\in X\,:\quad f'(x_*;x-x_*) \geqslant 0$ .

Enfin, lorsque à la fois l'ensemble admissible est convexe et le critère est convexe sur l'ensemble admissible, la condition précédente est une condition nécessaire et suffisante d'optimalité du premier ordre, une propriété que l'on résume par l'abréviation CNS1. Il n'y a a alors plus de distinction entre minimum local et global.

CNS1 générique lorsque $(P X)$ est convexe — Si l'ensemble admissible $X$ est convexe, si le critère $f$ est convexe sur $X$ et si $f$ admet des dérivées directionnelles en $x *$ , alors $x *$ est un minimum de $(P X)$ si, et seulement si,

$\forall x\in X\,:\quad f'(x_*;x-x_*) \geqslant 0$ .

Pour les problèmes convexes, il n'y a donc pas de distinction entre un minimum local et global : tous les minima locaux sont globaux. C'est une seconde manifestation de l'importance de l'analyse convexe en optimisation.

Problèmes d'optimisation sans contrainte

Le problème que l'on considère dans cette section est celui de minimiser la fonction $f$ sur $\mathbb{E}$ tout entier, problème que l'on écrit

$\inf_{x\in\mathbb{E}}\;f(x).$

Dès lors, l'ensemble admissible $X=\mathbb{E}$ .

Conditions du premier ordre sans contrainte

Le cône tangent à $\mathbb{E}$ en $x_*\in\mathbb{E}$ est l'espace $\mathbb{E}$ tout entier. Comme le dual de $\mathbb{E}$ est ${0}$ , la CN1 générique exprime que le gradient $\nabla f(x_*)$ est nul en un minimum local $x *$ de $f$ sur $\mathbb{E}$ . Cette condition d'optimalité est parfois appelée équation de Fermat pour rappeler une condition similaire trouvée, dans le cas d'un polynôme réel d'une variable réelle, par Pierre de Fermat vers 1629, c'est-à-dire environ quarante ans avant l'invention du calcul différentiel par Newton et Leibniz^[7].

CN1 de Fermat — Si $x *$ est un minimum local de $f$ sur $\mathbb{E}$ et si $f$ admet des dérivées directionnelles en $x *$ , on a

$\forall x\in \mathbb{E}\,:\quad f'(x_*;x-x_*) \geqslant 0$ .

Si, de plus, $f$ est dérivable en $x *$ , on a

$f'(x_*) =0\qquad\mbox{ou}\qquad\nabla f(x_*) =0$ .

Lorsque $f$ est convexe, ces conditions deviennent des conditions nécessaires et suffisantes d'optimalité globale de $x *$ .

CNS1 pour une fonction convexe — Soient $f$ une fonction convexe sur $\mathbb{E}$ et $x_*\in\mathbb{E}$ .

Si $f$ admet des dérivées directionnelles en $x *$ , alors $x *$ est un minimum global de $f$ sur $\mathbb{E}$ si, et seulement si,

$\forall x\in \mathbb{E}\,:\quad f'(x_*;x-x_*) \geqslant 0$ .

Si $f$ est dérivable en $x *$ , alors $x *$ est un minimum global de $f$ sur $\mathbb{E}$ si, et seulement si,

$f'(x_*) =0\qquad\mbox{ou}\qquad\nabla f(x_*) =0$ .

Conditions du deuxième ordre sans contrainte

Nous désignons ci-dessous par $f''(x)$ la dérivée seconde de $f$ en $x$ , qui est une application bilinéaire symétrique de $\mathbb{E}\times\mathbb{E}$ dans $\mathbb{R}$ , et par $\nabla^2f(x)$ le hessien de $f$ en $x\in\mathbb{E}$ pour le produit scalaire $\langle\cdot,\cdot\rangle$ de l'espace euclidien $\mathbb{E}$ , qui est l'unique opérateur linéaire auto-adjoint sur $\mathbb{E}$ vérifiant

$\forall\,h\in\mathbb{E}:\qquad f''(x)\cdot(h,h)=\langle\nabla^2f(x)h,h\rangle.$

Rappelons également les notions de semi-définie positivité et définie positivité d'un opérateur auto-adjoint $A$ sur $\mathbb{E}$ , associées au produit scalaire de $\mathbb{E}$ , qui sont utilisées dans les résultat si dessous :

$A$ est semi-défini positif si $\langle Av,v\rangle\geqslant 0$ pour tout vecteur $v\in\mathbb{E}$ ,

$A$ est définif positif si $\langle Av,v\rangle>0$ pour tout vecteur $v\in\mathbb{E}\setminus\{0\}$ .

Les résultats suivants résument les conditions nécessaires du second ordre (CN2) et les conditions suffisantes du second ordre (CS2) pour les problèmes d'optimisation sans contrainte.

CN2 des problèmes sans contrainte — Si $f$ est dérivable dans un voisinage d'un point $x_*\in\mathbb{E}$ et deux fois dérivable en $x *$ et si $x *$ est un minimum local de $f$ sur $\mathbb{E}$ , alors $\nabla f(x_*) = 0$ et $\nabla^2 f(x_*)$ est semi-défini positif.

CS2 des problèmes sans contrainte — Si $f$ est dérivable dans un voisinage d'un point $x_*\in\mathbb{E}$ et deux fois dérivable en $x *$ et si $\nabla f(x_*) = 0$ et $\nabla^2 f(x_*)$ est défini positif, alors $x *$ est un minimum local strict de $f$ sur $\mathbb{E}$ .

On peut se servir de ces conditions du second ordre comme suit. La CN1 de Fermat est un système non linéaire qui a quelques chances d'être bien posé. Par exemple si $\mathbb{E}=\mathbb{R}^n$ est équipé du produit scalaire euclidien, ce système est formé de $n$ équations (les dérivées partielles du critère) à $n$ inconnues. Si on calcule toutes les solutions de l'équation de Fermat (ceci est rarement une tâche aisé), on dispose, par définition, de tous les points stationnaires du critère. Ceux-ci ne sont pas nécessairement des minimiseurs de $f$ . Les conditions du deuxième ordre permettent souvent de sélectionner parmi ces points stationnaires ceux qui sont des minima locaux. En effet, d'après ces conditions

si $x *$ est un point stationnaire tel que $\nabla^2f(x_*)$ n'est pas semi-défini positif, alors $x *$ n'est pas un minimum local (condition nécessaire),

si $x *$ est un point stationnaire tel que $\nabla^2f(x_*)$ est défini positif, alors $x *$ est un minimum local strict (condition suffisante).

On ne recouvre pas ainsi tous les cas, puisque l'on pourrait avoir un point stationnaire $x *$ avec un hessien $\nabla^2f(x_*)$ semi-défini positif, mais non défini positif (il a un noyau non trivial, une valeur propre nulle). L'ambiguïté de tels cas peut parfois être levée en examinant des conditions d'ordre plus élevé.

Problèmes d'optimisation avec contraintes d'égalité

Le problème (P_E)

L'ensemble admissible du problème d'optimisation considéré dans cette section n'est pas l'espace $\mathbb{E}$ tout entier, comme pour les problèmes sans contrainte de la section précédente, mais une partie de celui-ci, définie par un nombre fini de contraintes d'égalité :

$X_E:=\{x\in \mathbb{E}:c(x)=0\}.$

Ces contraintes sont spécifiées au moyen d'une fonction

$c: \mathbb{E} \to \mathbb{F},$

où $\mathbb{F}$ est, tout comme $\mathbb{E}$ , un espace euclidien (de dimension finie) dont le produit scalaire est aussi noté $\langle\cdot,\cdot\rangle$ . Les dimensions des espaces sont notées

$n:=\dim \mathbb{E}\qquad\mbox{et}\qquad m:=\dim \mathbb{F}.$

Il sera souvent approprié de supposer qu'en la solution $x *$ recherchée, la jacobienne $c'(x *)$ de la contrainte vérifie

$c'(x *)$ est surjective.

Ceci requiert certainement d'avoir $m\leqslant n$ , c'est-à-dire d'avoir moins de contraintes que de variables à optimiser. Lorsque cette hypothèse est vérifiée, l'ensemble admissible $X E$ est, dans un voisinage de $x *$ , une variété (concept de base de la géométrie différentielle que l'on peut voir comme une surface ayant des propriétés de représentation particulières) de dimension $n - m$ .

Le problème d'optimisation considéré dans cette section s'écrit donc

$(P_E) \quad \left\{ \begin{array}{l} \inf\; f(x) \\ c(x) = 0, \end{array} \right.$

où $f : \mathbb{E} \to \mathbb{R}$ en est le critère.

Problème $(P E)$ convexe — On dit que le problème $(P E)$ est convexe si la contrainte $c$ est affine et si le critère $f$ est convexe sur $X E$ .

L'ensemble admissible $X E$ d'un problème $(P E)$ convexe est donc un sous-espace affine de $\mathbb{E}$ , donc un convexe.

Conditions du premier ordre avec contraintes d'égalité

Comme le montre le cas générique, les conditions nécessaires d'optimalité du premier ordre peuvent s'obtienir en trouvant une représentation convenable du cône tangent à l'ensemble admissible $X E$ et en prenant ensuite son cône dual.

On note $\mathcal{N}(A)$ le noyau et $\mathcal{R}(A)$ l'image d'une application linéaire $A:\mathbb{E}\to\mathbb{F}$ entre deux espaces euclidiens $\mathbb{E}$ et $\mathbb{F}$ . L'adjointe de $A$ est l'application linéaire $A^*:\mathbb{F}\to\mathbb{E}$ définie par la relation $\langle Au,v\rangle=\langle u,A^*v\rangle$ , pour tout $u\in\mathbb{E}$ et tout $v\in\mathbb{F}$ . On rappelle qu'en dimension finie, on a

${N}(A)^\perp=\mathcal{R}(A^*)$ .

Cette identité joue un rôle-clé dans le passage de la forme géométrique (utilisant la partie gauche de l'identité) à la forme analytique (utilisant sa partie droite) des conditions d'optimalité du premier ordre.

Le cône tangent à X_E

Le résultat suivant montre que le cône tangent est inclus dans un sous-espace vectoriel ; il lui sera égal dans les bons cas.

Estimation du cône tangent $T x X E$ — Si $c: \mathbb{E} \to \mathbb{F}$ est dérivable en $x \in X_E$ , alors $T_x X_E \subset \mathcal{N}(c'(x)).$

Dans l'inclusion $T_x X_E \subset \mathcal{N}(c'(x))$ , le cône tangent $T x X E$ ne dépend que de l'ensemble admissible $X E$ , alors que $\mathcal{N}(c'(x))$ dépend de la fonction $c$ utilisée pour définir $X E$ . Il peut y avoir plusieurs fonctions $c$ définissant le même ensemble $X E$ . Du point de vue de l'optimisation, toutes ne conviennent pas. Celles qui permettent d'obtenir des conditions d'optimalité sont celles pour lesquelles l'égalité $T_x X_E = \mathcal{N}(c'(x))$ a lieu. On dit alors que la contrainte $c$ (léger abus de langage, il faudrait dire la fonction $c$ utilisée pour définir $X E$ ) est qualifiée en $x$ (sous-entendu «pour représenter $X E$ »).

Qualification d'une contrainte d'égalité — On dit que la contrainte $c : \mathbb{E} \to \mathbb{F}$ est qualifiée en $x$ (pour représenter $X E$ ) si $c$ est différentiable en $x$ et si $T_x X_E = \mathcal{N}(c'(x)).$

Voici le résultat principal assurant que la contrainte $c$ est qualifiée en un point. On y retrouve la condition mentionnée ci-dessus assurant que $X E$ est une variété dans le voisinage $x$ .

Condition suffisante de qualification d'une contrainte d'égalité — Si $c: \mathbb{E}\to\mathbb{F}$ est $C 1$ dans un voisinage de $x\in X_E$ et si $c'(x)$ est surjective, alors $c$ est qualifiée en $x .$

Voici une conséquence pratique de la notion de qualification de contrainte. Au lieu d'utiliser la fonction $c$ pour représenter l'ensemble admissible $X E$ , on pourrait utiliser la fonction $\tilde{c}:\mathbb{E}\to\mathbb{R}$ , définie par $\tilde{c}(x)=\|c(x)\|^2/2$ , puisque $\tilde{c}(x)=0$ si, et seulement si, $c (x) = 0$ . Ceci paraît attrayant puisque l'on a ainsi remplacé toutes les contraintes d'égalité, en nombre potentiellement grand, par une seule contrainte. Cependant, la contrainte $\tilde{c}$ a encore moins de chance d'être qualifiée que $c$ puisque $\nabla\tilde{c}(x)=c'(x)^*c(x)=0$ en un point $x\in X_E$ et donc $\mathcal{N}(\tilde{c}'(x))=\mathbb{E}$ , qui est le plus souvent trop grand. Il n'est donc, en général, pas recommandé de remplacer $c$ par $\tilde{c}$ .

Condition de Lagrange

Lorsque la contrainte est qualifiée, le cône tangent est le sous-espace vectoriel $\mathcal{N}(c'(x))$ , dont le dual est alors son orthogonal $\mathcal{N}(c'(x))^\perp=\mathcal{R}(c'(x)^*)$ . Par la CN1 générique, le gradient de $f$ en un minimum local de $f$ sur $X E$ appartient à ce dernier ensemble, ce qui conduit aux conditions nécessaires d'optimalité du premier ordre (CN1) de Lagrange^[8].

CN1 de Lagrange — Soit $x *$ un minimum local de $(P E)$ . Supposons que $f$ et $c$ soient dérivables en $x *$ et que la contrainte $c$ soit qualifiée en $x *$ au sens de la définition ci-dessus. Alors, il existe un vecteur $\lambda_* \in \mathbb{F}$ tel que

$\nabla f(x_*) + c'(x_*)^* \lambda_* = 0,$

où $\nabla f(x_*)$ est le gradient de $f$ en $x *$ et $c'(x *) *$ est l'opérateur adjoint de la jacobienne $c'(x *)$ pour les produits scalaires donnés sur $\mathbb{E}$ et $\mathbb{F}$ . Le vecteur $λ *$ est unique si $c'(x *)$ est surjective.

Ce résultat, parfois appelé méthode du multiplicateur de Lagrange, est attribué à Lagrange qui l'énonça dans sa Méchanique analytique (1788). On en trouve toutefois déjà des traces dans des travaux d'Euler sur les problèmes isopérimétriques (1744). Lagrange utilisa d'abord cette méthode pour résoudre un problème de calcul des variations sous contraintes et plus tard, dans sa Théorie des fonctions analytiques (1797), il l'applique aux problèmes de la forme $(P E).$ ^[9]^,^[10]

En l'absence de qualification de la contrainte, l'existence du multiplicateur n'est plus assurée, si bien que la condition nécessaire d'optimalité de Lagrange peut ne pas avoir lieu. Un exemple est donné dans la section suivante.

En pratique, il est souvent commode de retrouver la condition de Lagrange en introduisant le lagrangien du problème.

Lagrangien du problème $(P E)$ — On appelle lagrangien du problème $(P E)$ , la fonction $\ell : \mathbb{E} \times \mathbb{F} \to \mathbb{R}$ définie en $(x,\lambda)\in \mathbb{E} \times \mathbb{F}$ par

$\ell (x,\lambda) := f(x) + \langle\lambda,c(x)\rangle.$

Le vecteur $λ$ porte le nom de multiplicateur (de Lagrange) ou variable duale.

La variable $x$ est aussi appelée variable primale ; quant au couple $(x,λ)$ , on lui donne parfois le nom de variable(s) primale(s)-duale(s).

Le lagrangien joue un rôle essentiel en optimisation avec contraintes. Le multiplicateur porte ce nom car il multiplie les contraintes dans le lagrangien, par l'intermédiaire du produit scalaire de $\mathbb{F}$ . Sous les hypothèses du résultat ci-dessus, les conditions nécessaires d'optimalité du premier ordre peuvent maintenant s'écrire comme suit

$\left\{\begin{array}{l} \nabla_x \ell (x_*, \lambda_*) = 0 \\ c(x_*) = 0 \end{array}\right.\qquad\mbox{ou}\qquad\nabla_{(x,\lambda)} \ell (x_*, \lambda_*) = 0.$

Nous avons noté $\nabla_x$ [resp. $\nabla_{(x,\lambda)}$ ] le gradient par rapport à $x$ [resp. à $(x,λ)$ ]. Ce système (non linéaire, en toute généralité) permet souvent de calculer une solution du problème d'optimisation $(P E)$ . En réalité, cette solution est ce que nous avons appelé un point stationnaire. Ce n'est pas nécessairement un minimum local du problème (ce point peut être un maximum local, qui n'est a priori pas ce que l'on cherche !), sauf si celui-ci est convexe.

CS1 pour un problème $(P E)$ convexe — Supposons que le problème $(P E)$ soit convexe, que $f$ soit dérivable en $x_*\in\mathbb{E}$ et qu'il existe un multiplicateur $\lambda_*\in \mathbb{F}$ tel que $(x *,λ *)$ vérifie

$\left\{\begin{array}{l} \nabla_x \ell (x_*, \lambda_*) = 0 \\ c(x_*) = 0.\end{array}\right.$

Alors $x *$ est un minimum global de $(P E)$ .

Pour les problèmes non convexes, ce sont les conditions du second ordre qui permettrons de sélectionner les minima locaux parmi les points stationnaires calculés.

Minimisation d'une fonction de n variables soumise à m contraintes

Il est utile de spécifier les conditions d'optimalité de Lagrange lorsque $\mathbb{E}=\mathbb{R}^n$ , $\mathbb{F}=\mathbb{R}^m$ et que l'on munit ces espaces du produit scalaire euclidien

$\langle u,v\rangle=u^{\!\top\!} v=\sum_i\,u_iv_i.$

Il y a alors $n$ variables $x_1, \ldots, x_n$ à optimiser et les $m$ contraintes du problème $(P E)$ sont données explicitement au moyen de $m$ fonctions $c_i:\mathbb{R}^n\to\mathbb{R}$ :

$c_1(x_1,\ldots,x_n)=0, \quad\ldots,\quad c_m(x_1,\ldots,x_n)=0.$

Le lagrangien du problème s'écrit

$\ell(x,\lambda)=f(x)+\lambda^{\!\top\!} c(x)= f(x)+\sum_{i=1}^m\,\lambda_i c_i(x).$

Observons que le multiplicateur de Lagrange $\lambda\in\mathbb{R}^m$ a autant de composantes qu'il y a de contraintes ; chacune des composantes $λ i$ étant associée à une contrainte $c i$ ; on dit d'ailleurs que le multiplicateur $λ i$ est associé à la contrainte $c i$ . Si on utilise $\nabla$ pour désigner le gradient d'une fonction réelle de $n$ variables par rapport au produit scalaire euclidien, c'est-à-dire le vecteur de ses dérivées partielles, les conditions d'optimalité s'écrivent sous la forme d'un système de $n + m$ équations à $n + m$ inconnues $(x *,λ *)$ :

$\nabla f(x_*)+\sum_{i=1}^m(\lambda_*)_i\nabla c_i(x_*)=0\in\mathbb{R}^n \qquad\mbox{et}\qquad c(x_*) = 0 \in\mathbb{R}^m.$

On voit donc qu'en la solution le gradient du critère est combinaison linéaire des gradients des contraintes (on se rappelle qu'en optimisation sans contrainte le gradient du critère est nul).

Voici un exemple de problème avec 2 variables et 2 contraintes, avec solution, mais sans multiplicateur optimal et donc sans condition de Lagrange (c'est l'absence de qualification des contraintes qui produit cet effet) :

$f(x) = x_1+x_2, \quad c_1(x) = \frac{1}{2} \left(x_1^2 + (x_2-1)^2 - 1\right) \quad\mbox{et}\quad c_2(x) = \frac{1}{2} \left(x_1^2 + (x_2+1)^2 - 1\right).$

L'unique point admissible est le point $x * = (0,0)$ , qui est donc l'unique solution du problème. Cependant les contraintes ne sont pas qualifiées en ce point car le cône tangent est réduit à ${(0,0)}$ alors que le noyau de la jacobienne des contrainte est $\{d\in\mathbb{R}^2:d_2=0\}$ (on note par ailleurs que cette jacobienne, qui est une matrice $2\times 2$ ne saurait alors être surjective). Dans cet exemple, les conditions de Lagrange ne sont pas vérifiées (il n'y a pas de multiplicateur optimal), puisque le gradient de $f$ en la solution ne peut être combinaison linéaire des gradients des contraintes (ces derniers sont linéairement dépendants) :

$\nabla f(x_*)=\begin{pmatrix}1\\1\end{pmatrix}, \qquad \nabla c_1(x_*)=\begin{pmatrix}0\\-1\end{pmatrix} \qquad\mbox{et}\qquad \nabla c_2(x_*)=\begin{pmatrix}0\\1\end{pmatrix}.$

Conditions du deuxième ordre avec contraintes d'égalité

Comme en optimisation sans contrainte, les conditions d'optimalité du second ordre permettent de sélectionner les éventuelles solutions parmi les points stationnaires (i.e., les points vérifiant la condition de Lagrange). Ces conditions du second ordre des problèmes avec contraintes d'égalité diffèrent de celles des problèmes sans contrainte sur deux points :

ce n'est pas le hessien du critère qui intervient dans ces conditions, mais le hessien du lagrangien,

le hessien du lagrangien n'est pas semi-défini positif sur l'espace $\mathbb{E}$ des variables primales tout entier, mais sur le cône tangent.

D'où proviennent ces différences ?

En optimisation sans contrainte, les conditions nécessaires du second ordre résultent du fait que dans le voisinage d'une solution, le critère prend une valeur supérieure à celle qu'il prend en la solution. Un développement de Taylor du critère autour d'une solution et l'utilisation du fait que son gradient est nul en la solution impliquent alors immédiatement que le hessien du critère doit être semi-défini positif en la solution. Dans le cas des problèmes avec contraintes d'égalité, utiliser la même démarche ne conduirait nulle part, car le gradient du critère n'est pas nécessairement nul en une solution (selon la condition de Lagrange, il est dans l'image de l'adjointe de la jacobienne de la contrainte). En réalité, c'est le gradient du lagrangien qui s'annule en une solution. C'est donc un développement de Taylor de cette fonction qui pourra apporter de l'information sur son hessien. Ceci explique le premier point ci-dessus. Par ailleurs, il est clair que sur l'ensemble admissible le lagrangien prend les mêmes valeurs que le critère, si bien qu'il prend aussi des valeurs supérieures à celle qu'il a en une solution. C'est la relation de monotonie recherchée qui conduira à la semi-définie positivité du hessien du lagrangien. Cependant, ce n'est que sur la variété des contraintes que cette relation de monotonie a lieu, si bien que la semi-définie positivité du hessien du lagrangien ne sera vérifiée que sur la variété linéarisée qu'est le cône tangent. Ceci explique le second point ci-dessus.

On devrait à présent mieux comprendre les conditions nécessaires du second ordre (CN2) pour un problème avec contraintes d'égalité, que voici.

CN2 pour le problème $(P E)$ — Soit $x_*\in \mathbb{E}$ un minimum local de $(P E)$ . Supposons que $f$ et $c$ soient dérivables dans un voisinage de $x *$ et deux fois dérivables en $x *$ et que la contrainte $c$ soit qualifiée en $x *$ . Alors, il existe un multiplicateur $\lambda_* \in \mathbb{F}$ tel que l'on ait $\nabla_x\ell(x_*,\lambda_*)=0$ et

$\forall d \in \mathcal{N}(c'(x_*))\,:\quad \langle \nabla_{xx}^2\ell(x_*,\lambda_*) d,d\rangle \geqslant 0.$

Ce résultat donne t'il suffisamment de conditions ou aurait on pu en obtenir d'autres ? Ce sont les bonnes conditions car, comme en optimisation sans contrainte, si l'on remplace la semi-définie positivité par la définie positivité, on obtient des conditions suffisantes d'optimalité du second ordre (abrégées par CS2).

CS2 pour le problème $(P E)$ — Supposons que $f$ et $c$ soient dérivables dans un voisinage de $x_* \in \mathbb{E}$ et deux fois dérivables en $x *$ . Supposons que $c (x *) = 0$ et qu'il existe $\lambda_* \in \mathbb{F}$ tel que l'on ait $\nabla_x \ell(x_*, \lambda_*) = 0$ et

$\forall d \in \mathcal{N}(c'(x_*)) \setminus \{0\}\,:\quad \langle \nabla_{xx}^2\ell(x_*,\lambda_*) d,d\rangle > 0.$

Alors $x *$ est un minimum local strict de $(P E)$ .

On notera que les CS2 ne requièrent pas d'hypothèse de qualification de contrainte.

Vérifier la (semi-)définie positivité du hessien du lagrangien $L_*:=\nabla_{xx}^2\ell(x_*,\lambda_*)$ dans le noyau de $c'(x *)$ ne pose pas de difficulté, pourvu que l'on puisse calculer une base de ce noyau. On peut en effet voir ce noyau comme l'image d'une application linéaire injective $B:\mathbb{R}^p\to\mathbb{E}$ tel que $c'(x *) B = 0,$ avec $p=n-\dim\mathcal{R}(c'(x_*)).$ Il suffit alors de vérifier la (semi-)définie positivité de $B * L * B$ , ce qui peut se faire en temps polynomial par des techniques d'algèbre linéaire.

Interprétation marginaliste des multiplicateurs de Lagrange

Exemple : vecteurs propres et quotient de Rayleigh

Soit $\mathbb{E}$ une espace euclidien muni d'un produit scalaire noté $\langle\cdot,\cdot\rangle$ ; on note $\|\cdot\|$ la norme associée. On s'intéresse aux vecteurs propres d'une application linéaire $A:\mathbb{E}\to\mathbb{E}$ auto-adjointe. Par exemple, on pourrait avoir $\mathbb{E}=\mathbb{R}^n$ , muni du produit scalaire euclidien, et $A$ une matrice symétrique.

Le problème d'optimisation

Dans ce but, on considère le quotient de Rayleigh $q_r:\mathbb{E}\to\mathbb{R}$ , défini en $x\in\mathbb{E}\setminus\{0\}$ par

$q_r(x):=\frac{\langle Ax,x\rangle}{\|x\|^2}.$

Comme $q r$ est constant le long des rayons issus de zéro, il revient au même de minimiser la fonction quadratique $q:\mathbb{E}\to\mathbb{R}$ définie en $x\in\mathbb{E}$ par

$q(x):=\frac{1}{2}\,\langle Ax,x\rangle,$

sur la sphère unité $S:=\{x\in\mathbb{E}:\|x\|=1\}.$ On considère donc le problème d'optimisation avec une unique contrainte d'égalité suivant

$\inf_{\|x\|=1}\;q(x).$

Ce problème a toujours une solution (le critère est continu et, comme $\mathbb{E}$ est de dimension finie, $S$ est compact). Calculons les points stationnaires du problème d'optimisation.

Conditions d'optimalité du premier ordre

La fonction $x\mapsto\|x\|-1$ est non différentiable en zéro, mais cela n'a pas trop d'importance, car la solution est de norme un. On préfère toutefois définir l'ensemble admissible au moyen de la contrainte $x\mapsto c(x):=(1-\|x\|^2)/2$ , qui se dérive plus facilement. Cette contrainte est qualifiée en tout point admissible, car sa jacobienne $h\mapsto -\langle x,h\rangle$ est surjective si $x\ne0$ . Pour calculer la solution du problème d'optimisation, on introduit son lagrangien, qui prend en $(x,\lambda)\in\mathbb{E}\times\mathbb{R}$ la valeur

$\ell(x,\lambda)=\frac{1}{2}\langle Ax,x\rangle+\frac{\lambda}{2}(1-\|x\|^2).$

Comme il y a une seule contrainte, il y a un seul multiplicateur $λ$ .

Les conditions d'optimalité de Lagrange s'écrivent

$\left\{\begin{array}{l} Ax=\lambda x\\ \|x\|=1. \end{array}\right.$

Dès lors, $\bar{x}$ est un point stationnaire de multiplicateur $\bar{\lambda}$ si, et seulement si, $\bar{x}$ est un vecteur propre unitaire de $A$ , de valeur propre $\bar{\lambda}$ . Ce multiplicateur est aussi la valeur du critère en $\bar{x}$ , puisque $q(\bar{x})=\langle A\bar{x},\bar{x}\rangle=\bar{\lambda}\|\bar{x}\|^2=\bar{\lambda}$ . Dès lors, une solution du problème d'optimisation est un vecteur propre unitaire de valeur propre minimale. Si au lieu de minimiser $\langle Ax,x\rangle$ , on minimisait $-\langle Ax,x\rangle$ ou on maximisait $\langle Ax,x\rangle$ , une solution du problème d'optimisation serait un vecteur propre unitaire de valeur propre maximale.

Conditions d'optimalité du deuxième ordre

Le hessien du lagrangien en une solution primale-duale $(\bar{x},\bar{\lambda})$ du problème d'optimisation est l'opérateur auto-adjoint $(A-\bar{\lambda} I)$ sur $\mathbb{E}.$ Comme $\bar{\lambda}$ est la valeur minimale de $q$ sur la sphère unité, on a $\langle Ax,x\rangle\geqslant\bar{\lambda}$ pour tout vecteur unitaire $x .$ On peut en déduire que $\langle(A-\bar{\lambda}I)x,x\rangle\geqslant 0$ pour tout vecteur $x\in\mathbb{E},$ ce qui signifie que le hessien du lagrangien $A - λ I$ est semi-défini positif dans tout l'espace $\mathbb{E}$ , pas seulement dans l'espace tangent à la contrainte comme l'assurent les CN2. C'est le caractère quadratique du critère et des contraintes qui permet d'avoir cette propriété.

Si un couple $(\bar{x},\bar{\lambda})$ vérifie les CS2, alors $\bar{x}$ est un vecteur propre de $A$ de valeur propre $\bar{\lambda}$ ; de plus $\langle Ax,x\rangle>\langle A\bar{x},\bar{x}\rangle=\bar{\lambda}$ , pour tout vecteur unitaire $x$ , voisin mais différent de $\bar{x}$ . On en déduit aisément que $\langle Ax,x\rangle>\bar{\lambda}$ pour tout $x$ unitaire différent de $\pm\bar{x}$ (on peut par exemple prendre $t\in{]0,1]}$ assez petit pour que $x_t/\|x_t\|$ , avec $x_t:=(1-t)\bar{x}+tx$ , soit voisin mais différent de $\bar{x}$ et développer la relation $\langle Ax_t,x_t\rangle>\bar{\lambda}\|x_t\|^2$ qui en résulte). On en déduit que $\bar{\lambda}$ est la valeur propre minimale et est simple (i.e., l'espace propre associé est de dimension 1). La réciproque est également vraie : si la plus petite valeur propre de $A$ est simple, les CS2 sont vérifiées.

Résultats obtenus

Vecteurs propres et quotient de Rayleigh — Soit $\mathbb{E}$ un espace euclidien et $A:\mathbb{E}\to\mathbb{E}$ une application linéaire auto-adjointe. On considère le problème d'optimisation suivant :

$\inf_{\|x\|=1}\;\langle Ax, x\rangle.$

Un vecteur unitaire est un vecteur propre de $A$ si, et seulement si, c'est un point stationnaire de ce problème ; les multiplicateurs associés sont les valeurs propres correspondantes.

Un vecteur est vecteur propre unitaire de valeur propre minimale si, et seulement si, il est solution de ce problème.

Les conditions suffisantes d'optimalité du second ordre de ce problème sont vérifiées en une solution si, et seulement si, la valeur propre associée à cette solution est simple

Problèmes d'optimisation avec contraintes d'égalité et d'inégalité

Le problème (P_EI)

Dans cette section, on considère le problème d'optimisation avec contraintes d'égalité et d'inégalité, que l'on écrit sous la forme suivante

$(P_{EI}) \quad \left\{ \begin{array}{l} \inf\, f(x) \\ c_i (x) = 0, \quad i \in E \\ c_i(x) \leqslant 0, \quad i \in I. \end{array} \right.$

Cette écriture exprime le fait que l'on cherche à minimiser un critère $f:\mathbb{E}\to\mathbb{R}$ défini sur un espace euclidien $\mathbb{E}$ dont l'argument $x$ , qui est le vecteur des variables à optimiser, l'inconnue de ce problème, est contraint de respecter un nombre fini de contraintes spécifiées par des fonctions $c_i:\mathbb{E}\to\mathbb{R}$ . Le produit scalaire de l'espace euclidien est noté $\langle\cdot,\cdot\rangle$ . On y trouve des contraintes d'égalité et d'inégalité en nombre fini, repérées par des ensembles finis d'indices $E$ et $I$ , dont le cardinal est noté

$m_E:=|E| \qquad\mbox{et}\qquad m_I:=|I|$ .

Le nombre total de contraintes est noté $m : = m E + m I$ .

Il est commode de supposer que les ensembles d'indices $E$ et $I$ forment une partition de l'ensemble des $m$ premiers entiers $\{1, \ldots, m\}$ :

$E \cup I=\{1, \ldots, m\} \qquad\mbox{et}\qquad E \cap I = \varnothing.$

Si $v\in \mathbb{R}^m$ , on note $v E$ le vecteur de $\mathbb{R}^{m_E}$ formé des composantes $v i$ de $v$ avec $i\in E$ . De même pour $v I$ . On peut alors rassembler les fonctions réelles $c i$ en une seule fonction $c:\mathbb{E}\to\mathbb{R}^m$ , dont les composantes $c E$ et $c I$ sont utilisées pour définir les contraintes d'égalité et d'inégalité.

L'ensemble admissible de $(P E I)$ est noté

$X_{EI}:=\{x\in \mathbb{E}:c_E(x)=0, c_I(x)\leqslant 0\}.$

Ici et ci-dessous, les inégalités vectorielles doivent être comprises composante par composante : pour un vecteur $v$ , $v\leqslant 0$ signifie que $v_i\leqslant 0$ pour tout indice $i$ . Si en un point admissible $x$ , $c'(x)$ est surjective, cet ensemble se présente autour de $x$ comme une partie de la variété $\{z\in\mathbb{E}:c_E(z)=0\}$ formée des points qui vérifient aussi l'inégalité $c_I(z)\leqslant 0$ .

Problème $(P E I)$ convexe — On dit que le problème $(P E I)$ est convexe si la contrainte d'égalité $c E$ est affine, si les contraintes d'inégalité $c i$ ( $i\in I$ ) sont convexes et si le critère $f$ est convexe sur $X E I .$

L'ensemble admissible $X E I$ d'un problème $(P E I)$ convexe est clairement convexe.

Comme la CN1 générique l'a montré, l'écriture des conditions d'optimalité du premier ordre passe par la détermination du cône tangent à l'ensemble admissible. Ce cône tangent en $x$ est un concept local, dans le sens où une modification de l'ensemble admissible en dehors d'un voisinage de $x$ n'aura pas d'incidence sur le cône tangent en ce point. Dès lors si une contrainte d'inégalité prend une valeur strictement négative en $x$ , disons $c i (x) < 0$ , une perturbation de cette contrainte ne modifiera pas l'ensemble admissible dans le voisinage de $x .$ Il est donc nécessaire de pouvoir nommer les contraintes d'inégalité qui sont nulles au point considéré, ce qui conduit à la notion suivante.

Contrainte active et inactive — On dit qu'une contrainte d'égalité ou d'inégalité $c i$ est active en $x$ si $c i (x) = 0$ . On note

$I^0(x)\equiv I^0_x:= \{i \in I : c_i (x) = 0\}$

l'ensemble des indices des contraintes d'inégalité actives en $x$ . On adopte la notation simplifiée $I^0_*:=I^0(x_*).$ Une contrainte d'inégalité qui n'est pas active en un point donné, y est dite inactive.

Les problèmes d'optimisation avec contraintes d'inégalité sont considérablement plus difficiles à analyser et à résoudre numériquement (un calcul analytique, sur papier, est rarement possible et d'ailleurs souvent difficile lui aussi) que les problèmes rencontrés jusqu'ici. Lorsqu'il n'y a que des contraintes d'égalité, la compréhension du problème repose sur l'analyse mathématique classique, en particulier sur le théorème des fonctions implicites, ce qui explique que les conditions de Lagrange sont en général vues dans un cours de calcul différentiel et font ainsi partie du bagage de beaucoup de mathématiciens ou d'autres scientifiques. La situation est différente lorsque des contraintes d'inégalité sont présentes, car il faut alors faire appel à des outils spécifiques, essentiellement ceux de l'analyse convexe, moins souvent enseignés. Par ailleurs, numériquement, la difficulté principale provient du fait que, d'une manière ou d'une autre, le calcul de la solution détermine forcément les contraintes qui sont actives en cette solution. Si ces contraintes actives étaient connues, on pourrait se ramener au cas des problèmes avec seulement des contraintes d'égalité lisses. Or il y a $2^{m_I}$ manières de rendre les $m I$ contraintes d'inégalité actives. C'est à ce nombre exponentiel que l'on fait allusion lorsque l'on parle de la combinatoire des problèmes d'optimisation avec contraintes d'inégalité. Celle-ci est redoutable et en rapport direct avec la conjecture P = NP, puisqu'un problème d'optimisation quadratique non convexe (i.e., un problème avec un critère quadratique non convexe et des contraintes affines) est NP ardu. On est donc en présence d'un problème pour lequel il est vraisemblable que le principe de conservation des ennuis s'applique ; on veut dire par là que la difficulté du problème ne peut être éliminée en lui trouvant une autre formulation équivalente. Ainsi, on pourrait penser simplifier le problème en reformulant les contraintes d'inégalité par l'une des contraintes d'égalité apparemment plus simples et équivalentes suivantes

$\max(0,c_I(x))=0 \qquad\mbox{ou}\qquad \|\max(0,c_I(x))\|^2=0.$

Cependant le première contrainte est non lisse et la seconde, bien qu'une fois différentiable, n'est en général pas qualifiée dans le sens discuté ci-dessus.

Conditions du premier ordre avec contraintes d'égalité et d'inégalité

Si les conditions nécessaires d'optimalité des problèmes avec contraintes d'égalité ont été établies au XVIII^e siècle, celles des problèmes avec contraintes d'inégalité sont beaucoup plus récentes, puisqu'elles datent du milieu du XX^e siècle. Il est vraisemblable que le besoin d'une analyse fine de ces questions ait été stimulé par l'augmentation des moyens de calcul. Le développement de l'analyse convexe a aussi permis de poser la théorie sur des bases solides ; nous pensons en particulier au lemme de Farkas^[11] qui sera ci-dessous une des clés permettant de passer de la version géométrique à la version analytique des conditions d'optimalité du premier ordre.

Le cône tangent à X_EI

Le résultat suivant nous informe que le cône tangent est inclus dans le cône des contraintes linéarisées, noté $T' x X E I$ et défini ci-dessous ; il lui sera égal dans les bons cas.

Estimation du cône tangent $T x X E I$ — Si $x \in X_{EI}$ et si $c_{E\cup I^0(x)}$ est dérivable en $x$ , alors

$T_x X_{EI} \subset T'_xX_{EI}:=\{d \in \mathbb{E} : c'_E(x)\cdot d = 0, \; c'_{I^0(x)} (x) \cdot d \leqslant 0\}.$

Observons que, comme annoncé, seules les contraintes d'inégalité actives interviennent dans l'estimation du cône tangent qu'est le cône des contraintes linéarisées. On retrouverait le noyau de la jacobienne des contraintes s'il n'y avait que des contraintes d'égalité.

On peut faire, sur l'inclusion précédente, les mêmes remarques que celles que nous avons faites sur l'estimation du cône tangent à des contraintes d'égalité par le noyau de la jacobienne de ces contraintes : $T x X E I$ ne dépend que de l'ensemble admissible $X E I$ , pas de la manière de le décrire par la fonction $c$ , alors que $T' x X E I$ dépend manifestement de $c$ . Il peut y avoir plusieurs fonctions $c$ définissant le même ensemble admissible et, du point de vue de l'optimisation, toutes ne conviennent pas. Celles qui permettent d'obtenir des conditions d'optimalité sont celles pour lesquelles l'égalité $T x X E I = T' x X E I$ a lieu ; d'ailleurs le premier cône est difficile à calculer s'il n'est égal au second, alors que l'on dispose d'une formule explicite pour le second. On introduit donc la notion de qualification de (fonctions définissant les) contraintes suivante.

Qualification de contraintes d'égalité et d'inégalité — On dit que les contraintes $c : \mathbb{E} \to \mathbb{R}^m$ du problème d'optimisation $(P E I)$ sont qualifiées en $x$ (pour représenter $X E I$ ) si $c_{E\cup I^0(x)}$ est différentiable en $x$ et si $T x X E I = T' x X E I .$

En général, le cône tangent et le cône des contraintes linéarisées diffèrent, car le premier n'est pas nécessairement convexe, alors que le second l'est (c'est un cône polyédrique convexe). Par ailleurs, la notion de qualification des contraintes a un aspect global, dans le sens où elle porte sur toutes les fonctions définissant le problème d'optimisation ; il n'est pas question d'utiliser cette notion fonction par fonction parce que le cône tangent à une intersection d'ensembles n'est pas égal à l'intersection des cônes tangents à ces ensembles (voir l'article sur le cône tangent).

Comme pour les problèmes avec contraintes d'égalité, il n'est presque jamais judicieux de remplacer les contraintes de $(P E I)$ par l'unique contrainte d'égalité équivalente $\tilde{c}(x)=0$ , où $\tilde{c}:\mathbb{E}\to\mathbb{R}$ est définie par

$\tilde{c}(x)=\frac{1}{2}\|c_E(x)\|_2^2+\frac{1}{2}\|c_I(x)^+\|_2^2,$

même si le fait de n'avoir qu'une seule contrainte est a priori attrayant. Cette dernière contrainte a, en effet, l'inconvénient de n'être pratiquement jamais qualifiée, puisque $\nabla\tilde{c}(x)= c'_E(x)^*c_E(x)+c_I'(x)^* c_I(x)^+$ est nul en tout point admissible. Dès lors, pour cette contrainte, $T'_xX_{EI}=\mathbb{E}$ , qui est pratiquement toujours trop grand, plus grand que $T x X E I$ .

Vérifier si les contraintes sont qualifiées est une tâche difficile. Cela requiert le calcul du cône tangent, que l'on voudrait surtout éviter s'il n'est pas identique au cône des contraintes linéarisées. On connaît un certain nombre de conditions suffisantes de qualification de contraintes, qui sont plus subtiles que lorsque seules des contraintes d'égalité sont présentes. Elles sont présentées dans l'article Qualification de contraintes.

Conditions de Karush, Kuhn et Tucker (KKT)

On suppose dans cette section que les contraintes du problème $(P E I)$ sont qualifiés, au sens préciser dans la section précédente. Si l'on veut trouver une expression plus explicite de la condition nécessaire d'optimalité du première ordre en $x$ , à savoir $\nabla f(x)\in(T_xX_{EI})^+$ , il faut calculer le cône dual du cône tangent, que l'on suppose donc égal au cône dual du cône des contraintes linéarisées $(T' x X E I) +$ . Il s'agit donc de calculer le dual d'un cône convexe polyédrique. Le lemme de Farkas fournit une réponse à cette question. Nous en donnons une version légèrement généralisée ci-dessous.

Lemme de Farkas généralisé — Soient $\mathbb{E}$ et $\mathbb{F}$ deux espaces euclidiens, $A:\mathbb{E}\to \mathbb{F}$ une application linéaire et $K$ un cône convexe non vide de $\mathbb{E}$ . Alors

$\{y\in \mathbb{F} : A^*y\in K^+\}^+ = \operatorname{adh}\{Ax : x\in K\}.$

On ne peut pas se passer de l'adhérence dans le membre de droite de l'identité car le cône $A (K)$ n'est pas nécessairement fermé (même si $K$ est fermé) alors que, en tant que cône dual, le cône du membre de gauche est toujours fermé. Signalons que si $K$ est un cône convexe polyédrique (comme l'orthant positif d'un certain $\mathbb{R}^p$ ), alors $A (K)$ est un polyèdre convexe, donc un fermé ; dans ce cas, on peut ôter l'adhérence dans le membre de droite.

Simplifions les notations en posant $J : = I 0 (x)$ , $A E : = c' E (x)$ et $A J : = c' J (x)$ . On peut établir une expression duale du cône

$(T'_xX_{EI})^+:=\{d \in \mathbb{E} : A_E(x) d = 0, \; A_J d \leqslant 0\}^+,$

en utilisant le lemme de Farkas généralisé avec

$\mathbb{E}=\mathbb{R}^{m_E}\times\mathbb{R}^{m_J}$ muni du produit scalaire euclidien,

$\mathbb{F}=\mathbb{R}^n$ muni du produit scalaire euclidien,

$A=\begin{pmatrix}A_E^{\!\top}&A_J^{\!\top}\end{pmatrix}:(\lambda_E,\lambda_J)\in\mathbb{E}\mapsto A_E^{\!\top\!}\lambda_E+A_J^{\!\top\!}\lambda_J \in\mathbb{F}$ ,

$K=\mathbb{R}^{m_E}\times\mathbb{R}^{m_J}_-$ .

On a noté $\mathbb{R}^{m_J}_-:=\{\lambda_J\in\mathbb{R}^{m_J}: \lambda_J\leqslant 0\}$ . On vérifie facilement que

$K^+=\{0\}\times \mathbb{R}^{m_J}_- \qquad\mbox{et}\qquad A^*=\begin{pmatrix}A_E\\A_J\end{pmatrix}.$

Par le lemme de Farkas, on trouve alors la représentation duale du cône des contraintes linéarisées suivante (il n'est pas nécessaire de prendre l'adhérence de l'ensemble obtenu, car il est fermé par sa polyédricité)

$(T'_xX_{EI})^+=\{A_E^{\!\top\!}\mu_E+A_J^{\!\top\!}\mu_J:\mu_E\mathbb{R}^{m_E},~\mu_J\in\mathbb{R}^{m_J}_-\}.$

On en déduit les conditions nécessaires d'optimalité du premier ordre suivantes, dites de Karush, Kuhn et Tucker (KKT). Elles sont fondamentales.

CN1 de Karush, Kuhn et Tucker — Soit $x *$ un minimum local de $(P E I)$ . Supposons que $f$ et $c_{E\cup I^0_*}$ soient dérivables en $x *$ et que les contraintes soient qualifiées en $x *$ . Alors, il existe $\lambda_* \in \mathbb{R}^m$ tel que l'on ait

$(\mbox{KKT})\quad \left\{\begin{array}{cl} (a)& \nabla f(x_*) + c'(x_*)^* \lambda_* = 0 \\ (b)& c_E(x_*) = 0 \\ (c)& c_I(x_*) \leqslant 0 \\ (d)& (\lambda_*)_I \geqslant 0 \\ (e)& (\lambda_*)_I^{\!\top\!} c_I(x_*) = 0, \end{array} \right.$

où $\nabla f(x_*)$ est le gradient de $f$ en $x *$ et $c'(x_*)^*: \mathbb{R}^m\to \mathbb{E}$ est l'opérateur adjoint de la jacobienne $c'(x *)$ pour le produit scalaire donné sur $\mathbb{E}$ .

Un point $x *$ vérifiant les conditions (KKT) ci-dessus est dit stationnaire pour le problème $(P E I)$ .

Les conditions nécessaires d’optimalité ci-dessus ont longtemps été attribuées à Kuhn et Tucker (1951^[12]). Après bien des années, on constata que ces conditions avaient déjà été données par Karush (1939^[13]) dans une thèse qui ne fut jamais publiée, mais qui est décrite dans le compte rendu historique de Kuhn^[14]. Une approche différente conduisant au même résultat a été suivie par John (1948^[15]), également avant les travaux de Kuhn et Tucker.

Avant de discuter le système (KKT), introduisons le lagrangien du problème, qui a la même forme que pour les problèmes d'optimisation avec contraintes d'égalité.

Lagrangien du problème $(P E I)$ — On appelle lagrangien du problème $(P E I)$ , la fonction $\ell : \mathbb{E} \times \mathbb{R}^m \to \mathbb{R}$ définie en $(x,\lambda)\in \mathbb{E} \times \mathbb{R}^m$ par

$\ell (x,\lambda) := f(x) + \lambda^{\!\top\!}c(x)= f(x) + \sum_{i=1}^m\lambda_ic_i(x).$

Le vecteur $λ$ porte le nom de multiplicateur (de Karush, Kuhn et Tucker ou de Lagrange) ou variable duale.

La variable $x$ est aussi appelée variable primale ; quant au couple $(x,λ)$ , on lui donne parfois le nom de variable(s) primale(s)-duale(s).

Voici quelques commentaires sur les conditions de Karush, Kuhn et Tucker.

On reconnaît dans (KKT)-(a) la nullité du gradient du lagrangien par rapport à la variable primale, $\nabla_x\ell(x_*,\lambda_*)=0$ , équation qui était déjà présente pour les problèmes d'optimisation avec contraintes d'égalite et que l'on peut aussi écrire $\nabla f(x_*)+\sum_{i=1}^m(\lambda_*)_i\nabla c_i(x_*)=0,$ où les gradients sont pris par rapport au produit scalaire équipant $\mathbb{E}$ . Si l'espace euclidien $\mathbb{E}$ est $\mathbb{R}^n$ muni du produit scalaire euclidien, ces gradients sont les vecteurs des dérivées partielles par rapport aux $n$ variables $x_1, \ldots, x_n.$

Les conditions (KKT)-(b) et (KKT)-(c) certifient l'admissibilité de la solution.

Les deux dernières conditions sont attachées aux contraintes d'inégalité. La première, (KKT)-(d), assure que les multiplicateurs optimaux associés aux contraintes d'inégalité sont positifs. Ce signe serait chaque fois changé si au lieu d'avoir un problème de minimisation on avait un problème de maximisation, ou si on avait écrit les contraintes sous la forme $c_I(x)\geqslant 0$ au lieu de $c_I(x)\leqslant 0$ , ou encore si on avait utilisé le signe $-$ au lieu du signe $+$ dans la définition du lagrangien.

La dernière condition, (KKT)-(e), est connue sous le nom de condition de complémentarité. Du fait du signe de $(λ *) I$ et de $c I (x *)$ , elle est équivalente à
$\forall\,i\in I:\qquad(\lambda_*)_ic_i(x_*)=0,$ si bien que soit $(λ *) i = 0$ soit $c i (x *) = 0$ , lorsque $i\in I$ . C'est de cette alternative que provient le nom de complémentarité. Cette condition s'écrit aussi $\forall\,i\in I:\qquad c_i(x_*)<0~~\Longrightarrow~~(\lambda_*)_i=0.$ Autrement dit, les multiplicateurs associés aux contraintes d'inégalité inactives sont nuls. Pour certains problèmes, l'implication ci-dessus est remplacée par une équivalence : $\forall\,i\in I:\qquad c_i(x_*)<0~~\Longleftrightarrow~~(\lambda_*)_i=0.$ On dit alors que l'on a complémentarité stricte.

Les conditions (KKT)-(cde) peuvent être rassemblées sous l'une des formes compactes suivantes (il y en a d'autres) $0\leqslant (\lambda_*)_I\perp(-c_I(x))\geqslant 0\qquad\mbox{ou}\qquad\min((\lambda_*)_I,(-c_I(x_*)))=0,$ qui exprime la positivité de $(λ *) I$ , celle de $- c I (x *)$ et l'orthogonalité de ces deux vecteurs pour le produit scalaire euclidien. Les systèmes de ce type, appelés problèmes de complémentarité, ont fait l'objet d'études systématiques, conduisant à une discipline à part entière. Celle-ci englobe donc l'optimisation et se généralise à ce que l'on appelle les problèmes d'inéquations variationnelles.

Les conditions de KKT sont compliquées et difficiles à résoudre numériquement (elles ne le sont analytiquement que pour de rares problèmes à la structure particulière ; des exemples sont donnés ci-dessous). Il n'y a cependant ni trop ni trop peu de conditions, comme le montre la démonstration de la propriété suivante, stipulant que, si le problème est convexe, ces conditions sont suffisantes pour impliquer l'optimalité globale.

CS1 pour un problème $(P E I)$ convexe — Considérons le problème $(P E I)$ , que l'on suppose convexe au sens défini ci-dessus. Soit $x *$ un point vérifiant les contraintes de $(P E I)$ . Si $f$ et $c$ sont dérivables en $x *$ et s'il existe $\lambda_*\in\mathbb{R}^m$ tel que les conditions de Karush, Kuhn et Tucker (KKT) ci-dessus soient vérifiées, alors $x *$ est un minimum global de $(P E I).$

Résolution analytique des conditions d'optimalité

Les conditions d'optimalité de Karush, Kuhn et Tucker nous apprennent que, sous certaines conditions, en particulier de qualification des contraintes, une solution locale de $(P E I)$ est un point stationnaire de ce problème, ce qui veut dire qu'elle vérifie l'ensemble des relations que nous avons désignées par (KKT) ci-dessus. Pour calculer les solutions de $(P E I)$ , on pourra donc, dans un premier temps, calculer les solutions du système d'optimalité (KKT). Toutefois, ce calcul est beaucoup plus difficile que lorsqu'il n'y a que des contraintes d'égalité. La difficulté vient de la présence d'inégalités et, en particulier, des conditions de complémentarité. Comme nous allons le voir, nous y retrouverons la combinatoire des problèmes d'optimisation avec contraintes d'inégalité, confirmant ainsi le principe de conservation des ennuis dont nous avons déjà parlé.

En général, il faut utiliser des algorithmes spécifiques pour résoudre ce système d'optimalité (c'est ce à quoi est consacré une grande partie de l'optimisation numérique). Dans certains cas, cependant, en particulier pour des problèmes de petite taille ayant peu de contraintes d'inégalité ou des problèmes très structurés, on peut chercher les solutions de ce système (KKT) analytiquement en considérant l'une après l'autre toutes les manières de satisfaire les contraintes d'inégalité. Dans chaque cas considéré, on suppose qu'un certain nombre de contraintes d'inégalité sont actives et que les autres ne le sont pas. Soit $J\subset I$ , l'ensemble des indices des contraintes d'inégalité supposées actives en la solution : $c_{E\cup J}(x_*)=0$ et $c_{J^c}(x_*)<0$ (on a noté $J c$ le complémentaire de $J$ dans $I$ ). Du fait de la complémentarité, $(\lambda_*)_{J^c}=0$ et on est donc conduit à chercher les solutions du système de $n+|E\cup J|$ équations à $n+|E\cup J|$ inconnues suivant

$\left\{\begin{array}{l} \nabla f(x_*) + c'_{E\cup J}(x_*)^* (\lambda_*)_{E\cup J}=0\\ c_{E\cup J}(x_*) = 0. \end{array}\right.$

Si une solution $(x_*,(\lambda_*)_{E\cup J})$ de ce système vérifie $c_{J^c}(x_*)\leqslant 0$ et $(\lambda_*)_J\geqslant 0$ , le couple $(x_*,((\lambda_*)_{E\cup J},0_{J^c}))$ est une solution de (KKT). Sinon cette solution doit être écartée. En examinant ainsi tous les ensembles $J\subset I$ possibles, on peut trouver tous les points stationnaires du problème.

La méthode présentée ci-dessus est fastidieuse et, répétons-le, n'est utilisée que dans de rares cas. On notera en effet qu'avec $m I$ contraintes d'inégalité, il y a $2^{m_I}$ cas à examiner, et donc $2^{m_I}$ systèmes non linéaires à résoudre. C'est une tâche considérable dès que $m I$ dépasse quelques unités ! C'est ici que l'on retrouve la combinatoire des problèmes d'optimisation. Le but des algorithmes d'optimisation pour problèmes avec contraintes d'inégalité est précisément de trouver des solutions du système d'optimalité (KKT), en gérant de manière efficace cette combinatoire, c'est-à-dire en évitant d'explorer toutes les possibilités. L'algorithme du simplexe en a été un des premiers exemples.

Comme pour les problèmes d'optimisation avec contraintes d'égalité, tous les points stationnaires (les solutions de (KKT)) ne sont pas solutions de $(P E I)$ . Pour déterminer si un point stationnaire est solution de $(P E I)$ , on pourra utiliser les conditions d'optimalité du second ordre décrites ci-dessous, de la manière suivante :

si les CN2 ne sont pas vérifiées au point stationnaire, alors celui-ci n'est pas une solution locale de $(P E I)$ ;

si les CS2 sont vérifiées au point stationnaire, alors celui-ci est un minimum local strict de $(P E I)$ .

Ces deux cas recouvrent un grand nombre de situations, mais pas toutes, car les CN2 et les CS2 ne sont pas identiques. Le cas est indéterminé lorsqu'un point stationnaire vérifie les CN2, mais pas les CS2. Alors les résultats donnés dans cet article ne sont pas suffisants et il faut recourir à des conditions d'optimalité d'ordre supérieur pour pouvoir dire si le point stationnaire est solution de $(P E I)$ .

Conditions du deuxième ordre avec contraintes d'égalité et d'inégalité

Interprétation marginaliste des multiplicateurs de Karush, Kuhn et Tucker

Exemples

Inégalités de Hölder

Les inégalités de Hölder généralisent l'inégalité de Cauchy-Schwarz, dans le sens où elles donnent une majoration du produit scalaire euclidien de deux vecteurs $x$ et $y\in\mathbb{R}^n$ par leur norme $\ell^p$ et $\ell^{p'}$ , plutôt que par leur norme euclidienne. Dans cette majoration, les scalaires $p$ et $p'$ doivent être pris dans $[1,+\infty]$ et vérifier

$\frac{1}{p}+\frac{1}{p'}=1.$

Cette relation accepte les valeurs infinies, si bien que $p = 1$ si, et seulement si, $p'=\infty$ . Pour de tels $p$ et $p'$ , l'inégalité de Hölder s'écrit :
$\forall\,x,y\in\mathbb{R}^n:\quad|x^{\top\!}y|\leqslant\|x\|_p\,\|y\|_{p'}.$
Cette inégalité se généralise aux espaces $\ell^p$ des suites de puissance $p$ sommables et aux espaces $L p$ des fonctions de puissance $p$ intégrables. Dans $\mathbb{R}^n$ , elles peuvent être démontrées à partir d'une solution du problème de minimisation d'une fonction linéaire sur la boule unité fermée associée à la norme $\ell^p$ , à savoir $B_p:=\{x\in\mathbb{R}^n:\|x\|_p\leqslant 1\}$ , problème qui s'écrit

$(P_p)\qquad \min_{x\in B_p}\;x^{\top\!}y.$

Par la compacité de $B p$ (en dimension finie), ce problème a clairement une solution ; elle est unique si $1<p<+\infty$ . Nous nous proposons ci-dessous de calculer les solutions de ce problème par les conditions d'optimalité de Karush, Kuhn et Tucker et d'en déduire les inégalités de Hölder.

Cas où p = ∞

C'est le cas le plus simple, qui peut se résoudre sans utiliser les conditions d'optimalité de KKT. En effet, le problème $(P_\infty)$ , qui s'écrit

$(P_\infty)\qquad \min_{-1\leqslant x \leqslant 1}\;\sum_{i=1}^n\,x_iy_i$

se décompose en $n$ problèmes indépendants, à savoir

$\min_{-1\leqslant x_i \leqslant 1}\;x_iy_i$

dont les solutions $\bar{x}_i$ sont triviales :
$\bar{x}_i\left\{\begin{array}{lll}=-1 & \mbox{si} & y_i>0\\\in[-1,1] & \mbox{si} & y_i=0\\=1 & \mbox{si} & y_i<0.\end{array}\right.$
L'inégalité de Hölder correspondante s'obtient alors en observant que, quels que soient $x\in B_\infty$ et $y\in\mathbb{R}^n$ , on a si l'on note $σ(t)$ le signe de $t\in\mathbb{R}$ :

$x^{\top\!}y\geqslant \bar{x}^{\top\!}y=-\sum_{i=1}^n\,\sigma(y_i)y_i=-\|y\|_1,$

si bien que $|x^{\top\!}y|\leqslant\|y\|_1$ . On met ensuite $x$ à l'échelle si ce vecteur n'est pas dans la boule unité $B_\infty$ , ce qui conduit à $|x^{\top\!}y|\leqslant\|x\|_\infty\,\|y\|_1$ .

Cas où 1 < p < ∞

Si $y = 0$ , tout $x\in B_p$ est solution et l'inégalité de Hölder est triviale.

Supposons à présent que $y\ne0$ . En écrivant la contrainte $\|x\|^p_p/p\leqslant 1/p$ de manière à la rendre différentiable et éviter le facteur $p$ après différentiation, le lagrangien du problème $(P p)$ s'écrit

$\ell(x,\lambda)=x^{\top\!}y+\frac{\lambda}{p}\left(\sum_{i=1}^n\,|x_i|^p-1\right).$

Comme la contrainte est qualifiée (par les conditions suffisantes de Slater par exemple) et le problème est convexe, $\bar{x}$ en est solution si, et seulement si, il existe un multiplicateur optimal $\bar{\lambda}\in\mathbb{R}$ tel que les conditions de KKT suivantes soient vérifiées :

$\left\{\begin{array}{l} y_i+\bar{\lambda}_i\bar{x}_i|\bar{x}_i|^{p-2}=0,\qquad i=1,\ldots,n\\ \|\bar{x}\|_p\leqslant 1\\ \bar{\lambda}\geqslant 0\\ \bar{\lambda}(\|\bar{x}\|_p-1)=0. \end{array}\right.$

Comment résoudre ce système compliqué ? Comme le suggère la méthode générale présentée ci-dessus, il est souvent judicieux de commencer par considérer les conditions de complémentarité (la 4-ième), qui ont ici une combinatoire particulièrement réduite. Il y a seulement deux possibilités (parce que le problème n'a qu'une seule contrainte) : soit le multiplicateur est nul, soit la contrainte est active. Lorsque $y\ne0$ , la première condition montre clairement que le multiplicateur ne peut être nul ; la contrainte est donc active, ce qui résout du même coup la seconde condition. Gardons en mémoire que le multiplicateur optimal est positif (3-ième condition) en exploitant la première condition. En prenant la norme $\ell^{p'}$ de $y$ , on obtient la valeur du multiplicateur optimal

$\bar{\lambda}=\|y\|_{p'},$

qui est donc strictement positif. En observant que $\bar{x}_i$ et $\bar{y}_i$ sont de signe contraire et en se rappelant que $y\ne0$ , la première condition donne alors
$\bar{x}_i=-\sigma(y_i)\left(\frac{|y_i|}{\|y\|_{p'}}\right)^{\frac{p'}{p}},$
où on a noté $σ(t)$ le signe de $t\in\mathbb{R}$ . En particulier, $\bar{x}=-y/\|y\|_2$ si $p = 2$ .

L'inégalité de Hölder correspondante se déduit de ces résultats comme dans le cas $p=\infty$ . Quels que soient $x\in B_p$ et $y\in\mathbb{R}^n$ , on a :

$x^{\top\!}y\geqslant \bar{x}^{\top\!}y= -\left(\frac{1}{\|y\|_{p'}}\right)^{\frac{p'}{p}} \sum_{i=1}^n|y_i|^{\frac{p'}{p}+1} = -\frac{\|y\|_{p'}^{p'}}{\|y\|_{p'}^{p'/p}} = -\|y\|_{p'},$

si bien que $|x^{\top\!}y|\leqslant\|y\|_{p'}$ . On met ensuite $x$ à l'échelle si ce vecteur n'est pas dans la boule unité $B p$ , ce qui conduit à $|x^{\top\!}y|\leqslant\|x\|_p\,\|y\|_{p'}$ .

Cas où p = 1

Le cas où $y = 0$ étant trivial, on considère ci-dessous que $y\ne0$ .

Il n'est pas nécessaire de résoudre $(P 1)$ si l'on ne cherche qu'à obtenir l'inégalité de Hölder correspondante puisque celle-ci est identique au cas $p=\infty$ déjà considéré. En réalité, ce qui nous intéresse ici est de savoir comment résoudre $(P 1)$ en utilisant les conditions d'optimalité de KKT. Donc poursuivons !

La première difficulté à surmonter est de récrire la contrainte $\|x\|_1\leqslant 1$ de manière différentiable (la norme $\ell^1$ ne l'est pas). On vérifiera sans peine que $\|x\|_1\leqslant 1$ si, et seulement si, il existe un vecteur $v\in\mathbb{R}^n$ tel que $\textstyle\sum_{i=1}^nv_i=1$ et $-v\leqslant x\leqslant v$ , si bien que le problème $(P 1)$ est «équivalent» au problème en $(x,v)\in\mathbb{R}^n\times\mathbb{R}^n$ suivant

$(P'_1)\qquad \left\{\begin{array}{l} \min_{(x,v)}\;y^{\top\!}x\\ \sum_{i=1}^nv_i=1\\ -v\leqslant x\leqslant v. \end{array}\right.$

Ayant un domaine admissible compact et non vide, ce problème a aussi une solution ; de plus $\bar{x}$ est solution de $(P 1)$ si, et seulement si, $(\bar{x},\bar{v})$ est solution de $(P' 1)$ . Le lagrangien du problème $(P' 1)$ s'écrit

$\ell(x,v,\lambda,\alpha,\beta)=x^{\top\!} y+\lambda\left(\sum_{i=1}^n\,v_i-1\right) +\sum_{i=1}^n\alpha_i(x_i-v_i) -\sum_{i=1}^n\beta_i(x_i+v_i).$

Comme les contraintes de $(P' 1)$ sont qualifiées (par affinité locale par exemple) et comme le problème est convexe, $(\bar{x},\bar{v})$ en est une solution si, et seulement si, il existe des multiplicateurs optimaux $(\bar{\lambda},\bar{\alpha},\bar{\beta})\in\mathbb{R}\times\mathbb{R}^n\times\mathbb{R}^n$ tels que les conditions de KKT suivantes soient vérifiées :

$\left\{\begin{array}{ll} (a) & y+\bar{\alpha}-\bar{\beta}=0\\ (b) & \bar{\lambda} e-\bar{\alpha}-\bar{\beta}=0\\ (c) & \sum_{i=1}^n\,\bar{v}_i=1\\ (d) & -\bar{v}\leqslant \bar{x}\leqslant \bar{v}\\ (e) & \bar{\alpha}\geqslant 0,\quad \bar{\beta}\geqslant 0\\ (f) & \bar{\alpha}_i(\bar{x}_i-\bar{v}_i)=0,\quad \bar{\beta}_i(\bar{x}_i+\bar{v}_i)=0,\quad\forall\,i\in\{1,\ldots,n\}, \end{array}\right.$

où $e$ est un vecteur dont toutes les composantes valent 1. Voici un système avec une combinatoire importante : $2 2 n$ manières de réaliser les conditions de complémentarité (f). La méthode générale présentée ci-dessus est ici de peu d'utilité ; pour s'en sortir, il faut être astucieux ! On remarque d'abord que, par (a) et (b), l'on peut écrire $\bar{\alpha}$ et $\bar{\beta}$ en fonction de $\bar{\lambda}$ :

$\bar{\alpha}=\frac{1}{2}(\bar{\lambda} e-y) \quad\mbox{et}\quad \bar{\beta}=\frac{1}{2}(\bar{\lambda} e+y).$

Par (e), on en déduit que $\bar{\lambda}\geqslant\|y\|_\infty$ . Mais si $\bar{\lambda}>\|y\|_\infty$ , $\bar{\alpha}$ et $\bar{\beta}$ seraient strictement positifs et on déduirait de (f) que $\bar{x}=\bar{v}=0$ , en contradiction avec (c). Dès lors

$\bar{\lambda}=\|y\|_\infty,$

comme lorsque $1<p<\infty$ . On distingue ensuite les cas :

si $|y_i|<\|y\|_\infty$ , alors $\bar{\alpha}_i>0$ , $\bar{\beta}_i>0$ , puis $\bar{x}_i=\bar{v}_i=-\bar{v}_i$ par (e), donc $\bar{x}_i=\bar{v}_i=0$ ,

si $y_i=\|y\|_\infty>0$ , alors $\bar{\alpha}_i=0$ , $\bar{\beta}_i>0$ , donc $\bar{x}_i=-\bar{v}_i\leqslant 0$ par (f) et (d),

si $y_i=-\|y\|_\infty<0$ , alors $\bar{\alpha}_i>0$ , $\bar{\beta}_i=0$ , donc $\bar{x}_i=\bar{v}_i\geqslant 0$ par (f) et (d).

On déduit de ces observations que les solutions $\bar{x}$ de $(P 1)$ vérifient
$\|\bar{x}\|_1=1,\quad \bar{x}_{I^c}=0\quad\mbox{et}\quad \bar{x}_I\cdot y_I\leqslant 0,$
où $I:=\{i:|y_i|=\|y\|_\infty\}$ , $I c$ est son complémentaire et $u\cdot v$ désigne le produit de Hadamard. Inversement, on vérifie que si $\bar{x}$ satisfait les conditions encadrées, si $\bar{v}=|\bar{x}|$ , si $\bar{\lambda}=\|y\|_\infty$ , si $\bar{\alpha}=(\|y\|_\infty e-y)/2$ et si $\bar{\beta}=(\|y\|_\infty e+y)/2$ , alors $(\bar{x},\bar{v},\bar{\lambda},\bar{\alpha},\bar{\beta})$ satisfait les conditions d'optimalité (a)-(f), si bien qu'alors $\bar{x}$ est une solution de $(P 1)$ .

L'inégalité de Hölder correspondante se déduit de ces résultats comme dans le cas $1<p\leqslant\infty$ . Quels que soient $x\in B_1$ et $y\in\mathbb{R}^n$ , on a :

$x^{\top\!}y\geqslant \bar{x}^{\top\!}y= -\sum_{i\in I}|\bar{x}_i|\,|y_i|= -\|y\|_\infty\sum_{i\in I}|\bar{x}_i|= -\|y\|_\infty,$

si bien que $|x^{\top\!}y|\leqslant\|y\|_\infty$ . On met ensuite $x$ à l'échelle si ce vecteur n'est pas dans la boule unité $B 1$ , ce qui conduit à $|x^{\top\!}y|\leqslant\|x\|_1\,\|y\|_\infty$ .

Minimisation d'une fonction quadratique sur la boule euclidienne

Problèmes d'optimisation avec contraintes abstraites

Cette généralisation peut être vue comme un premier pas vers l'écriture de conditions d'optimalité pour les problèmes de dimension infinie. Elle est également utile pour traiter des problèmes avec contraintes coniques, qui s'expriment parfois au moyen d'un nombre infini de contraintes (c'est le cas du cône des matrices semi-définies positives exprimé comme suit $\mathcal{S}^n_+:=\{M\in\mathcal{S}^n:x^{\!\top\!}Mx\geqslant 0$ , pour tout $x\in\mathbb{R}^n\}$ ).

Le problème (P_K)

Conditions du premier ordre

Conditions du deuxième ordre

Annexes

Notes

↑ G. Bouligand (1932), Introduction à la Géométrie Infinitésimale Directe, Gauthier- Villars, Paris.

↑ (it) G. Peano (1887). Applicazioni Geometriche del Calcolo Infinitesimale. Fratelli Bocca Editori, Torino.

↑ (it) G. Peano (1908). Formulario Mathematico, Editio V. Fratelli Bocca Editori, Torino.

↑ (en) L.V. Kantorovich (1940). On an efficient method for solving some classes of extremum problems. Doklady Akad. Nauk SSSR, 28, 212–215.

↑ (en) B.T. Polyak (2001). History of mathematical programming in the USSR: analyzing the phenomenon. Mathematical Programming, 91, 401–416.

↑ (en) S. Dolecki, G.H. Greco (2007). Towards historical roots of necessary conditions of optimality – Regula of Peano. Control and Cybernetics, 36, 491–518.

↑ J. Mawhin (1992). Analyse — Fondements, Techniques, Évolution. De Boeck.

↑ Joseph-Louis Lagrange, « Manière plus simple et plus générale de faire usage de la formule de l'équilibre donnée dans la section deuxième », dans Mécanique analytique. Tome premier. pages = 77-112 [lire en ligne]

↑ (en) C.B. Boyer (1968). A History of Mathematics. Princeton University Press, Princeton, New Jersey.

↑ V. Alexeev, V. Tikhomirov, S. Fomine (1982). Commande Optimale. Mir, Moscou.

↑ (de) J. Farkas, Theorie der einfachen Ungleichungen, Journal für die reine und angewandte Mathematik, 124 (1902) p. 1-27

↑ (en) H.W. Kuhn, A.W. Tucker (1951). Nonlinear programming. In J.Neyman, éditeur, Proceedings of the second Berkeley Symposium on Mathematical Studies and Probability, pages 481–492. University of California Press, Berkeley, California.

↑ (en) W.E. Karush (1939). Minima of Functions of Several Variables with Inequalities as Side Conditions. Master’s thesis, Department of Mathematics, University of Chicago, Chicago.

↑ (en) H.W. Kuhn (1976). Nonlinear programming: a historical view. In R.W. Cottle, C.E. Lemke, éditeurs, Nonlinear Programming, SIAM-AMS Proceedings IX, pages 1–26. American Mathematical Society, Providence, RI.

↑ (en) F. John (1948). Extremum problems with inequalities as subsidiary conditions. In K.O. Friedrichs, O.E. Neugebauer, J.J. Stokes, éditeurs, Studies and Essays, Courant Anniversary Volume, pages 186–204. Wiley Interscience, New York.

Articles connexes

Cône tangent

Coût marginal

Multiplicateur de Lagrange : présentation moins abstraite et donc plus abordable de l'optimalité des problèmes avec contraintes d'égalité, certains en dimension infinie.

Qualification de contraintes

Liens externes

La méthode du Lagrangien (1999), École des Hautes Études Commerciales, Montréal, Québec.

Extrema liés - Multiplicateurs de Lagrange sur BibM@th.

J. Ch. Gilbert, Éléments d'Optimisation Différentiable — Théorie et Algorithmes, syllabus de cours à l'ENSTA ParisTech, Paris.

Ouvrages généraux

(en) J. F. Bonnans, A. Shapiro (2000). Perturbation Analysis of Optimization Problems. Springer Verlag, New York.

J. Gauvin (1992). Théorie de la programmation mathématique non convexe. Les Publications CRM, Montréal.

J.-B. Hiriart-Urruty (1996). L’Optimisation. Que sais-je, 3184. Presses Universitaires de France.

(en) J.-B. Hiriart-Urruty, C. Lemaréchal (1993). Convex Analysis and Minimization Algorithms. Grundlehren der mathematischen Wissenschaften, 305-306. Springer-Verlag.

(en) R. T. Rockafellar (1993). Lagrange multipliers and optimality. SIAM Review, 35, 183– 238.

Portail des mathématiques

Catégorie :
Optimisation différentiable

Contenu soumis à la licence CC-BY-SA. Source : Article Conditions d'optimalité (dimension finie) de Wikipédia en français (auteurs)

Игры ⚽ Поможем решить контрольную работу

Regardez d'autres dictionnaires:

Conditions de Kuhn-Tucker — Pour les articles homonymes, voir condition. En mathématiques, les conditions de Kuhn Tucker ou conditions de Karush Kuhn Tucker permettent de résoudre des problèmes d optimisation sous contraintes non linéaires d inégalité. Soient :… … Wikipédia en Français
Cône tangent — En mathématiques, le cône tangent est l approximation au premier ordre d un ensemble en un point, comme l application dérivée d une fonction est son approximation au premier ordre en un point. Cette notion est, par exemple, utilisée en… … Wikipédia en Français
Qualification de contraintes — En mathématiques, lorsqu une partie d un espace normé est décrit par des fonctions différentiables, appelées contraintes dans ce contexte, la question se pose de savoir si l on peut obtenir le cône tangent à cet ensemble en linéarisant ces… … Wikipédia en Français
Projet:Mathématiques/Liste des articles de mathématiques — Cette page n est plus mise à jour depuis l arrêt de DumZiBoT. Pour demander sa remise en service, faire une requête sur WP:RBOT Cette page recense les articles relatifs aux mathématiques, qui sont liés aux portails de mathématiques, géométrie ou… … Wikipédia en Français
Multiplicateur de Lagrange — Pour les articles homonymes, voir Théorème de Lagrange. La méthode des multiplicateurs de Lagrange permet de trouver un optimum, sur la figure le point le plus élevé possible, tout en satisfaisant une contrainte, sur la figure un … Wikipédia en Français
Optimisation non linéaire — En optimisation, vue comme branche des mathématiques, l optimisation non linéaire (en anglais : nonlinear programming – NLP) s occupe principalement des problèmes d optimisation dont les données, i.e., les fonctions et ensembles définissant… … Wikipédia en Français
Méthode des moindres carrés — Illustration de la méthode des moindres carrés. Les données suivent la courbe figurée en pointillés et sont affectées par un bruit gaussien centré, de variance 1. Le meilleur ajustement déterminé par la méthode des moindres carrés est représenté… … Wikipédia en Français
Coût marginal — Le coût marginal est le coût supplémentaire induit par la dernière unité produite. Dans le cadre de la théorie marginaliste, lorsque le coût marginal augmente, le coût d opportunité diminue. Sommaire 1 Enjeux et role du coût marginal 2… … Wikipédia en Français
Joseph-Louis Lagrange — Pour les articles homonymes, voir Lagrange. Joseph Louis Lagrange Naissance … Wikipédia en Français
Optimisation linéaire — En optimisation, qui est une branche des mathématiques, un problème d optimisation linéaire est un problème d optimisation dans lequel on minimise une fonction linéaire sur un polyèdre convexe. La fonction coût et les contraintes peuvent donc… … Wikipédia en Français

Dictionnaires et Encyclopédies sur 'Academic'

Wikipédia en Français

Conditions d'optimalité (dimension finie)

Sommaire

Le problème générique

Le problème (P_X)

Forme géométrique de l'optimalité au premier ordre

Problèmes d'optimisation sans contrainte

Conditions du premier ordre sans contrainte

Conditions du deuxième ordre sans contrainte

Problèmes d'optimisation avec contraintes d'égalité

Le problème (P_E)

Conditions du premier ordre avec contraintes d'égalité

Le cône tangent à X_E

Condition de Lagrange

Minimisation d'une fonction de n variables soumise à m contraintes

Conditions du deuxième ordre avec contraintes d'égalité

Interprétation marginaliste des multiplicateurs de Lagrange

Exemple : vecteurs propres et quotient de Rayleigh

Problèmes d'optimisation avec contraintes d'égalité et d'inégalité

Le problème (P_EI)

Conditions du premier ordre avec contraintes d'égalité et d'inégalité

Le cône tangent à X_EI

Conditions de Karush, Kuhn et Tucker (KKT)

Résolution analytique des conditions d'optimalité

Conditions du deuxième ordre avec contraintes d'égalité et d'inégalité

Interprétation marginaliste des multiplicateurs de Karush, Kuhn et Tucker

Exemples

Inégalités de Hölder

Cas où p = ∞

Cas où 1 < p < ∞

Cas où p = 1

Minimisation d'une fonction quadratique sur la boule euclidienne

Problèmes d'optimisation avec contraintes abstraites

Le problème (P_K)

Conditions du premier ordre

Conditions du deuxième ordre

Annexes

Notes

Articles connexes

Liens externes

Ouvrages généraux

Regardez d'autres dictionnaires:

Share the article and excerpts

Direct link