 Je vous rappelle juste qu'on en était, on avait parlé du problème de monges avec un infimum intégral de c2x, t2x, mu de dx, mu 0 dx, sous la contrainte mesure-image de mu 0 partait est égal à mu 1. On avait parlé du problème de Kant-Rowich avec un infimum intégral double de cdx y, p de dx dx, sous la contrainte que quand on regarde les projections de pi, c'est mu 0 et mu 1. Bon. Et puis on avait donné des interprétations, on avait parlé de la dualité, on avait parlé de fonctions c-convex et on avait bien expliqué que les deux problèmes se résolvaient en même temps et que trouver un transport optimal, c'était pareil que résoudre le problème dual et que en regardant si un plan de transport est supporté dans le sous-différentiel d'une fonction c-convex, on a un critère d'optimalité. Par rapport à tout ce qu'on a dit la dernière fois, il y a juste une chose qu'il faut que j'ajoute, c'est un cas particulier important. On avait vu un cas particulier important qui était le coût égal à la distance au carré, il y a un autre cas particulier important, c'est le cas où le coût est égal à une distance, est égal à la distance. Alors si on reprend les définitions, alors dire que pi est c-convex, c'est pareil que dire que pi est un lipchitz, un lipchitzienne. Et on s'aperçoit en août que la transformée de phi, c'est autre que phi. Et la dualité prend alors une forme plus simple, minimum de l'intégrale double ddxy, pi de dxdy ou pi à pour marginal mu0 et mu1 est égal au suprimum pour phi en norme lipchitz inférieur ou égal à 1 de intégrale de phi dmu0 moins intégrale phi dmu1. Voilà. Bon et dernier commentaire là dessus, à bien comprendre, le sous-différenciel ddcpsi, donc c'est l'ensemble, on se souvient, l'ensemble d'xy tel que, alors c'est psi de x plus c de xy est égal à phi de y ou t'égales ici à psi c de y. Là-dedans on lit toute l'information. Donne l'information sur le transport. Ce sont les couples. Alors pour psi optimal dans le problème du HAL, le transport optimal est de la forme ax on as aussi y. On lit dans le sous-différenciel de la fonction optimale la façon dont la masse est transportée. L'ensemble de tous les couples x y avec la légalité ici. Dans le cas particulier de la fonction distance, le coût est égal à la distance, il y a une fonction, un lipchitz, psi, et si on veut le transport s'effectue le long de géodésique qui connecte des ensembles de niveau de phi. Prenez votre fonction phi, la fonction optimale dans le problème du HAL. C'est une fonction un lipchitz. Et puis ici vous avez donc les endroits dans lesquels le transport peut s'effectuer. C'est des endroits telles que ici vous avez x y et vous aurez exactement phi de y égale, phi de x plus distance de x y. Autrement dit, là vous aurez l'égalité dans l'inégalité qui vous dit que c'est un lipchitz. Et c'est seulement le long de ces lignes que le transport pourra s'effectuer. Alors comme la fonction phi est un lipchitz, évidemment si cette inégalité est vérifiée ici entre x et y, alors nécessairement aussi à n'importe quel point intermédiaire, vous aurez ici que phi de z sur égal à phi de x plus la distance de x à z, phi de y égale phi de z plus distance de z à y. Autrement dit, le transport s'effectue le long de ces géodésiques. La masse qui est sur cette géodésique, elle y reste. Et si vous voulez, c'est comme si vous partitionnez l'espace en gros en un ensemble de géodésiques, le long desquels la fonction phi a une croissance linéaire dans le paramètre de la vitesse et le transport s'effectue à chaque fois de manière restreinte à ces géodésiques. Et ça c'est très particulier au cas où le coût est égal à la distance. C'est lié aussi au fait que quand le coût est égal à la distance des trajectoires minimisantes dans le transport optimal, ne peuvent jamais se croiser. Vous ne pourrez pas dire que c'est une fibration ondulée ? C'est une fibration. Alors il n'y a aucune régularité d'habitude quand on dit fibration, on impose un peu de régularité ou quelque chose. Là, c'est vraiment juste a priori une décomposition mesurable. Mémoralement, c'est ça. Donc dans ce cas, l'espace x est partitionné. Je mets déguimé, je vais dire pourquoi à l'instant, en géodésique le long desquels le transport s'effectue et où phi croit linéairement en le paramètre d'interpolation, le paramètre d'interpolation géodésique. Bon et ça c'est lié à la propriété déjà remarquée par monge, pas de croisement des lignes de transport si le coût est égal à la distance. Bon et je fais la remarque explicitement parce que ça jouera un rôle crucial plus tard dans le cours quand il s'agira de reparler de Lévi Gromov. Qu'est ce qu'on va dire enfin ? C'est pas mal. Pourquoi j'ai mis déguimé aussi à partitionner ? J'ai mis déguimé parce qu'il peut y avoir des problèmes au point initiaux et point finaux. Pas vraiment une partition car il peut y avoir intersection aux extrémités. Il faut très bien avoir un truc comme ça. La masse par d'un coup ici, un coup là, mais sur un ensemble qui sera de mesure nul et des choses comme ça. En général, ça peut mettre sur ensemble de pas forcément de mesure nul, ça dépend de des hypothèses sur la mesure muséro. On peut avoir des choses comme ça ou on peut avoir des choses comme ça. C'est seulement au point de départ ou au point d'arriver que quelque chose comme ça peut se produire. Quand on en aura besoin, on donnera un oncet très précis et ici, ce n'est pas le lieu de le faire. On en reparlera. Point suivant, on va se demander ce qui se passe dans un cadre régulier. Trois, six, pas d'étise. Supposons que l'espace X est une, alors on va se mettre dans le cas où c'est une variété rimanienne lisse. Donc cadre géométrique lisse classique. Et puis on se donne c2xy, un coup régulier, pour l'instant en un sens qui n'est pas défini, peut-on préciser la structure du transport et avoir des formules à l'avertissement. Les coûts intéressants ne sont presque jamais lisses. N'importe quelle variété rimanienne, vous avez envie de prendre le coup qui soit une fonction de la distance et la distance, vous pouvez faire ce que vous voulez. C'est extrêmement rarement une fonction lisse, même la distance au carré. Par exemple, même sur quelque chose d'aussi simple que le torr, r sur z, la distance au carré, si je pensais que la distance au carré, et que je le trace, j'ai quelque chose comme ça. Avec ici, quelque chose qui, si je regarde de près, fait ça. Autrement dit, une singularité qui pointe vers le haut. Autrement dit, une fonction semi-concave, c'est-à-dire la somme une fonction lisse et une fonction concave. C'est pas étonnant que ça soit quelque chose de semi-concave, parce que la distance s'est définie par un infe. Et quand on définit les trucs par des supes, ça tendance à être genre convex. Quand on est définit par des infes, ça tendance à être genre concave. Et ça, c'est pour dire que ça aurait pas de sens de supposer que le cou est lisse, ça nous interdirait tous les exemples intéressants. En revanche, ça a un sens de supposer que le cou est semi-concave, parce que le cou, que ce soit à distance ou autre chose, on le définit traditionnellement par des infes. La distance est quand même souvent convex quand même. Non, pas sur un truc compact, c'est jamais, ouais. C'est un truc infini, ça peut marcher. Typiquement, tu vas prendre une courbure sectionnelle négative, un truc infinie, variété de cartons à dammar, comme on dit. Là, tu as une distance qui est lisse. Mais dès que tu es compact, tu perds ça. Alors, en revanche, semi-concave, c'est raisonnable. Une hypothèse plus faible serait le Lipschitz. Et dans tous les cas, la distance, c'est quelque chose qui est lisse presque partout. Et les endroits où la distance cesse d'être lisse, ça correspond au lieu de coupure, le cut locus, comme on dit. Alors, donc, fonction semi-concave. Et puis une remarque, donc, si x est fixé, l'ensemble des y différents de x, telles que distance de x à y et non lisse en y, voisinage de y, coincide avec lieu de coupure de x, le cut locus. Et c'est un ensemble de dimensions inférieures ou égales à n-1, si je suis en dimension n. Et donc, quelque part, ici, dimension n. On peut d'ailleurs voir comme un énoncé sur l'ensemble des points de non différenciabilité, l'ensemble des points de non différenciabilité d'une fonction semi-concave. Et ici, je suis en train de faire une petite faute de raisonnement dans ce que je dis, parce que ça s'appliquait qu'aux ensembles de non-différenciabilité, qui est le cut locus essentiel, comme on dit, pas le cut locus complet. On s'en fiche, pour l'instant, on n'aura pas besoin. Alors, en gardant ça en tête, voici un énoncé général. Solution du problème de monge. Alors, si petit 1, c de x, y est partout sur-différenciable. Sur-différenciable, ben, partout, je peux trouver un hyper-plan qui touche le graphe par-dessus, localement, et sur-gradient en chaque point, quelque soit. Donc partout sur-différenciable. Alors ici, c'est pour tout y, fixé et comme fonction de x. Vous fixez y et vous demandez que, vu comme fonction de x, ce soit toujours sur-différenciable. Et donc sur-différenciable, ça va être pour tout x, il existe p, un sur-gradient, c'est-à-dire, on va le noter px, tel que f de x plus h, inférieur ou égal à f de x plus h pour du escalaire px plus petit taux de h, quand h t'envers zéro. Et ça, c'est la définition d'une fonction sur-différenciable, la définition de sur-différenciabilité. Et là, j'ai mis ax plus h, ça m'embarasse, parce que c'est juste local, vous pouvez dire ça dans n'importe quelle carte, c'est indépendant du choix de la carte. Donc première condition, c de x, y est partout sur-différenciable et ça couvre les distances au carré et les choses comme ça. Deuxième condition, la plus cruciale, si c vérifie, c de y, y vérifie, alors je ne sais pas quel est le mot français pour ça. Et de toute façon, l'habitude est d'utiliser le mot anglais, la condition de twist, peut-être qu'il faut dire torsion ou quelque chose comme ça. En tout cas, condition twist, c'est le vocabulaire que les gens connaissent bien, en particulier pour des coups qui viennent en théorie des systèmes dynamiques. Et la définition, c'est que gradient x, c de x, y est injectif dans la variable y, dès que c définit. Très explicitement, si vous avez x, y, y prime tels que gradient x, c de x, y égale, gradient x, c de x, y prime, c'est deux vecteurs étant bien définis. Alors y doit être égal à y prime. Deuxième condition donc. Troisième condition, c a un peu de régularité et il y a plusieurs énoncés possibles selon ce que vous imposez comme régularité. Mais des hypothèses typiques, ça sera localement Lipchitz ou localement Schmi-Concave. La quatrième condition, c'est Muzero n'est pas trop concentré. Par exemple, on va dire absolument continu. Et quelque part, il vous faudra, il y a une correspondance entre ces deux hypothèses. Par exemple, si vous mettez localement Lipchitz, l'hypothèse d'absolute continuité, c'est celle qui ira bien. Si vous mettez localement Schmi-Concave, vous pourrez vous autoriser une hypothèse plus générale qu'absolument continue. Il ira bien avec localement Lipchitz. Et puis, il y a une cinquième condition que je donnerai pas explicitement qui sert à contrôler ce qu'est à l'infini. Donc plus une hypothèse compliquée à l'infini. Dans mon livre, c'est ce que j'avais appelé H-infinie. Et l'hypothèse pour l'ébuséant de secours, il suffira de savoir qu'elle est toujours satisfaite quand le cou est égal à décarrer. Mais que c'est vrai, c'est du sport pour le démontrer. Bon, quand toutes ces conditions sont remplies, alors le problème de monge, pour aller de mu 0 à mu 1 avec le cou C, admet une solution unique. Alors quand on dit unique, c'est quitte à le modifier sur un ensemble de mesures mu 0 nulle. La modification près sur un ensemble mu 0 négligeable. Et elle est caractérisée cette solution par l'équation gradiant XC de XT de X plus gradiant Psi de X égale 0. Ou Psi est solution du problème de Kantorowicz dual. Et donc, c'est convex. J'ai écrit ça comme ça, mais il faut le comprendre aussi que dès qu'on trouve, et dès qu'on trouve Psi, c'est convex. Non, c'est pas vrai ce que j'ai dit là. Donc gradiant XC de X T de X plus gradiant Psi de X égale 0. Ou si on veut T de X égale, grad XC moins 1 de X moins grad Psi de X. Ou le moins 1, ça veut dire inverse, inverse dans le second argument. Donc c'est pas mal. Vous allez me dire Psi n'est pas explicite, mais quand même, ça réduit considérablement la complexité du problème. A priori, T, c'était une fonction de indimension dans une dimension. Tandis que Psi, c'est une fonction de indimension dans R. On a ramené le problème à déterminer une fonction scalaire. Et cette fonction scalaire, on sait qu'il faut la chercher comme solution d'un problème qui est bien définie et on sait qu'elle vérifie certaines propriétés géométriques très particulières. Alors ce théorème, ce résultat là, on peut le voir comme un méta résultat qui contient quasiment tous les théorèmes de résolution du problème de monge qui ont été démontrés par divers auteurs, selon les cas, c'est-à-dire le coût va changer, les hypothèses sur la régularité, sur Musero vont changer, il y aura des variantes, mais la structure est toujours la même. Alors quand on regarde maintenant, vous allez me dire, bon, il y a l'hypothèse à l'infini que j'ai pas détaillé, mais elle sera toujours satisfaite quand c'est égal d'écarrer, elle sera toujours satisfaite quand c'est compact. Je vais mettre explicitement. L'hypothèse sur Musero, c'est un truc qu'on vérifie comme ça. L'hypothèse sur C, on le vérifie. Le petit 3, le petit 1, mais l'hypothèse sur le petit 2, vous allez me dire, et comment on fait pour vérifier ça en pratique, parce que ça semble être un truc, est-ce qu'il va falloir montrer à la main l'injectivité. Bon, la force de l'hypothèse petit 2, c'est qu'elle est vraie très souvent dans les cas intéressants, dès que C est définie par un problème variationnel. Et le méta énoncé, si on veut, c'est pas le méta, le vrai énoncé, petit 2 est vrai dès que C de XY est définie par la solution d'un problème lagrangien, 1 de l'intégral de 0 à 1, de L de gamma de t, gamma point de t, t d t, un sur tous les chemins gamma qui sont continu, continu C1 par morceaux, partenant à C de 0 à 1 à x, C1 par morceaux, et tel que gamma de 0 égal x, gamma de 1 égal y. Si on impose des conditions simples sur L, alors par exemple de classe C2 uniformément convexe en la variable gamma point, tel que les courbes minimisantes de L de cela du lagrangien L, on va dire vérifier son déterminé par gamma 0 et gamma 0 point. Le cas le plus célèbre évidemment et le plus important, c'est celui où L de gamma, gamma point t est juste égal à gamma point carré, à ce moment on est en train de regarder l'action classique, et les courbes minimisantes sont les géodésiques à vitesse constante, autrement dit, gamma de t égal exponentiel partant de gamma 0, t gamma point 0. Je suis juste en train de dire qu'on part d'un point donné avec une vitesse qui est donnée. Dans ce cas, alors pour que ce soit plus joli, je vais diviser par 2, si vous voulez, ce qui changera pas les courbes, mais ce qui rendra la formule plus jolie dans le grade XC inverse, on a grade XC moins 1 de XV est égal à XPX moins V. Et ça s'interprète avec la formule de la première variation en géométrie riemannienne qui vous permet de calculer des variations de la distance, comme des produits scalaires entre le vecteur initial de la géodésique minimisante et le petit vecteur de la variation. Donc ça, c'est un exemple, mais plus généralement, dès que votre coût est défini par un infimum avec un lagrangien, que ce lagrangien, il a de la convexité et que les courbes minimisantes vérifient une équation, une équation qui détermine le point final en fonction des conditions de départ, alors vous avez cette propriété de twist. Quel serait un contre-exemple ? Alors le contre-exemple, si je prends L de gamma, gamma pointe, et égal juste, gamma pointe, là ça marche plus. D'abord, il y a les questions de uniforme convexité qui sont plus là, mais quand vous regardez gamma pointe, c'est les géodésiques dont la vitesse peut être reparamétrisée. Là, il est évident que la position et la vitesse de départ ne vous disent pas où vous allez arriver, parce que vous pouvez toujours ralentir ou accélérer comme bon vous semble, et ça reste une courbe minimisante. L'avantage de gamma point carré, l'un des avantages, c'est que ça vous fixe la vitesse et donc vous savez exactement quel est le point d'arrivée à partir de la façon dont vous partez. Quels sont les idées de la preuve pour démontrer que cette condition-là implique d'eux ? C'est de la, j'allais dire toute bête, formule de la première variation, où on va, comme on fait, on trouve à la main le surgradient, je vais vérifier avant de te dire des bêtises, c'est dans ce très bon ouvrage, là, au chapitre 7, non, au chapitre 10, twist, voilà, oui, formule de la première variation, oui, on montre, en fait, on montre explicitement, on a, disons, d'une part, par le fait que c'est défini comme un inf, disons, le 2, en fait, va impliquer aussi le 1 sous des bonnes hypothèses, disons, avec les hypothèses que j'ai mises là, non seulement 2 sera vrai, mais 1 sera vrai automatiquement, et ça se comprend avec ma remarque de tout à l'heure que un inf, c'est facile de montrer qu'un inf est surdifférenciable, un peu comme c'est facile de montrer qu'un soup est sous-différenciable, et il suffit alors pour calculer le gradient, il suffit de trouver un sous-gradient, et le sous-gradient, on le trouve à la main en écrivant ce que c'est la première variation, c'est-à-dire, je prends un chemin qui va de x à y, puis je fais une petite variation du chemin dans une direction, d'interpolant, si on veut, et je calcule la façon dont l'action a varié. Et on trouve, je vais donner la formule explicite du gradient. En fait, la condition, elle va dire grad x, c de x, y, plus grad VL de x, gamma point 0, 0, égal 0, ça c'est l'équation qui vous permet de calculer le gradient du coût en fonction du gradient du Lagrangien. Ici, V, ça veut dire, je veux dire, par rapport au deuxième argument, et voilà, où gamma est la courbe minimisante qui joint x à y, courbe minimisante qui est unique en un point de différenciabilité de c. S'il y avait deux courbes minimisantes différentes, on aurait deux sur-gradients différents. Alors, je sais bien, une petite idée de pourquoi ça marche, et point de vue formelle, la preuve est très facile, ça demande du soin si on veut le justifier proprement, mais l'idée, elle s'explique en trois lignes. Esquise de preuve, on va commencer par regarder, regardons, x et y, tel que t de x, égal y, le transport. On se souvient du chapitre précédent sur radialité, s'il transite t de x, égal y, et que je prends psi solution du problème dual, j'aurai psi c de y, ou un psi de x, égal c de x, y. Ça, c'est dire qu'on est dans le sous-différentiel, si y partira à déroncer psi. Et maintenant, je prends un autre y qui n'est pas le bon. Et j'applique la relation maintenant, psi c de y, tel, disons, moins psi de x, lui, ça sera inférieur ou égal à c de y, tel quelconque. Bon. Et maintenant, tout bêtement, alors pardon, c'est le contraire, c'est pas y qui faut faire bouger, c'est x. Et ici, c'est x tel, bien sûr. Bon, maintenant, je soustrait la première de la seconde, disons, et je vais trouver que psi de x, moins psi de x tel, est inférieur ou égal à c de x tel y, moins c de x y. Alors psi, c'est convex. Bon. Et donc, c'est défini par un suprémum de translater de c. Et ça va hériter certaines propriétés de différenciabilité de c. En gros, si je regarde les lieux des points où psi sera singulier, ça va être dicté par les lieux des points où c est singulier. Et par exemple, juste pour prendre un exemple simple, si psi sera libshitz automatiquement, et donc différenciable presque partout, donc le lieu des points de non-différenciabilité sera de mesure nul. Psi est presque partout différenciable sous de bonnes hypothèses. Et le presque partout différenciable, ça va impliquer en particulier qu'il est mu0 presque partout différenciable. Pareil, sous de bonnes hypothèses. C'est pour ça que j'avais demandé que mu0 soit pas trop concentré. L'important, c'est que mu0 soit suffisamment étalé pour ne jamais voir les singularités des fonctions c-convex. De sorte que, vu de mu0, psi sera différenciable. Bon. Alors, on écrit, on prend un x sous ces différenciables, et on prend x-tilt tout près de x. Et alors, psi de x-tilt est à peu près égal à psi de x plus gradiant psi de x scalaire x-tilt moins x. Bon, mais d'autre part, c'est il est sur-différenciable. Donc, c'est de x-tile y est inférieur égal. Ici, inférieur égal, je veux dire qu'à une petite erreur près, c'est inférieur égal à c-deux-x-y. Plus un vecteur P qui sera un sur-gradient, scalaire x-tilt moins x. Bon, et, ah oui, alors, cette identité ici, quand je reporte là-dedans, celle-ci vous montre que c-deux-x-tile y, moins c-deux-x-y, est supérieur ou égal à une petite erreur près à grad psi de x scalaire x-tilt moins x. Et peut-être que j'ai un problème de signe. Oui, c'est ça. Bon, et bien, ça, ça veut dire quoi ? Alors, je vais soustraire ici. Ça, c'est par hypothèse, et ça, c'est comme conséquence de ceci. Donc ça, c'est un sous-gradient de cette fonction-là, de c-deux-x-y. Bon, et ça, c'est un fait général. Si vous avez une fonction qui a admé à la fois un sur-gradient ou un sous-gradient, alors, en ce point-là, elle est différenciable. Et il n'y a qu'un seul sur-gradient et qu'un seul sous-gradient, et c'est le gradient. C-deux-x-y, alors, je vais écrire ça comme c-deux-point-y. Et donc, à la fois sur et sous-différenciable, et donc, elle est différenciable. Et le sur-gradient de x-y est égal au sous-gradient du x-y. Et c'est un singleton, et c'est égal au gradient x-c de x-y. Et comme j'ai un sous-gradient, c'est forcément le bon. Et donc, égal à moins gradients de c-deux-x. Donc, je trouve grad d'x-c de x-y plus grad de c-deux-x-y égal à 0. Ce qui détermine y de manière unique, par hypothèse, grâce à la condition de twist. X-c de x-y est égal à moins grad de c-deux-x. Mais par la condition de twist, cela détermine y comme fonction de x et moins grad de c-deux-x. Bon, et c'est bien parce qu'on a utilisé chaque hypothèse une fois une seule. Tout ça range bien. On a commencé par résoudre le problème de monge, le problème de Cantorovic, pardon. Et on a utilisé le fait qu'on avait les inégalités dans le bon sens pour montrer qu'il y avait moins grad de c-deux-x. Pardon, je vais refaire dans l'ordre. On a trouvé psi, solution du problème. On a dit que psi était un suprémome de translaté de c. On a un déduit que psi avait une certaine régularité, un peu la même fonction que les fonctions convexes, une régularité automatique. On a un déduit que psi était différenciable presque partout, par exemple. Comme Muséro n'est pas trop concentré, psi est différenciable. Muséro presque partout, et donc on se place en un x tel que c'est différenciable. On utilise alors la dualité de Cantorovic pour en déduire que moins grad de c-deux-x est un sous-gradient de c, vu qu'en fonction du x, ça y est fixé. Mais alors on utilise l'hypothèse 1 pour dire qu'en plus c'est sur-différenciable. On a dit que donc c'est différenciable. Et une fois qu'on sait que c'est différenciable, on peut appliquer la condition de twist pour dire que c'est une fonction injective du second argument. La condition de twist, elle nous dit rien sur les endroits où c'est pas différenciable. C'est seulement là où c'est différenciable que ça vous dit quelque chose. Pothèse 5, c'est un bazar à l'infini. C'est essentiellement pour montrer que quand on fait un inf de translaté de c-deux-xy, quand y est envers l'infini, il ne pourrait qu'il n'y ait pas d'uniformité parce que les fonctions se mettraient à faire des trucs de plus en plus pourris à l'infini. Et donc l'hypothèse 5, elle intervient quand on veut contrôler la régularité des fonctions c-convex. Et c'est un vrai bazar à écrire, un vrai vrai bazar. Ok. Est-ce qu'en ici, Christian, on peut toujours vous trouver un agrangien ? Est-ce qu'on le sent twist ou du ? C'est un agrangien défiant à l'italien, et est-ce que ça permet de s'assurer ? Non, c'est ni... Il y a des trucs qui vérifient une condition de twist sans que ça vienne dans l'agrangien. Et il y a... Alors une question qu'on pourrait se poser, c'est quand le truc vérifie un twist, est-ce qu'on peut toujours trouver un agrangien artificiel ? Ça je ne sais pas, ça je ne sais pas. Ils appellent ça twist parce que c'était une condition utilisée par Moseur dans l'étude des twist-diffiumorphismes, je ne sais pas quoi, difiumorphismes de l'anneau, et c'est le genre de condition qui intervient régulièrement. Dans des... Disons, historiquement, au début c'était utilisé sans référence au agrangien, si je ne dis pas de bêtises, pour des applications simples, genre des trucs en dimension 1, enfin 1 plus 1, position plus vitesse, et avec des résultats du genre trouver des trajectoires fermées qui vérifient telle chose, et quand Mather a voulu généraliser ça en plusieurs dimensions dans les débuts des années 90, il a dit, évidemment c'est trop ambitieux de chercher des trajectoires fermées qui vérifient ça, mais on peut chercher des mesures invariantes qui soient supportées par des ensembles de dimensions n, par exemple, plus de 2n, et on va les chercher sous la forme l'agrangienne, et ça impliquait automatiquement le coût de formule de la première variation qui avait cette condition de twist. Il y a un livre de référence sur tout ce genre de trucs, c'est le livre de Fatih, qui est un peu dense, et dans lequel on parle en long et en large de ce genre de choses. C'est Cambridge, je crois, l'année 2. Alors on va expliciter, on va donner les deux exemples les plus importants. Bon, exemple, c2xy égale d2xy carré sur 2, alors l'équation et radix et t2x est égale à exponentielle x°psi2x pour psi c convex. Je pars du point x, je me lance dans la direction°psi2x et je me balade pendant un temps t égale 1, je m'arrête au temps t égale 1. Et c'est exactement ça. Deuxième exemple, un cas particulier du précédent exemple, si je prends le clidien dans x dans Rn, l'équation est la même chose, sauf que l'exponentielle dans Rn, c'est tout simple, c'est juste l'addition, est égale à x°psi2x ou psi c convex. Reste à comprendre ce que veut dire c convex et on montre facilement que dans Rn, psi c convex, alors décarré sur 2 convex, disons, est équivalent à dire que psi plus x carré sur 2 est convex. Et donc on retrouve alors le cas qui est venu historiquement le premier, t°x égale gradiant grand psi de x ou grand psi est convex au sens usuel, théorème qu'on va appeler de Brunier-Ruchendorf et évidemment, c'est celui qui est venu en premier et il fallait un certain temps avant que de comprendre que c'était de manière déguisée le cas général, le cas particulier de la formule avec l'exponentielle. Donc dans le cas de Rn, on a tout compris là, gradiant de fonction convex, ça, ça nous parle. Dans le cas de la variété rimanienne, on n'a pas tout compris parce que ces convex, ça reste quand même une fonction, ça reste quand même définie de manière un peu bizarre. Donc qu'est-ce qu'on sait sur les fonctions des 2 carré sur 2 convex sur une variété ? Une fonction des 2 carré sur 2 convex sur une variété. Donc je vous rappelle que ça veut dire que psi de x s'écrit comme un supremum sur y de zeta de y moins distance de xy carré sur 2. Pour un certain zeta, peu importe quel est ce zeta. Donc c'est un supremum de fonction comme ça. Là, je représente comme ça une distance xy carré centrée en y. Là, j'en ai une autre. Là, j'en ai une autre. Là, encore une autre. Par exemple, je peux prendre juste une fonction y, je peux juste me contenter ces 4 valeurs de y et ça me fait une fonction ces convex, où je peux en prendre juste les plus simples, les plus simples des fonctions des carré sur 2 convex, ça sert à un truc comme ça. Après, un peu plus compliqué, il y aura le supremum de 2 fonctions comme ça, ça va faire une sorte de colline, encore plus compliqué, il y a ça. Et puis, vous pouvez vous demander, après, ça peut être un peu n'importe quoi. Alors, est-ce que ça peut être un peu n'importe quoi ? Là, c'est une question très délicate. Et en général, par exemple, quand je regarde les fonctions ces convex, il se peut qu'il y ait des limitations sur les fonctions que je peux obtenir comme ça, qui ne seront pas du tout évidentes au départ et ça dépend de questions subtiles de régularité. Alors, pour l'instant, on va juste se contenter d'un, de deux remarques. Bon, d'abord, elle est évidente, mais il faut le rappeler, c'est automatiquement semi convex. C'est-à-dire, dans n'importe quelle carte, localement, ça sera convex plus lisse. Localement, c'est la même régularité exactement qu'une fonction convex. C'est que la lure globale qui peut être compliquée. Et la deuxième remarque est que vous pouvez montrer que si psi est un support dans un compact K et assez petite en norme C2, alors elle est décarée sur deux convex. Petite fonction est décarée sur deux convex. Et ça, c'est intéressant, c'est même fondamental, parce que ça dit qu'avec des fonctions décarées sur deux convex, si vous voulez, on peut aller dans n'importe quelle direction, localement. Quand on se demandera quels sont les transports optimaux possibles et est-ce que je peux être sûr que telle fonction correspond à un transport optimal, je sais qu'au moins, si je la prends petite, quelle que soit sa tête, son allure, elle sera optimale. Je peux toujours choisir une mesure mu 0, une mesure mu 1, telle que le transport associé sur un transport optimal, parce que ça sera décarée sur deux convex. Je ne vois pas pourquoi le fait que psi est plus décarée sur deux convex implique le fait qu'il existe le mu 0, mu 1, tel que ce soit un transport optimal. Je ne vois pas comment ça implique cette tête présente. – Alors, tu te souviens de ce qu'on avait dit sur l'optimalité ? Quand j'ai une… alors, regardons partons de ma fonction psi, OK ? La fonction psi, elle vient avec un gamma qui est le sous-différentiel. Maintenant, je prends une mesure mu 0, quel con. Et alors, imaginons ici, je vais tricher, mais imaginons que le sous-différentiel soit constitué pour chaque x, il y a un seul y. Ce qui… même, prenons psi qui est différenciable presque partout. Prenons mu 0 qui absolument continue. Alors, mu 0 presque partout pour chaque x, il y a un seul y. Donc, je vais avoir une application mesurable qui est x associé à y, bon. Et je définis mu 1 comme étant juste la mesure image de mu 0 par cette application t qui est x associé à y. Et là, par construction, le transport qui est associé à t, il a son support qui est inclus dans le sous-différentiel. Ça, tu vois, c'est le truc qu'on avait dit la dernière fois. Dès qu'on a saturation du côté duale, on sait qu'on est optimal du côté primal. Alors, où en sommes-nous ? Et bien, c'est pas mal. Alors, que dire maintenant de la régularité ? Régularité du transport. Bon, alors ça dépend de la régularité de la solution d'une dp de type monjampère. Pourquoi une dp de type monjampère ? Ben, le transport optimal avec le théorème qu'on vient de dire, il ramène le problème de trouver l'application t au problème de trouver l'application psi qui est une fonction à valeur réelle. Et je peux écrire l'équation Jacobienne qui me donnera le transport. Je l'écris, alors l'application Jacobienne dans d'habitude, c'est d'être des t de x. Et t'égale là, ici je vais l'écrire rho 0 de x sur rho 1 de t de x, le quotient des densités, avec éventuellement les subtilités s'il y a lieu sur le fait qu'on travaille pas forcément avec les mesures volumes ou qui sait quoi, mais supposons qu'ici, ce soit densité par rapport à la mesure volume, à la mesure de le bec, dans Rn, tout ça. Et maintenant que je sais qu'elle est la tête de t, c'était moins grad xc de x, moins grad psi de x, eh bien je vais écrire le déterminant Jacobien de t en fonction de ça. Bon, alors quand on dérive t, on va se retrouver à dériver ça. Et évidemment il va y avoir la dérivée de c qui va jouer et aussi la dérivée de psi. Problème de type dérivée des fonctions composées et on aura un terme qui fera intervenir que c, si on veut quelque chose qui parle de la géométrie et un terme qui lui fera intervenir psi et c mélangé. Alors quand on écrit le truc proprement, on trouve ça déterminant, hécienne de psi plus grad x, plus hécienne par rapport à x de x. Si vous voulez, je vais vous l'écrire seulement pour le distance carré. Ça m'évitera de mettre des moins un par tout et là j'aurai les exponentielles. Donc par exemple pour c égale d'écarer sur 2, et est égal à rho 0 de x divisé par rho 1 de exponentiel x grad psi de x et puis multiplier par dette grad x y c de x exponentiel grad psi. Ici comme ça. Et juste ici c'est un moins un. Ok. C'est un moins un non parce que c'était grad x c'est moins un donc non c'est comme ça. Alors on regarde cette équation là. Et on se dit qu'est ce qu'on va pouvoir en faire. C'est vraiment du monge en paire au sens où c'est déterminant de hécienne psi et puis des termes et tous les autres termes ils sont dans l'inférieur en psi. Orde 1, ordre 1, ordre 1. Donc quand on regarde le les termes de plus haut de gré ça c'est à gauche là et juste la partie en déterminant hécienne de psi. Maintenant les équations de monge en paire elles sont beaucoup plus traitres que les équations quasi linéaires ou semi linéaires. Et ce sont des équations dans lesquelles les termes d'ordre 1 peuvent influer gravement sur la sur la régularité de la solution. Et c'est seulement sous des hypothèses très contraignantes sur c qu'on sait qu'il y a une solution régulière à ça. Et donc c'est bon l'équation était bonne et le résultat le seul résultat abouti qui marche bien. C'est le résultat de non régularité qui dit qu'en général la solution n'est pas lisse et c'est toute une affaire. Ça serait tout un tout un cours de comprendre pourquoi exactement on va pas se lancer là-dedans mais juste énoncer donc théorème de non régularité de le paire. Alors soit M, une variété rimanienne, tel qu'il existe au moins un X et il existe au moins une, un plan P, un cul dans TXM, tel que la courbure sectionnelle du plan P en X soit négative donc il suffit qu'il y ait quelque part un plan dans lequel la courbure est négative. Alors il existe des densités rho 0, rho 1, c'est infini, strictement positive sur M, tel que le transport optimal T qui va de rho 0, rho 0 fois volume à rho 1 volume si on veut, avec coût C égal distance carré et discontinu, T n'appartient pas à C de MM. Bon donc aucun espoir en un certain sens, T n'appartient pas à grade PSI de MM et la fonction PSI sera non différenciable, la fonction PSI optimal. Alors PSI c'est une fonction semi-convex donc on sait qu'elle est différenciable en dehors d'un ensemble de dimensions n-1, blablabla mais elle sera jamais mieux que ça, vous ne pourrez jamais garantir que PSI sera C1. Autrement dit le programme, si on veut développer un programme géométrique basé sur le transport optimal, on ne peut pas supposer qu'on travaille avec des fonctions lisses, on ne peut pas non plus régulariser, en général les fonctions, les fonctions C convex lisses ne sont pas denses dans l'ensemble des fonctions C convex, fonctions convex on dit toujours on peut la régulariser, à coût de fonctions convex lisses je peux approcher des fonctions convex non lisses, dans le monde C convex c'est pas vrai et en général la clôture des fonctions C convex lisses ne coincide pas avec l'ensemble des fonctions C convex. Et qu'est ce qu'on va dire d'autre ? Donc vous voyez que dès qu'il y a une courbure négative quelque part, il n'y a pas de régularité. Alors on pouvait encore espérer pour ceux qui tenaient à la régularité que sur quand toutes les courbures sont positives, il y aurait régularité et cela il faut aussi et le résultat le plus négatif si l'on veut en la matière donc un autre résultat négatif, résultat de Figali, Rifor et moi-même sur un, comment on va, comment on représente ça oui, on peut, il existe des ellipsoïdes sur lesquels la même conclusion est vraie, c'est-à-dire il existe Rho 0, Rho 1 etc. tel que le transport optimal soit discontinu. Donc ellipsoïde ne pouvait pas faire plus régulier que ça. En fait dès que l'ellipsoïde quand vous le regardez, quand l'ellipsoïde est un petit peu déformé par rapport à une sphère, ça va encore mais dès qu'il est un peu trop allongé vous avez plus de régularité. Et ça vous montre aussi que transport optimal c'est subtil, la forme a vraiment son importance en tout cas par rapport à la régularité et bon je mette l'habitude de considérer que tous les ellipsoïdes sont égaux, du point de vue de la régularité et transport optimal c'est pas vrai. Selon que l'ellipsoïde est sphérique ou allongé, la régularité sera complètement différente. Alors il est vrai qu'il y a régularité sur la sphère, disons qu'on peut régulariser sur la sphère, qu'on peut approcher par des fonctions séconvex lits etc. mais c'est très très fragile, c'est-à-dire au fait que c'est vraiment la sphère. Et ça s'explique la sphère ? Oui oui mais ça serait toute une histoire. Je vais juste faire un petit dessin. On sera très en retard mais c'est pas grave. On verra si on peut rajouter une séance. Alors ça c'est pas l'argument qui est dans l'article de l'epère mais c'est une façon de comprendre ce qui se passe, ce qui est très simple. Dès de pourquoi la régularité échoue quand vous avez une courbure négative. Donc juste une idée. Bon, courbure négative c'est quoi l'exemple typique ? C'est une salle de cheval. Bon, alors on va dessiner la salle de cheval et je vais faire un truc qui semblera une énormité. Je vais la dessiner, la salle de cheval plongée et vue par au-dessus. Donc quelque chose comme ça disons. Et qu'est-ce que j'entends par là ? Imaginez que le cheval, il est là, là il y a la queue, là, et puis devant, là il y a sa tête, là, voilà. Donc vous voyez le truc par au-dessus et puis on va supposer qu'il y a des axes de symétrie, que tout est bien et que vue dessus, là vous avez des trucs, il termine les lignes. Ça c'est la ligne qui est courbée comme ceci, tac, tac, et celle-ci c'est celle qui est courbée comme ça. Donc vous êtes dessus, là, et les jambes qui passent comme ça et là ça, ça revient par ici, par devant et par derrière pour vous soutenir. Et maintenant on va tout près de ce point-là, qui est courbure négative, considérer une densité qui est très concentrée sur deux petits points, là, comme ça. Vous imaginez, là, il y a un pic, là, il y a un autre pic. Tout est lisse, mais l'essentiel de la masse est là-dedans et là-dedans. Et ça c'est mon mu 0. Et maintenant mon mu 1, je vais le mettre là, ici et ici. Donc mu 1, mu 0, disons, le gros de la masse. Bon, et puis mais c'est les densités qui sont infinies, partout, positives et tout ce qu'on veut. Bon, et maintenant je vais regarder ce qui se passe quand je fais le transport. Comme il y a le gros de la masse, mettons qu'il y a plus de trois quarts de la masse qui sont ici dans les trucs bleus, plus de trois quarts de la masse qui sont les trucs rouges. Fatalement, il va y avoir une partie de la masse qui va d'un rouge à un bleu, au lieu d'aller se perdre quelque part là-bas. Donc quelque part, mettons, il y a ça, au moins un point qui va là, qui va d'ici et ici. Bon. Et maintenant, je suis posé aussi que tout est symétrique. Mes densités, elles sont symétriques par rapport aux axes. Il y a ces deux axes de symétrie. Et transport optimal, on sait qu'il est unique. Ça faisait partie du théorème précédent. Il est terminé par l'équation, blabla. Transport optimal est unique, donc il préserve les symétries. Donc si je regarde le centre qui est là, il ne bouge pas. Il reste fixé dans le transport. Bon. Et maintenant, je regarde ce que j'ai fait. Là, j'ai haut. Là, je vais appeler A. Là, je vais appeler B. Et je sais qu'il y a de la masse qui va de A vers B et que le haut reste fixé. Bon. Et maintenant, je vais appliquer la relation de monotonie. Monotonie cyclique. Et bien qui me dit que, donc monotonie, distance de haut à haut carré plus distance de AB carré est inférieure ou égale à distance de haut à A carré plus distance de B à haut, de haut à B carré, si vous voulez. Je suis juste en train de dire que, comme c'est optimal, c'est mieux de faire ce transport-là et celui-là que de faire ce transport-là et celui-là. Et c'est juste, j'applique la relation de monotonie cyclique. Dans le cas très simple, il n'y a que deux coupes. Ça devient d'ailleurs une monotonie classique. Bon. Maintenant, regardez ça. Distance de haut à haut carré, évidemment, c'est égal à zéro. Et là, je suis en train de dire que la diagonale au carré par rapport à la somme des carrés des côtés, elle est plus petite. Mais ça, c'est impossible en courbure négative. Courbure négative, le thérème de Pythagore devient une inégalité et la diagonale est trop grande courbure négative. Donc ça, ça contredit la courbure négative parce qu'il y a un angle droit ici et donc voilà quoi. Alors si on réfléchit vraiment à ce que prouve ce raisonnement, parce que là, j'ai l'impression que j'ai un événement de contradiction, c'est que j'ai pas le droit d'écrire que le centre reste fixé. C'est un événement de mesure nul. Ce que ça dit, en fait, c'est qu'il y a une discontinuité en haut, au centre de symétrie. Donc ça, c'est l'idée, si on veut. Et avec ça, ça capture bien cette idée de la courbure négative. Alors, le théorème de régularité de le père, là, c'est ce que j'ai mis, c'est la version qui nous intéresse directement pour des questions géométriques. Mais en fait, le théorème est beaucoup plus précis que ça. Il vous donne une condition géométrique sur la variété qui vous dit quand est-ce qu'on peut et quand est-ce qu'on ne peut pas avoir la régularité. Et la condition, simplement, ici, j'ai mis et j'ai pris la façon la plus simple de vérifier que la condition de le père est violée. Il y a plein d'autres façons. Et nous, ce qu'on fait dans cet article-là, c'est de montrer que la condition de le père est violée même pour des ellipsoïdes allongées. Alors ça, ça nous dit aussi quelque chose. Le transport optimal n'aime pas la courbure négative et c'est toute une affaire pour beaucoup de géomètres qui aiment bien la courbure négative. Et sur les mille pages de ce bouquin, je crois qu'il n'y a pas un seul endroit où la courbure négative aide. Donc ça, c'est pour la régularité et non régularité. Est-ce qu'il y a des questions ? On va bientôt devoir faire une petite pause. Oui, c'est un bon moment pour faire une petite pause. Des questions ? La condition de la régularité, parce que la courbure est pincée, par exemple ? Non. La condition, elle fait intervenir le quatrième ordre par rapport à la métrique, pas le seconde ordre. C'est une condition qui fait intervenir des dérivés d'ordre 2, 3 et 4 du coût de transport et qui peut s'interpréter. Alors, je vois là comment elle peut s'interpréter. Tu regardes l'interprétation dû à Maccann et Kim, ici, présent. Tu regardes M-Cro-M et M-Cro-M, tu mets dessus une pseudométrique. Une pseudométrique qui est donnée par la dérivée croisée seconde en XY de la distance au carré. Distance en X, distance en Y. Par construction, c'est toujours une métrique NN, signature NN. Ce n'est pas une métrique rimanienne. Elle n'est pas définie positive, mais sur les deux endirections, elle n'est positive et négative. Il y a quand même des formules pour calculer les courbures sectionnelles de ces bestioles-là. Il faut éviter certaines normalisations et trucs comme ça. Maintenant, la condition, c'est que la courbure sectionnelle de ce bestioles-là soit positive dans certaines directions ou dans toutes les directions. Ça s'interprète comme une condition sur la courbure sectionnelle de cette variété pseudo-rimanienne de dimension 2N, signature NN. Si on résume dans un cadre régulier, il y a des conditions dans lesquelles on peut avoir quelque chose qui ressemble à une formule pour le transport optimal. En particulier, tout est déterminé par une seule fonction, une fonction séconvexe. D'autre part, il y a une absence en général de régularité qui fait que même si on a ces formules-là, on ne peut pas supposer que les fonctions sont différenciables ou même que le transport est continu. La dernière chose qu'on va rappeler sur le transport optimal, ce sont les distances de transport et interpolation. Je n'avais pas parlé, ça n'est pas le nom. Et interpolation par transport. Définition sur grand P de x qui est par définition l'ensemble des mesures de probabilité sur x telles que intégrale de distance de x0 à x puissance P mu de dx est finie. On définit WP de mu0 mu1 égale le coût de transport minimum intégral de distance de xy puissance P du dx et du y parmi tous les P qui relient mu0 à mu1 à la puissance 1 sur P. Avec cette définition là, il faut se limiter à P compris entre 1 et infinistrict. On peut prendre d'autres valeurs de P mais si vous tombez en dessous de P égale 1, il ne faut pas mettre la puissance 1 sur P ici et puis on l'utilise très rarement. C'est ça qui nous intéresse, surtout le K P égale 1 et P égale 2 qui sont les deux plus importants de loin. Et ceci érite des propriétés de l'espace métrique xd. Donc si xd est un espace métrique polonais donc séparable complet, alors P P de x muille la distance WP aussi. Il est métrique, il est séparable, il est complet. Et si xd est un espace géodésique, alors P P de x est aussi un espace géodésique, WP aussi. Petit rappel sur ce que c'est qu'un espace métrique géodésique. Alors rappel, en espace métrique on sait ce que c'est, séparable, ça veut dire qu'il existe une suite dense, complet, suite de cochis converges. Bon ça on n'a pas de souci. Qu'est-ce que ça veut dire géodésique? Alors pour comprendre ça on commence par définir la longueur d'un chemin et mettons que ce soit une application Lipsitz qui va de 0,1 dans x. Je peux le définir de deux façons différentes qui sont équivalentes. Première définition possible intégrale de 0,1 de l'IMSUP quand epsilon tend vers 0 de distance de gamma de t à gamma de t plus epsilon divisé par epsilon. Et j'intègre ça en t. Ça c'est une première définition possible. L'IMSUP sera définie presque partout du fait que gamma est Lipsitz. Et ce truc là, on note souvent gamma pointé, c'est la vitesse, vitesse vu dans l'espace métrique. Et la deuxième définition possible, c'est le, dire que c'est le SUP sur toutes les façons de prendre des, de diviser en n temps, donc SUP sur n et SUP sur toutes les subdivisions. 0 égalité 0 plus petit que t1 plus petit que etc plus petit que tn qui vaut 1. Des sommes pour i à l'ordre de 0 à n moins 1 des distances de gamma t i à gamma t i plus 1. Et vous voyez, la deuxième notion est très intuitive. Il s'agit de couper en petits morceaux et d'approcher la longueur du chemin par la somme des distances entre deux points successifs. Et une géodésique, c'est un chemin tel que la longueur est égale à la distance entre ces extrémités. On a toujours distance de gamma 0, gamma 1, inférieur ou égale à la longueur de gamma. Et si l'égalité est atteinte, gamma est dit géodésique. Et alors, on a par construction, quelle que soit gamma tilde, distance de gamma 0, gamma 1, inférieur ou égale à la longueur de gamma tilde. Si gamma tilde de 0 égale gamma 0 et gamma tilde de 1 égale gamma 1. Autrement dit, on a effectivement, à ce moment-là, que une géodésique est un chemin qui minimise la distance entre ces points extrémités. Et on dit qu'un espace, on dit que x est un espace géodésique. Si quelque soit x et quelque soit y, il existe une géodésique reliant x à y. Et donc on peut montrer que si l'espace x est géodésique, alors l'espace de Wasserstein, comme on l'appelle souvent WP, pour la maîtrise WP, est géodésique aussi. Je ne vais pas développer, mais ça s'inscrit dans un cadre beaucoup plus général. Si vous avez une notion d'action, un peu comme tout à l'heure, intégrale de L de gamma à gamma pointe sur votre espace, alors vous pouvez relever ça en une notion d'action sur l'espace des mesures de probabilité. Et il y a tout plein de formules qui vont avec. Et ces questions-là, c'est important aussi. On a alors, distance de x à y est égal au minimum des longueurs des chemins gamma pour gamma de 0, x, gamma de 1, y. J'ai commencé en définissant la longueur et à partir de la distance, mais après on peut reconstituer la distance à partir de la longueur. Les deux viennent l'un avec l'autre. Quand vous avez de manière générale un coût qui vient dans l'agrangien et que à la fois vous pouvez décrire le coût, le lagrangien comme le sub des sommes de tous les coups pour aller d'un temps, un temps qui vient juste après, ou que vous pouvez décrire le coût comme l'un de tous les intégrales lagrangiennes des chemins qui vont de l'un à l'autre, vous pouvez faire la même chose, se transfert de propriété. Une référence sur la géométrie métrique, c'est la référence incontestée. C'est le Burago Ivanov dans lequel, en long et en large, on regarde, on donne des conditions sur lesquelles les espaces sont des géodésies, des choses comme ça. Il y a un analogue abstrait, général du théorème classique qui dit que dans une variété rémanienne, étant donné deux points, je peux toujours trouver une géodésique minimisante qui les relie. En gros, dès qu'on a de la capacité locale, un théorème similaire va être vrai dans un cadre général. Donc, et dès qu'on a cette propriété, une propriété, disons que la distance est définie par un infe des longueurs. Qu'est-ce qu'on va dire d'autre ? On va dire que, donc ça, je ne vais pas le démontrer, je vais juste dire que la tête est là la géodésique parce qu'elle est simple, définir est très simple. Et même on va expliquer, on va donner un théorème qui vous donne la structure des géodésiques. Il sera commode, je considérais, P égal 2. Pareil, ça a l'avantage de normaliser la vitesse des géodésiques, alors que P égal 1, ça ne normalise pas. Bon, et voici un théorème. Muté, pour thé compris entre 0 et 1, est une géodésique dans P2 de X. Si et seulement si, il existe grand-pi, une mesure de probabilité sur l'espace des géodésiques. Donc ça, c'est les géodésiques de X à vitesse constante, telle que, premièrement, quand je regarde E0, E1, mesure image grand-pi, je obtiens petit pi à un couplage optimal, un couplage optimal de mu0 et mu1. Et, deuxièmement, Et, mesure image grand-pi, est égal à muté. Ou ici, par définition, Et de gamma est égal à gamma t, juste l'application d'évaluation. Donc, ce grand-pi, c'est une mesure de probabilité sur les géodésiques. C'est une sélection des géodésiques et ça leur donne un poids. Si vous gardez de cette information sur les géodésiques que l'information des points extrémos, points de départ, points de finale, vous revenez à le transport optimal, le cadre classique qu'on a vu jusqu'ici. Mais si, au lieu de ça, vous regardez que, ce qui se passe au temps intermédiaire en T, vous obtenez une mesure sur X qui dépendait et cette mesure sera la géodésique. Donc, le grand-pi, il est au-dessus tout, si vous voulez, et il vous permet à la fois de reconstruire la géodésique, le chemin qui évade l'un à l'autre, et de reconstruire le couplage, la façon d'appareiller point de départ et point d'arrivée. Dans cet énoncé, il y a un sens qui est très facile quand on le prend bien. Si je prends un truc comme ça, alors c'est une géodésique, et il y a un sens qui demande du travail, c'est si je prends une géodésique, alors il existe une mesure de probabilité. Et je vais juste expliquer comment on fait ce sens-là. Je vais expliquer les deux sens. Donc, idée. Alors d'abord, si grand-pi vérifie les hypothèses, je vais regarder l'application qui a gama de S à ceci gama de T, définir un couplage entre mu S et mu T. Je prends le particule tel qu'elle est autant S, et je la bouge vers la position qu'elle occupe autant T, et ça, ça me transforme mu S en mu T. Et je regarde la distance entre gama de S et gama de T. Si gama est une géodésique, ça va être égal à T moins S, fois la distance entre gama de 0 et gama de 1, géodésique. Quand je regarde l'intégrale double de cdx y, et puisque je vais appeler pi st, dit-on que ce soit pi st, ce couplage de dx dy, ça sera égal à l'intégrale double de distance de gama de S, gama de T carré, pi de D gama, et donc égal à S moins T carré, l'intégrale double de distance de gama de 0 à gama de 1 carré, pi D gama. Mais par hypothèse, ça, ce dernier truc, c'est égal à la même chose avec le couplage optimal, distance de xy carré, pi de dx dy. Et comme il est optimal, donc ça me fait S moins T carré, fois la distance au carré de mu 0 à mu 1. Donc là, je suis en train de dire que W2 de mu S à muté est inférieur ou égal à S moins T fois W2 de mu 0 à mu 1. Et après, toutes ces formules-là, vous voyez, elles s'ajoutent. Quand je vais les regarder sur des petits intervalles de temps, je vais toutes les ajouter. Et ici, ça sera quelque chose de linéaire en temps. Donc ça va tout s'ajouter aussi. Et sachant que, sachant que, sachant ça, la seule solution, si vous voulez, c'est que j'ai à faire une géodésique. Que mu S est une géodésique. Si vous voulez, alors comment... Oui, parce que, regardez là. Je vais prendre une définition. Je regarde W2 de mu S muté. Je divise par S moins T. C'est toujours inférieur ou égal à W2 de mu 0 à mu 1. Quand j'intègre... Quand je prends la limite, quand T est en VRS, pareil. Et puis après, quand j'intègre ça, ici mettons que ce soit S en VRT et j'intègre ça par rapport au temps, pareil. Donc la longueur du chemin muté est inférieur ou égal à W2 de mu 0 à mu 1. L'inégalité inverse est toujours vraie. Donc là, forcément, mon chemin, il est minimisant. Donc là, c'est quasiment juste écrire et dérouler les définitions. Une fois qu'on a fait cette remarque. Donc elle a mis qu'elle a fait un regard W2 mu 0 à mu 1. Donc, chemin minimisant. Alors l'autre sens, c'est plus délicat. A priori, votre géodésique, vous savez rien dessus. Vous avez juste le chemin. Il n'y a pas de couplage, quoi. Il va alors reconstituer un couplage. Si muté est une géodésique, ben, que faire ? Premièrement, j'ai mu 0, j'ai mu 1,5 et j'ai mu 1. Alors d'abord, de manière tout à fait bêta, entre mu 0 et mu 1, je peux introduire un couplage piss optimal pour le coup égal décaré. Il peut toujours faire ça. Mais là, j'ai complètement oublié la géodésique. J'ai pas utilisé mon information. Alors maintenant, je vais utiliser juste un peu de la géodésique. Juste un peu de la géodésique avec le point 1,5. Et donc je vais regarder mu 1,5. Et ben, ce que je vais faire, c'est que je vais introduire un couplage optimal 0,1,5 qui va de mu 0 à mu 1,5 et un autre couplage optimal 1,5,1 qui va de mu 1,2,1 à mu 1. Donc, deux couplages optimaux. Et une fois que j'ai fait ça, je vais en déduire une façon de rabouter, de mettre ensemble non plus des couples mais des triplets points de départ, points intermédiaires, points finales. Et pour cela, couplages optimaux, on les recole le long de leur marginale commune, mu 1,5. Alors, comment on fait ça ? Pour cela, on désintègre la première pi 0,1,5 par rapport à mu 1,5. Et donc j'ai des mesures conditionnelles pi 0,1,5 de dx sachant y et puis mu 1,5 de dy. Ça, ce sera donc égal à pi 0,1,5 de dx dy. Je note comme ça la désintégration par rapport à la deuxième marginale. Je désintègre pareil, pi 1,5,1 par rapport à mu 1,5. Donc, je vais avoir un truc qui sera pi 1,5,1 de dy sachant x. Alors, j'ai écrit ça plutôt comme ça, dz sachant y mu 1,5 de dy. Et maintenant, je recole les deux le long de mu 1,5. Et donc je définis pi avec 3 indices cette fois 0,1,5,1 de dx dy dz comme étant pi 0,1,5 de dx sachant y mu 1,5 de dy et pi 1,5,1 de dz sachant y. Qui est bien une mesure dans les trois arguments. Ça, ça me fait une mesure sur les triplets. Et une fois que j'ai fait ça, je vérifie que quand cette mesure sur les triplets, j'oublie le point demi, je récupère toujours un couplage optimal entre le point de départ et le point final. Et là, il y a un petit raisonnement à écrire en comparant les distances en utilisant le fait que c'est une géodésique. Et là, ça, ça définit une mesure de probat sur des triplets que je vais noter x0, x1,5,x et c'est la première étape de l'approximation de ma géodésique. C'est point de départ, point milieu, point arrivé. Et ensuite, je recommence. Je vais couper chacun des deux intervalles en deux et je vais définir une mesure de probat sur des quintuplets. Donc là, j'avais ça et puis maintenant je vais reprendre le point intermédiaire ici et ici. Un couplage ici, ici, ici, ici. Je recole tout. Et je vais recommencer pour construire petit à petit des mesures de probabilité sur des suites de plus en plus longues. Et après, il y aura une opération de passage à la limite où on regardera, si on veut, la limite quand le nombre de points intermédiaires tend vers l'infini et ça nous donnera une mesure sur des chemins. On vérifiera que ces chemins sont automatiquement continus et même lipchites et on en dédurera que c'est une mesure de probabilité sur les géodésiques. Oui. Là, à 3, ça fait une chaîne de marquants sur les trois éléments. Ça sera aussi vrai sur le quantum à plusieurs qu'on avait plus que 3. Oui, oui. On va avoir passant de... Qu'est-ce qu'on va dire ? Oui, oui, oui. À chaque fois, disons, la formule d'après, si on veut, je recollerai par rapport à celle-ci et celle-ci et celle-ci. Je désintègre celle-ci par rapport à son point d'arrivée. Je désintègre... Attends, comment on va faire ? Même sans... On peut dire je rajoute de manière... On fait les deux à la fois. J'en avais 3. J'en rajoute... J'en rajoute deux variables. J'en rajoute deux variables. Je désintègre... Il me faut une double désintégration. Ça, c'est pas super. Je dis ce point de bêtise. Là, je voulais en dire que la mesure produite a un produit de mesure avec un produit de mesure avec deux à deux consécutifs et sous ça, drôle. Pas surprenant, mais interlation de voir que la mesure qu'on est finie sur les marcoques, sur les triplées, sur 0x1, Saint-Jeunet... C'est vraiment ça qu'on fait. On est en train de dire que partant le... Le problème de Kantorowicz, c'est partant de x0, comment on le distingue, comment on le distribue. Et on le voit comme un... Kantorowicz, on peut aussi bien dire pi de dx dy. On peut toujours décrire mu0 dx fois pi de dx sachant x juste en désintégrant le pi par rapport à sa première marginale. Et le problème du passage de Kantorowicz amange, c'est passé de la chaîne de Markov à l'application. Et là, c'est pareil, effectivement. On va passer de... Alors, on va passer de x0 avec une certaine probabilité à x, donc l'étape suivante, ça sera un quart de x1 quart à x1 demi, de x1 demi à x3 quart, de x3 quart à x1. Et à chaque fois, à chaque fois, je vais reprendre la mesure. Et c'est pour ça que je suis en train de donner. Ici, je vais reprendre la mesure 0.5, celle-ci, là. Celle-là, je vais la couper en 2. Il va y avoir un intervalle. Je vais désintégrer... Je vais prendre les 2 mesures... Je vais refaire la reconstruction ici, la mesure optimale ici et la mesure optimale là. Désintégrer les 2 par rapport à leur marginale commune, qui là sera mu 1 quart, recoller pour aboutir à un truc qui rajoute un point. Je suis pas obligé de le faire de manière diadique aussi. Je peux me contenter de les rajouter un par an. Là, ça n'a pas d'importance. Voilà. Alors, 2 petites remarques pour terminer. Alors, oui, juste un point pour formaliser. Vous allez me dire comment on fait pour passer de l'étape où c'est défini sur des enuplés, à l'étape où c'est défini sur des chemins. Un truc le plus simple, c'est quand vous avez votre enuplé de leur coller avec des pibous géodésiques arbitrairement. Comme ça, ça vous fait une mesure d'être défini sur des chemins lipchits. Et après, passer à la limite. Alors, et il vous faut donc pour ça, ce que vous pouvez toujours construire, une règle de sélection géodésique, une règle mesurable de sélection géodésique qui vous dit entre X et Y, je peux choisir une géodésique de manière qui est juste mesurable. Il y a tous les théorèmes que vous voulez dans les théorèmes de sélection qui vous permettent de faire ça. Cela se généralise à d'autres actions dès qu'il y a une propriété de coercivité et une propriété de reconstruction. Alors, qu'est-ce qu'on entend par là ? Votre action il va y avoir une famille de coûts CST de XY qui correspondra au coût pour transporter au temps S partant du temps S en X au temps T en Y et tel que famille et puis A ST de gamma qui sera tel que CST qui seront liés tous les deux tel que d'une part CST de XY se régale à l'infre des AST de gamma sur tous les gammas tel que gamma de S égal X et gamma de T égal Y et d'autre part A ST de gamma est égal au CHUP pour S égal T0 plus petit que etc. plus petit que TN égal T des sommes des C TIT plus 1 de gamma TIT gamma TIT plus 1 donc ça c'est la façon de formaliser le fait que à partir des actions vous retrouvez les coûts et à partir des coûts vous retrouvez les actions exactement pareil que dans le cas de la longueur à partir de la longueur des chemins on déduit les distances à partir de la distance on déduit les longueurs quand vous avez cette propriété là et qu'il y a un peu de coercivité et alors coercivité ça sera le fait que les chemins existent que les chemins minimisent ou existent et le fait que quand les points extrémaux sont dans des compacts alors gamma les minimiseurs aussi sont dans des compacts plus l'ensemble des chemins minimisant à valeur pardon à extrémité dans des compacts fixés et fixés et compacts aussi si l'ensemble des chemins relient deux compacts et compacts alors vous pouvez refaire toute la construction et pareil définir une interpolation qui correspondra à cette action et un exemple très intéressant c'est quand vous avez une action qui dérive dans la grand gien au sens qui est encore là donc par exemple pour ça pareil vous avez des courbes minimisantes mais vous pourrez remonter ça en une action sur l'espace des mesures de probabilité c'est la première remarque et la deuxième remarque il y aura deux autres remarques pardon donc remarque 2 souvent l'interpolation vérifie des propriétés meilleures que mu 0 mu 1 et en particulier par exemple dans un contexte lisse avec le cou égal distance au carré muté et est le transport on va dire y et le point d'arrivée est automatiquement une fonction Lipchitz du point intermédiaire bon là c'est pas bien dit je vais vous le refaire si vous voulez gamma de t associe gamma de 1 et Lipchitz gamma et les gammas de t sont les géodésiques apparaissant dans le théorème avec le grand pi ou dit encore autrement quand je regarde ma géodésique muté et que je vais écrire mu 1 comme une mesure par un transport qui va du tenter au temps 1 mesure image mu 0 pour t est strictement positif t1 sera Lipchitz alors que c'est pas vrai que t01 est Lipchitz en général le point d'arrivée n'est pas une fonction Lipchitz du point de départ là dedans il n'y a aucune hypothèse même sur le problème de monge il pourrait très bien se faire qu'un point de départ donne lieu à plusieurs points d'arrivée mais à partir du moment où je regarde un temps intermédiaire le point d'arrivée est une fonction Lipchitz du point intermédiaire donc quand on regarde le transport en partant du temps intermédiaire ça se passe mieux et alors ceci est la base on peut le comprendre comme ça du théorème dit du graph Lipchitz du graph Lipchitzien de Maver un théorème qui vous permet de construire des mesures invariantes pour des systèmes dynamiques qui sont données comme les courbes intégrales des Lagrangiens comme ça mesures invariantes qui sont supportées par un espace de dimension n par un graph et ce graph qui est de la forme graph à chaque x on associe une vitesse et on regarde toutes ces courbes qui passant par un point x vont à cette vitesse là donnée donc la vitesse est une fonction Lipchitz du point x ça c'est le grand théorème du graph Lipchitzien de Maver et ce qui est fondamental derrière c'est ça que le transport optimal est une fonction Lipchitz du point intermédiaire je vais vous donner une identité dans le cas Eucidien qui explique ça regardons la quintessence du problème de transport optimal dans Rn où on en voit juste 2 points sur 2 points donc j'ai x1, x2 et que j'en vois sur y1, y2 sans aucune hypothèse sur x1, x2, y1, y2 peut-être qu'il y en a qui sont ego on sait rien et je suppose que le couplage x1, y1, x2, y2 est optimal c'est à dire que x1 moins y1 x1 moins y1 carré plus x2 moins y2 carré est inférieure au égal à x1 moins y2 carré plus x2 moins y1 carré on suppose juste ça donc on a 4 points comme ça et on se demande ce qu'on peut dire des points intermédiaires et donc on va poser gama1 de t est égal à 1 moins tx1 plus t y2 et l'identité elle dit très exactement ceci alors gama1 de t moins gama2 de t carré vous faites les calculs est égal à 1 moins tx1 moins x2 carré plus tx1 moins y2 carré plus tx1 moins tx1 moins y2 carré plus x2 moins y1 carré moins x1 moins y1 carré moins x2 moins y2 carré ça c'est vrai toujours quel que soit x1 x2 y1 y2 si vous définissez gama1 de t gama2 de t comme ça c'est toujours vrai mais l'hypothèse qu'on a faite ici c'est exactement ce qu'il faut pour donner un signe à ce qui est dans la parenthèse et quand l'hypothèse est vraie ce machin là est positif ceci est plus petit que ça ceci est plus petit que ça et ça implique en particulier sous l'hypothèse que y1 moins y2 est inférieur au égal la gama1 de t moins gama2 de t divisé par t et donc vous voyez bien dès que t est strictement positif c'est l'hypothèse ou pareil dès que t est strictement plus petit que h x1 moins x2 comme une fonction lypsice de gama1 moins gama2 et voilà alors on va mentionner aussi que cela reste vrai cela reste vrai dès que on travaille en courbure sectionnelle on travaille avec distance au carré distance au carré en courbure sectionnelle positive ou minorée courbure sectionnelle minorée et l'argument est dû à pétronyme alors quelle implication sur l'interpolation au niveau des mesures c'est pareil au niveau des mesures dans ce cas muté est égal à une application lypsice mesure image muté 0 dès que t0 est compris strictement entre 0 et 1 ça ne correspond pas à la vitesse il y a un peu la direction non parce que il pourrait très bien se faire que soit comme ça x1 égal y1 et x2 différent de y2 alors évidemment le fait d'aller se mettre là c'est à dire qu'on a sélectionné parmi les différentes vitesses et on peut le comprendre effectivement comme ça j'hésite entre plusieurs vitesses mais il n'y a qu'une qui me permet si je choisis le point qui est là il n'y a qu'une qui me permettra d'y aller il y avait une autre question ? c'était ça dernier dernier remarque donc là on a parlé de l'interpolation dans le problème de Kantorowicz classique qu'est-ce qui se passe quand on fait bon j'ai mu0 de mu0 je passe à muté de muté je passe à mu1 bon quand j'étais de mu0 à mu1 c'était tout encodé par une fonction psi bon et maintenant si je repars de muté et que je vais aller à mu1 il y aura aussi une fonction psi t elle a varié au fur et à mesure et puis je peux me demander quelle est la façon dont psi t va évoluer au cours du temps et la la réponse c'est que et de manière de manière extrêmement générale psi t va évoluer selon une équation de Milton Jacobi psi t est solution d'une équation d'une équation de Hamilton Jacobi au sens abstrait au sens abstrait c'est-à-dire en définissant à chaque instant psi t comme la solution d'un problème variationnel faisant intervenir le coup alors très précisément il y a deux possibilités H plus ST psi y on va le définir comme inf sur tous les x des psi de x plus cst de xy bon ça c'est le coup pour aller de x autant t à y autant s et donc si on veut l'inf par exemple dans le cas qui nous intéresse avec l'action gamma point carré ce sera l'inf des intégrales de SAT de gamma point carré parmi tous les chemins tel que gamma de s égale x gamma de t égale y et ça c'est aussi la même chose que distance de xay carré divisé par distance dans le cas de la distance au carré et puis il y aura un autre semi-groupe de Hamilton Jacobi qui lui va dans l'autre sens et qui va être définie par à partir d'une fonction phi de y sur y des phi de y moins cst de xy et en appliquant en appliquant c semi-groupe voilà donc si comment elle marche comment marche l'opération si vous donnez mu 0 et mu 1 qui sont donnés et puis qu'il y a muté interpellation entre les deux bon et que je regarde entre si s est muté quel est l'optimum et bien je vais poser si s égale le semi-groupe vers l'avant vers l'essence positive forward h0s t0s plus si et je vais poser phi t égale h moins alors si s phi t est une paire optimale pour le transport entre mu s est muté donc pour aller de mu 0 à mu 1 j'avais une fonction psi, une fonction phi du à l'une de l'autre si maintenant au lieu de mu 0 je vais à mu s et au lieu de mu 1 je vais à muté ben je fais avancer la fonction psi par le semi-groupe de Hamilton Jacobi vers l'étant positif et je fais reculer la phi par le semi-groupe de Hamilton Jacobi vers l'étant négatif et ça reste optimal et on va dire que essentiellement c'est un jeu d'écriture d'empire les inégalités dans les bons sens et de vérifier qu'on reste toujours saturé alors l'équation de Hamilton Jacobi elle va donc apparaître comme l'outil qui permet de faire l'interpolation au niveau des fonctions scalaires phi qui sont les fonctions duales dans le problème de Kantorowicz et vous souvenez qu'on avait un peu parlé de Hamilton Jacobi dans le chapitre sur la géométrie ben voilà on le retrouve ici en tant que c'est l'équation Hamilton Jacobi on peut le définir comme ça c'est l'équation par laquelle vous faites évoluer la fonction phi telle sorte que les lignes de niveau associé, les lignes gradients associés soient des courbes géodésiques et donc on continue à garder encodé sur la forme d'une fonction scalaire dépendant du temps la formation sur toutes les trajectoires voilà alors ceci, là je l'écris de manière très générale comme on se souvient dans le cas de la fonction distance au carré équation de Hamilton Jacobi d'habitude on l'écrit déronté-psi plus grad-psi-carré sur 2 égal 0 ça c'est une autre façon de reformuler ça il faut faire attention selon qu'on veut définir celui qui va vers l'essence politique celui qui va vers l'essence négative et il y a tout un sujet qui arrive avec ça c'est quelle est la régularité des solutions, des équations de Hamilton Jacobi quand vous êtes dans un cadre métrique et ça a été l'une des surprises du sujet que en général gros tout ce qu'on sait comme résultat de différenciabilité pour l'équation de Hamilton Jacobi classique dans RN ça reste vrai dans un cadre beaucoup plus général voilà, écoutez là on a fait en 3 séances ce que je comptais faire en 2 ce qui n'est pas si mal par rapport en termes de perte donc là on a on a revu tout ce qu'on a besoin de savoir sur transport optimal pour avancer le chapitre suivant on va s'intéresser au fonctionnel sur les mesures de probabilité et ce qu'il va avec des fonctionnels qui sont des puissances non-lignaires là on a vu tout ce qui correspond à je maitris le transport optimal on a parlé d'interpolation comment est-ce qu'on résoule le problème de monge à quoi ressemble le transport à quoi ressemble le coût qu'est-ce qu'on peut dire en fonction de la distance oui il y a un truc que j'ai pas dit j'ai dit que c'est un espace métrique l'espace avec la WP en gros c'est la topologie faible des mesures qui est maîtrisée par cette distance-là avec juste des subtilités à l'infini c'est une topologie qui est juste un peu plus forte que la topologie faible dans le traitement de l'infini et voilà là on en sait tout ce qu'il faut en termes géométriques et fonctionnels disons sur le transport optimal le chapitre d'après on va s'intéresser au fonctionnel les probabilités des mesures de probabilité d'autres questions on est ok je suis obligé