 D'abord, je voudrais remercier Jocelyn et Georges pour l'invitation. Donc effectivement, je vais parler de contrôle stochastique, comme dans l'exposé de Huyen. Mais l'idée, c'est que c'est un grand population. Autrement dit, ce n'est pas pour une particule, mais pour une famille de particules. Alors l'idée, c'est que les particules sont bruitées, exactement comme dans un système de particules traditionnels. Mais si vous pensez au système de particules traditionnels, en général, pas toujours, mais en général, on suppose que les bruits sont indépendants. Ça peut être un modèle de base qu'on pourrait considérer ici, qu'on va discuter. Mais on va ajouter une composante supplémentaire dans les bruits. On va supposer que les bruits entre les particules sont corrélés. Autrement dit, qu'il y a une composante de bruit qui est commune à toutes les particules dans le problème d'optimisation. Et on va voir en quoi ça peut éventuellement modifier ou affecter l'analyse du problème. Donc je vais rappeler pour démarrer les motivations et citer un peu la littérature. Donc encore une fois, on a une famille de particules. Donc ce sont des joueurs, par exemple, ou des agents dans un modèle économique ou dans un modèle financier. Et chacune de ces particules est contrôlée. Exactement comme dans l'exposé précédent, on peut contrôler la dynamique des particules à travers un terme de contrôle. Par exemple, dans l'exposé précédent, à travers la vitesse, on peut contrôler la vitesse des particules. Mais on suppose que les particules sont en interaction. Autrement dit, quand une particule change son contrôle, ça affecte les autres particules parce qu'elles interagissent. Et l'hypothèse principale qu'on va faire, c'est que l'interaction est de type chamboyen. On a vu déjà un certain nombre d'exposés où les interactions étaient de chamboyen. Et la question qu'on se pose dans ce contexte-là, c'est la question de la formation des équilibres lorsque le nombre de particules est très grand. Donc c'est la question des équilibres asymptotiques. Avec l'idée suivante, c'est que si vous recherchez des équilibres dans une grande population de particules en interaction, ça peut conduire à des problèmes qui sont très coûteux. La complexité qui est derrière pourrait potentiellement très, très grande. Et le pari qu'on va faire, c'est que passer au modèle asymptotique, c'est potentiellement réduire la complexité du problème. La raison, c'est qu'on espère, c'est un peu le mot magique qui a déjà été cité ce matin, on espère un phénomne de propagation du chaos, au contrairement dit, un phénomne de moyennisation qui permet de réduire l'étude d'un grand système de particules, particules interagissant les unes avec les autres, à l'étude d'une seule particule en auto-interaction avec sa propre loi. Et c'est ça l'idée qu'est derrière, c'est de faire ce pari que passer à la limite, c'est potentiellement simplifier le problème en réduisant la complexité. Alors, ça pose plusieurs questions. La première question que ça pose, c'est la notion d'équilibre qu'on a derrière. Alors un cadre qui a été beaucoup étudié, c'est celui de la théorie des jeux à champ moyen, qui a été initié un peu moins d'une dizaine d'années, au milieu des années 2000, d'un côté par l'Acerie et Lyonce, et à peu près à la même époque, par des gens de la communauté de l'ingénierie au Canada, Wuhan, Kent, et Malamé. Et après, des travaux supplémentaires par Pierre Cardallier, Yves aussi a beaucoup contribué à la théorie. L'idée de la théorie des jeux à champ moyen, c'est de considérer des équilibres entre les particules qui sont de type nages. Essentiellement, ça veut dire que les particules travaillent de manière un peu individuelle. Elles cherchent à minimiser un coût ou à maximiser une richesse de façon un peu individuelle au sens pour répondre à une politique individuelle. On pourrait tout à fait se poser la question, des questions similaires, dans le cadre d'équilibre collectif où là les particules obéissent à une politique commune, un donneur d'ordre commun ou un centre de décision commun. Et les questions pourraient être posées exactement dans le même contexte. Ici, on est dans un cadre probabiliste. C'est une journée probabiliste. Je dois dire que les travaux de la théorie des jeux à champ moyen sont essentiellement orientés du côté de l'analyse. Je vais rappeler tout à l'heure pourquoi. Mais on peut tout à fait aborder le problème de façon probabiliste, pour deux raisons. D'abord, c'est un problème de contrôle stochastique et comme la rappelée UN, on peut reformuler le problème dans un cadre totalement stochastique qui est abordé le problème de façon probabiliste. Donc c'est une manière de réécrire les jeux à champ moyen ou les problèmes d'optimisation. Ça, c'est une première raison pour considérer ou pour injecter des probats dans le problème. Et puis une deuxième chose, c'est que cette affaire de bruit commun sur laquelle je vais revenir dans la suite, en fait, ça revient à randomiser ou à rendre aléatoires les équilibres au sein de la population. Donc en fait, rendre les équilibres aléatoires, c'est ajouter une couche d'aléa par rapport à ce qui existait et là encore, c'est ce que je disais tout à l'heure, ça conduit à des questions supplémentaires. Donc il y a deux motivations pour mettre des probats d'un côté l'analyse et de l'autre côté la randomisation d'une certaine façon des équilibres. Alors voilà, je vais décrire le système sur lequel je vais travailler. Donc l'idée, c'est que vous avez ces grandènes particules. Donc dans un premier temps, je vais raconter le système fini donc avec grandènes particules. Vous avez des joueurs et vous prenez le joueur I. Il y a une dynamique de type suivant. Donc il y a une partie dérive et une partie bruit. Dans un premier temps, dans ce transparent-là, je vais supposer que les bruits sont indépendants. Autrement dit, je fais cette hypothèse que si IWI, c'est le bruit qui affecte le joueur numéro I, les bruits W1 jusqu'à WN sont indépendants. Et pour simplifier, vous supposez que ce sont N mouvement bruniens de variances I pour mettre une variances différente. Ce serait probablement plus difficile. Éventuellement, on pourrait en rediscuter. Si je mettais dans la variances la position, c'est beaucoup plus difficile si je mettais le contrôle. Et maintenant, vous regardez la dérive. La dérive, c'est comme dans le premier transparent ou dans le deuxième transparent, je ne me souviens plus de l'exposé précédent. Ça dépend de la position courante du joueur à l'instant T. Et ça dépend du contrôle. Donc le contrôle, c'est alpha. Et puis en supplément, ça dépend d'un terme d'interaction. Donc ce terme d'interaction, ici, je le désigne par mu bar N. Et qu'est-ce que c'est que mu bar N ? C'est quelque chose qu'on a vu dans les premiers exposés de dynamique des populations ce matin, où en fait, ça résume l'état global du système. En fait, c'est la mesure empirique du système. Donc chaque particule se voit affecter un poids, un sur N. Donc je mets la somme des masses de dirac renormalisées en chacune des particules. Donc en fait, ce terme de dérive, il dit que le joueur numéro I, dans sa dynamique, il sent la collectivité, il sent l'état global des autres particules à travers ou résumé à travers la mesure empirique du système. Alors, les contrôles naturellement, ce sont des processus aléatoires. Ils ne peuvent pas anticiper sur le futur. Et il dépend de tout le bruit qui est entre I et N, puisque les joueurs sentent tous les bruits à travers le terme d'interaction qu'elle a. Alors je vous rappelle quelques exemples simples de dépendance d'une fonction par rapport à une mesure. Vous pouvez prendre une fonction par exemple de la mesure contre une fonction de test. Function de test, ça peut être un moment, un moment de la mesure. Vous pouvez centrer la fonction test par rapport à l'état courant du joueur. Donc ici, je centre la fonction test par rapport à X. C'est exactement ça. Si j'étudie une variance, par exemple, la variance de la mesure ou la distance plutôt de la mesure à un point X, je prends par exemple le carré ici et je vais étudier la distance à petit X. Bon, voilà des exemples qu'on rencontre. Alors au niveau des applications, il y a un certain nombre d'applications qui ont été proposées. Beaucoup relèvent de la finance ou de l'économie. X6, ça peut être une richesse. Ça peut être un problème de maximisation de richesse ou de valorisation de portefeuille. Alors j'ai pas dit ce travail. La majorité de ce travail, c'est avec René Carmona. Et un des modèles qu'on avait étudié, c'est un modèle d'émission carbone. Donc on travaille sur les marchés carbones. Des marchés carbones, ce sont des marchés qui ont été mis en place par l'Union européenne pour essayer de contrôler les émissions carbone par les producteurs d'énergie, par exemple. Et on va considérer que si un producteur d'énergie est métro de carbone ou pollutro sur une période de nez, il va payer une pénalité à la fin de la période qui a été fixée par le régulateur. Et donc de fait, il y a un problème de contrôle qui est derrière. Il essaie de contrôler sa production éventuellement à travers un investissement en technologie non-pollemante. Donc il y a un problème de contrôle au regard des pénalités qui seront versées à la fin. Et comme vous avez beaucoup de producteurs sur le marché, les producteurs sont en interaction. Et de fait, c'est typiquement un cadre dans lequel cette théorie s'applique. Bon, un autre modèle qui avait été développé par René et par Jean-Pierre Fouc, c'est un modèle sur les banques centrales. L'idée était d'étudier le problème de risques systémiques. Donc les banques, une banque centrale prête de l'argent a des banques privées. Les banques privées se prêtent de l'argent entre elles. Et donc vous avez un système de banque en interaction à travers l'emprunt possible d'argent de l'une à l'autre. Donc voilà des exemples typiques qui ont été étudiés dans la littérature. Alors voilà, ça c'est un problème modèle où les particules sont dirigées par des bruits qui sont indépendants. Maintenant vous pourriez dire que si vous avez des agents ou des joueurs qui sont soumis à un environnement qui est commun, ça paraît très restrictif de dire que les bruits qui sont ressentis par chacun sont indépendants d'une particule à l'autre. Donc ça paraît assez raisonnable de dire qu'en pratique, les bruits sont certainement corrélés. Alors une façon très très simple, je ne dis pas du tout que ça décrit la réalité, mais c'est une façon très simple d'attaquer le problème. C'est de dire qu'en fait à toutes les particules vous ajoutez un autre bruit qui est indépendant. C'est un autre mouvement brunien qui est le même pour chacune des particules. Ce qui fait que maintenant dans votre dynamique vous avez la somme de deux bruniens, un qui est propre et un qui est commun à chacune des particules et vous reposez le problème de la même façon. Sauf que maintenant vous autorisez votre contrôle à sentir le passé du bruit commun B. Donc ça c'est le contexte dans lequel on est. On a ces particules qui sont en interaction. Et en fait ce que vont faire les particules c'est qu'elles ont un certain objectif. Elles vont chercher à maximiser une richesse ou à minimiser un coup ou à minimiser une énergie. Et l'énergie par exemple est du même type que celle considérée par UN. Donc pour chacune des particules je vais noter J.I. le coup de la particule numéro I. Alors il y a deux types. Il y a un terme ici petit F qu'on appelle le coup instantané en théorie de contrôle. En fait on peut penser à deux parties dans ce terme de coup d'énergie. Il peut y avoir un terme d'énergie cinétique si vous pensez à alpha comme une vitesse ça peut être alpha carré par exemple. Et puis un terme d'énergie potentielle. Et dans le terme d'énergie potentielle vous pouvez avoir par exemple l'interaction de XI avec ses voisins ou avec l'ensemble de la population. Par exemple la distance de XI à l'état moyen du système. Voilà un terme de coup ou un terme d'énergie. Et puis on peut ajouter exactement comme dans l'exposé précédent un terme d'énergie ou de coup associé à la position terminal du système parce qu'on veut minimiser à l'arrivée une fonctionnelle de coup. Donc ça c'est pour chacun des joueurs mais ce sur quoi je veux insister c'est que même si le contrôle du joueur numéro I c'est simplement alpha I le coup du joueur numéro I dépend de tous les contrôles. C'est ça le truc important. C'est que ça dépend de tous les contrôles parce que le joueur numéro I ressent les choix des autres joueurs à travers la mesure empirique donc le coup qui va payer à la fin ou son énergie à la fin dépend de tous les choix des autres de toutes les politiques des joueurs. Donc c'est vraiment un problème qui est compliqué parce qu'il implique un très grand nombre de particules dans la notion élevée vous avez donc un problème de recherche d'équilibre en dimension élevée. Alors deux notions d'équilibre qui font écho à ce que je disais en introduction une première notion qu'est la notion d'équilibre de nage donc je vais rappeler ce que c'est qu'un équilibre de nage en fait dans la suite c'est essentiellement la notion sur laquelle je vais focaliser c'est la notion qui apparaît dans la théorie des jeux à champ moyen qu'est ce qu'on appelle un équilibre de nage donc un équilibre c'est un choix pour chacune des particules la particule donc alpha c'est un contrôle donc ça dépend du temps j'ai pas indiqué la dépendance temporelle donc ça c'est la succession des contrôles choisie par là le joueur 1 à l'équilibre et ça par le joueur n à l'équilibre qu'est ce que j'appelle un équilibre de nage c'est une sorte de consensus au sein de la population au sens où si tout le monde se trouve à l'équilibre et si le joueur numéro i sort de l'équilibre en fait il va perdre, il va payer plus ou son énergie va augmenter donc c'est ce que je dis ici tout le monde est à l'équilibre sauf un celui qui est un rouge et en fait son coût est supérieur au coût il aurait eu à payer à l'équilibre donc c'est un consensus qui se forme au sein de la population au sens où personne n'a intérêt à en sortir si j'y suis et si j'en sors je perd au sens où je paye plus ça ce serait une première notion vous pouvez avoir des notions coopératives ou des notions collectives vous avez un donneur d'ordre et le donneur d'ordre c'est par exemple une société qui va gérer des restaurants par exemple et ces restaurants sont répartis sur le territoire et il va donner à chacun de ces surcursales sur le territoire une politique ou une stratégie donc à ce moment là ça veut dire que si jamais quelqu'un bouge il bouge sous l'effet du donneur d'ordre donc en fait quand quelqu'un bouge tout le monde bouge alors on va résumer ça de la façon suivante en général on va supposer le cas échéant que les stratégies sont symétriques ou on dirait échangables de façon assez propre en probabilité ça veut dire qu'essentiellement on peut échanger en fait les joueurs leur numérotation n'a pas véritablement d'importance ce sont les surcursales de la société qui sont répartis sur le territoire quand le donneur d'ordre donne un ordre tout le monde l'applique et par permutation en fait les stratégies sont invariantes en loi et qu'est ce qu'on appelle un optimum c'est un optimum pour l'état collectif de la société donc je désigne encore par étoile mes optimumes si jamais le donneur d'ordre demande de changer tout le monde change donc vous voyez que tout le monde change tout le monde sort de l'éthi libre et à ce moment là je paye au sens où la société donc c'est le coût de la société et supérieur au coût que la société aura payé à l'équilibre donc vous voyez deux notions d'équilibre qui sont différentes donc on peut se poser la question pour des contacts différents alors j'arrive à l'argument qui est en fait au coeur de l'analyse encore une fois l'idée c'est de se dire potentiellement ce sont des problèmes d'optimisation donc en grande dimension ça va conduire à des choses qui sont difficiles qui sont de complexité élevée et en fait on va faire le pari que par un phénomène de moyennisation on peut réduire la complexité alors la moyennisation qui est derrière en fait c'est un argument de type loi des grands nombres et on va voir je vais essayer de raconter, c'est tout à fait heuristique je dirais après comment ça se met proprement en place d'où sort cet argument de moyennisation donc l'idée c'est de passer donc haine tant vers l'infini de regarder quelle est la forme ou quelles sont les formes des équilibres à la limite et éventuellement quelles sont les choix des stratégies des politiques à la limite alors en fait on va focaliser sur des équilibres qui vérifient la loi des grands nombres donc ça suppose qu'il est suffisamment de symétrie dans le système je n'ai pas précisé mais si vous regardez si vous rappelez les dynamiques que j'ai données tous les joies ressent en fait la même dérive tous les joueurs ressentent la même fonction de coup il y a énormément de symétrie dans le système et si maintenant je suppose que les stratégies à l'équilibre je dis bien à l'équilibre sont également symétriques j'espère pouvoir appliquer un argument de loi des grands nombres à l'équilibre alors ce qui se passe en général je devrais dire dans certains modèles simples ce qui se passe il y a des modèles très simples qu'on peut résoudre explicitement on arrive à montrer que à l'équilibre le meilleur choix pour le joueur I c'est de la forme suivante c'est une fonction alpha chapeau qui dépend de n mais éventuellement quand n tend vers l'infini la fonction converge ça dépend de n de la position courante du joueur I et de la position de la collectivité vous voyez que le cas échéant c'est quelque chose de très très symétrique et ça donne lieu à l'équilibre à un système de particules échangeable pour lequel je vais pouvoir appliquer la propagation du chaos donc si je suis dans un régime comme ça la propagation du chaos me dit que la mesure empirique oublier le bruit commun prenait des bruits indépendants j'ai des correlations des particules et la mesure empirique converge vers la loi commune de chacune des particules donc ça c'est le résultat de Schmitzmann dans son cours dans son cours de Saint-Four qu'est-ce que ça veut dire ? ça veut dire que la mesure empirique je peux la remplacer par la loi de la particule et dans le contrôle la dépendance par rapport à la mesure je peux la remplacer par la loi de la particule donc j'ai réduit l'interaction avec la mesure empirique par une interaction avec la loi de la particule et pareil si je regarde le cours de chacune des particules je peux passer à la limite et le cours dépend simplement de la loi de la particule alors ça c'est un cas qui arrive qui n'est pas si fréquent mais c'est un cas qui arrive dans des modèles simples pour le contrôle qu'il y a de cette forme là maintenant ce que je voudrais comprendre dans la suite c'est comment je peux interpréter ces deux équations cette dynamique et ce problème de coups comment je peux les interpréter comme un problème d'optimisation à la limite est-ce que je peux résoudre ce problème d'optimisation à la limite et si oui comment je peux éventuellement le réinjecter dans le problème à nombre de joueurs filles c'est ça le principe essentiellement donc comment est-ce qu'on peut comprendre on veut peut-être devoir dire avant de dire ça je vais parler un peu vite qu'est-ce qui se passe s'il y a un bruit commun c'est quand même le titre de mon exposé alors s'il y a un bruit commun et si vous supposez que les politiques encore une fois les stratégies sont de la forme comme ça une fonction de la position une fonction de l'état commun quand vous cherchez à faire de la propagation du chaos essentiellement ça revient à dire que je fixe le bruit commun je le fixe comme essentiellement je conditionne la valeur du bruit commun je travaille conditionnellement à la valeur du bruit commun et conditionnellement à la valeur du bruit commun j'ai un phénomène de propagation du chaos ça veut dire que le cas échéant j'ai une convergence de la mesure empirique non pas vers la mesure du système mais vers la loi conditionnelle d'une particule sachant le bruit commun donc c'est là où ça devient plus compliqué c'est que la mesure empirique est pas approchée par une mesure déterministe mais c'est par une mesure aléatoire mais c'est une mesure qui dépend d'un aléat et cet aléat c'est l'aléat que vous avez observé à travers le bruit commun jusqu'à l'instant t donc c'est ça le mot randomisation que j'avais fait apparaître dans mon transparent du début et le cas échéant vous avez les mêmes approximations mais maintenant c'est une mesure conditionnelle autrement on est sur une mesure aléatoire qui dépend de la réalisation d'un environnement qui est commun à tous les joueurs l'espérance va être par rapport à elle aussi non alors ça c'est une vraie espérance ça c'est une espérance c'est pas une espérance conditionnelle c'est juste ici les mesures empiriques elles deviennent des mesures conditionnelles mais l'espérance elle reste une espérance alors voilà je vais essayer de décrire directement les problèmes d'optimisation à la limite sans passer par cet argument de propagation du chaos qu'est ce que devrait être le problème limite obtenu dans les transparents précédents qu'est ce que je m'attends à quoi je m'attends à la limite alors évidemment je vais avoir deux problèmes différents suivant la notion que je donne à mon équilibre si j'ai un équilibre de Nash je dois avoir un premier problème d'optimisation asymptotique et si j'ai un problème d'optimisation collective je dois avoir un deuxième problème d'optimisation alors je vais commencer par le cas de de Nash donc c'est la théorie des jeux H en moyen en fait le principe de Nash c'est de dire c'est un consensus si je sors du consensus je perd alors qu'est ce qui se passe si je sors du consensus en grande population en fait si je sors du consensus en grande population les autres ne sortent pas du consensus donc essentiellement quand moi je bouge la mesure du système est quasiment pas affectée donc asymptotiquement quand n tend vers l'infini quand moi je bouge la mesure du système n'est pas affectée ne change pas quand tout se passe comme si en fait je pouvais travailler le long d'une famille de mesures marginales fixées donc je me fixe une famille de mesures marginales en tête je me dis ces mesures cette famille mutée ça va décrire à l'arrivée les mesures marginales du système à l'équilibre mais dans un premier temps je sais pas qui est l'équilibre je dois le deviner je le cherche donc je me dis je fixe un candidat pour être les mesures d'équilibre je fixe mu ça me désigne moi je suis le premier joueur ben quelle est ma politique optimale quelle est mon choix sachant que tous les autres joueurs ont choisi leur stratégie leur état collectif muté donc je fixe mu dans la dynamique par exemple du premier joueur mais je pourrais le faire pour n'importe l'autre joueur et j'optimise c'est ça le principe donc là j'ai un problème d'optimisation classique j'optimise et supposons que j'arrive à trouver à résoudre ce problème d'optimisation par la solution optimale qu'est ce que je cherche je me dis je me souviens de la condition qui apparaissait par exemple dans le transparent précédent je me souviens du fait que à l'équilibre ça c'est le cas du prix commun à l'équilibre le muté ça doit représenter en fait la loi du joueur lui-même donc en fait en sortie ce que je dis c'est que je fixe mu je résoudre mon problème d'optimisation et en sortie je rappelle que la loi de la meilleure de la meilleure chose la loi optimale la loi de la particule des trajectoires optimales en fait ça doit être la mesure d'équilibre elle-même donc en fait ce que je fais en sortie c'est que je résoudre un problème de point fixe je dis j'ai fixé muté en entrée et bien en sortie je résoudre muté c'est la loi des trajectoires optimales sous la condition mutée donc voilà ce que c'est que le résoudre le problème à l'infini c'est résoudre ce problème de point fixe qu'est ce que j'aurai dans le deuxième cadre dans le deuxième cadre j'aurai quelque chose de différent parce que dans le deuxième cadre donc dans le cadre de l'optimisation collective à la différence du premier cas quand la première particule bouge elle bouge parce que le donneur d'ordre lui a demandé de bouger donc si le donneur d'ordre a demandé de bouger tout le monde bouge si tout le monde bouge ça veut dire que quand moi je bouge tous les autres bougent et donc tout le monde bouge en fait en même temps ça veut dire que à l'infini le mukella ou la mesure qui était ici elle peut pas être fixée à l'infini j'ai une propagation du chaos le mukella il doit être il doit désigner la loi commune de toutes les particules quand elles ont choisi la politique imposée par le donneur d'ordre donc qu'est ce que je vais faire je vais me fixer un contrôle et je vais résoudre cette équation et je vais optimiser le coup donc vous voyez que c'est différent en fait il y a une la condition de Makini Vlasov est pas posée de la même façon dans le premier dans le cas équilibre de Nash je fixe ce mu j'optimise et j'impose Makini Vlasov donc la condition d'identité des lois dans le deuxième cas le cas collectif tout le monde bouge j'impose d'abord que la mesure mu ce soit la mesure collective et après j'optimise donc ça pour dire qu'on a deux problèmes à ce type différent dans la suite ce que je vais faire c'est que je me focalise sur le premier j'aurais pas le temps de discuter les deux il existe un théorique qui dit que le deux sont les mêmes la plupart des cas les deux ne sont pas les mêmes le cas typique qu'on sait résoudre c'est le cas de coefficient linéaire mais dans le coup on sait tout expliciter et on voit très bien que sauf cas exceptionnels ce ne sont pas les mêmes ce ne sont pas les mêmes maintenant je vais focaliser sur les jeux à champ moyen et je vais revenir au cas où il y a du bruit commun parce que c'était le titre de l'exposé je vous rappelle ce que j'ai dit ça c'est sans bruit commun le principe que j'ai dit c'est un exercice pas encore à trou mais presque on fixe le flow de mesure si j'ai une mesure mutée j'optimise là et j'impose la condition de point fix maintenant qu'est ce qui se passe si j'ai un bruit commun c'est un peu plus compliqué parce que si j'ai un bruit commun ça veut dire que les mesures mutées qui sont là ce sont des mesures aléatoires donc ça veut dire que en entrée ce que je dois fixer c'est non pas une famille de mesures mais c'est un processus à valeur mesure donc j'ai une famille de mesures aléatoires essentiellement elles dépendent de l'aléa à travers la réalisation du passé du bruit commun j'ai fixé ça donc j'ai fixé le mu je résume problème d'optimisation et j'impose en sortie que muter ce soit la loi conditionnelle de la trajectoire optimale sachant le passé du bruit commun c'est l'adaptation de ce que j'ai raconté précédemment on a décrit les problèmes asymptotiques maintenant il y a plusieurs questions la première question c'est de résoudre le premier problème c'est de résoudre le problème d'équilibre ou de trouver les équilibres à la limite éventuellement de discuter l'unicité des équilibres à la limite une fois qu'on a fait ça éventuellement c'est de réinjecter les équilibres dans le système du jeu en joueur ça c'est une question qu'on verra la fin mais en fait quand on parle de la théorie des jeux à champ moyen essentiellement c'est de résoudre l'équilibre dans le problème que j'ai décrit ce qui a été fait dans la littérature donc l'approche qui a été développée par Lasserie et Lyon c'est une approche d'épiste, l'idée la suivante c'est de dire vous avez un problème de contrôle comme la rappelée UN le problème de contrôle il se résume par une équation d'HGB, une équation d'Amilton Jacobi Bellman mais en fait l'équation d'Amilton Jacobi Bellman elle dépend de la mesure des particules enfin de la loi des particules et la loi des particules c'est la loi des particules ou laisser la loi d'un processus de diffusion un processus de diffusion on sait caractériser sa loi par une autre Dp qui s'appelle une Dp de Fokker Planck ou une Dp de Kolmogorov donc en fait en EDP la résolution du problème de jeux à champ moyen consiste en la résolution d'un problème forward sur une équation de Kolmogorov ou une équation de Fokker Planck qui va décrire la dynamique de la loi des particules et un problème backward qu'un problème de HGB qui va décrire la dynamique d'une fonction valeur l'idée de ce problème forward backward on va la retrouver dans une description probabiliste des équilibres mais qui s'appuie sur un principe un peu différent qui n'est pas tellement éloigné qui s'appelle le principe de Pontriagin stochastique donc c'est le stochastique Pontriagin principle c'est pas très très loin de ce qu'a raconté Yann c'est un petit peu différent mais c'est pas très loin et c'est encore une fois comme dans l'exposé précédent fondé sur la théorie des équations étrograde alors en fait ce principe de Pontriagin c'est une généralisation du principe de Pontriagin en contrôle déterministe ou des équations amiltoniennes en mécanique l'idée c'est qu'on fait apparaître un amiltonien alors problème d'optimisation comme il y a dit UN il y a un fenêtre de dualité donc par dualité je vais introduire une variable auxiliaire qui va s'appeler petit Y on va voir ce que c'est que ce petit Y tout à l'heure alors oui je suis en dimension 1 donc il y a un produit scadère ici ça sert pas à grand chose le drift B il dépend de la position courante de la particule de la position de la population à travers sa mesure mu c'est une mesure et elle le fasse et le contrôle je multiplie par Y qu'elle a variable jointe et j'ajoute le coup donc ça c'est un amiltonien si vous pensez à HIV Y c'est un gradient c'est le gradient de la fonction valeur et vous retrouvez le amiltonien courant dans HIV si vous pensez à un problème de minimisation d'énergie cinétique le amiltonien est convex en alpha alpha carré par exemple et vous pouvez supposer raisonnablement qu'il y a un minimiseur unique au amiltonien alpha chapeau qui va dépendre de XY et mu il minimise le amiltonien à XY mu fixé en la variable alpha si vous avez la convexité c'est raisonnable et à ce moment là il y a un principe qui dit que on s'attend à l'équilibre tout trajectoire optimal et solution d'un problème forward et backward il est essentiellement cette idée de forward-backward et la même que dans le couplage forward-backward qui apparaît dans la description analytique des jeux H en moyen l'équation forward c'est simplement la dynamique des trajectoires à l'équilibre donc ici j'ai fixé mu exactement comme dans le trace parent précédent mu est fixé ce qui sera à l'arrivée l'équilibre je le connais pas encore je le cherche donc je me donne un candidat pour l'équilibre je le fixe et j'optimise donc j'optimise à mu fixé les trajectoires optimales S sont là donc B de X mu le contrôle et le contrôle c'est un alpha chapeau de l'X il est là de Y c'est une variable joint que je vais expliquer tout de suite et mu c'est le muté que je me suis fixé en entrée et qu'est-ce que c'est que Y Y c'est la solution plus importante qu'une généralisation des équations amiltoniennes c'est la dérivée du amiltonien par rapport à la variable d'état moins la dérivée du amiltonien par rapport à la variable d'état donc le amiltonien vous le calculer le long des mêmes valeurs et vous demandez à ce qu'à la fin Y2T ce soit la dérivée du coût terminal ça c'est l'idée classique du amiltonien sauf que si vous faites ça en régime probabiliste mais parce que votre contrôle qui est là il faut pas qu'il anticipe sur le futur vous voulez un contrôle qui dépend que du passé du brunien si vous résolvez juste cette équation différentielle des Y égale moins la dérivée du amiltonien vous oubliez le truc qui est rouge à la fin eh bien essentiellement comme votre condition au bord pour Y c'est une condition terminale elle va anticiper sur le futur il y a la théorie des équations rétrograques qui a été développée qui dit qu'on doit corriger la dynamique par un terme martingale pour avoir une solution adaptée, on sait faire ça de manière unique il y a une unique correction martingale pour avoir une solution à l'équation rétrograde donc en fait on sait caractériser les équilibres à mu fixé par une équation forward-backward avec condition terminale et maintenant je rappelle la condition que mu ça doit être la loi de x ça c'est la condition de point x dans les jeux à champ moyen de mu c'est la loi de x donc on sait qu'on s'attend à ce que les équilibres à la limite vérifient ou donnent une équation forward-backward de type machine-vlasov au sens où ça dépend de la loi des solutions réciproquement si on a suffisamment de convexité sur les coefficients on sait que si on a une solution à ce système-là automatiquement ça va être un équilibre donc ça il faut de la convexité parce qu'il faut de la convexité dans la variable x et ça c'est une hypothèse assez méchante quand on regarde en pratique ce que ça donne mais c'est très efficace et très robuste alors en plus à mu fixé si on a des bonnes hypothèses de convexité on sait que y c'est avec une fonction de grand x alors la fonction va dépendre de mu puisque je me suis fixé mu mais c'est une fonction de grand x et ça sur un plan pratique c'est très important en injectant la valeur de la variable petit x ici dans la fonction u et dans la valeur de alpha-chapo donc voilà ça c'est comme ça que ça marche pour l'optimisation et donc je rajoute la couche McNeill-Lazoff pour décrire les équilibres du jeu à chambriant si j'ai un bruit commun c'est le même principe sauf qu'ici j'ai le bruit commun qu'apparaît là j'ai une contrainte qui est une loi conditionnelle d'équation de McNeill-Lazoff conditionnelle à l'arrivée puisque ici j'ai des lois conditionnelles qui apparaissent et j'ai y qui va se représenter comme une fonction aléatoire de grand x l'aléa de dépendant que de l'aléa commun donc ça c'est la généralisation du principe donc ce que je vais chercher à faire dans le plan qui me reste c'est de raconter dans un premier temps comment on peut résoudre ce système-là pour chercher à attraper des équilibres aux problèmes de jeu à chambriant donc voilà je voudrais résoudre ce problème-là avec la condition que muter c'est la loi de X donc essentiellement pour résoudre la stratégie je vais juste raconter la stratégie je vais pas faire la preuve rassurez-vous en détail ce que je veux simplement c'est trouver donc un point fixe au sens je fixe mu en entrée je trouve la trajectoire optimale et en fait je veux que mu ce soit la loi de la trajectoire optimale ça c'est le cas où il n'y a pas de bruit commun je commence encore une fois par le cas simple je cherche un théorème de point fixe alors en fait les problèmes forward-backward sont un problème qui sont très compliqués parce que les deux directions se rencontrent sont des problèmes au debout et en fait c'est relativement difficile et le corollaire de ça c'est que c'est à peu près sans espoir de faire des théorèmes de point fixe de type Picard sauf peut-être en temps petit mais en temps arbitrairement donné c'est à peu près sans espoir donc on utilise des théorèmes de point fixe plus faibles de type showder pour lesquels il y a existance un point fixe mais il n'y a pas d'unicité showder essentiellement c'est montré que cette application elle va envoyer un convex dans lui-même de façon continue et à une mâche compacte donc ce qui est très important dans ce genre d'argument de point fixe c'est la compasité très long dans les détails c'est que avoir la compasité dans l'espace des mesures de probat c'est pas très compliqué parce que l'espace des mesures de probat on le connait bien et on s'est caractérisé assez simplement les sous-ensemble compact par des arguments de tension de contrôle des queues donc c'est quelque chose qu'on sait assez bien faire donc en fait mettre en oeuvre une stratégie de ce type là c'est pas si difficile pour peu qu'on soit capable de contrôler les queues de probabilité des images de cette fonction FI alors ça requiert un certain nombre d'hypothèses je les ai dit c'était très très rapidement ici convexité du Hamiltonien ça c'est pour résoudre mon problème forward-backward à MU fixé de la régularité parce que je veux que mon application FI ici elle envoie MU sur son image de façon continue et puis après j'ai des hypothèses un peu plus techniques qui viennent de ce que du fait qu'on est capable de montrer que la capacité dans ce problème là la capacité essentiellement est équivalente à montrer qu'il n'y a pas de fuite de masse au sens où il n'y a pas de fuite de l'espérance des mesures vers l'infini autrement dit si on contrôle l'espérance des images on arrive à contrôler la mesure tout entière alors c'est pour ça qu'on a une hypothèse qui est un peu étrange ici si ce produit scalaire l'a dérivé évalué en un Dirac c'est parce qu'on pense à X comme une mesure constante on contrôle l'espérance et donc c'est la Dirac qui apparaît la Dirac ça veut dire que pour contrôler une mesure il suffit de contrôler la mesure d'espérance équivalente on a une condition étrange qui dit il faut que le gradient évalué en a Dirac soit minoré par le dessous par quelque chose de plus linéaire bon je ne rentre pas dans les détails c'est juste pour dire qu'on a un jeudi pothèse sous lequel on est capable de faire du point fixe de type shoulder ça ça donne l'existence d'équilibre donc je résous la formable backward à travers un théorème de type shoulder imaginez maintenant que je cherche à faire la même chose avec un bruit commun donc c'est le même problème mais maintenant en entrée c'est plus une trajectoire détermise c'est des mesures aléatoires et ce que je veux c'est les identifiés en sorties avec des lois conditionnelles sachant le bruit commun bassement le problème de point fixe il est beaucoup plus compliqué parce que vous êtes en train de chercher à identifier omega par omega hasard, réalisation de l'hasard par réalisation de l'hasard muté avec la loi conditionnelle de fait vous avez un problème de point fixe en un espace qui est beaucoup plus gros c'est l'espace des mesures essentiellement mais à la puissance omega ou omega c'est votre espace de probat et ça ça fait quelque chose qui est beaucoup beaucoup plus gros et pour lequel essentiellement vous n'avez pas de capacité évidente c'est pas du tout évident de donner une topologie sur lequel vous allez avoir des arguments de capacité simple et donc là le problème il devient beaucoup plus compliqué donc dans le cas d'un bruit commun la recherche de l'existence d'une solution est beaucoup plus compliquée parce que c'est moins facile d'accéder à la capacité pour la mesure de la population alors une solution, une stratégie qu'on a développée avec René c'est de dire en fait dans le conditionnement dans la loi conditionnelle de x sachant b le conditionnement sachant b on va le remplacer par un conditionnement sachant quelque chose qui prend un nombre fini de valeur de sorte qu'on ramène le problème à des conditionnements sachant des variables aléatoires prenant ça ça veut dire qu'on se ramène à des cas où omega il est fini si omega il est fini la capacité vous la retrouvez de façon simple donc c'est ça qu'on a fait je le racontais rapidement c'est peut-être un peu brutal mais je voulais éviter les détails donc ce que vous faites c'est que dans R vous introduisez une grille de projection spatiale donc i sin xm ce sont des points dans R et puis vous introduisez une grille de projection en temps et pour chaque instant de la grille en temps vous projetez la réalisation du bronien et vous appelez ça bêchapo et à ce moment vous cherchez à résoudre la forward backward donc ce système xy et c'est pas la loi conditionnelle de x sachant b que vous mettez mais c'est la loi conditionnelle de x sachant la discrétisation du mouvement bronien et là vous refaites le même jeu et ça remarche de la même façon vous êtes capable de démontrer que il y a point x par théorème de chaudeur ça ça vous donne une solution lorsque le conditionnement par une grille ou par une version discrétisée du mouvement bronien une fois que vous savez ça vous cherchez à passer la limite lorsque le temps la grille va ressembler à zéroté et lorsque les points en espace vont couvrir R de façon plus en plus fine alors ça ça oblige à passer la limite sur les équilibres que vous avez trouvés donc pour chaque valeur de m et de n vous avez trouvé un équilibre trajectoire optimal et un u chapeau, qu'est ce que c'est que ce u chapeau c'est la fonction qui relit la variable duale à la variable forward et il se trouve que on est capable de démontrer qu'on peut passer en loi au sens faible sur ces quantités-là autrement dit on est capable de démontrer qu'on a de la tension sur il se chapeau vu comme un processus sur la famille des mu chapeaux vu comme des mesures et sur les u chapeaux vu comme des fonctions ou des modularités sur ces fonctions d'as ou des hypothèses de convexité donc on passe à la limite et à la limite on obtient une solution au problème avec un bruit commun donc c'est comme ça qu'on fait c'est essentiellement la stratégie sauf qu'il y a une limitation quand on regarde précisément la raison et la suivante c'est que si vous cherchez la raison d'une EDS avec des coefficients qui sont simplement continu avec des coefficients réguliers vous montrez que les solutions à coefficients réguliers sont tendues dont vous pouvez extraire une suite qui va converger faiblement la solution que vous récupérez c'est une solution faible autrement dit la solution est pas adaptée au bruit qui dirige l'équation c'est exactement le même phénomène qu'on va trouver ici on va trouver certain équilibre mais c'est ce qu'on appelle un équilibre faible c'est comme ça qu'on l'a appelé un weak equilibrium d'accord on a B mu on a une famille de mesures qui est portée par un espace de promo omega 1 il est indépendant du bruit indépendant W ça c'est exactement ce qu'on voulait mais mu c'est pas la loi conditionnelle de X sachant B c'est la loi conditionnelle de X sachant une filtration qui est un peu plus grosse qu'est-ce que ça veut dire ? ça veut dire que à la limite je sais pas que mu est adapté par rapport à B je sais pas que c'est la loi conditionnelle c'est la loi conditionnelle sachant une tribu qui est un peu plus grosse j'ai dû grossir l'information observable pour passer à la limite alors comment on retrouve le contexte qu'on veut c'est un argument qui est connu en analyse stochastique c'est pour une EDS si j'ai unicité forte et existence faible j'ai existence forte ça veut dire si j'ai une EDS pour laquelle j'ai unicité forte toute solution faible et en fait solution forte il y a le même principe ici si jamais j'ai unicité des équilibres automatiquement muté ça doit être la loi conditionnelle de X sachant B donc on va retrouver des vrais équilibres au sens où on les voulait au début en imposant à la limite un résultat d'unicité ça nécessite de savoir démontrer l'unicité pour l'instant j'en ai pas parlé ce que j'ai dit c'est que j'étais capable de trouver par méthode de capacité construire des équilibres dans le cas sembler commun des équilibres faibles dans le cas avec bruit commun et là je dis si j'ai unicité mais équilibres faibles avec bruit commun ce sont des équilibres forts il y en reste 2, 3, 4, 5 minutes je sais pas 5 minutes d'à peu près bon merci beaucoup donc je vais terminer par ces remarques concernant l'unicité l'unicité a été étudiée par un critère qui a été donné par la cerie et Lyons c'est un critère qui est un peu technique c'est à dire qu'un cas simple c'est le cas où B dépend pas de mu pensé à B c'est simplement alpha c'est juste la vitesse des particules je contrôle la vitesse et dans le coup je suis capable de séparer le coup en deux parties interaction de X avec mu et une partie contrôle et si on a une propriété de monotonie sur F0 alors il y a unicité en fait il faut aussi la même propriété de monotonie c'est à dire après monotonie au sens où quand j'intègre F0 de mu moins F0 de mu prime contre la différence des mesures il faut que ce soit positif si j'ai la même chose sur G alors j'ai une cité des équilibres ça c'est dans le cas sans bruit commun et ça marche aussi avec bruit commun c'est une condition qui est très robuste et qui s'adapte aux deux situations on a des exemples ou c'est vérifié et maintenant vous pouvez vous poser la question suivante vous dites il y a une condition sans bruit et j'ai un problème avec bruit la condition sans bruit elle va s'appliquer aussi au cas avec bruit mais il y a un certain nombre de cas de système dynamique où je sais que je suis capable de restaurer l'unicité en ajoutant du bruit par exemple vous prenez une équation différenciée à l'ordinaire qui est singulière au sens où le champ de vitesse c'est pas lipchitz c'est pas unicité et trajectoire maintenant vous rajoutez un mouvement bronien vous savez que vous avez unicité et trajectoire parce que essentiellement le bruit vous emmène loin des singularités et vous permet de restaurer l'unicité si c'est une question que vous pouvez vous poser vous avez un problème sans bruit condition d'unicité vous rajoutez du bruit au sens où c'est ce bruit commun qui vous donne des équilibres aléatoires est-ce que le bruit favorise l'unicité il se trouve qu'on a des exemples où la réponse est vraie alors c'est des exemples très simples mais ça ouvre la piste à des réflexions supplémentaires est-ce qu'on sait généraliser ça pour l'instant on sait pas c'est un exemple où effectivement le bruit permet de régulariser les équilibres au sens où ça permet d'assurer l'unicité des équilibres à la limite alors voilà l'exemple l'exemple que j'ai essentiellement c'est linéaire en X et linéaire en alpha pour la partie B et quadratique en X et quadratique en alpha pour la partie Q il faut savoir que linéaire quadratique à zéro du contrôle c'est le cas essentiellement on sait à peu près tout calculer par contre ce qu'on rajoute c'est une dépendance non linéaire en la moyenne de la mesure donc en fait je paramétrise la dépendance par rapport à la mesure simplement à travers une dépendance par rapport à la moyenne donc en fait la dépendance par rapport à une composante de dimension infinie pour simplifier je la ramène une dépendance par rapport à la moyenne qui est une composante de dimension 1 je résous et je vous dis le contrôle linéaire quadratique on sait très bien faire et on sait montrer que les équilibres dans mon format backward XY Y doit forcément s'écrire de la forme Y comme X plus un certain qui et qui c'est un système format backward moyenne de la mesure d'équilibre variable adjointe pour la moyenne si je sais résoudre ce problème format backward pour la moyenne et sa variable adjointe alors je suis sûr que j'ai un équilibre réciproquement tout équilibre me dit que la moyenne va vérifier ce couplage format backward pour une variable adjointe donc je sais caractériser les équilibres à l'aide d'un système format backward qui porte sur la moyenne et il se trouve que c'est un résultat qu'on connaît quand j'ai du bruit le B c'est exactement le bruit commun la moyenne ça devient une espérance parce que j'ai une loi conditionnelle quand je prends la moyenne c'est une espérance conditionnelle quand j'ai du bruit commun dans un système format backward de ce type là pour peu que les coefficients B, F et Sigma soient réguliers, bornés je sais que j'ai unicité et on sait que c'est faux il y a des exemples où c'est faux sans bruit commun et on sait que le bruit régularise c'est un phénomène de type régularisation par noyau de la chaleur le fait que le noyau de la chaleur régularise les quantités qui sont sous-jacentes permet d'assurer l'unicité donc voilà un exemple où sans bruit si j'avais mis une volatilité zéro sans bruit on n'a pas unicité avec bruit on a unicité on a un exemple où le fait d'avoir randomisé ça garantit l'unicité évidemment ça ouvre des questions ici c'est un modèle très simple on a paramétrisé par la moyenne qu'est-ce qui se passe pour des modèles de dimension plus élevés évidemment si vous avez une véritable dépendance de dimension infinie donc par rapport à la mesure ça c'est une première question une deuxième question intéressante c'est quand vous faites quand vous avez du bruit commun vous pouvez artificiellement ajouter une viscosité évanescente dans le bruit commun vous faites tant de la viscosité vers zéro quel équilibre ça pourrait vous sélectionner pour le système sans bruit donc est-ce que ça pourrait vous sélectionner d'un équilibre physique par exemple donc ça c'est une autre question qu'on peut se poser c'est essentiellement ce que je voulais dire juste une conclusion ce que je n'ai pas dit c'est comment vous revenez au jeu à n joueurs l'idée la suivante c'est de dire une fois que j'ai résolu mon problème asymptotique j'ai trouvé la forme du contrôle optimal à appliquer je vous ai dit tout à l'heure le contrôle optimal on s'attend à ce que ce soit juste une fonction de petit x imaginez que cette fonction de petit x on puisse la calculer numériquement je la réinjecte je l'impose comme politique ou comme stratégie pour les joueurs du système à un joueur mais en fait ça forme pas tout à fait un équilibre mais on est capable de démontrer que c'est un presque équilibre au sens où c'est presque nage quand un joueur quitte l'équilibre la plupart du temps il va perdre et si jamais il gagne il gagne un tout petit peu et le tout petit peu tant vers zéro quand on est en temps vers l'infini qu'est ce qui se passe stress si en changeant alpha enfin dans une certaine région d'alpha on perd la propriété de propagation du chaos et les quoi sont les machines basables là je sais pas trop ce qu'on peut faire éventuellement c'est diviser dans des sous-populations et chacune des sous-populations va vérifier un problème de propagation du chaos le cas échéant t'as pas un problème de contrôle à la limite mais t'as un problème de jeu à la limite sur chacune des sous-populations donc tu vois tu as des populations elles vérifient la propagation du chaos et les problèmes asymptotiques sont en compétition et t'as un jeu asymptotique pour tes populations ça on saurait faire je pense je pense que ça correspondrait à ce que tu disais il y a une partie de l'espace où il y a enfin on s'est divisé des populations en partie qui vont vérifier la propagation du chaos par contre évidemment si on perd à toutes les échelles la propagation du chaos là ça devient beaucoup plus compliqué la propagation du chaos cette idée c'est vraiment de simplifier la complexité c'est vraiment ça donc il y a un endroit il faut savoir l'appliquer on peut introduire deux couches je pense que c'est ça la ce serait ça une réponse à ta question deux couches avec un nouveau jeu à la limite mais pas à une joueur moi je sais pas à la petite idée population par exemple peut-être on pourrait faire ça est-ce que c'est important que le B soit un broyant tu pourrais généraliser ça oui alors que je ne disais pas de bêtises oui non effectivement t'as raison la partie stochastique au début elle a quasiment pas d'intérêt tu as raison c'est vraiment qu'à la fin on utilise les propriétés d'une autre la chaleur pour éventuellement restaurer les équilibres oui ça je suis d'accord oui oui on l'utilise non non non t'as raison à cet endroit là ce sont des preuves qui sont complètement trajectoriales donc ce qui va se passer c'est que par contre si je prends le jeu à un joueur à n'fixer là le laplacien va aider pour la construction d'équilibre du jeu à un joueur le laplacien va aider parce qu'encore une fois il va permettre de découpler les interactions entre les joueurs mais asymptotiquement effectivement son rôle on le verra moins pourquoi il n'y a pas eu ici de sable ou d'unicité alors on sait construire des contre-exemples pourquoi il n'y a pas unicité ben ce sont des problèmes au debout c'est ça le problème c'est que on va fixer la condition initiale non alors on a des cas linéaires où tout est linéaire et on sait qu'il n'y a pas unicité c'est vraiment des conditions des problèmes au debout c'est-à-dire qu'on a fixé une condition initiale pour une composante, une condition terminale pour une autre composante on peut avoir et on peut avoir en raison de la confrontation des deux directions on peut avoir des pertes d'unicité et le bruit en fait le bruit régularise d'une certaine façon et il permet de en régularisant ce qui se passe dans ces gens le problème c'est que l'unicité on sait la vérifier en temps petit on sait vérifier l'unicité en temps petit et en fait pour passer du temps petit au temps long essentiellement il faut préserver c'est comme si on préservait le gradient d'une EDP et d'abord si je suis un régime hyperbolique je peux avoir des singularités qui apparaissent et dès que je suis un régime parabolique je vais savoir conserver le gradient EDP c'est ça qui est derrière