 Alors, on continue. Petit ajout sur les notes de la dernière fois. Je vous avais parlé d'équation de Hamilton Jacobi. C'était à la fin du cours pour expliquer comment évoluer les fonctions duales de Kantorowicz. Et j'aurais dû mentionner de manière explicite la correspondance entre les deux formes différentes qu'on avait vu de Hamilton Jacobi. Donc ça, c'est juste un petit addendum, ce qu'on avait dit la fois précédente. Hamilton Jacobi, je me limitais au cas quadratique et celui qui nous importera le plus. Et l'équation, elle s'écrit, dérontée phi plus gradiant phi carré sur 2, égale 0 et il y a la représentation en inf sous forme d'un inf qui est phi de t égale inf de phi 0, phi 0. Alors phi t de tx est égal à inf de phi de 0x plus distance de x, y, carré sur 2t. Et ici, il faut que je mette un y ici. Et f est sur y ici. Voilà. Alors pour ça cohérent avec la notation que j'avais, il vaut mieux utiliser le y ici, mettre un psi, pardon, c'était psi que j'avais utilisé la dernière fois. Et ici, donc psi, et ici mettre un x et là, l'un sur x. Pas d'importance puisque ici c'est symétrique en x et en y. Et celui-ci correspond au semi-groupe dans le sens positif. Bon, ce qui vous permet d'évoluer par exemple de la fonction psi initiale à une fonction psi autant ultérieure. Voilà. Et alors, si vous allez dans l'autre sens, partant de la fonction phi au temps 1, pour déduire quelque chose de temps précédent, dans l'autre sens, eh bien ça serait phi de tx est égal au sup sur y de phi de 1y moins distance de x, y, carré sur 2 fois 1 moins t. Ce qui vous permet d'aller du temps 1 au temps t dans le sens rétrograde. Voilà. Et le lien vous l'avez par rapport à ce que j'avais mis la dernière fois. Le coût pour aller de x à autant s à y autant t il faut y penser comme distance x, y, carré sur 2s moins t, t moins s. Voilà, ça c'est juste un addendum pour la dernière séance. Et on passe au chapitre 3. Chapitre 3. Entropie, une entropie, des entropies et fonctionnelle intégrale non linéaire de la densité. Bon, et on va faire un certain nombre de rappels et de récapitulatifs sur des fonctions qui s'expriment quand on est intégrale d'une fonction non linéaire de la densité. C'est des choses classiques, mais c'est bon de les rappeler. Et d'abord, on va commencer par un peu d'histoire. Et comme on le sait bien, c'est dans les années 1870 que Boltzmann introduit sa notion d'entropie statistique d'un gaz. Et c'est une réinterprétation de l'entropie thermodynamique qui existait déjà avant lui. Et Boltzmann, il va dire, on peut définir une entropie indépendamment de ce qui est un contexte thermodynamique particulier. Tout ce qui compte, c'est qu'il y a une distribution de probabilité et qu'on ait aussi une notion de microscopique et macroscopique. Donc ce qui compte, probabilité et distinction micro-macro. La probabilité étant quelque chose de visible, donc quelque chose qui est considéré sur l'espace macroscopique. Et donc Boltzmann identifie à un processus limite prêt l'entropie au logarithm des volumes macroscopiques, microscopiques, compatibles avec les probabilités macroscopiques, où on va dire macroscopiquement observé. Et c'est la fameuse formule s'égale k log w tel qu'elle a été réécrite par Planck. Alors, on va refaire le calcul. Il est élémentaire, mais c'est bien de l'avoir en tête. Et pour ça, on va discretiser. Et on va dire qu'on a k état macroscopique, k état qu'on peut distinguer macroscopiquement. Et f1, etc. fk, on va noter ça f, le vecteur, un vecteur de probabilité. Et donc somme d'efk est égal à 1, somme d'efi est égal à 1 pour y variant de 1 à k. Et on va poser s2f qui va être la limite quand n tend vers l'infinit de 1 sur n log w de f où ici on a le nombre de façons w de f, le nombre de façons de réaliser f avec des expériences microscopiques. Donc, nombre de façons de ranger n boules dans les cases pour que ça corresponde. Alors, écrit comme ça, en général ça a pas de sens et expérience microscopique a n particules. Écrit comme ça, en général ça ne marche pas parce que si on ne fait pas gaffe en général, il n'y a aucune façon simplement de réaliser f, par exemple si les effets sont irrationnels. Et la vraie définition c'est avec des petites erreurs et là on va faire le calcul sans se préoccuper des petites erreurs en supposant les effets rationnels et en se limitant à des grantaines qui sont compatibles avec les effets. Les effets rationnels et grantaines, on va dire multiples, plus petits comme un multiple, des dénominateurs DFI. Et on va trouver grantesse de f et t'égal à moins la somme pour y allant de 1 à k des fi log fi. Et on va donner 2 définitions, 2 démonstrations de ça. Alors, 1ère remarque, attention, il y a bien un signe moins et on n'a pas le droit de dire que l'entropie c'est l'intégrale de f log f. C'est un usage qui s'est répandu dans plein de cercles mathématiques mais ça va contre un siècle de tradition physique. Ensuite, on va donner 2 preuves de ça, 1 basé sur Stirling. On rappelle que factorial n, c'est égal à racine de 2 pn n sur e à la puissance n. Tout ça x 1 plus petit taux de 1, ou même grand taux de 1 sur n. Et on écrit, c'est une question combinatoire sur comment ranger n particules dans des boîtes de telle sorte qu'ici, il y en a grand nf1, ici grand nf2, etc., ici grand nfk. L'ombre de possibilité c'est W2f égal factorial n divisé par factorial nf1, etc., jusqu'à factorial nfk. Et donc on va bêtement et bourrinement développer ça en appliquant Stirling. Alors on va prendre les logaritmes. Logaritmes de n factorial est égal à n log n qui vient d'ici, moins n qui vient du e ici, plus log racine de 2 p, plus 1 demi de log de n, plus grand taux de 1 sur n qui vient de ce facteur-ci. Bon, et on applique ça à tous les grands nfi. Alors on va supposer que les f1, etc., fk sont tout strictement positifs. On peut toujours s'y ramener, quitte à enlever des cases dans la boîte. Et puis donc tous les grands nf1, etc., grands nfk vont tendre vers l'infinit et donc on peut appliquer la formule de Stirling à chacun d'entre eux. Donc ni égal grand nfi tend vers l'infinit et on va avoir logaritmes de n i factorial est égal pareil à n i log n i, moins n i, plus log racine de 2 p, plus 1 demi de log n i, plus grand taux. Alors ici je vais mettre grand taux de 1 sur n. Les f i étant tous strictement positifs. Bon. Et donc log w de f est égal. Alors on regarde ce qui va sortir de là. D'une part je vais avoir le terme. Alors d'abord j'ai écrit explicitement que ça va être log de n factorial moins la somme des logs de n i factorial. Il va y avoir un premier terme qui est n log n, moins somme des n i log n i. Un deuxième terme qui est moins n, plus la somme des n i, terme qui évidemment est égal à 0. Un troisième terme qui est des logs de racine de 2 p alors je vais en avoir 4 moins 1 log de racine de 2 p. Donc un terme qui est grand taux de 1. Un terme qui étant log n et que je vais juste écrire en grand taux de log n. Voilà. Et puis un terme en grand taux de 1 sur n. Tout ça on va dire que c'est un grand taux de 1 et maintenant quand on divise par 1 sur n, pardon, w de f, je trouve que c'est égal à log n moins somme des n i sur n log n i plus grand taux de log n sur n. Bon, n i sur n c'est f i. Log de n je peux toujours dire que c'est égal à la somme des n i sur n log n parce que somme des n i sur n est égal à 1 et donc j'ai moins somme des n i sur n log n i plus grand taux de log n sur n et j'obtiens bien le résultat annoncé en utilisant l'addictivité du log donc moins somme des n i sur n log de n i sur n plus grand taux de log n sur n. Des logaritmes n'est pas rien. On va mettre une fois pour tout ici log égal n. Alors on peut aussi changer la base du logaritme comme on veut, ça changera juste une constante à l'affaire en théorie de l'information, on aime bien prendre le logaritme en base 2. Donc ici je mette log égal n mais on pourrait utiliser un autre log. Bon, là la preuve est très nette comme on voit avec l'inconvénient de faire appel à un gros marteau pilon qui est la formule de steering. Alors c'est bien de savoir qu'il y a au moins une autre preuve simple qui ne suppose pas la formule de steering preuve 2 et qu'on appelle parfois la méthode des types et qui est basée sur le fait qu'il y a très peu de valeurs macroscopiques possibles. Bon, qu'est-ce qu'on entend par là? Alors on va écrire que pour p, quel que soit p égal p1 etc. pk avec somme des pays égal 1. Donc quel que soit ce vecteur là, on peut écrire, on a somme sur tous les nuplés tels que somme de ni égal n. Je vais mettre ici comme ça n1 etc. nk avec somme de ni égal n. Des factorials n sur factorial n1 etc. factorial nk p1 puissance n1 etc. pk puissance nk. Bon, quand je regarde tous ces machins, c'est une formule de puissance façon binome de Newton. Ça fait somme des pk à la puissance grantaine. Et donc ça c'est égal à 1. Si je prends juste k égale 2, c'est la formule habituelle avec les coefficients binomiaux. Donc là c'est la même chose mais avec les coefficients multinomiaux. Et ça c'est quand je regarde toutes les façons de combiner les ni. Mais maintenant si je regarde ça comme étant une somme sur toutes les possibles vecteurs de fréquence. Donc je vais noter ça f appartenant à f grandaine. Ou f grandaine c'est l'ensemble de tous les vecteurs de fréquence possibles avec des dominateurs qui sont tous égaux à grantaine. Donc fn. Donc ça c'est ensemble de tous les vecteurs fréquences avec des nominateurs grantaines. Des grands W de f que multiplient p1 puissance nf1 pk puissance nfk. Bon, c'est une façon de récréer les choses. Mais ce qui va nous intéresser c'est que W de f a au plus et ça c'est une majoration grossière n plus 1 puissance grand k élément. Parce que la première valeur c'est quelque chose entre 0 et n. La deuxième valeur c'est quelque chose entre 0 et n et ainsi de suite. Donc là c'est une majoration très grossière. Et ce qui est important c'est que c'est polynomial en grandaine. Alors maintenant que j'écris ça je vais en déduire d'une part de manière très brutale que W de f est inférieur ou égal à produit sur i dpi puissance moins n. Voilà c'est ça. Moins nfi. Là je prends juste un terme de la somme et je dis qu'il est inférieur ou égal à 1. Un terme de la somme est inférieur ou égal à la somme. Inférieur ou égal à la somme entière. Bon et d'autre part je vais écrire que W et je vais remarquer et je vais remarquer aussi que cela p1 puissance nf1 etc. pk puissance nfk quand vous regardez en fonction de f qui varie ça c'est maximal pour f égal p. Voilà. Ici j'ai pris un p qui est quelconque et là je regarde la somme avec tous les vecteurs f possible. Pour chaque vecteur f c'est une façon d'avoir n1 etc. nk et on compte les p comme ça. Et je dis que celui là il est maximal pour f égal p. Donc d'une part on va faire une minoration par l'un des termes comme ça mais on va aussi majorer en disant que W de p est supérieur ou égal à 1 sur n plus 1 puissance k qui est le nombre de termes qu'elle a dedans fois ce que ça vaut pour f égal p donc produit sur i des pays puissance moins npi. Voilà. Et là c'est fini parce que maintenant quand vous passez au logarithm c'est que vous en déduisez que W de p 1 sur n log W de p est égal au logarithm de ça donc ça ça fait moins somme sur i des pays log pays. Plus un truc qui correspond à ce terme là mais qui va disparaître quand vous prenez le log donc un grand taux de log de n plus 1 puissance k sur grand n qui est négligeable. On retrouve ainsi d'aimant exactement le même terme d'erreur en log de n sur n avec cette deuxième méthode. Voilà. Alors qu'on utilise la première ou la seconde méthode donc on trouve le même résultat l'entropie qui est associée l'entropie de Boltzmann qui est associée à un victeur fréquence p c'est moins la somme des pays log pays plus un terme d'erreur qui est en plus en log de n sur n. Alors pourquoi ça c'est intéressant très au-delà si on raisonne juste en termes probabilistes ça vous dit qu'il y a une information importante dans une certaine intégrale non linéaire une intégrale d'une fonction non linéaire la densité et cette fonction c'est la fonction qui a x associe x log x dans le sens contenu l'intégrale de u de rho de x des x où u de r est égal à r log r et cela parle de la facilité à reconstituer un état microscopique inconnu sachant l'état macroscopique statistique plus généralement on peut avoir une mesure de référence nu quelconque s nu de mu égale moins l'intégrale de r log r des nu c'est la formule générale de l'anthropie de Boltzmann quand on travaille sur un espace macroscopique qui a une mesure de référence nu où rho est des mu sur des nu et si on fait ici nu et la mesure sur l'espace macro et vous faites l'épreuve et tout ça vous trouvez que la mesure microscopique donc sur l'espace macroscopique on va l'appeler grandique la mesure microscopique sur x puissance grande n étant nu tensor n et là les démonstrations qu'on a faites ça s'applique pareil nu tensor n on peut le voir comme une mesure sur l'espace d'état microscopique si nu est une mesure de probabilité on peut aussi le voir comme la loi de variables aléatoires qui sont tirées mais nu n'est pas forcément une mesure de probabilité si nu égale probat nu tensor n égale la loi de n variables aléatoires indépendante tirée dans x chacune tirée dans x alors avec ça en tête on énonce souvent le résultat général de Boltzmann pour des mesures de probabilité et on peut aussi l'énoncer pas forcément sur une mesure de probabilité on va le faire, on va l'écrire ici de manière générale et on va l'écrire ici de manière générale on va écrire ça façon d'abord une formelle avec n tirage aléatoire la probabilité que mu-chapou n ce qu'on observe à l'issue des n tirages selon lois nu soit à peu près égale à un certain mu ça c'est à peu près exponentiel moins grandaine h nu de mu ou pardon je vais écrire comme ça pour l'instant grandaine s nu de mu bon ça c'est exactement si vous voulez ce qu'on a vu à l'instant sous forme discretisée quand on dit que quand on regarde le volume des tirages si j'ai une mesure de probabilité c'est la probabilité que le tirage vérifie tel ou tel truc et mon mu ici il correspond au vecteur de fréquence dans l'un cas discretisé ici c'est le vecteur de fréquence f1 etc fn là ici c'est la probabilité et si on veut c'est le volume égale probat des tirages acceptables avec on se vient l'idée qu'on regarde des variables indépendantes ça correspond au volume produit et puis quand on prend le on a pris l'ogue on a divisé par n on a obtenu s nu de mu c'est exactement ça ce que ça veut dire le calcul précédent bon et si c'est pas une mesure de probabilité rigoureusement la même chose si nu n'est pas une probat on va juste écrire ça comme ça volume pour selon nu temps serène juste nu temps serène de l'ensemble des x1 etc xn tel que 1 sur n somme des delta xi qui est la façon de représenter ce qu'on observe est à peu près égal à mu ben ça c'est à peu près égal à exponentiel ns nu de mu bon et là la formule elle est valable que nu soit ou pas une mesure de probabilité mu doit être une probat et nu pas forcément donc ça peut être la mesure de le bec comme ça peut être une mesure de probat bon voici maintenant on est non c'est précis dans lequel il n'y a pas les on est non c'est plus précis qui peut être considéré comme un cas particulier du théorème de sanof je vais mettre des guillemets parce que c'est pas exactement le non c'est habituel mais quasiment et donc on peut dire que c'est juste l'idée de bolsman formalisé alors ça nous dit quoi ben que quand je regarde un surn log de nu temps surn de l'ensemble des x1 etc xn tel que un surn somme pour y variant de 1 a n des phi l de xy ou phi 1 etc phi l vont être des observables moins intégrale de phi l des mûches et quand je regarde l'ensemble des x1 etc xn tel que tout ceci soit plus petit que epsilon que je prends la limite quand n tend vers l'infini que je prends la limite quand epsilon tend vers 0 et que je prends la limite quand l tend vers l'infini avec phi l pour l appartenant a n une suite danse de fonctions unlipsites dans l'ensemble des fonctions unlipsites bon et ben quand je regarde tout ça c'est égal à moins l'intégrale de Rho est égal à s nu de mûche alors il y a des il y a des limes sup à mettre ici et là mais je sais jamais je pense que là c'est juste on met une lime sup et puis après c'est une limite je suis pas sûr qu'il y ait une autre lime sup j'ai oublié voilà peut-être qu'il y a des barres à mettre sur les limites c'est ça alors ce que ça dit ce que ça dit c'est que quand je regarde la mesure empirique cela dit que la mesure empirique mû chapeau n qui vous assurenne somme des deltaixi et dans la boule b de rayon mu de centre epsilon pour une topologie faible alors ça c'est le résultat principal sur l'entropie de Boltzmann parce qu'il contient tout, il contient le calcul qu'on a fait et en même temps le calcul qu'on a fait c'est un peu l'abri qu'élémentaire de ça et donc je répète ici nu il n'y a pas besoin d'être une mesure de probat alors qu'est-ce qu'on va ajouter ça c'est bien ça c'est bien donc ça c'est le premier résultat et puis on va dire que il y a deux autres ans ça plus est-ce que même dans le sens du transport en fait on peut disons ça ça marche pour n'importe quelle topologie faible et d'habitude les gens des grandes déviations vont juste dire qu'il y a une fonctionnelle de taux qui est l'opposé de l'entropie la fonction H que ça gouverne les grandes déviations et que ça vérifie un principe de grande déviation quand on prend une partie ouverte ou fermée et qu'on regarde et qu'on regarde la probabilité tombée dans cette partie ouverte ou fermée à l'im suprès ou l'im infprès ça va être égal à l'infre de la fonctionnelle de grandes déviations ici ce que j'ai fait c'est que j'ai pris ma partie ouverte ou fermée qui est juste une boule de rayon epsilon pour le tour de mu de sorte que quand epsilon tend vers 0 ce que je récupère c'est juste l'entropie si on veut correspondant à mu c'est juste cette version là qui est récupérée effectivement on peut mettre une distance de transport là ce qu'on a écrit c'est la boule dans la topologie W1 on pourrait en mettre une autre mais effectivement du fait qu'au mode bien du théorème de Sanoff il y a des preuves très efficaces de certains résultats qui sont obtenues en utilisant même l'interprétation du théorème de Sanoff cette interprétation là alors notation h nu de mu est égal à moins s nu de mu la fonction H de Boltzmann apparemment venant d'un malentendu historique parce que c'était un état j'excuse à s'écrire H alors ça c'est l'un des trois grands résultats en la matière on va dire les deux autres résultats célèbres faisant intervenir H le théorème H de Boltzmann dit que le long de l'équation de Boltzmann avec des bonnes conditions au limite la dérivée de H de F de T alors quand j'écris H de F de T ici c'est dx dv et c'est par rapport à la mesure de Ljouville si on veut nu est égal à dx dv est toujours inférieur ou égal à zéro avec égalité si et seulement si f et Maxwellienne comme on dit donc une classe de Gaussienne particulière Maxwellienne par rapport à la variable V et c'est grâce à ça qu'il a fait le lien avec la notion thermodynamique d'entropie et le deuxième si le théorème de compression de Shannon le théorème de compression optimale de Shannon donc la fin des années 40 ça c'est 1872 on va dire et ça c'est 1948 et qui dit que si on a x une variable aléatoire un valeur dans un alphabet qu'on va appeler grand x et qu'on se donne un code qui a des mots qui prend des mots sur A et qui les transforme en d'autres mots sur A et qui est telle qu'on puisse redécoder uniquement décodable sans ambiguïté alors j'ai noté ça n'importe comment espérance de f de x c'est ça, c'est pas ça que je veux ouais espérance de la espérance de la longueur de f de x et supérieur au égal à h de x l'entropie de x voilà je crois que c'est bon alors espérance donc c'est ça ça veut dire si je regarde par mots par symbole en moyenne le nombre de symbole que j'ai besoin d'utiliser dans mon code final c'est au moins l'entropie de la source initiale ou dit autrement si mon en donnant un exemple disons si j'ai un code qui est très prédictible avec une entropie très basse je peux le coder donc lui associer une famille de mots dont la longueur moyenne est très petite et au contraire si l'entropie est très élevée je ne pourrai jamais le faire alors si on veut le formaliser c'est tout un bazar parce qu'il faut formaliser ce que ça veut dire uniquement décodable il faut regarder ce que c'est dans la limite le nombre de messages la longueur des messages tend vers l'infini et ainsi de suite mais la clé c'est ça et formulez autrement le taux de compression maximale alors j'aurais dû dire ça, non seulement il y a ça mais en plus c'est atteignable à epsilon près atteignable à epsilon près donc le taux de compression maximale applicable à un signal aléatoire et l'entropie de ce signal l'entropie est basse alors on peut le comprimer énormément ici l'entropie est moins l'entropie de ce signal l'entropie basse on peut le comprimer énormément l'entropie élevée on peut très peu le comprimer et pour la petite histoire il a il a Shannon utilise une preuve aléatoire pour montrer qu'on peut presque réaliser c'est presque réaliser la toute compression optimale et il a fallu je pense, je crois, quelque chose comme 50 ans pour qu'on puisse les construire ces codes qui étaient dont l'existence était prouvé de manière non constructive notation donc j'ai déjà dit h nu égal moins s nu j'ai écrit explicitement h nu égal intégral de Rho log Rho du nu h nu de mu et puis si nu est égal à exponentiel moins v de x d'x alors h nu de mu h nu de voilà h nu de Rho de x est égal l'intégral de Rho log Rho sur exponentiel moins v exponentiel moins v de x alors, pardon h nu de Rho nu on va vérifier que je n'ai pas de bêtises non, c'est pas bon h nu de Rho de x tout court oui, c'est juste ça qui me faut voilà voilà, c'est bon voilà, c'est ça parce que alors, je réécris si je prends Rho de x Rho est une mesure de probat une densité de probat pour la mesure de le bec bon maintenant quand je vais regarder des mu sur des nu ça sera égal à Rho sur exponentiel moins v donc h nu, ça sera égal à ça et ça je peux le réécrire bien sûr intégral de Rho log Rho sur exponentiel moins v de x et donc c'est égal intégral de Rho log Rho d'x plus l'intégral de Rho v de x dx et cela ou variante en mettant un coefficient beta nu égal exponentiel moins beta v de x dx en beta est strictement positif alors 1 sur nu h nu de Rho de x dx est égal à pardon 1 sur beta h nu est égal à 1 sur beta intégral de Rho log Rho plus l'intégral de Rho v et cela est souvent appelé énergie libre parce que on y reconnaît u moins ts u est une énergie potentielle beta un inverse de la température et intégral de Rho log Rho c'est moins s donc on peut dire énergie libre ou on peut dire h nu information aux sens de Boltzmann, Shannon ou qui vous voulez donc la fonction dans ce cas-là la fonction h nu avec l'énergie libre habituelle et on voit que c'est d'autant plus malvenu d'appeler h nu entropy ou entropy relatif comme on dit souvent parce que c'est un nom en physique, c'est énergie libre dans ce cas où nu est la forme exponentielle moins beta v ok ouais, il y en a aussi, il lâche la tête ouais, le problème avec les anthropies c'est que là c'est le mauvais signe et après il y en a plein qui ont emboité mais les anthropies c'est concave, c'est pas convex c'est dommage alors alors on va se concentrer maintenant sur les propriétés de la fonctionnelle en elle-même, là on a parlé d'historique, on a parlé d'interprétation et de théorème avec une interprétation sur le passage micro-macro interprétation en théorie des gaz comme une notion de quelque chose qui augmente dans des or et une interprétation en termes de théorie de l'information et on va passer à de définition précisé et propriété fondamentale définition à la fois ça sera à la fois précisé et étendu alors donons-nous u une fonction convex et on va supposer u0 égale 0 pour normaliser les choses et on va poser une u de mu c'est égal à l'intégrale de u2 rho de x nu de dx pour mu égale rho nu absolument continue donc absolument continue par rapport à nu donc on a envie de poser ça en général pour certaines classes de fonctions u avec en tête que u égale la fonction rho log rho jouera un rôle privilégié mais que peut-être on aura envie de le faire avec d'autres fonctionnels de mesures de poabilité et on le définit uniquement pour mu mesures de poabilité et nu en revanche c'est une mesure à priori quelconque plusieurs subtilités subtilité 1 subtilité 1 et si mu n'est pas absolument continue par rapport à nu peut-on encore définir une u de mu on sent bien que en tout plein de cas on va être amené à avoir des mesures qui se concentrent dans un processus limite ou des choses comme ça bon et il y a une méthode très simple pour faire ça et la réponse c'est oui il suffit de corriger en ajoutant un terme qui fait intervenir juste la mesure singulière et le terme c'est la mesure singulière le point que la mesure singulière de mu attribue à l'espace x mettons que ce soit une intégrale sur un espace x avec nu une mesure sur x multiplié par la pente en l'infini pente de u à l'infini et si vous y réfléchissez un peu vous voyez que c'est le prolongement naturel u si c'est une fonction convex elle admets toujours une asymptote une pente asymptotique à l'infini donc par exemple si je veux définir l'intégrale de delta log delta où delta est une mesure de Dirac par rapport à une mesure qui est diffuse ça sera plus infinie en revanche si je veux définir moins intégrale de racine de delta et moins racine carré c'est encore une fonction convex ça sera égal à 0 dans un cas la pente asymptotique elle est infinie dans l'autre cas la pente asymptotique elle est nulle qu'il était 2 on définir une nu de mu si x est non compact il n'y a pas des problèmes de convergence à l'infini et en général non exemple si on prend intégrale de rouleau gros il y a des valeurs positives et il se peut très bien que les valeurs négatives il se peut très bien il se peut que l'intégrale de rouleau gros pour rouleau gros positif soit infinie et intégrale de rouleau gros pour rouleau gros négatif soit égale à moins l'infini en revanche dès que vous avez un peu de tension suffisante à l'infini de manière quantitative vous pourrez éviter ce phénomène mais dès que l'on a un contrôle raisonnable à l'infini par exemple des moments sur roues on peut éviter la partie négative contrôlée exemple supposons que intégrale de rouleau de x, x² et x soit finie on regarde ça sur Rn bon je vais écrire que rouleau gros rouleau de x et supérieur ou égal plus exponentiel moins x² supérieur ou égal moins plus non, rouleau de x, x² là je suis en train d'écrire une inégalité de le gendre je ne me suis pas planté sur les signes si peut-être rouleau gros moins x² ici je vais mettre en moins voilà et j'intègre ça et j'intègre ça en intégrale de rouleau gros une borne qui serait supérieur ou égal à moins intégrale de rouleau de x, x² et x moins intégrale de exponentiel moins x² et x si je commence par intégrer sur tous les endroits où rouleau gros est strictement négatif pour bien montrer que je contrôle cette partie là et je ne peux pas prendre la valeur moins infinie montre que l'intégrale de rouleau gros est bien défini dans r union plus l'infini peut-être que ça prend la valeur plus l'infini mais il n'y a pas de problème avec moins infinie bon on verra tout à l'heure des théorèmes généraux aussi je vais donner maintenant alors on va tordre le coup tout de suite à ce problème là alors d'où vient le problème voilà bon si on réfléchit u est convex donc u de r est supérieur ou égal là u de 0 plus u prime de 0 fois r bon et ceci va au 0 par hypothèse et u prime de 0 fois donc u de rho de x est supérieur ou égal u prime de 0 fois rho de x et ça bien sûr c'est intégrable puisque rho est une mesure de densité de foabilité par rapport à nuche donc le seul problème est si u prime de 0 est égal à moins infinie le seul problème qui peut se poser ça correspond aux petites valeurs de la densité et si la dérivé en l'origine est égal à moins infinie au gros vous êtes pile dans le cas où ça diverge mais à peine bon alors faisons une hypothèse sur la façon dont ça diverge et en fonction de cette hypothèse on rattrape le coup avec une inégalité de moments qui va se avec une égalité qui va se démontrer la même façon ici un coup de un petit peu de l'inégalité de le gendre donc on va supposer la dérivé en l'origine se comporte comme une puissance et on va une puissance inverse et on va voir ce qu'on en tire alors estimation si u de r quand r tend vers 0 est à peu près égal je vais l'écrire comme ça moins n r1 moins 1 sur n moins r avec une certaine vous voyez ici je fais une hypothèse sur la façon dont moralement la dérivé se comporte en l'origine et je dis que là ce n'est pas dérival mais que quand on regarde le truc il y a un truc qui diverge donc une puissance qui est en je reprend le problème c'est si u prime de 0 est égal à moins l'infini et on va regarder comment ça se comporte genre u prime de r quand on regarde r qui est petit on va supposer que c'est comme une puissance inverse de la densité une puissance inverse qui est peut-être petite je vais appeler 1 sur n cette puissance inverse dans le cas où n égale l'infini ça veut dire qu'on a une divergence logarithmique comme dans r logar alors une nu de mu est bien définie sur p2 de x c'est à dire les densités avec 2 moments moment d'ordre 2 dès que intégrale de nu de dx divisé par 1 plus distance de x et 0 à x puissance de n-1 est finie ça c'est le cas où n est finie et intégrale de exponentiel moins alpha distance de x 0 à x carré nu de dx est finie pour un certain alpha strictement positif quel qu'il soit ça c'est pour le cas où n égale l'infini r log r pour ça c'est n égale l'infini donc la morale c'est il y a peut-être un problème quand la pente en l'origine est égale à moins infini mais il est résolu dès qu'on a des conditions de moments sur les sur la mesure nu alors ici je l'ai indiqué comme ça mais en supposant je me suis demandé quelle condition pour que ça soit bien définie s'il y a 2 moments pour la mesure mu on pourrait aussi renverser les choses on pourrait dire est ce que je peux définir pour un mu qui est très localisé par exemple si mu est un support compact on pourra toujours le définir c'est juste les valeurs à l'infini qui peuvent poser problème pourquoi on pourra toujours le définir si mu est un support compact parce que je peux toujours dire u2r supérieur ou égale a une autre fonction affine à plus br je prends n'importe quelle fonction affine qui est en dessous de la fonction convex et ça c'est intégrable dès que je suis sur un compact je vais le mettre ici explicitement je veux dire explicitement u2r supérieur ou égale a plus br montre aussi que une u2mu est toujours définie si mu est un support compact ça c'est les deux subtilités et pour l'instant rien de bien méchant maintenant un point important représentation de le genre alors qu'est ce que ça dit une u2mu on a vu comment la définir tout à l'heure avec cette définition là c'est aussi égal à sup de l'intégral de fi des mu moins l'intégral de u star de fi des mu pour fi fonction mesurable et fi inférieur ou égale a eu prime de l'infini alors il n'y a pas une facilité de la représentation il y a un paquet de représentations duales qui sont possibles en fonction de la classe qu'on choisit là j'en ai mis une on peut aussi se restreindre à des fonctions continues et même imposer des conditions supplémentaires pour régulariser donc par exemple on peut aussi montrer que c'est sub de l'intégral de fi des mu moins l'intégral de u star de fi des nu continue sur x vérifiant uprime de epsilon inférieur ou égale la fi inférieur ou égale la uprime de grand thème et je prends le sub sur fi epsilon et grand thème bon et ça ça va être vrai dès que l'espace c'est localement compact dès que x est complet c'est parable localement compact bon donc on a le choix ici je n'ai pas imposé qu'est-ce qu'on a imposé mais dans tous les cas le sub est le même ici c'est un sub sur fi ouais et l'étoile c'est à transformer de le gendre voilà avec u star de p égale sub sur r des pr moins u de r transformer de le gendre en dimension 1 est extrêmement pratique pour toutes sortes de choses on va voir des exemples et ici on va voir des exemples dans les propriétés qu'on verra juste après et c'est bon de savoir aussi qu'il y a plein de représentations possibles c'est un fini nu ou c'est un fini pas ? ah lequel ou ça ah un fini oui un fini nu est-ce que c'est un vrai fini et je ne sais plus peut-être il faut le mieux le prendre comme un vrai un vrai un truc vraiment borné vraiment borné pas un ensemble de mesures un petit instant ouais je crois que c'est, je crois que ça marche même si c'est juste si c'est juste nu borné si je modifie c'est dans le premier terme que ça pourrait jouer ouais ouais ouais ah sauf que il pourrait y avoir une subtilité si mu et s'il faut faire gaffe il pourrait qu'il y ait une subtilité si mu n'est pas absolument continue qu'est ce qui se peut se passer le seul truc qui pourrait arriver ce serait que mu est une partie singulière il y a une partie singulière que chi soit con et une partie importante non borné infini sur cette partie singulière et quand on regarderait on trouverait plus l'infini prime de zéro ah je suis pas sûr il faut mieux mettre ici un truc vraiment borné peut-être qu'il y a une subtilité quand la fonction a un supe essentiel qui n'est pas la même chose que son supe et que la partie l'endroit où chi est non borné se trouve précisément contrôlé concentré sur une partie de mu qui est négligeable pour nu alors si c'était le cas quand même ça voudrait dire que ça viendrait dans la partie singulière de mu prime de infini ah non si si c'est bon si si c'est bon c'est bon c'est bon celle ci c'est bon si c'est juste nu presque partout mais celle ci c'est absolu et si jamais une prime de l'infini est finie évidemment la deuxième condition est plus forte que la première si ce truc là est fini mais si une prime de l'infini est égale à l'infini alors qu'est-ce qui pourrait se passer et bien fi pourrait être non borné voire prendre des valeurs infinies sur une partie singulière de mu mais alors quand on souvient la définition de nu de mu ça ferait un infinie multiplié par un truc strictement positif et ça serait infinie effectivement donc ici c'est vraiment une borne c'est une borne impérative c'est pas un ensemble de mesures nulles près à un ensemble de mesures nulles près voilà alors exemple appliquons ça à notre chère fonction RlogR exemple U2R égale RlogR Ustar de p égale exponentielle p-1 et on trouve qu'h nu de mu est égal au sup de intégral fi de mu moins intégral de exponentielle fi-1 de mu alors c'est l'une des formes possibles mais évidemment il y a plusieurs formes parce qu'on est dans un cas particulier où on a de l'homogénéité donc on peut faire mieux on peut-on faire mieux entre guillemets la réponse est oui par homogénéité si on change mu en lambe d'amu et ou avec vous allez me dire que j'ai pas le droit parce que j'ai mis en lambe d'amu si j'ai un truc qui n'est pas une mesure de probabilité alors c'est plutôt en changeant nu en lambe d'amu je veux dire que là pour la définition pour la formule j'ai toujours le droit d'imposer pour la formule pour la formule de le gendre c'est possible toujours bien définit même si c'est plus une mesure de probabilité on va trouver que h nu de lambe d'amu est égal à lambe d'amu intégrale de rolog gros plus lambe d'amu log lambe d'amu et donc on va trouver que h nu de mu est égal à 1 sur lambe d'amu lambe d'amu moins log lambe d'amu on va appliquer la formule de dualité à celui-là donc 1 sur lambe d'amu supe de l'intégrale de lambe d'amu d'amu moins alors que je dis pas de bêtises moins l'intégrale de exponentiel d'amu moins log lambe d'amu voilà on y arrive ça c'est pour tout lambda et maintenant j'ai toujours le droit d'optimiser en lambda et on trouve que c'est la même chose que de intégrale de phi d'amu moins log de l'intégrale de exponentiel phi moins 1 moins 1 soit encore quand on le réécrit supe sur phi de intégrale de phi d'amu moins log de l'intégrale exponentiel phi d'amu voilà parce que ici exponentiel phi moins 1 il sort du logarithm il se compense avec le 1 qui est ici et ici les lambdas simplifient l'un l'autre ici on a 1 sur lambda intégrale de exponentiel phi moins 1 moins log lambda on choisit le lambda comme il faut et on trouve ça autrement dit grâce à l'homogénéité on peut remplacer la fonction dans la dualité intégrale de exponentiel phi moins 1 par la fonction log de l'intégrale de exponentiel phi alors continuons propriété premièrement la fonction qui a amu nu associ unu de mu et convex et semi continue inférieurement alors j'insiste bien sur le fait que c'est une propriété par rapport au couple mu nu et c'est semi continue inférieurement par rapport à la topologie faible des mesures donc on a le droit de faire varier aussi bien l'argument mu que la mesure de référence nu là dedans et quand ça varie on aura les mêmes propriétés de convexité représentant de semi-continuité inférieure deuxième propriété quelle que soit f f mesure image nu de f mesure image mu est inférieure au égal à unu de mu et troisième propriété avec x localement compact on peut trouver alors avec x localement compact si on a une condition comme r u prime de r inférieure au égal à constante u plus de r plus r qui nous dit que u prime ne va pas trop vite à l'infini u ne va pas trop vite à l'infini typiquement polynomial à l'infini r u prime de r majorer alors quelle que soit mu on peut trouver mu k tendant vers mu tel que unu de mu k tend vers unu de mu on peut réaliser l'égalité dans le fait qu'il y a une limite inf puisque c'est semi-continuit inférieurement on a en particulier unu de mu inférieure au égal à liminche unu de mu k si mu k tend vers mu et ce que je dis c'est que si la fonction u croit au plus polynomialement alors on peut trouver une suite qui atteint ce truc là à la limite bon alors idée de la preuve de cette proposition juste idée pour un on va utiliser la représentation duale donc sub de l'intégrale phi des mu ou l'intégrale de u star de phi des nu et on voit qu'on a un suprémome de fonctions qui sont linéaires par rapport à mu et nu fonctionnelle linéaire en mu nu et à partir de là qu'on vexe sci sans déduit fonctionnelle linéaire et continue en particulier si vous regardez vous souvenez dans la deuxième représentation on a imposé que les phi soient des fonctions continues on a mis des bornes sur phi pour que ce soit strictement plus petit que une prime de l'infini ce qui vous garantit la continuité donc ça c'est pour la première pour la seconde on va écrire u f mesure image nu de f mesure image mu là encore j'applique la représentation duale c'est sub de l'intégrale de phi d de f mesure image mu moins l'intégrale u étoile de phi d de f mesure image nu bon et j'applique la définition de la mesure image pour dire que c'est sub de l'intégrale phi ron f des mu moins l'intégrale de u star de phi ron f des nu pour la définition avec les fonctions continues je vais supposer que peut-être c'est localement compact est-ce que tu as pas meilleur ah t'as raison vérifions ouais on va mettre localement compact partout même si je l'avais mis que là pour le premier on va le mettre effectivement convex convex il posera pas de problème mais pour avoir le SCI on va supposer que c'est localement compact aussi pour le deux on n'aura pas besoin mais pour le un effectivement pour la continuité il sera bon d'avoir le localement compact au moins avec cette preuve on doit pouvoir s'en passer si on n'est plus malin non non non non non non effectivement parce que continuité faible par définition c'est contre les fonctions continues bornées et donc il nous faut un truc avec des fonctions continues donc mettons le localement compact je vais lui mettre localement compact partout alors en tout cas pour 1 et pour 3 on suppose localement compact c'est ce que l'on était 2e u de f mesure image mu f mesure image mu est égal au sub de tout ça sub de l'intégral de phi rho f moins l'intégral de u star de phi rho f bon et si on regarde là c'est juste un jeu d'écriture parce que u star de phi rho f c'est égal à u star de phi rho f mais ce qu'on est en train de faire là c'est donc prendre un sub sur une sous classe de fonctions c'est inférieur ou égal le sub sur l'intégral de disons psi des mu moins l'intégral de u star de psi des nu vous allez me dire qu'il y a une condition qui est des conditions à respecter les conditions à respecter c'est que là dans phi on avait des conditions qui étaient que phi soit dans l'infini et phi soit inférieur ou égal à u prime de l'infini bon et si ça c'est vrai alors ça implique évidemment que phi rho f est dans l'infini et phi rho f est inférieur ou égal à u prime de l'infini et donc on a inférieur ou égal ici surtout les psi tel que psi est dans l'infini et psi rho et psi est inférieur ou égal à u prime de l'infini et voilà donc ça c'est égal à u nu de mu donc rien que par un tour de passe passe élémentaire on a cette propriété alors terminologie je remarque sur la terminologie dans la théorie des grandes déviations on parle de principes de contraction pour dire que les grandes déviations de f mesure image nu sont contrôlées par celle de nu comme h nu est fonctionnelle de grandes déviations pour la mesure empirique il est naturel d'appeler 2 la propriété de contraction de la fonctionnelle nu dit que si on prend un mesure image par une même application on ne peut que réduire cette fonctionnelle bon et puis l'idée pour 3 c'est de construire une approximation de 1 sous la forme d'un noyau k epsilon de xy tel que l'intégral en x de k epsilon de xy nu de dx est égal à 1 l'intégral en y de k epsilon de xy nu de dy est égal à 1 k epsilon continue à support dans l'ensemble de xy tel que distance de xy inférieure gala epsilon travailler à partir de ça la même chose que ce qu'on a l'habitude de faire par convolution dans herène bon et l'idée qui fait marcher les choses c'est que quand je vais regarder l'intégral de u de l'intégral de k epsilon de xy rho de y nu de dy nu de dx voilà je vais dire que ça c'est inférieure au égal avec un Jensen l'intégral double de k epsilon de xy u de rho de y nu de dy nu de dx intégrer l'intégral en x et trouver que ça c'est égal intégral de u de rho y rho de y nu de dy et d'autre part donc ça ça va me donner un côté et d'autre part ce truc là intégral de k epsilon de xy rho de y nu de dy va converger fablement vers renu donc à la limite donc nu de renu va être inférieure au égal à limitage pour epsilon tan vers 0 de ce truc là de u nu de cette intégral intégral de k epsilon rho de nu là en fait ce qu'on a montré là avec ce résonance c'est que quand je prends ce machin là et que je regarde à la limite l'intégral de u enfin la fonctionnelle u nu appliqué à ce machin là ça converge toujours vers u nu vous allez me dire ça ça semble montrer que ce qu'on a en fait c'est une ça a l'air de montrer qu'on a toujours l'égalité sauf qu'il y a une subtilité et la subtilité vérifie ah ah ah je vous ai vendu un truc qui est vrai mais qui est et je vous ai vendu un truc qui est trop qui est inutilement costaud je vous ai vendu un truc qui est une hypothèse en trop parce que que je dis pas de bêtises oui ça ça montre que excusez-moi cette condition là elle est inutile cette condition ne sera utile que pour des fonctionnels plus compliqués avec coefficient de distorsion tout ce que j'ai raconté sera vrai quand on rajoutera des coefficients de distorsion sauf qu'on aura besoin de faire cette hypothèse en plus mais là le raisonnement qu'il y a il vous montre qu'on a la convergence dans tous les cas même si on fait pas l'hypothèse qui est là l'hypothèse est repris mais fait regalacé u plus r ici Jensen l'inégalité de Jensen le truc c'est que la convexité ça se comporte très bien par régularisation par un noyau intégral bon c'est l'une des raisons qui font que c'est toujours bien d'utiliser des intégrantes convex voilà alors quels sont les exemples principaux de fonctions u qui vont nous être utiles exemple principaux u de r égal r puissance alpha pour alpha est strictement plus grand que 1 bien sûr et puis u de r égal moins r puissance alpha pour alpha est strictement plus petit que 1 disons qu'on prie entre 0 et 1 c'est deux catégories d'exemple qui nous seront les plus utiles et on notera hn de r est égal la moins n r puissance 1 moins 1 sur n moins r ou si vous voulez n r 1 moins r moins 1 sur n h infinity r est égal la r log r alors si je vais mettre des u et puis si on veut on notera u alpha de r est égal la r puissance alpha alpha plus grand que 1 voilà ça c'est trois classes principales de fonds les trois exemples principaux de fonctions qui nous seront qui seront intéressants pour nous notons-le plutôt comme ça 1 plus alpha pour alpha est strictement positif donc ça c'est les exemples principaux et on va maintenant passer à section 4 inégalité informationnelle il y a de nombreuses inégalités intéressantes qui font intervenir les fonctionnels hn et d'autres fonctions d'autres fonctionnels égal un nu et d'autres fonctionnels par exemple avec des distances faibles avec des distances de transports et puis avec des gradients la plus célèbre de ces fonctionnels avec gradients qui encore s'applique à une densité de probabilité c'est l'information de ficheur plus célèbre fonctionnel d'une mesure de probat avec gradients mesure une fonctionnelle qui fait intervenir gradients et la information de ficheur c'est les années 20 qui apparaît en statistiques paramétriques pour mesurer la difficulté à reconstituer un paramètre alors c'est quoi le formalisme habituel vous avez une famille de densité qui dépend d'un paramètre c'est un truc inconnu c'est la valeur de n'importe quoi x c'est donc sur un espace x nu donc ça c'est une densité de probabilité et vous définissez i de theta est égal à l'intégrale de moins des 2 sur des ronds theta2 log rho theta de x nu de dx mu theta dx on va l'écrire comme ça nu theta égale rho theta nu alors l'idée c'est quoi si vous voulez c'est encore espérance sous la loi de paramètre theta de moins des 2 sur des theta2 log rho theta de x avec un théorème célèbre qui est la démonstration est simple mais qui exprime exactement ce que ça veut dire un théorème de Kramer Rao si vous avez theta chapeau une application qui va de l'espace x1 de l'espace x dans theta l'espace des paramètres alors la variance de theta chapeau est supérieur au égale 1 plus b prime de theta carré sur i de theta bon vous allez me dire j'abuse un peu en disant que mon espace des paramètres ça fait n'importe quoi parce qu'ici quand même il y a un rapport theta alors on va dire que c'est dans r, l'espace des paramètres ou b theta et le biais de l'estimateur espérance theta chapeau sous theta moins theta alors quand je mets espérance avec un theta ça veut dire intégrale ça intégrale theta chapeau de x mu theta dx je suis en train d'observer une loi avec un paramètre theta qui est inconnu moi j'ai mon estimateur theta chapeau c'est une fonction qui est définie sur l'espace des observations à valeur dans l'espace des paramètres c'est mon ce que je devine ce que je reconstitue comme la valeur de theta à partir de l'observation l'estimateur est dit sans biais si l'espérance des réalisations possibles de l'estimateur coincide avec la vraie valeur il peut avoir un biais et dans tous les cas ce que vous dit l'inégalité ici c'est que mon estimateur sa variance peut pas être aussi petite qu'on espérait quand vous avez un estimateur plus sa variance est petite mieux c'est parce que vous voulez que l'estimateur soit très concentré autour de la vraie valeur bon ça vous dit ça c'est que modulo ici a quelque chose qui dépend du biais la limitation à ce que l'estimateur soit très concentré c'est l'information de ficheur et ça c'est la borne cette borne inférieure qui est assez facile à démontrer et une borne supérieure qui est délicate à démontrer qui dit que asymptotiquement la borne de Kramer Rao est atteinte par l'estimateur du maximum de vraies semblances sous des bonnes hypothèses sur les densités Rao theta ce sont différenciables et ceci et cela par l'estimateur du maximum de vraies semblances estimateur du maximum de vraies semblances qui dit si je veux deviner l'estimateur theta je vais dire que c'est large max Rao theta de X X est fixé je maximise en theta par tant de l'hypothèse que je vais chercher l'observation tel que ce que je vois est le résultat le plus probable qui puisse se faire donc par rapport à theta je maximise Rao theta de X en fixant X alors une fois qu'on a ça en tête on peut faire le chemin à l'envers et comprendre comment il a fait ficheur il s'est dit, l'estimateur du maximum de vraies semblances on ne peut pas faire mieux et quand je vais chercher quand je vais prendre le maximum de vraies semblances il va être plus ou moins pointu en fonction de quoi ? en fonction de la variation de Rao theta par rapport à theta et ça va être un truc qui va être comme ça peut-être, il y a un certain maximum quelque part c'est plutôt comme ça voilà et je serai plus ou moins content si ce truc là est très très piqué la variance de mon estimateur de maximum de vraies semblances elle sera basse la variance elle sera élevée on va mettre des logaritmes parce que dès qu'on travaille avec beaucoup de tirages indépendants c'est l'augarisme qui s'ajoute c'est ça qui va bien marcher et je vais prendre la variation seconde du logaritme c'est comme une estimation de combien la densité est piquée près de son maximum et quand le nombre d'observations on va attendre l'infinie pour l'observation indépendante les logaritmes vont s'additionner ce qui va rester c'est la variance et donc je suis en train de regarder une variance moyenne de la densité dans sa variation par rapport à theta donc ça c'est la formule générale alors d'A2x est égale à Rho de x-theta évidemment une variation seconde par rapport à theta ça correspond à une variation seconde par rapport à x et i de theta devient égal à l'intégrale de gradient log Rho de x-theta carré pardon gradient laplacien je vais écrire ça avec un d2x sur dx2 moins d2x sur dx2 log Rho de x-theta Rho de x-theta dx bon et je peux toujours faire une intégration par partie parce que ce qui était une dérivation en theta c'est devenu une dérivation en x et je trouve que ça c'est aussi égal à l'intégrale de d sur dx log Rho de x-theta d sur dx Rho de x-theta dx bon et puis je peux bien sûr faire un changement de variable évident qui transforme x-theta en x-theta de sorte que finalement c'est indépendant de theta et ça va être aussi égal à l'intégrale de gradient Rho sur Rho fois gradient Rho dx soit encore intégrale de gradient Rho carré sur Rho dx bon donc ça c'est quand on travaille dans Rn dans R et après si on veut dans Rn quand on la signification de cette formule classique d'information de ficheur il s'agit de reconstituer l'endroit où une distribution disons l'endroit où elle se trouve dans l'espace Rn on connaît la forme de la distribution mais on sait pas où elle se trouve si elle est là ou là et la facilité qu'on va avoir à reconstituer ce paramètre elle est mesurée par ça et on sait que si on fait par maximum de vrais semblants ça symptomatiquement ça donnera la bonne borne que la variance sera comme l'inverse cette information bon alors ça semble très dépendant de ça semble très dépendant de R puissance saine ça semble très dépendant de R puissance saine mais il y a une autre façon de voir les choses on peut voir cela aussi des sur des t le long de l'équation de la chaleur de l'anthropie moins l'intégrale de Rologro et donc il y a l'idée qu'on peut remplacer ces translations dans Rn par l'opération équation de la chaleur qui elle va correspondre à faire une convolution par le noeud de la chaleur et ça ça a un sens intrinsèque et cela suggère la généralisation à n'importe quelle géométrie dès qu'on a dès qu'on a une équation de la chaleur en particulier en géométrie rimanienne on définira inu de mu égal intégral de grade rho carré sur rho dénu rho avec rho égal mu égal rho nu alors l'équation de la chaleur ici c'est pareil que les fois d'avant ça serait déronte rho égal rho ou elle serait la placien moins grade v scalaire gradient nu égal exponentiel moins v fois volume alors ça c'est le contexte pour les informations et plus généralement on trouve des fonctionnels de la forme intégrale d'un certain intégrant radiant rho dénu dans divers domaines c'est plutôt on va mettre comme ça dému dans divers domaines avec souvent un certain sens qui peut venir de la physique qui peut venir de la géométrie ou de ce que vous voulez alors les inégalités je vais vous donner une liste de 4 principaux types d'inégalités et puis on s'arrêtera là pour aujourd'hui en type d'inégalités évolution de l'information par mélange exemple l'une des plus célèbres l'inégalité de Shannon Stam qui joue un rôle important en théorie de la communication et qui vous dit que si vous avez x et y des variables aléatoires indépendantes dans Rn S de racine de lambda x plus racine de 1 moins lambda y ici je note S de la variable aléatoire pour dire S de la mesure de la loi de la variable aléatoire et supérieur au égale à 1 moins lambda alors à lambda S de x plus 1 moins lambda S de y et ça c'est pour lambda compris entre 0 et 1 bon et il y a une autre inégalité complètement pareille avec des informations de ficheur qui s'appelle Blackman Stam et qui dit que y de racine de lambda x plus racine de 1 moins lambda y est inférieur au égale à lambda y de x plus 1 moins lambda y de y alors on les revoit on les retrouve ces inégalités dans on les retrouve sous différentes formes par homogénéité elles se réécrivent sous des formes suivantes S de alors n de x plus y supérieur au égale à n de x plus n de y et 1 sur i de x plus y est inférieur au égale qui est plus petit et donc est supérieur au égale à 1 sur i de x plus 1 sur i de y ou n de x est égal à exponentiel de sur n fois grand s de x divisé par 2 pi e la fonction puissance entropy de Shannon donc ces inégalités elles vous disent en un certain sens que quand vous mélangez deux signaux vous obtenez un truc qui a alors une entropy plus élevée une information plus basse et on nous passe de l'un à l'autre en optimisant par rapport au lambda en utilisant le fait qu'on a des exponentielles, des logs un peu comme on l'a fait tout à l'heure pour passer d'une forme à l'autre dans la dualité de l'entropy un autre exemple qui encore parle de mélange une façon naturelle de mélanger quand vous avez deux signaux c'est de faire comme ça la convolution donc les ajouter quand vous êtes dans RL, une autre façon naturelle de mélanger c'est quand vous avez un signal d'appliquer l'équation de la chaleur ce qui revient à mélanger l'oeil de la chaleur avec le signal donc voici un autre exemple d'évolution de l'information par mélange quand vous regardez le semi-groupe de la chaleur appliqué à la puissance entropy vous trouvez que c'est négatif ça s'appelle la concavité de la puissance entropy et c'est un résultat délicat un peu délicat bon vous en avez d'autres sur le comportement en grand, sur le comportement en cours mais donc il y a toute une catégorie toute une classe des classes d'inégalité qui se réfère à ça montrer que selon certaines opérations de mélange l'entropy augmente et évidemment si on remonte le temps de Boltzmann c'est déjà ça aussi un certain mélange de mesures de probabilité on montre que ça augmente deuxième exemple domination deuxième catégorie plutôt domination d'une information par une autre que ça soit pas voilà ça dépend ici c'est juste la chaleur qu'on applique ici c'est juste la chaleur je prends ma de mesures de probabilité j'applique la chaleur et alors la dérivée seconde de la puissance entropy est négative pour la question d'information par une autre exemple plus célèbre et l'inégalité de ce bleu phlogarithmique et je vais juste mettre la plus célèbre on va dire STAM gross qui dit que si je prends gamma égale la gaussienne standard alors h gamma est inférieur ou égal à i gamma sur 2 bon je vais mettre explicitement h gamma de mu inférieur ou égal à i gamma de mu sur 2 pour tout mu donc ça c'est l'inégalité de ce bleu phlogarithmique et elle a à la fois un contenu isopérimétrique et un contenu spectral bon et elle se prouve au moins de 15 façons différentes autre exemple une égalité de ce bleu phlogarithmique déguisé alors ça va être quoi l'inégalité de ce bleu phlogarithmique et bien dans Rn par exemple ça dira juste que si l'intégrale de rho est égal à 1 l'intégrale habituelle de rho alors l'intégrale de rho 0, rho gradiant rho puissance moins insurène à la puissance p et est supérieur ou égal à une constante kp strictement positive voilà pourquoi c'est une égalité de ce bleu phlogarithmique déguisé parce que c'est équivalent à dire que u lp étoile est inférieure au égal la constante qui dépend de p et de n ici c'est pn fois gradu en norme lp avec p étoile égal np sur n-p et dire ça jusqu'à ce que soit u et là c'est la fonction qui est le héros c'est une densité de probat pour toute densité de probat on a une borne inférieure sur ce truc là qui ressemble à une information si vous faites n tendant vers l'infini et que vous prenez p étoile 2 par exemple vous retrouvez vraiment l'information de ficheur on peut le voir aussi comme quelque chose qui vous dit qu'il y a une borne inférieure à certaines quantités qui ressemblent qui contiennent une notion d'information sur la densité d'une probabilité voilà donc ça c'est le deuxième exemple d'inégalité avec des informations troisième exemple troisième famille disons c'est la domination d'une distance par une information et exemple le plus célèbre inégalité dit de Talagrand dit que W2 de mu à gamma toujours le même gamma donc pour tout mu est inférieure ou égale la racine de 2h nu de mu bon autre exemple qui va être un peu subtile on coiffe le doux on prend gamma on prend nu une inégalité qui vérifie juste une égalité de point carré donc un trou spectral L2 alors cql de mu nu est inférieure ou égale à constante fois h nu de mu ou cql de mu nu c'est le coût de transport associé à un coût c de xy qui vaut distance de xy si distance de xy est supérieure ou égale à 1 et distance de xy carré si distance de xy est inférieure ou égale à 1 quadratique au début et linéaire ensuite et en fait il y a équivalence donc là aussi c'est assez traitre on peut parler d'une inégalité de trou spectral déguisé et elle est déguisée sous la forme de fait qu'un certain coût de transport est majoré par une information c'est du boulot pour montrer qu'il y a l'équivalence mais c'est pour vous montrer que aussi ces inégalités de point carré elles peuvent se reformuler en termes informationnels et puis dernière catégorie il n'y a pas de constante optimale là-dedans mais il y a des encadrements du trou spectral il n'y a pas de... pour avoir d'optimalité il ne faudrait pas prendre ce coût là exactement mais un coût qui serait bien calibré je crois que le coût c'est une histoire de... je ne sais plus une histoire d'évolution mais il y a des encadrements en tout cas quatrième exemple alors ça c'est d'abord en fait ça c'est équivalent et ça c'est du genre concentration de la mesure quand vous avez une égalité un transport majoré par une information au sens habituel c'est toujours genre concentration de la mesure et comment ça se comprend ben à gauche le transport de mu à nu il vous dit quelle est la facilité que vous avez à envahir tout l'espace à partir de mu et à droite c'est un truc qui dépend de la façon dont mu est concentré par rapport à nu si par exemple mu est concentré et mu est égal à la restriction de nu à un ensemble ben ce truc là ça dépend juste de la probabilité de l'ensemble donc ça vous dit en gros quelle est la probabilité en probabilité combien comment mu est par rapport à nu tandis que ça ça vous dit combien d'efforts il va falloir dépenser déplacer les trucs pour aller de x y et ainsi envahir tout donc ça c'est comme une sorte de distance moyenne qui vous manque et ça c'est comme la probabilité que vous avez déjà là donc ça c'est du genre concentration de la mesure et la dernière exemple c'est interpellation c'est de genre interpellation qui fait intervenir où vous contrôlez une information par une information avec gradient et une distance de transport et celle qui marche le mieux c'est celle qu'on a prouvé avec auto en 2000 et qui vous dit que par exemple avec une Gaussian ou n'importe quelle mesure en fait cd0 infinity h nu de mu h gamma de mu n'importe quelle mesure à w2 de mu gamma fois racine carré de i nu i gamma de nu h w i où là vous avez un peu de transport et un peu d'information plus forte et ça c'est genre interpellation genre interpellation alors voilà on a fait le tour d'horizon sur ces anthropies en général anthropie et information on n'a pas tout dit par exemple j'ai passé sous silence le fait que l'information de ficheur elle a aussi des liens avec les grandes déviations ça s'appelle le théorème de Donsker-Varadan quand vous regardez les grandes déviations d'un mouvement bronien d'un processus al d'un processus stochastique dont la mesure invariante est égale à nu celui qui correspond au générateur L qu'on a vu et vous regardez ces grandes déviations trajectorielle vous regardez la mesure d'occupation sur t l'intégrale de 0 a t de delta x t d t et bien ça vous espérez que ça va converger vers nu c'est envers l'infini une ergoticité dans ce cadre-là stochastique est-ce qu'il y a un principe de grande déviation et la réponse c'est oui il y a un principe de grande déviation et c'est la fonctionnelle inut qui représente le principe de la fonctionnelle de grande déviation pour ça il y a des choses qui peuvent se réinterpréter en termes de grande déviation pour tout ça une grosse partie peut se réinterpréter par exemple ce bolèphe logarithmique un grand déviationniste lira ça en disant que la fonctionnelle de grande déviation associée à la mesure empirique est tirée des particules aléatoirements et indépendamment et plus petite autrement dit c'est moins concentré ça dévie ça dévie ce qu'on va dire ça dévie moins si on veut que celle qui est associée au trajectoire et que moralement a intérêt à regarder une approximation trajectorielle plutôt que de faire une approximation par tirage indépendant quand on s'intéresse à un truc genre mouvement braunien on n'a pas dit tout tout ce qu'on pouvait dire mais on a fait le panorama alors toutes ces questions là se retrouvient à notre histoire au sens où dans tous les cas que ce soit la catégorie 1 ou 2 ou 3 ou 4 quand on va se demander ce qui peut se généraliser à des géométries un peu non particulières c'est toujours la courbure de Ricci qui va intervenir les critères de courbure dimension et certaines de ces inégalités on va les utiliser en relation avec la lecture de la courbure de Ricci voilà