 Ok, donc il y a une question. Ok, j'ai juste fait un petit recap de ce que l'on a fait hier, donc nous sommes considérés avec ce simple modèle en dimension N, donc avec vector en Rn, lambda est le ratio signal to nodes, nous sommes dans une base optimale de la statistique des paramètres sur le modèle. J'introduis une fonction partition, le Hamiltonian, sur cette fré-énergie, F, qui est une fonction partition logique, parfois. Donc, c'est la définition et c'est ce que nous avons besoin de prouver pour connecter la fré-énergie à l'information mutuelle. L'information mutuelle est une quantité que vous avez aussi étudier dans le cours de Laurent. Donc je pense que je vais commencer avec le proof de ça, et puis on va aller voir comment on va progresser. La information mutuelle est une diversité entre la distribution du couple et le produit du marginal. Vous avez besoin d'attendre l'économie radon, si vous voulez l'économie de ceci. Ça mesure combien de temps vous êtes d'un sample indépendant pour le couple. Dans ce cas, on peut l'éliminer explicitement, et vous devez l'éliminer. Donc, cette fois-ci vient de marginaliser la probabilité de l'économie. Donc, c'est une simple définition. Une autre définition, l'information mutuelle, c'est juste l'expect de l'économie de ce ratio. Je dois prendre le log pour compter mon quantité. Donc, on va faire ça. Donc, c'est minus l'expectation de log. C'est comme ça. Donc, il y a un petit x sur un grand x. J'espère que c'est clair. Donc, si ce n'est pas, laissez-moi savoir. Donc, j'ai basé ce exponent ici, et il y a un minus en front qui prend le log. Donc, je n'ai pas fait trop de choses maintenant. Donc, dans ce terme, ce que j'ai... Donc, j'ai envie de connecter cela à la frère énergie, qui est un log de cette quantité. Donc, ici, vous reconnaissez que c'est des termes qui viennent de cette quantité, c'est-à-dire que... Ok. Ceux-ci sont là-bas et là-bas. Donc, c'est equal à minus f de lambda plus le termes restants. C'est le square root de lambda x transpose y, lambda divided by 2. C'est ce dernier terme. Ok. Donc, on est presque là. Ça ressemble à ce que l'on a faimé. Ok. Parce qu'on a ce signe additionnel qui n'est pas correct. Donc, maintenant, vous pouvez remplacer ce y par l'expression ici. Vous voyez que vous aurez une square root de lambda x transpose x appuyant. Donc, c'est la norme de x. Donc, ça va canceler avec celui-là. Donc, ça va donner plus de lambda sur 2. Et puis, le autre terme est le square root de x sur z. Et depuis que z est une variable de Gaussian, ça sera 0. Ok. Donc, c'est... Pour aller de cette ligne à cette ligne, je vais juste replacer le y. Avec cette quantité. Ok. Donc, c'est exactement ce que j'ai dit ici. Ok. Donc, si vous faites de statistiques physiques, vous caressez de ceci. Si vous fais de l'information théorique, vous caressez de ceci. Mais c'est la même quantité. Vous avez une très belle propriété de cette fonction. J'ai fait l'AMMC pour ça, j'espère que c'est clair. Donc, c'est ce que j'ai défini hier. Donc, c'est une fonction de la function de nos ratios lambda. Donc, il n'est pas augmenté. Vous pouvez y voir, comme vous l'avez fais, que ce n'est pas augmenté. Vous pouvez aussi l'avoir sur le square root de x. C'est un square root de x. Et il y a aussi des ratios wave, et sur la ligne. Ce qui est assez continue. Plus. Vous avez aussi un square root de x. d'augmenter le signal, vous réduirez l'erreur et il va s'agir dans les limites où vous avez un grand signal. Je vais faire le proof pour la partie qui n'est pas augmentée parce que je pense que c'est très bon. Je vais seulement prouver cette partie là-bas. Donc, je prends deux paramètres et j'ai envie d'order le MMSC pour Lambda1 et Lambda2. Donc, je défendre l'inverse de ce et maintenant deux modèles. Donc, c'est plus simple de l'écrire comme ça, je pense. Donc, c'est exactement ce que j'ai considéré, j'ai juste prétendu tout par la square root de Lambda. Mais il y a un petit... Donc, c'est exactement la même valeur de ce. Ce x est le même, ce z est le même. Et ici, j'ai ajouté ce que vous espérez. Ok, j'ai deux canons. La première est exactement la chaîne correspondant à la c'est Lambda1. La deuxième est exactement la chaîne correspondant à la c'est Lambda2, mais elles sont compagnes. Ok. Donc, elles ne sont pas dépendantes. Donc, je veux dire, x à la hausse p de x, z1 et z2 sont IID, Gaussian, et ils sont dépendants de x. Maintenant, ce que vous pouvez écrire, c'est... Donc, c'est le MMSC pour cette chaîne et je vais juste écrire... Donc, c'est la définition, rien ici. Maintenant, z2 est dépendant de la couple x et z1. Donc, je peux ajouter le conditionnement ici, ça ne change pas. Ici, j'ai ajouté z2 et c'est encore correct. Maintenant, si vous me donnez y1 et z2, c'est la même chose que j'ai ajouté y1 et y2. Ok. Donc, ici, vous pouvez remplacer le conditionnement de ce que je vais écrire. Ok. Maintenant, ceci est plus bas que cette quantité. Je vais retirer le conditionnement. Donc, ici, j'ai projeté un grand espace. Donc, quand j'ai retiré le espace, la projection sera l'utilisateur. Et c'est exactement le MMSC à clandatour. Ok. Maintenant, je vais essayer de vous convaincre d'un autre théorème, aussi pour Verdou, un co-authors, qui s'appelle les literatures, sur le MMSC à clandatour, qui connecte les informations mutuelles avec le minimum de means square error. Donc, ici, c'est parce que... Le nom de Verdou, c'est le nom de Verdou dans 2005. Il s'est dit que ce théorème était connu dans les statistiques. Il s'appelle le Brugini d'identité dans un papier statistique. Je pense que c'était publié en 15e, mais il a été rediscoverdé, je pense, un résultat important pour être rediscoverdé par Verdou plus tard. Donc, le nom est offert. Si vous considérez le dérivé de l'information mutuelle, ce qu'il s'agit de l'ondeur, c'est equal à 1,5 fois le minimum de means square error. Donc, je pense que j'ai oublié le 1,5. Et Jean a dit ça, c'est vrai, oui. Qu'est-ce que tu veux dire par... Je ne suis pas sûr de comprendre ta question. Qu'est-ce que je fais ici? Je l'utilise seulement pour mon modèle. Donc, à chaque fois que j'écoute l'AMMC de Londres, c'est ce compétitif pour ce modèle. Mais, oui, dans le papier, j'ai dit que tu as un statement plus général, mais pour le purpose de ce cours, je n'ai rien dit. Je vous remercie pour la clarification sur ce papier, aussi que vous pouvez le prouver. En fait, je vais le prouver pour les modèles plus générales. Est-ce que tu as répondu à ta question? C'est OK. Qu'est-ce qu'il y a? Qu'est-ce qu'il y a? Non, non, non. C'est parce que c'est déjà... Je veux dire, c'est une pièce de radon. Donc, ici, il n'y a pas... Je ne suis pas sûr de comprendre. Je veux dire, si vous préférez, vous pouvez écrire cette partie sur la règle ici. Mais c'est... C'est le ratio de deux dansities. C'est le numéro, c'est ce que je veux dire. Ce n'est pas un mesure à la droite. C'est le ratio de deux dansities. Oui. Oui. Donc, si nous n'avons pas la règle de Gaussian, oui, oui, OK. Ah, non. Je veux dire, pour la frère énergie, cette connexion, oui. On le remet. C'est la règle de Gaussian. Oui. Donc, vous avez la même règle. OK, OK. Donc, l'answer de votre question n'est pas parce que quand j'écoute ça, j'ai hésité à utiliser l'assumption que j'écoute dans la Gaussian. Donc, mais ce que l'on peut essayer de faire c'est que, ce que les gens font, c'est que vous prouvez le résultat pour la noise de Gaussian. Et ensuite, vous trouverez le résultat de l'université, en montrant que votre résultat est encore correcte si vous réplacez la Gaussian par... Je ne sais pas, la Gaussian, je veux dire. Mais oui, oui. Bien, je veux dire, OK. Si vous remetez tout dans l'assumption, et que vous vous inquiétez si nous pouvons remettre le facture que la noise de Gaussian est encore liée à l'énergie et à l'information mentale, par exemple. Vous pouvez complètement relaxer que la noise de Gaussian, vous pouvez prendre Y, ce qui est le data, qui est la variable rendue de n'importe quelle distribution conditionnelle de X. Donc, vous n'avez pas besoin de Gaussian à tout. Et vous pouvez... Mais alors, vous ne pourrez pas... Vous pourrez avoir quelque chose de plus compliqué, oui. Mais vous pouvez toujours relayer l'information mentale et l'énergie. Mais vous pourrez aussi perdre cette relation. Et ensuite, pour accéder à l'AMMC et choses comme ça, c'est beaucoup plus compliqué. Oui, tout le prof, que je sais, sont avec la noise de Gaussian, je pense. Je pense que c'est même le titre du papier. Donc, ce que nous verrons aujourd'hui, c'est qu'actuellement, nous allons utiliser beaucoup de... comme l'intégration de la part de Gaussian pour des variables, qui seront cruciales pour faire des dérivations. Donc, l'assumption de la noise de Gaussian sera cruciale pour la computation. Mais ensuite, vous pouvez essayer de choisir l'universalité. Si vous soyez au regard de ça. Quand on dit que ce genre d'approche de l'universalité est valide spécifiquement dans ce modèle. Donc, vous pouvez mapper un type de noise. Vous pouvez le remplacer par une noise de Gaussian équivalente. Mais dans d'autres problèmes, comme la régression, pour exemple, vous ne pouvez pas faire ça. Vous devez vraiment avoir à résoudre le problème avec la noise de Gaussian. Et ça ne donnera pas quelque chose équivalent à un problème de la task de Gaussian. Je veux dire que le résultat de l'universalité n'est pas pour la liberté. Vous devez travailler. Mais pour tout mon talk, je vais beaucoup relâcher sur la computation de la noise de Gaussian. Donc, donc le dérivatif de l'universalité, donc c'est l'universalité de l'universalité, d'autres parties, qui je veux montrer ici. Donc, ok. Vous vous souvenez, la notation de la braquette est, quand vous êtes en train de prendre l'explication avec respect à la distribution de l'universalité à savoir pourquoi, pourquoi. Ok. Donc, pourquoi c'est important, comme vous le verrez, c'est que, basically, ce que nous carevons c'est cette quantité, la minima de l'universalité de l'universalité, donc la meilleure performance que vous pouvez achever, quoi que soit l'algorithme que vous utilisez. Et vous voyez que c'est relative au dérivatif de l'énergie de l'universalité. Donc, la technique de la braquette que nous allons utiliser va être d'essayer de obtenir un bon estimat de cette f de l'universalité. Et ensuite, prendre le dérivatif de l'universalité afin de obtenir les résultats que nous sommes intéressés à. Ok, c'est la façon dont nous irons. Donc, je veux dire, comme résultat, depuis que l'AMMC est non-incrisieuse, cela implique que la f est convaincée, différenciable, non-incrisieuse, et l'universalité de l'universalité avec le paramètre direct de l'universalité. Ok, donc, nous allons essayer de prouver cette partie de cela, et nous avons besoin d'un autre important tool. Donc, cette fois-ci, qui n'a rien à faire avec Gauchan, en fait. Ce qui s'appelle Nishimori Identity. Il s'appelle comme ça dans cette communauté. Et c'est simplement un baseoul. Ok. Mais encore, je pense que c'est important de donner un nom à cette propriété, parce que c'est bien, c'est plus une notation si vous voulez, que un vrai mathématique. Donc, c'est très général. Donc, ici, vous avez pris un couple de variables avec l'expectation E. Ok. Maintenant, c'est la notation que j'utilise. Ce sont des types de standard. Les samples IID sont des samples d'un given Y avec une distribution d'un posteriore de X d'un given Y. Donc, la façon dont vous samplez, vous pourriez le premier X sur Y. Ok. Vous avez votre Y. Et maintenant, vous avez des samples IID avec une distribution posteriore avec un Y que vous samplez au début. Donc, en particulier, en particulier, en particulier de X. Maintenant, vous n'avez pas avec le bracket l'expectation avec respect à cette mesure. Ensuite, vous avez pour n'importe quelle fonction la mesure, etc. Ok, donc, ici, vous avez une sorte de replicas de votre original X. Et ce que vous pouvez faire c'est de répliquer l'une d'elles par la valeur originale que vous samplez au début. Et ici, je prends les deux répliques avec respect au début à la valeur conditionnelle et ensuite à la totale l'E, qui est l'initialité de l'exemple micropole Y. Donc, est-ce clair que c'est un un statement objeu? Donc, basiquement, si vous voulez samplez cette quantité, la première chose que vous faites, c'est ce qu'il y a. Vous samplez X et Y. Ok. Et puis, par Y, vous samplez cette quantité de répliques K-1. Ici, ce que vous faites, vous samplez X et Y. Vous enlevez X. Et ensuite, vous enlevez K répliques selon cette loi. Mais, ok, maintenant, pour samplez cette loi, ce que je peux faire c'est samplez X et Y. Exemplez X et ré-samplez l'exemple de l'exemple de la distribution. Et on va avoir exactement la même loi. Donc, la loi de cette variabilité et cette variabilité sont exactement les mêmes. Ok. C'est basé. Voilà. Ce que l'on appelle la base-roule. Donc, ça pourrait être bizarre pour mettre un an d'une simple identité. Mais, on va utiliser l'exemple de l'exemple de l'exemple de l'exemple. Donc, c'est assez convainable. Et il y a c'est il faut s'occuper d'une notation plus que je ne sais pas que vous connaissez probablement mieux que moi. Oui, donc, il y a un Nishimori qui fait stratégie statistique. Mais sur le côté physique, je dirais pas sur le mass, mais pour moi, j'ai eu le travail d'understand ce que c'est que je dis sur le Nishimori ce qui signifie quelque chose comme ça. Ça signifie une température dans votre modèle de spin où vous avez beaucoup de simplifications qui permettent de complètement analytiquement étudier le modèle sans utiliser les tools non rigoles comme les réplications et choses comme ça. Et la température spéciale c'est le Nishimori. Et dans le contexte de la France, vous êtes toujours sur cette température spéciale. Quand vous êtes basé au Tima. Quand vous êtes basé, quand vous êtes basé au Tima. Et ce sont beaucoup de simplifications que vous pouvez utiliser. Ce qui est appelé basé dans le mass. Ok, donc, on va commencer, on va utiliser ça. Mais je veux vous montrer un prof de ça parce qu'il est en utilisant beaucoup de tools qui sont utilisés. Je vais réveiller le minimum de means square error avec ma notation braquette. Ok, donc ceci est par définition. Ceci est la définition de means square error. Ceci est le posterior mean de mon X. Donc, vous pouvez le réveiller comme ça. Vecteur scarpone. Maintenant, vous avez une simple propriété de la posterior mean qui est que c'est la projection. C'est 0. Ok, quand j'ai projeté sur le, j'ai projeté, vous pouvez voir prendre la posterior mean comme projection sur toute la fonction maximale de Y. Donc, il faut être orthogonal à ma projection. Donc, ça implique directement que X, cette quantité est égale. Ok, donc ce terme, vous pouvez le réveiller exactement. Ce terme a exactement le même valeur que ceci. Ok. Et maintenant, je veux écrire, vous voyez que je suis presque ici. Je dois réveiller ce terme par ceci. Ok. Donc, vous allez d'ici à ici. C'est exactement Nishimori. Identité. Donc, vous pouvez OK. Let's start from by Nishimori. This, I can replace it by X1, T, X2. Ok. This is exactly this statement. Now, X1 and X2 are independent. So, yes, so conditionner on this and which is exactly what I want. Ok. So what we proved is that this without that this line is equal to this line. That's written here. I erase it, but we also know that we proved this before. Ok, we just proved that. So, if you take the derivative of this, you obtain this term minus the derivative of this. In order to prove this quantity, you need to prove that the derivative of Y is equal to this or that the derivative of Fp of Milan is equal to this, whatever you want. You will obtain the result. So, let's try to prove the result on the free energy. So, what we want to prove that F of lambda minus F of 0 is equal to... So, let's look at Z of lambda Y. So, the derivative of the... So, I'm computing this quantity here. You can rewrite it as... I'm derivating under the integral sum, but it's okay. X, then you have the Hamiltonian. So, here, the derivative of the log is the derivative divided by the function itself. So, this is the function itself and this is the derivative of Z of lambda. So, you see that you can interpret this again this part here with Z. It's exactly the posterior distribution. So, what you have is the derivative of the Hamiltonian with respect to the Gibbs distribution. So, this is... If you derivate the Hamiltonian you have a square root of lambda which gives you this term Z plus or 2. So, f of lambda is equal to Z. So, this means that f of lambda 2 minus f of lambda 1 you take... Okay, you can check that you can apply if you need. You can invert the integral on the expectation on this quantity. X minus... So, here I'm integrating over lambda of my distribution. And now, I will use another nice property of Gaussian. Namely Gaussian integration by parts which tell you that if you have a Gaussian on a smooth function you have always this relation. So, this is due to the specific form of the density of Gaussian and this quantity to... So, here I'm considering the scalar, the component Y of my noise on the component Y of my posterior. So, if I'm applying this quantity this is the variance is 1. So, this term will disappear. I hope the notation are clear. I mean, this is taking the derivative with respect to the ZI variable in this expression. Now, remember that this expression is marginalizing only with respect to X, Y. So, I'm keeping only the term with X, Y. So, again, now I'm not dealing with vector anymore. It's a scalar. So, this corresponds to in the Hamiltonian, the term involving XI on the I. And you need to normalize it by... OK. A normalizing function which is not this one but the one corresponding to normalization of this quantity is... OK. So, now I'm taking the derivative of this. Though I have a ratio you apply the standard formula. So, first you need to take the derivative of this and you will see that there is a term. I mean, this term will come. So, I'm taking the derivative of lambda XI squared because there is XI here and I'm dividing by ZI. And the other term is if you do the mass the product of this times the derivative of this and you... I mean, when you are taking the derivative here, you will see that there is a scope of lambda XI coming here. The scope of lambda is here plus or 2 over there. OK. So, these civilians rely on integration by part because now what I have is that the expectation of ZI is I lambda. So, I'm taking the expectation of everything. I will do exactly the same trick as before. Z squared with an ishimori on va voir scroll the squares of lambda by the product of one replica and the original signal that you obtain X, Y squared minus from here to here ZI ishimori OK. And we are almost done. So, here Donc c'est ce qu'il y a, vous voyez qu'il y a un système appuyé ici avec un minus. Je suis divisé par le square root de lambda. Donc le système appuyé avec celui-ci. Donc en fin, ce que j'ai, c'est f of lambda2 minus f of lambda1, c'est equal à, donc il y a l'une à l'autre qui vient de là, l'intégral de lambda2, c'est l'explication qui est exactement ce que j'ai dit. C'est pas exactement ce que j'ai dit ici. Si vous voulez obtenir ça, vous devez montrer que vous avez de la continuité quand le lambda1 est à 0. Et puis vous vous obtiendrez ce résultat. Je vais découper ça. Donc je pense que, ce que j'ai dit, c'est comme ça. Donc, je vais faire une autre chose. Donc, si vous n'êtes pas familiar avec ce, ici vous voyez que l'explication est utilisée, il y a plusieurs ingrédients qui sont, qui sont utilisés dans la compétition, faits sur un modèle. Vous pouvez ré-write, la dérivate de fonction avec respect à la paramètre, a une expectation avec respect à la postérieure. Et puis utilisez la partie de la partie de la compétition de Gaussian afin de simplifier votre formulaire. Donc, vous vous reliez du fait que le son est Gaussian, afin de faire votre compétition explicite. La partie de la partie de la compétition de Gaussian n'a rien à faire avec la nature de la compétition de Gaussian. Je vais ré-write un petit exercice. Je pense que c'est, au moins, pour moi, ça m'a aidé à comprendre mieux. Le exercice c'est de faire une compétition explicite pour un modèle très simple, qui est la scalar. Je veux dire, dans ce cas, vous assumez que la noise est Gaussian. Donc, en particulier, vous avez la vectoration de Gaussian et vous pouvez conclure tout. C'est ce que vous l'avez appris dans un livre basé sur machine learning ou même probabilité de vectoration de Gaussian. Donc, parfois, c'est réveillé comme la loi de X. Donc, ça veut dire que la minue est 0 et la variance est 1. Maintenant, ce modèle, je vais le ré-write. Ça veut dire que c'est la Gaussian en Y avec la minue qui est à l'intérieur de la flamme d'A donc c'est 0. Alors, je vais le ré-write. Je vais le ré-write en X avec la variance 1 parce que la variance est la noise. Donc, en particulier, ce qu'est la loi de Y, dans ce cas, c'est clair pour tous que ça sera Gaussian. ce qui est le sens, le sens de l'esprit, le sens de la variante. Merci. Donc, c'était la partie facile. Mais maintenant, ce qu'on peut faire, c'est d'expliciter le sens que j'ai intéressé, ce qui est le sens de l'esprit x, le sens de l'esprit y. J'ai un vector de question. C'est un calcul visuel. Et, en ce cas, on peut vérifier ce qui est le sens square root de l'esprit x, divisé par 1 question de la partie x par une variante. Donc maintenant, avec ce que vous pouvez concruterинг driver. Et alors, la question est, concruter ce, concruter ce directement. Et maintenant, vérifiez que c'est equal à ce qui est basé dans la clinichumorie et que c'est une clinichumorie mais vous avez un statement plus fort. Pour un modèle simple, vous n'avez pas besoin de faire tout ce que j'ai fait parce que vous pouvez conclure tout expliqué. La main pointe de l'IMMC theorem et tout en essayant d'attaquer un problème où vous n'avez pas d'explicit formulaire pour l'explicit de votre loi. Est-ce que j'arrête maintenant ? Oui. Oui ? Ok. Est-ce qu'il y a d'autres questions ?