 Bonjour à tous, je suis très heureux d'être ici, donc à la maison, je travaille ici maintenant pour pas longtemps, donc donne-moi une seconde. Alors, je vais discuter des résultats qui sont très connectés à l'au-delà de la prévue d'aujourd'hui, sur ce tout ou rien de la transition face qui s'occupe, j'ai focussé sur un problème qui est l'analyse sparse principale de l'analyse, qui est connecté à ce problème qui a été discuté par Scott. Donc, ce sont des résultats jointes avec mon ami Nicolas Macri de l'EPFL. Donc, avant d'entrer sur le problème, je vais commencer par une réplique très biaise de ce qui s'est passé en France, dans les dernières 10 ans. Encore une fois, c'est très biais et c'est vraiment ma perspective statistique physique. Donc, une classe de problèmes qui ont attracté beaucoup d'attention dans ces années sont les modèles spiked-matrix, ou les modèles tensors, qui sont, si vous voulez, la version plantée du modèles pespine, ou le modèles biportite, ou le modèles pespine, qu'on a ici, c'est que vous avez accès à un sensor de data, et vous voulez infernir ce signal qui est indiqué là-bas. Et l'équivalent des interactions sont ce z, ce bruit, qui est là-bas. Mais vous avez d'autres informations sur le signal. Alors, dans ce problème de l'inferment de l'inferment de la vieille dimension, nous avons maintenant beaucoup de résultats, grâce à le travail de beaucoup de gens. Et essentiellement, la paquette de résultats nous réveille comme ça. Vous avez accès à une formule simple et variationnelle pour la information sociale entre le data et le signal. C'est une formule asymptotique, qui est justifiée par optimiser un potentiel simple réplique-asymétrique. Et vous avez aussi accès à une formule pour la minimum min square error, qui quantifie comment bien vous pouvez infernir le signal x. Dès que vous avez accès à l'infinité de la puissance computationale, vous pouvez compter l'estimateur optimal, qui est le minimum min square estimateur. Et la formule est juste une expression simple qui dépend de q star, qui n'est rien d'autre que l'optimisation de cette fonction. Donc, quand vous avez cette formule, vous pouvez faire des diagrams face. Donc, ici est le cas où le prior, qui signifie la distribution qui a généré les components IID de ce signal, est dans le cas de p equal 2, donc c'est un problème de facturisation matrix. Ici, vous avez la lambda, donc c'est le ratio signal-to-nose, qui contrôle la force du signal avec respect à la noise. Ici, vous avez p, donc la symétrie entre les deux valeurs possibles, qui prennent les entrées signalées. Ici, les entrées sont juste faites pour que ce prior a une variante unie. Mais essentiellement, c'est les pins binaires, si vous voulez. Donc, si vous commencez à jouer avec la symétrie dans le prior de ce gars, ce qui s'occupe est que vous avez ce diagramme face, où vous avez la phase la plus facile, que vous avez oubliée beaucoup maintenant, où vous avez des algorithmes efficaces qui pourront atteindre la performance optimale dans l'influence. Dès cette ligne, vous avez l'impossible phase, qui signifie que, si vous n'avez aucun moyen de reconstruire le signal, c'est perdu par la noise, indépendant de l'algorithme. Et ici, à ce point, vous commencez à avoir une phase haute, qui signifie que, dans cette région, si vous avez accès à une puissance large, un algorithme d'exponentialité, vous pourriez peut-être infermer le signal, mais nous ne savons pas qu'un algorithme efficace peut faire ça. Donc, vous avez des photos claires de ce qui s'occupe. Vous pouvez placer les algorithmes de variantes, donc la ligne dark ici est l'algorithme optimal. La ligne rouge est ce que vous avez avec ce passage approximatif, et la ligne bleue est ce que vous avez avec la ligne principale. C'est ce que vous regardez juste au vector de l'algorithme. Et vous voyez ici la présence de l'algorithme computationnel, cette phase haute qui a aussi été discutée par Afon, qui a été discutée par Federico. Donc, c'est la photo normale. D'autres problèmes sont, par exemple, une estimation random, dans le cas où l'axe s'exprime, c'est le sens compressif. Vous connaissez cette matrice phi, qui s'appelle la matrice measurement. Vous connaissez l'axe W, et vous voulez infermer l'axe. C'est un cas spécial de plus générique que Lenka a déjà discuté, ce qui est ce modèle généralisé, qui est maintenant la matrice phi qui s'exprime componentiquement. C'est essentiellement ce que vous voulez. Et vous voulez, encore une fois, infermer l'axe, d'une possibilité non linéaire, ou même des mesures stochastiques. Une simple case, qui a été étudée pour longtemps, est le perceptron. Dans le scénario étudiant, qu'est-ce que ça veut dire? Ça veut dire que vous avez, vous mettez des données dans cette simple netto neural. Il y a des labels d'outils. Et le tasque est maintenant, je vous donne ces données, et l'outil associé. Je casse les weights, qui sont là, et je vous demande de récover ces weights. Donc, vous avez déjà vu dans cette photo, pour ce problème, grâce à cette analyse. Donc, encore une fois, nous avons le package, le formula de rigos, le formula de l'information, les formulas de rigos, pour les différents types d'erreurs, des garanties algorithmiques, qui vous disent que, quand l'AMP fonctionne, c'est optimal. Vous pouvez placer l'erreur de généralisation, que ici, c'est la ligne rouge. Vous voyez qu'elle se drogue, à un point. Mais si vous essayez le meilleur algorithme, que nous connaissons, à un moment, cet algorithme de l'AMP, vous avez besoin d'un peu plus de données. Alpha quantifie le nombre d'études que vous avez accès à. Et vous voyez, encore une présence de cette gamme computationnelle ici. Et vous pouvez comparer cela à ces simples algorithmes. Donc, c'est le cas d'un concept binary. Dans le cas d'un concept continuous, vous n'avez pas cette transition continueuse comme ça. OK ? Alors, juste pour vous donner une idée de comment générique est ce modèle, les cas spéciales de ce GLM sont, encore une fois, le problème de sensibilisation compréhensible, qui est également relativement au CDMA, qui est une communication importante, un scheme entre multi-useurs. Cela signifie co-division multiple access. Cela est relativement à des codes superpositions qui sont une classe particulière d'erreurs correctées, ou d'erreurs correctées de codes pour point-à-point communications. Le problème de truie de phase que vous avez déjà discuté, entre l'estimation et l'entraînement, vous avez ce problème qui est appelé une sensibilisation compréhensible dans la communauté de process de signal ou le perceptron dans l'entraînement machine. Vous avez le so-called relieu non-linearity qui est fondamental dans le sens que ceci aujourd'hui est probablement la plus utilisée non-linearity dans les networks deep neural ou le modèle canonique pour la classification binaire qui est le sigmoïde ou la régression logistique. Vous pouvez ajouter plus recentement des nouvelles layers de complexité qui ont été ajoutées à ces modèles. Par exemple, nous avons pu étudier les modèles de networks chalons qui sont appelés des machines de comité où maintenant, c'est une généralisation de ce modèles déjà généralisés où maintenant, vous avez une unité de chalons ici dans le milieu et vous voulez infermer ces modèles qui sont là. Un autre type de modèles sont ces networks deep neural mais dans une phase pré-trained. Qu'est-ce que cela signifie? Cela signifie que vous avez ici les matrices de weight ce 5.1, 5.2, etc. qui représentent ces modèles dans cette networks chalons. Nous pouvons étudier l'information mutuelle dans ces modèles types qui signifie, par exemple, l'information mutuelle entre l'input donc les unités visibles si vous voulez et l'output ou entre les deux les deux modèles. Mais dans le cas où ces matrices sont randomes, ok? Ils ne sont pas correlés vous n'avez pas étudié encore la networks neurales. Ok? Même plus recentes résultats en fait, ceci est plus ancien. Les gens maintenant sont encore autour du groupe autour de Florian Lenka en particulier Eric, André, Marie-Lou, Benjamin, Bruno, et Antoine qui sont dans la salle. Ils sont maintenant regardés aux modèles. Ils ont essayé d'input des structures dans les modèles. Ok? Donc, pour exemple, en ce cas, ils étudiaient le problème de l'inert, le problème de l'inert random donc, encore, il y a de l'inert projection d'un signal corrupté sous la noix gauche donc, c'est la probabilité de l'exe que vous voulez reconstruire selon les matrices et vos données. Mais vous assumez que l'exe n'est pas encore l'IDI. C'est un objectif complexe qui a une distribution par rapport à votre machine restricte de bossmann. Donc, c'est déjà solide. Ce problème est très complexe en soi-même. Vous pouvez les combiner comme les Legos et vous voulez étudier le physique de ce modèle. Vous pouvez obtenir un diagramme de face, les formuleurs, les informations formuleuses et d'autres. Plus recentement, les gens dans le salle étudient ce type de modèles où, pour exemple, vous avez accès à une matrice de données qui est générée d'une matrice basse, faite d'un produit de deux matrices basse, U et V. Et on va dire que U est simple dans le sens que c'est l'IDI mais V est un objectif très compliqué en soi-même dans le sens que V a été générée d'un modèle généralisé. Ici, W est connu et Z est un signe plus primaire si vous voulez. Ce qui, en soi, est l'IDI. Vous avez besoin à un moment d'assumption de l'IDI afin de solider les choses. Vous pouvez combiner ces deux modèles. Vous avez un modèle graphique compliquant et tout le machiner fonctionne essentiellement. Alors, ceci était pour l'autre côté, ce que nous savons. Mais il y a beaucoup de choses que nous ne savons pas. Ok, donc, encore une fois, c'est un vue très bias de ce que nous ne savons pas. Bien sûr, beaucoup, beaucoup, beaucoup d'autres choses que nous ne savons pas, mais c'est le genre de choses que je suis intéressé dans ces jours. Donc, en particulier, le salle non-bas, salle non-bas optimal. Donc, qu'est-ce que ça veut dire? Ce sont différents résultats que j'ai dit à vous. Nous savons tout, dans le sens que nous pouvons conclure les choses rigorosly. Nous avons des algorithmes garanties et tout le reste. Dans le cas où vous assumez que vous savez comment la date a été générée. Ok, vous avez un match parfait entre les paramètres que vous assumez comme statistiques et les paramètres réels qui sont dans le modèle. Ok. Donc, par exemple, vous assumez que le ratio signal que vous utilisez serait le même. Mais dans le salle non-bas dans le salle non-bas optimal vous avez un mismatch. Le prior ne pourrait pas être le vrai qui a généré la date. Le point que vous assumez peut être différent. Et ainsi et ainsi. Donc, ensuite, le bouton de botton à l'époque c'est vraiment comment vous étudiez ce qui s'occupe quand vous avez une vraie structure dans la date. Donc, il y a eu beaucoup de progrès dans cette direction recently. En particulier avec le travail que j'ai juste montré avant par Florent Lenka's groupe et aussi par ce grand papier que Marc nous a dit. Mais encore, je pense qu'il y a beaucoup de choses à faire dans cette direction. Un autre vrai bouton de botton c'est ce que j'appelle un nouveau régime statistique dans le sens que à l'époque par exemple, dans le étudiant de cette complication d'un réseau deep neural nous avons besoin de sujets pour être fixés. Donc, ces sont appelés les variables de la variété statistique. Nous ne pouvons pas leur faire évoluer et dans le sens nous ne pouvons pas leur apprendre, nous pouvons seulement étudier la statistique de ces networks neural quand les choses sont décorées. Mais bien sûr, ce que vous voulez vraiment faire c'est dire quelque chose sur le régime de la formation où les paramètres ici sont les variables dynamiques qui s'évoluent. Et c'est à l'époque totalement de l'extérieur. Nous ne savons pas comment faire. Ça vraiment nécessite de nouvelles idées. Et ok. Un dernier point ce qui est ce que je vais discuter aujourd'hui c'est ce que j'appelle zoomer sur les corners des diagrams face. Donc, qu'est-ce que je veux dire par ça ? Donc, dans la physique statistique dans ce genre d'approches généralement les paramètres dans le problème sont fixés. Donc, fixés avec respect à quoi ? Avec respect à l'un des séances de l'élément. Et le nombre de spines dans la physique, le nombre de compagnons dans le signal que vous voulez dans l'influence et tout et tout. Pour exemple, dans la physique, l'extérieur magnétique est quelque chose que vous fixez. C'est une quantité en ordre. La température aussi et tout. Ici, dans l'influence, le niveau de noise est fixé. La sparsité aussi. Il ne dépend pas sur le nombre de problèmes. Ok ? Mais il y a des questions intéressantes qui sont relatives à ce qui se passe dans les corners des diagrams face. Donc, ce qui se passe quand ces paramètres vont à l'infinité ou à 0 avec n avec le nombre de variables dans le problème. Et ce qui est usually difficile à accéder avec la méthode statistique. Et ce travail est lié à comment aller beyond ces techniques et à essayer de dire quelque chose sur ces régimes. Donc, la motivation a commencé avec ce problème de la sensibilité compressive. Donc, il y a un papier, un très bon papier recent par Galen Reeves et Jamming Zhu et un étudiant de eux qui ont étudié ce problème de sensibilité compressive dans le sétting où essentiellement, la sparsité va à 0 et la valeur de measurement qui est le nombre de mesures divisé par la dimensionnalité du problème va aussi aller à 0. Ok. Donc, encore, vous avez accès à ces randomes projections ces W. Vous connaissez les failles vous voulez infermer X. En ce cas, X est un signal Bernoulli et le sétting contrôle la sparsité. Donc, c'est le diagramme face du problème qui est connu pour un long temps. La ligne rouge est la transition optimale la transition informatique de la transition théorique en bas. Vous n'avez aucun moyen de reconstruire le signal indépendant de l'algorithme. D'aujourd'hui, vous devez pouvoir mais la ligne rouge marque la transition théorique. Nous n'avons pas d'algorithme efficace pour dire quelque chose dans cette région et d'aujourd'hui, nous sommes capable grâce à l'approche des messages passés. Ok. Et dans cette picture, tous ces paramètres la sparsité, la valeur de measurement et le ratio de signal sont constants. Ils n'ont pas dépendu de la ligne. Ils n'ont pas dépendu d'où vous faites l'analyse. Ok. Après que vous obtenez des formules, vous pouvez jouer avec leurs valeurs mais ils sont toujours petits avec l'aspect du nombre de variables. Donc, ce que nous avons fait est essentiellement de prendre cette formule qui est la formulae de regross pour la information mutuelle et pour le minimum dans l'erreur square. Encore, dans les régimes où tous les paramètres sont l'une d'autres. Juste pour clarifier les choses pour les physiciens dans la salle qui ne sont pas familiales avec la information mutuelle. Ce n'est rien d'autre que la frénergie. Donc, la information mutuelle entre la data et le signal est l'anthropie de la data minus l'anthropie de l'anthropie de la condition de la data sur le signal qui signifie l'anthropie de l'noise de l'insertité restante. Et parce qu'on assume dans ces problèmes que l'noise est toujours IID, c'est un constat. C'est très facile à compter. Le point est à compter cet objet qui est la frénergie. Donc, si vous êtes un physiciens essayant de compter les frénergies ou les théories de la information mutuelle vous faites la même chose. Ok ? Donc, ce qu'ils ont fait c'est de prendre cette formule et ne pas entendre l'insertité restante avec la salle, la sparsité de la minimum de l'insertité restante. Effectivement, si vous ne l'insertiez pas par la salle, cette quantité quand la salle est petite ça signifie que votre signal est plus sparser et plus sparser. Vous avez plus et plus zéro. Cela sera toujours plus près de l'une. Parce que, en tant qu'un estimateur, tous les vectors zéro, cela va matcher la plupart des compagnons du signal parce que cela a beaucoup de zéro. Donc, pour avoir une mesure fulle de l'erreur, vous devez vraiment re-scaler mais par la sparsité qui est là. Donc, ils ont pris cette formule de la méthode réplique de cette théorie et ont ploté cette erreur la sparsité allant à zéro. Et ce qu'ils observent quand ils collèvent toutes les curves à la même pointe parce qu'il faut imaginer que quand la sparsité va à zéro, ces curves, elles approchent à zéro. Elles bougent. Et ce qui s'occupe est que ces curves sont en train d'être plus proches et plus proches. Ok? Et dans le limiter, le guess c'est que bien sûr, cela devient une fonction de étape. Et c'est pourquoi cette transition est appelée tout ou rien parce qu'avant, dans ce régime, asymptotiquement, vous ne pouvez pas dire quelque chose et à l'arrivée, vous pouvez parfaitement reconstruire le signal. Ok? Excuse-moi. Ex-axis. Excuse-moi. Ex-axis. Ex-axis serait le ratio de signal au noise. Sorry, en ce cas, le rate de measurement. Le nombre de données que vous avez accès à. Récalé par le point de transition phase. Donc, oui. À l'un, cela signifie que vous êtes exactement à la transition. Je suis désolé, oui. Cela signifie que c'est le rate de measurement. Donc, ce qu'ils ont fait est essentiellement d'être, dans leur analyse, toutes les quantités sont des sequences de n. Ok? Including the sparsity, which is there, the signals ratio and the measurement rate, which is there. So they zoom really on the corner of this phase diagram. And what they obtain informally is the following. If the sparsity is very small and very small means lower than 1 over square root of n and your measurement rate is lower than this quantity, which now is indexed by n, which scales as the sparsity times the log of the sparsity. Their weak recovery is impossible. So weak recovery means that you can do something better than a random guess. You can at least reconstruct a tiny bit the signal. In this case, even that is impossible. So the minimum mean square root will always be 1. Ok? You have no way to say anything meaningful. The converse bound is that when the sparsity now is just small, it scales to 0, but at any rate and you are above this transition, then strong recovery is possible, which means that you can perfectly reconstruct the signal. So this means that the conjecture that you get from the replica prediction by plotting what happens when rho goes to 0 actually agrees with this picture, which is a gross. At least in the regime where rho is lower than 1 over square root of n. This part is left open interestingly. But anyway, so overall this validates the replica picture even in this regime where a priori the replica predictions are not correct or at least are not derived for. So what I did is to consider so I found this result very interesting. It was the first type of results like this that I was seeing in a language that I understand at least. And also this type of questions I wondered about during my PhD but I had at this moment no ways to try to tackle this type of problems. So now I have tools so what I did is to consider one of my favorite problem which is this this planted p equal 2 spin model so this Wigner-Spike model this matrix factorization problem which is rich enough so that all the phenomenology usually extend to more complicated problems but at the same time it's easier to define and to analyze I took Bernoulli IID entries for this XI and I wanted to zoom on this corner when the the noise level is getting small and the sparsity as well. Ok? So this phase diagram when Rho and Lambda are fixed is known from this paper by Thibault, Flo and Lenka so essentially below the dashed line this is the information theoretic transition you are able a priori to infer but you are only able to do it at low computational cost be below this algorithmic transition which is the green line so the picture is understood at least in this regime so actually the analysis for low sparsity has been done in the same paper and what they conjecture is that the information theoretic transition which is this time in terms of the signal to noise ratio should scale as log Rho over Rho ok? so this is what you extract from analyzing the replica prediction ok? so what I did is the same experiment as ribs and colleagues in the case of compressive sensing I took the replica prediction which is a theorem and I plotted it so now the mean square is not over x but it's over the the rank one matrix x times x because you can never réconstruct x ok? your measurements they lose the information about the sign of x you have this invariance that prevents to really reconstruct x so what you are actually interested in reconstructing is the rank one matrix which is called the spike ok? so this is the best estimator of the spike the minimum mean square estimator given the data so this is the best error you can aim for again you have a rescaling with Rho ok? and I plot this quantity letting Rho going to zero and you see again when I collapse all the curves as a function of the signature ratio divided by the predicted information theoretic transition what happens is that you see that this curves collapse and get super sharp super sharp and in the limit of very small row you see a step function ok? and here this is the mutual information that is essentially has a slope one and then it saturates to its maximum value ok? so how to zoom on this corner you do the analysis again letting all quantities depend on N ok? so now there are sequences where the sparsity will go to zero and in order for things to be well defined the signature ratio will have to go to infinity ok? so you are zooming here so let me mention that this very high sparsity regime is actually linked to the problem that Scott discussed before this planted click problem and in these papers actually they relate this inference problem to the planted click problem and you actually need to be able to say things in this type of regimes to really access what you are the type of regimes you are interested in the planted click problems where you have square root of N's that appears and things like this where things do not scale linearly with N so you can have a look at these papers alright so this is the main result of this study that so let me parse it for you so I now allow the prior which is the distribution from which I generate the IID components of this spike of this signal that I want to infer to be a sequence of N the sparsity depends on N here this is the continuous non-zero part if you want of the prior this is a Dirac in zero and so this lambda also depends on N and I ask this scaling to verify to be verified and this is not restriction of the the method it's just that this bound is ugly enough and if I don't ask this the bound is would stop there and so I have a there is a trade-off between the readability of the result and the hypothesis so okay I prefer this version but this is not really useful and this results tells you that the mutual information rescale by N and as well rescale by this coefficient here which is very important minus replica symmetric formula a simple variational formula that depends on a simple scalar parameter here where this function reads like this is small and this is what I mean by going beyond the the thermodynamic limit because in physics usually the thermodynamic limit is you let the number of spins go to infinity and intensive quantities free energies internal energy and so on you need to rescale them by one over N in order for these quantities to have limits okay in this setting you do not need to rescale by one over N but by one over N times these things and this is how this object will have a limit okay so this goes to zero much slower okay so essentially so this this difference is small okay so trust me on that this is going to zero and in particular if you choose if you if you place yourself at the scaling where you should observe a phase transition if the replica prediction was correct which is this scaling the SNR scales as log over rho and you let the sparsity goes to zero at a certain rate like this then the bound becomes clean which is nice and let me also mention that you could wonder can you really estimate this thing because we have things that go to infinity things that goes to zero like this but actually when you rescale with this quantity here this object here is well defined and all quantities go tends to finite numbers okay so you can plug that in a computer and estimate it easily okay so you see it's a kind of asymptotic formula evaluated for finite size values of the parameters that can depend on n so it gives more information and you get a precise evaluation of the finite size effects okay so I'm not claiming that this bound is optimal but I think it's not far from being optimal yes it's linked to that yes otherwise this would this would go to zero essentially because the all zero vector would dominate so you yes so just to mention that this result is kind of complementary even if these people looked at a different problem which is compressive sensing I'm looking at this sparse PCA problem the results are complementary in the sense that what they managed to assess our results when the sparsity is going to zero very fast while my result our results is when the sparsity goes to zero but not too fast so maybe by combining the two methods in different problems you can really get the predictions for the full range of parameters of scalings all right so this all or nothing so now I again place myself around the phase transition I set the signal-to-nose ratio to scale with the predicted information theoretic transition which is a sequence of n and the ratio is this gamma okay and what we can show is that this formula thanks to this rescaling is tending to a simple function it has a limit and this function is just this object and the minimum mean square is indeed tending to what is predicted by the replica symmetric formula which is this step function so this picture which is only valid again a priori when rho is always infinitely small with respect to the size of the system or it cannot depend on the size of the system is actually valid when this parameter evolves with n okay let me mention that these results are in agreement with other recent results by Gamarnik, Jaganat and Sen like it's been on archive for months there is quite an activity around this type of phase transition these days where they studied the maximum likelihood estimator so the zero temperature version of the problem if you want and they found so in their study they do the usual if you want it's connected to the usual statistical physics approach in the sense that they first lend they first let n go to infinity the number of variables and aposteriori they study what happens when you let the sparsity go to zero but what they predict is that you should observe something around the scaling which is the same as what we have with the Bayesian optimal estimator okay so in a sense in this type of scaling maximum likelihood is good enough okay yes yes yes yes so their previous results is again for this compressive sensing problem and they use I mean they use a number of properties that are specific to this problem I don't know if the result extend there it's not clear so so I mean we did like little computation on the corner of a table with Nicolas and it is not clear at all I mean I wouldn't bet on any of the two answers I don't know but from what we we see real problems appearing when you try to to have row really smaller I'm not sure that the picture is valid I don't know honestly I don't want you to buy us that's an open question yes you mean so this type of experiment so which experiment this one okay yes yes yes yes yes yeah I really don't know to be honest so I would tend to think because in a number of problems this is the case the concentration techniques that you use if I've been careful enough that they're close to optimal I would be surprised that you can get that you can gain a two third by improving on the the techniques that I have here so I'm not sure that the picture really applies in the very very very small sparsity regime honestly it's I don't know yeah or yeah in this problem the fact that the noise is Gaussian it does not matter yes so there are universality results that essentially say that if you can study at least in the in this planted patient problem if you can study the Gaussian case this extends to generalized version of it so I I didn't do the analysis on this maybe there is a subtlety in the Chanel universality theorem but I would say that the picture extend to this case yes yes yes yes yes yes so I mean all that needs to be done I don't know at the moment but that's that's interesting direction so just to mention that there is there has been a lot of activity in the statistical physics community that are actually trying to precisely compute finite size corrections to the to the asymptotic free energy so the original motivation of this work was not finite size corrections it was really to study what happens in the these corners of phase diagram along the way we got this quite precise results on this on this finite influctuation and so the technique is actually quite simple that we also here there are very powerful techniques but quite elaborated maybe we we can put our technique here and it has at least the advantage of being very simple with respect to some of the methods that are there so okay this is really an important question I don't have the answer but how generic is this type of all or nothing phase transition I don't know now we rigorously know that it happens at least in the this randomly now estimation problem is this compressive sensing it happens in sparse PCA I have hints numerical hints that it happens in the planted perceptron when when the weights are becoming super sparse is there a kind of generic underlying mechanism that we do not understand yet I would tend to say yes but this is ongoing I don't know I have five minutes left right I'm on time or eight I 30 I finish at 30 okay so I can give you a an idea of the proof technique which is based on this so-called adaptive interpolation method that I've been developing with Nicola during my postdoc which is a kind of evolution of the usual the standard we're at an interpellation method for spin glasses for people in the audience that that are physicists not allowed to get bounds for the shankton karpathic models and this type of models and this this this evolution of the interpolation method is specifically designed for this inference problems at the moment at least so the idea is the following you define the so-called interpolating model which is a generalized version of your original model where you now have access to two types of observations okay so you have observations that are similar to the observations in the original model so here there are two body interactions between your your axis instead you see now the the signal chance ratio has been rescaled by a t dependent quantity by just one minus t where t is time and belongs to zero one okay and now we have access to another type of observations which are totally decoupled okay the axes are decoupled here each observation only carries information about one component and you have Gaussian noise like this and the signal chance ratio is a function which is open at the moment I only require that at t equal to zero this function is essentially zero and it is positive okay so you see that this channel here will actually construct the non trivial part that appears in the replica formula which is there which is this little mutual information you see that you have a Gaussian scalar estimation problem here between so these are your observations and this mutual information is what I want to construct thanks to this second channel here and hopefully if we do the computations properly the remaining part of this potential will appear in the computation okay so let me mention that this type of Gaussian scalar estimation problem they always appear in this densely connected inference problems okay this is a kind of universal term so you don't have to think much if you have a dense problem and you want to do an interpolation just interpolate onto a Gaussian problem like this okay all right so for this extended model this time dependent model you can define its mutual information between the signal you want to infer and these two types of observations okay and now you use the standard machinery of interpolation which is that you want to compare the two boundaries by writing the fundamental theorem of calculus so this is trivial and you notice that this part so this object at time equal to zero what it is it is the object that you want to compute it's the complicated high dimensional integral that a priori have no way to compute this is the mutual information that you are aiming for and indeed at time equal to zero because I require this object to be small this does not carry information about x so it does not participate in the mutual information and at time equal to zero this is nothing else than the model I want to study okay now at time equal to one this part okay this this appears so this contains no information about x so it does not participate there and only this channel matters and this channel constructs exactly the non trivial part that appears in the replica symmetric formula in this potential and when you compute these derivatives you have things that pop out okay and you if you combine things properly you get this sum rule which connects this complicated object to a simpler object to the formula that you want to prove essentially evaluated at a special value which is this this interpolating function plus stuff and this this mess that you combine all together is called a remainder and the point is that this remainder it can be very complicated but it only depends on the this interpolating function here and on an average quantity an intensive quantity which is the order parameter in the problem which is the so-called overlap in physics okay it's the Edwards-Anderson overlap so it's it's connected it quantifies the the quality of estimation so this is the inner product between the ground truth signal and little x where little x is a sample from the Gibbs distribution associated to this problem so the posterior distribution associated to this problem this bracket notation means the expectation with respect to the posterior which depends on time because this model depends on time and this big annotation means the expectation with respect to all the quenched variables which means in this case the data or equivalently the x here the ground truth and the noise okay so you can see you put this two type of observation as a single vector if you want it's just it's one object if you want and you it carries some amount of information about x ok est-ce que c'est clair? oui et ici ils sont déjà déjà attendus comme ceci oui properement attendus et maintenant le on va dire la nouveauté de cette méthode qui n'est pas encore de nouveau avec respect à les techniques d'interpolation c'est que vous pouvez jouer avec ce niveau de liberté qui est la choice de cette fonction d'interpolation afin d'avoir deux boundes généralement vous avez une bounde avec ces techniques donc si vous prendre une simple interpellation linéaire où cette fonction dépend de temps mais avec pas aucun slope le slope est donné par l'admin de cette réplique symétrique formulaire puis vous avez directement une bounde qui est celui que vous dîtes avec les techniques d'interpolation classiques et le point ici ici j'ai un point de vue qui signifie que c'est en train de petites corrections et tous les les la partie de cette partie de ce travail c'est de contrôler cette correction finale comme correctement possible ok et puis si vous choisissez cette fonction d'interpolation un peu plus Smartly comme la solution de cette équation ensuite vous avez la autre bounde mais qu'est-ce que cette équation c'est une première ordre différenciée de l'équation qui vous dit que le slope donc la délégation le temps délégation de cette fonction devrait être equal à l'overlap expectant l'overlap expectant est une fonction de temps et en fait c'est aussi une fonction de la fonction d'interpolation en itself et donc vous devez être careful mais vous voyez que c'est une structure de une équation différenciée donc vous savez qu'il y a une solution vous pouvez choisir être vérifié cette équation et si vous plugz ça dans l'arrière essentiellement vous avez la autre bounde et de nouveau vous avez besoin de contrôler les corrections finales très précisément pour obtenir la théorie que je vous présente donc je vais juste râper donc les réplications sont encore valides au moins dans quelques régimes dans les corners de cette phase d'arrière donc c'est une bonne news je ne pense pas que c'est toujours vrai je veux dire le message a été taken avec care ces techniques de interpolation sont très naturelles afin d'attendre ces corrections finales qui je pense est assez bonnes ce sont tous des transitions qui semblent un phénoménal comment générique je ne sais pas c'est une question intéressante qu'est-ce qu'il y a plus de modèles complexes donc multilayures de la ligne Nishimori qui signifie de l'arrière de l'optimisme de la Bayesian etc etc et est-ce qu'il arrive ce phénoménal pour des algorithmes donc en fait Scott nous a dit un peu ceci au moins je veux dire oui donc oui donc il y a au moins quelques algorithmes où il arrive il arrive aussi pour l'AMP au moins dans ce sens compressif de la setting est-ce qu'il arrive tout le temps je ne sais pas je dirais que si cela se passe pour l'information pour l'optimisme optimal cela devrait se passer pour l'AMP est-ce que cela se passe pour l'algorithme de Bayesian etc etc je ne sais pas donc ce sont les choses pour être faits et je ne vais pas rester là merci