 Je veux remercier l'organisateur pour cette invitation. C'est toujours un plaisir d'être ici, c'est un endroit très impressionnant. Il faut dire que ce n'est pas le cas avec Francis, il peut le savoir. Et comme l'autorité, il va être sur l'optimisation stochastique de zéro soldat. La main assumption est que nous allons focusser sur les fonctions. Nous voulons optimiser les fonctions de convexes qui sont très moutées. Vous le verrez plus tard ce que je veux dire. C'est tout. Qu'est-ce que notre motivation ? Comme le titre s'adresse, vous avez beaucoup de keywords dans ce titre. Toutes de eux ont un sens différent. Et ce que nous voulons faire, c'est l'optimisation de convexes classiques. C'est la main idée, nous avons un mapping F, ce qui est convex. Nous allons assumer des régularités sur ces fonctions. C'est typiquement que c'est soit smooth ou non smooth. Je ne sais pas si quelqu'un est assez familial avec la vulnérabilisation de convexes. Je vous remercie un peu sur toutes les keywords que nous utilisons. Nous utilisons un mapping F pour dire que c'est non smooth si nous avons des King. C'est-à-dire que la vulnérabilisation de convexes, c'est-à-dire que la vulnérabilisation de convexes peut être smooth si tous les régularités secondaires sont bondés. Mais typiquement, dans la machine learning, quand vous regardez les fonctions que vous voulez optimiser, si vous avez les régularités logistiques, ou si vous voulez minimiser la norme square, votre fonction n'est pas seulement smooth. Si vous computez les régularités secondaires, ils sont bondés. Si ils ne sont pas seulement smooths, ils sont vraiment, vraiment smooths. Si vous avez les régularités secondaires, vous avez le squander et vous avez les régularités secondaires, les régularités secondaires sont bondés, les régularités thirdaires sont non. Donc tous les régularités fourthaires et tout le monde sont bondés par non. Et c'est la même chose pour la régularité logistique. Donc ici, on dit que, typiquement, nous allons essayer de... Nous aimons optimiser les fonctions de convexes qui sont smooths, mais nous n'utilisons pas les factures que elles sont vraiment smooths. La question est, peut-on utiliser le niveau de smoothness pour improving les régularités de convergence? Et c'est le principal souci de ce talk. Comme je vous dis, nous allons utiliser la look at stochasticalization, c'est-à-dire que quand vous faites des queries, vous avez le feedback de l'esprit de l'esprit de l'esprit de l'esprit. Donc, pour exemple, c'est-à-dire que la map F vous voulez optimiser est la distance de l'esprit de l'esprit de l'esprit de l'esprit et la distance de l'esprit de l'esprit de l'esprit de l'esprit entre la tâche de la tâche de l'esprit de l'esprit de l'esprit de l'esprit. En fait, vous n'avez pas d'accès à ce qu'on crée la map F. Vous n'avez pas d'accès à ce qu'on crée la map F. Vous n'avez pas d'accès à ce qu'on crée la map F. Parce que vous n'avez qu'une estimation. Vous avez des noises. Vous avez des feedbacks de la map F. Vous avez juste d'observe, ou de compute. La norme entre titha et titha n'est pas la même. C'est ce que l'on crée la map F. Nous avons l'noise. Et c'est notre objectif. We want to optimize stochastic optimisation of the convex function. So this, this is a a non mapping F you want to minimize. So you have a constraint set X, that you know it. And it works. So when joint optimization you 0 at the value of x1. Le feedback que vous pouvez obtenir peut être différent, selon votre compétition de pouvoir. Par exemple, vous pouvez obtenir l'assumement de F, et puis vous pouvez faire un step de Newton. Newton déthin, si vous avez le méthode de Newton, si vous pouvez le faire. Ou peut-être que si vous avez moins de compétition de pouvoir, vous n'aurez que l'accès à un gradient de F. Vous pouvez obtenir le gradient de votre fonction. Ou si vous avez moins de compétition de pouvoir, peut-être que vous n'aurez que l'assumement de F. Et dans toute cette assumption, chaque fois que vous obtenez la valeur de quelque chose, c'est un noyau. Donc, d'abord, vous obtenez la valeur de F plus du noyau, ou le gradient de F plus du noyau, ou l'assumement de l'assumement de F plus du noyau. Et ici, le titre suggère que vous allez regarder d'une méthode 0. La méthode 0 signifie que vous n'avez pas d'accès à l'assumement de gradient de F, parce que c'est trop difficile à compter. Vous ne pouvez pas le faire, vous n'aurez juste d'accès à la valeur de votre fonction. Donc, on va retourner à l'algorithme de compétition typiquement. Donc, vous faites la première query, X1. Ensuite, vous obtenez une réponse, qui est la valeur de F à X1 plus du noyau. Dès ce que vous allez faire, vous allez ajouter ce que vous pensez, c'est le minimum de votre mapping de F. Et je vais appeler ce X2. X2 c'est ce que vous pensez, c'est le minimum de F. Si vous êtes heureux et que vous pouvez créer un deuxième point, vous pouvez créer une deuxième query. Ensuite, vous allez créer une deuxième query. Donc, vous allez faire cette seconde query, X2. Vous allez obtenir votre réponse. Donc, dans cet exemple, F of X2 plus X2, vous allez ajouter X star 3, ce qui est ce que vous pensez, c'est le minimum de F. Et ainsi et ainsi. Et l'idée de l'optimisation, c'est de minimiser votre erreur d'optimisation, ce qui est la différence entre ce que vous pensez, c'est le minimum de F après T-stapes. Donc, c'est X star plus T plus 1, minus le minimum de F, F star. Donc, c'est ce que nous voulons faire. Nous voulons faire une bonne algorithmme, l'optimisation et l'algorithme. Nous voulons résoudre quelque chose comme ça. Alors, pourquoi j'ai apprécié tout ce qu'il s'agit de l'optimisation, c'est parce que, en fait, le titre, le premier mot du titre, je pense, peut-être que ce n'est pas le premier, je ne sais pas lequel, en fait. C'est la dernière, ce qu'on appelle, le titre du titre. Il dit online. Donc, qu'est ce qu'il termine d'optimisation online? Donc, l'optimisation online est exactement the same thing as classical stochastic convección tírellisation. Except that the mapping F, that you want to optimize, so it's still a convex mapping but you can change it a few times. It's not always going to be the same one, F. But, when you make the first query, it's going to be F1 and then it's going to be F2 and F3 and forth and so on. And typically, so we have, as I say, On a un second mapping, on n'a pas juste un mapping. F, on a un second mapping, F1, F2, F3, etc. Et quand on fait un query X1, on obtient un feedback F1 of X1. Ou si vous avez assez de computations, vous pouvez obtenir le gradient of F1 of X1, or the addition of F1 of X1. Mais ici, dans les settings, on va assumer que nous ne pouvons que compter la valeur de la valeur de 0, c'est-à-dire qu'on n'a qu'un feedback F1 of X1. C'est-à-dire que c'est le même. Vous créez X1, vous obtenez F1 of X1. Vous outputez X2, ce que vous pensez, c'est le minimum de F2. Et ensuite, vous créez X2, vous obtenez le feedback F2 of X2, puis vous outputez X3, etc., etc. Et pendant l'optimisation classique de l'optimisation, nous avons regardé l'optimisation error, ce qui est F of the guest minimum of your function minus F star. Ici, nous allons regarder dans ce scénario un critère qui est moins curieux que celui-là, qui s'appelle le regret. Emily a parlé de cela dans la dernière parole. Le regret est ce que c'est. Et typiquement, vous avez les secondes de la maquillage, F1, F2, F1, F2, etc., et vous comparez le minimum de tous vos X de l'accumulatif loss de X star. Vous obtenez l'accumulatif loss, l'accumulatif loss, et vous regardez au point de minimiser l'accumulatif loss. Vous comparez cette quantité à l'accumulatif loss que vous inquiétez par outputant X star T à stage T. C'est la différence entre l'accumulatif loss minus l'accumulatif loss dans l'insight, ce qui veut dire que si vous venez de l'advance, l'accumulatif de l'accumulatif F, vous allez avoir de l'accumulatif X star à chaque stage. Donc ici, c'est juste un disclaimer. Ce n'est pas exactement un bandit pour ceux qui connaissent ce qu'est le bandit de l'accumulatif. Ce n'est pas un bandit, parce que dans un bandit, on est typiquement assuré que l'accumulatif X star K est equal à X K. Et ici, j'assume juste que l'accumulatif X star K doit être dans l'accumulatif de l'insight. Je peux courir ma fonction de n'importe quoi que je veux. Il n'a pas besoin d'être dans l'accumulatif X. Donc ici, ceci était juste pour définir ce qu'est l'optimisation en ligne, mais pour être précis, je ne parlerai pas de l'optimisation en ligne. C'est juste pour mentionner que je peux le faire. Et en fait, on verra les résultats. Toutes les résultats que nous avons dans l'optimisation de l'insight sont pour l'optimisation en ligne, pour 3. Et typiquement, je vais juste montrer un slide de prouves et vous verrez pourquoi tout ce que j'ai dit toutes les résultats dans l'optimisation de l'insight sont pour l'optimisation en ligne. Et en fait, pour être encore plus précis, vous verrez pourquoi l'optimisation en ligne est plus simple que l'optimisation de l'insight. En ce sens. Ok. Donc, dans le titre, j'ai eu ce long titre, ici je n'ai juste parlé de l'optimisation en ligne, de l'optimisation en stochastique. Et dans le titre, j'ai fait une présence précise. La première est... Donc, dans le titre, j'ai l'idée de l'assumption de l'insight, et nous allons aussi faire une autre assumption sur la compagnie de l'insight. Donc, ce sont des classiques dans la compagnie de l'insight. Nous pouvons assumer les deux types d'assumptions qui permettent de se résoudre d'un problème de l'insight. La première type d'assumption est que f est plus que l'insight, et l'autre est f est plus que l'insight. Comme vous pouvez le voir, c'est plus ou moins la même assumption qu'un signe. Ici, c'est plus grand. C'est plus grand que plus grand et plus grand. Donc, c'est la condition d'assumption. La première est ce qu'on appelle l'assumption de l'insight. Et typiquement, dans une dimension, l'assumption de l'insight que vous voulez optimiser va être l'assumption de l'insight. L'assumption de l'insight si la deuxième délévative est plus que l'assumption de l'insight. Vous savez que l'assumption de l'insight est par definition 0 de l'insight. Mais ici, quand vous avez l'assumption de l'insight, ou quand vous avez plus que l'assumption de l'insight, ça vous aide pour l'optimisation parce que vous pouvez voir que votre maquillage de l'insight est basé par une quartique termes. La deuxième type d'assumption que nous allons faire, non plus, selon la question, c'est la smoothness. Et typiquement, dans l'essentiel, quand vous regardez ce qui est commun, vous devez regarder deux smoothnesses. Cela signifie que votre gradient est de l'insight, ou d'autres fois, que vous pouvez apparaître votre maquillage de l'insight par une autre quartique termes. Donc, si vous êtes, en même temps, smoothness et smoothness, votre maquillage de l'insight est basé par une quartique termes et basé par une quartique termes. Et les deux assumptions vous aident et vous pouvez obtenir une meilleure convergence de l'insight. Et la question est, peut-on utiliser cette sorte d'assumption dans l'insight d'insight d'insight avec l'assumption de l'insight pour l'imprové de l'insight. Oui ? Pourquoi vous utilisez l'insight pour l'insight pour l'insight pour l'insight Pourquoi vous avez une quartique termes ? Parce que, sur le next slide, à l'aide d'un 2, j'aurai une différence comme un 3 et je vais mettre un 3 ici juste pour l'insight. C'est comme les problèmes de l'insight. Qu'est-ce qu'il y a de l'insight ? C'est comme... Francis est très attentionné par l'homogénéité de votre M. Ok ? Parce que, si... Oui, c'est ça. Mais pourquoi ça qu'est-ce qu'il y a de l'insight ? Parce que pourquoi qu'est-ce qu'il y a de l'insight ? Parce que les unités sont différents. Oui. Parce que ici, non, non, parce que ici, ok, je n'ai pas de... Ok, donc, je veux dire, la raison est que je ne vais pas regarder à une très forte fonction de l'inconvêche où vous pouvez mettre un map sur l'homogénéité de la moitié de l'homogénéité. Mais si nous faisions ça, comme la moitié de l'homogénéité de l'homogénéité qui est de l'homogénéité de l'homogénéité, vous devriez mettre un 2 ici. Mais ici, comme nous ne le faisons pas, nous n'avons pas de 2. Ok ? Mais c'est une très bonne question. On va trouver une autre notation et c'est compliqué. Ok, donc, si vous voulez juste prendre un mu pour être un sigma square. Ok ? C'est une autre répétition malheureuse. Ok ? Donc, juste une picture, si, pour les gens qui ne sont pas utilisés pour la moitié de l'inconvêche, donc, on va dire que vous voulez optimiser la map en noir, f, et être smooth, c'est-à-dire que vous avez une forme quadratique. Donc, c'est une forme quadratique, d'ailleurs, sur votre f. Et, et être strongly convex, c'est-à-dire que vous avez une autre forme quadratique en noir, sous-le. Donc, ici, je veux... Si je veux faire un disclaimer, je peux dire que c'est parce que, vous savez, c'est Valax. Mais si vous êtes où je suis, c'est vraiment... Et donc, c'est pour 20 ans, donc, je dois speed-up. Donc, juste quelques mots sur ce, pour ceux qui ne sont pas très familiars avec l'inconvêche, si vous êtes à x, si vous êtes à x, et vous savez que la map est trop smooth, vous pouvez faire un grand jump parce que vous savez que vous pouvez encore écrire ce point, ici, et si vous créez y, donc, vous créez x, et si vous créez y, vous savez que votre erreur va diminuer par cette quantité. Donc, vous pouvez faire des jumps. Et si vous êtes très très convainc, il vous dit que vous... Donc, si vous êtes en bas bondé par un terme de qualité, il vous dit que si vous pensez que le minimum est à x, ce n'est pas trop loin, parce que vous savez que le minimum va être sur cette partie de la plane. Donc, vous pouvez... vous pouvez coucher une grande partie de la plane, où vous savez que le minimum ne va pas être là-bas. Donc, être très convainc vous aide aussi à être trop smooth. Hm ? Ah, OK. Sorry. Given your quality functions, I was worried. Yeah. Anyway. So, just to answer your question, c'est bon, why do you have a two ? Because the classical notion of smoothness is being too smooth. Being too smooth means that your second derivative are bonded by m2 square. And it means that the difference between f and your Taylor expansion of degree 1 is a polynomial in... I mean this polynomial of order 2. So, here we're just going to say that f is beta smooth with beta bigger than 2 if we have the same thing. But instead of looking at the Taylor expansion of f of degree 1, we look at the Taylor expansion of f of degree beta minus 1. And being beta smooth means that the difference between f and its Taylor expansion is smaller than y minus x to the beta. And if you don't know what is Taylor expansion in higher dimension as I did, this is the formula, but let's get rid of it. So, just remember that being beta smooth means that you are close to your Taylor expansion. OK, of order beta. And this is typically an assumption that again will hold for the function we want to optimize in machine learning. Things of square norm or logit. Anyway, so the aim is to use the fact that we know that f is really, really smooth, beta smooth, not only too smooth to increase the speed of convergence. Just a few words on this assumption being beta smooth. So it's kind of, if you look at this definition if you're zero smooth, it means that you are bonded. So if you're convex and bonded, of course it has to be on the compact set, otherwise you are constant. So if you are zero smooth, it means that you are bonded by M0. If you are M0 to 0. If you are one smooth, it means that you are lip sheets, M1 lip sheets. Two smooths is the same definition, of course. And if you have a mapping which is beta 1 and beta 2 smooths with beta 1 smaller than beta 2, then you are smooth for all values of beta between beta 1 and beta 2. And for the function I mentioned before for the logistic regression all the expected quadratic norm then you can compute all those all those explicitly all those mapping all those quantity and beta to the beta. Ok, for logistic regression and beta increase only linearly in beta. So it's pretty small. Ok, so it was just to mention on this assumption and what are we going to do? And what are our objectives? So before going into the describing what our objectives let's do a bit of review of literature of the classic optimization method. So the first one, if we are doing a convex optimization without noise and with access to the gradient so it's not at all what we are looking here but just to get some intuition. So if we're looking at so you have access to the gradient so you're looking at first order method and there is no noise and I put airquart on this optimal method to minimize the convex function which is the ellipsoid method. So for those that don't know it so let's say that at some stage you know that the minimum of mapping f is in this ellipsoid, in black then you create a center of your ellipsoid you get a gradient and then you know that the minimum of f is not going to be, since s is convex on the left part of this ellipsoid so you can just change this part of this ellipsoid and you will know that the optimum is actually in the right part of the ellipsoid and the luxury method says instead of looking at this weird shape here I'm going to expand it as a finder another ellipsoid that contains it and I know that at the next stage my minimum is going to be in the green ellipsoid here and xt plus 1 will create the center of the ellipsoid check alpha of it and so on and so forth and if you look at this algorithm all of the sequence of ellipsoid you're going to build like this the volume decreases by a constant factor and so you will converge at linear rate but this has to be without noise if you have noise it's not working so you have to create several times the same point and it will never work with or almost never work, I should never say never it won't work with online optimization I will not look at that kind of of techniques instead we're going to look at gradient method because gradient method works pretty well with online optimization gradient method I don't know if anybody knows but the algorithm is that one so you have a constraint x and the gradient method if you don't have any noise and you have access to the gradient exactly is that formula xt plus 1 is xt minus and you're doing a gradient step xt plus 1 xt minus eta times the gradient of f at xt and if you go outside your constraint set x and you just project back on x if you can do it and this is a so it's a very powerful method and you can have explicit rates of convergence so if you're mapping are if you don't have any assumption on your mapping f except being a smooth so again this is if you have if you don't have noise if you're access to the gradient so if you're mapping is smooth no more assumption that's being smooth so that means your lip sheets the red circle adjoints is in 1 over t as I told you before if you had assumption smoothness and strong convexity the red circle adjoints are going to be faster and faster because it helps you so 2 smooths you will go from 1 over t to 1 over t which is faster and you can even accelerate this algorithm by using another actually algorithm and get a red circle adjoints in 1 over t square so if you want smooth instead of adding the assumption that you're too smooth but you have the assumption that you're strongly convex then you get a red circle adjoints in 1 over t or actually 1 over mu t and if you add both assumptions so if you have both smoothness and strong convexity then the red circle adjoints is linearity and this tells you when you add smoothness and strong convexity to your problem you can converge faster than without just assumption so our idea is to do the same thing with stochastic optimization with zero-solder feedback so zero-solder means again that you don't have access to the gradient you just have access to a point to the value function of f at the point so now there is this if you don't have noise which is unbitible that says that if you're in one dimension and you're trying to estimate the gradient of f you just have to query f of x plus delta minus f of x minus delta over 2 delta and this says if delta is equal to 0 or very small this is exactly the gradient of f this is totally true but so you could say that you could get the gradient of f of 3 just by using 2D queries depending on your algorithm and so the rates of convergence will be the same except that T is transformed by T divided by D so this is correct when you don't have noise but as soon as you have noise everything about this is no longer true when you have noise because when you have noise let's say you had an epsilon here and we divide by delta and so this blows up so this idea is certainly true when you don't have noise with delta equals to 0 there is in zero-solder method there is a way to solve this kind of problem using really so here you're trying to mimic first-order method using zero-solder feedback but there is a way to solve convex optimization using really true zero-solder method and in one dimension it's quite simple actually so let's say you query those 3 points here you query the left, middle and right so if you see that the value of your function is like this so the middle one is the smallest one you know that the minimum of your function is going to be in that part of the plane so you can remove the right part and the left part here if the 3 values of your point of query are increasing you know that the minimum of f is going to be on that left part of the plane here so typically here when you're doing 3 queries at the time you are able to split the remaining state space in 2 so this will give linear rates of convergence and this is true in one dimension you can do that because you can do binary search in one dimension so it's easy but actually you can do that in higher dimension and you will get linear rates of convergence but the issue is that the rates of convergence are the dependency in t is t divided by d to the 7 which is pretty slow when d is big so we're not going to use that kind of method but we could but we're not going to do it here the take-home message of these slides is actually what I wrote here is that when you're going from 1st order to 0th order method you just multiply your rates of convergence by d, typically because instead of needing one query to get a gradient you will need d query to get a gradient so going from 1st to 0th order you multiply your rates by d so now if we add those into the picture and if we look at all the cutting algorithm such as ellipsoid, pyramids and stuff we have to create several times the same point to reduce the variance it's not really interesting and it's not really working actually so instead we're going to look at the stochastic gradient so let's say that instead of observing your gradient, data of f you have a noisy version of this gradient and the stochastic gradient is exactly the same as gradient descent except that you don't observe this gradient to just plug in the noisy version of your gradient and there is a whole literature on this on this problem that says that if you have a non-biased estimate of your gradient that means that if the expectation of c is 0 and if the variance is bounded by this square, c is the square here c'est bon then you can get rates of convergence d'over t if we have non-structural convection and if we had a strongly convex assumption then the rates of convergence increase from d'over t to d'over t and if you remember I know it was quite a long time ago if you remember the rates of convergence without noise it was the same rates of convergence except that instead of having a d we had a 1 it was the rate of 1 over t and 1 over mu t when you go from noise-less to noise optimization what happens is again you multiply rates of convergence by d so when you go from zero-thororta to first-order to zero-thororta you multiply your risk by d when you go from noise-less to noise d you multiply your risk of convergence by d so the question is what happens when you go from first order noise-less to zero-thororta noise d we expect that we multiply dD ou dD squared. Et ça c'est exactement ce qu'on Comedy cam crate, que l'on oss wait. Ce sketch est donc un Summary pour chargeur de ce que nous sajaisons et les fréquences constants au lieu de l'adr Ryth daddy, alors, nous le Links gardons. Nous aimons ceci ? Donc si nous regardons l'optimisation, la première qualitative Victor, la radar internaute... et leynocle de la爐 earnings qu'on corriere, On le regarde en cas d'atténuation du point d'atténuation du point d'atténuation des taux square root. C'est ce que nous allons obtenir. C'est ce que nous avons, ce n'est pas pareil, mais c'est plutôt le même, parce que, comme vous pouvez le voir, quand beta est vraiment très grande, cela fait que beta est infinitif, comme dans la norme square, ou dans le logite. Vous voyez que, comme beta va à l'infinité, beta-1 sur beta et beta-2 sur beta-2 est 1. Donc, ce que nous avons, c'est que nous avons le droit de l'adjoint. Nous matchons les objectifs. Ce n'est pas très bien quand beta est petit. Donc, on assume que la mapping est trop smooth, mais pas très smooth. Ce n'est pas très bien pour sûr, mais quand la mapping est très, très, très smooth, nous récupérons le droit de l'adjoint que nous sommes aimés à. Et juste pour finir la revue, qu'est-ce qu'on sait de ce problème ? Donc, sur 0, il n'y a pas d'optimisation. Donc, nous savons, nous savons que ce point de l'adjoint est la vitesse optimale. Donc, nous savons que nous pouvons trouver un algorithme afin d'avoir un droit de l'adjoint en poly-D divisé par le point de l'adjoint. Mais l'issue est que nous ne savons pas la dépendance en D. Et ici, nous réveillons à avoir, pour exemple, en convoquant, en prenant un D, nous réveillons à avoir seulement un D. Donc, si nous avions l'assumption, si nous assions que la mapping est très smooth, nous recevrons un D² par T. C'est un papier dans 14, je ne le souviens pas. Si nous sommes seulement un de deux assumptions, si nous avons l'assumption de très smooth ou de très smooth, nous recevons le droit de l'adjoint d'adjoint d'un D à un de moins de un troisième. Si nous avons l'assumption d'un D à un de moins de un quatrième, et en fait, un papier de cette forme dit que si nous sommes seulement un de deux, nous recevrons le droit de l'adjoint d'un T, mais nous réveillons à un de deux, le droit de T à un D. Et vous pouvez vous convaincre que, en fait, quand vous regardez cet terme, le terme domino n'est pas le droit de l'adjoint d'un T, c'est le droit de l'adjoint d'un D à un D. Le droit est très petit, mais quand vous essayez d'adjoint d'un D, c'est très grand. Et je pense que quand un D est à un de deux, pas mal que ce soit un T, c'est le droit de l'adjoint d'un D à un de plus de plus, alors quand un D est à un de deux, le droit de l'adjoint d'un D à un D est plus grand que le droit de l'adjoint d'un T. Pas mal que ce soit un D. Pourquoi ? Pourquoi ? Parce que, je veux dire, juste faites le compétition. Et vous avez... C'est vrai pour tous les uns. Si vous en essayez d'adjoint d'un T à un de plus de un T, ce n'est pas vrai. Mais si vous en essayez d'adjoint d'un T, je pense que vous avez envoyé... C'est-à-dire, un T à deux à un de plus de un red, puis ça en dédigme un T à bloc. C'est vrai, si c'est vrai, pour toutes les T que vous pouvez imaginer. Le nombre de paticots du univers est... C'est pas le nombre. Le nombre de secondes expensés est au T. Je ne sais pas... On ne peut pas... Ouais, mais je ne t'intéresse pas, parce que c'est dans la logue. donc vous n'avez pas besoin d'être homogéneux. En tout cas, donc n'importe quel type de thé, n'importe quel type de thé que vous pouvez imaginer, c'est le log d qui est dominé. Mais pourtant, c'est un déjeuner plus grand. Donc, quand vous avez fortement un bitasmousse, il y a ce papier de Poliakon-Cybekov en 1999 qui donne plus ou moins le même rate d'adjoints mais en asymptotique et sans la dépendance d'indique. Donc, encore une fois, nous sommes aimés d'avoir exactement quelque chose qui dépendant de D-square-over-T. Ok, donc c'est nos objectifs. Pour obtenir ce rate d'adjoints, nous n'avons pas pu les obtenir, mais nous pouvons être très close à ça. Comment ça vous? Je sais pas. Comme une heure, 10 minutes, 5 minutes, je n'ai pas d'idée. Ok. Donc, on va faire ça. Il y a deux trucs qu'on va combiner. La première est plus connue dans ce sens. C'est juste un moyen d'estimer les gradients et l'autre est un moyen de smoother encore plus les mappings qui sont déjà très smooth. Donc, ici, nous aimerions utiliser un méthode gradiant pour notre problème, mais l'issue est qu'on n'a pas d'accès aux gradients, on n'a pas d'accès aux valeurs noisées de fx. Donc, nous avons d'accès aux fx plus de noise. Mais nous avons cette très naturelle estimation des gradients que j'ai parlé d'avant. Nous savons que, dans une dimension, fx plus de delta minus fx plus de delta plus de delta est plus ou moins les gradients de fx plus ou moins. Si le delta est plus ou moins, c'est vrai. Et quand le delta est plus ou moins, c'est presque vrai. Mais la chose qui est assez surprise est que cette différence ici est exactement le gradient de la fonction f, delta, qui est presque f. Donc, cette chose est presque le gradient de f, mais c'est le gradient de la mappings qui est presque f. Et c'est le gradient de f prime de delta où f prime est cette fonction. Et si vous regardez, c'est juste l'expectation de fx plus de delta v sur la balle. Et donc, si nous faisons minimiser f delta, nous pourrions avoir un estimateur non bias de f, le gradient de f delta simplement d'entraîner epsilon plus ou moins 1 plus ou moins 1, et plugger fx plus epsilon delta times epsilon divided par delta. Parce que cet homme qui prend l'expectation ou l'expectation de cette chose est exactement cette chose. Donc, c'est exactement le gradient de f prime. Donc, c'est non bias de f prime de delta. Donc, c'est non bias. Et si vous regardez la variante de votre estimateur g, c'est de l'autre de 1 de delta square. Donc, maintenant, si vous faisiez un gradient de stochastique avec respect à f delta, depuis que c'est convex, alors le rate de convergence va être 1 à l'aide de t times la déviation standard de votre estimateur, donc c'est 1 à l'aide de delta. Mais ici, vous optimisez f delta à l'aide d'optimiser f, parce que depuis que c'est assez close, c'est delta close, en fait, votre erreur va être à l'aide de delta plus 1 de delta square root of t. Et si vous optimisez delta, vous allez avoir 1 à l'aide de t to do 1 fourth. Et c'est exactement l'idée que j'ai mentionnée ici de Flaxman et de son co-authors pour faire ça. Et c'est l'idée de Nimrodsky et Nudin, exactement. Mais je pense que, oh, je me souviens que c'est ça. Donc, cette idée ici est en fait due à Nimrodsky et Nudin, comme Francis dit. Donc, si nous allons de dimension 1 à dimension d, en fait, nous avons la même idée qui dit que si on regarde l'expectation de ce gars, ici, dans la dimension 1, nous étendons epsilon à plus 1 à minus 1, donc c'est quelque chose d'unité de dimension 1. Donc si nous étendons d'unité de dimension d, et nous étendons le même gars, alors l'expectation de cette chose est exactement le gradient de f delta. Donc, c'est presque le gradient de f, mais c'est exactement le gradient de la maquillage, qui est presque f. Et donc, c'est le gradient de f delta, où f delta est l'expectation d'une balle de presque f. Et si nous faisons la même compétition, vous voyez que la variance de cet estimateur est bondée avec le même truc, la même compétition ici, exactement la même chose, vous avez le droit de l'agence de f delta d square de theta à la force de 1 à 4. Donc, comme Fransy dit, c'est un résultat d'une idée par rapport au nombre de ski et du DIN, et puis de Faxman et Al, et puis de l'organisation d'Azhan, et de l'utilisation de beaucoup de gens, donc nous n'avons pas dit que c'est notre idée, pas tout de suite. Notre idée est de combiner avec un autre truc. Et le truc c'est de utiliser le kernel pour réguler notre map. Pourquoi nous allons faire ça ? Parce que, souvenez-vous, notre map est très, très, très smooth. Ça veut dire que notre map f, c'est très close à l'expansion télérée. Donc, f de x plus une petite r est très close à la expansion télérée, donc c'est très close à la polynomial en r. Et c'est très close à la beta r. Et maintenant, nous allons introduire le kernel, donc la fonction k, comme ça, quand vous intégrer k contre r, vous avez 1 et vous intégrer k contre toutes les autres polynomes, vous avez 0. Et vous pouvez avoir une forme explicite pour cette, pour cette sorte de kernel, juste ici, vous pouvez les compter. Donc vous avez une forme explicite. Et pourquoi nous devons faire ça ? Parce que si vous utilisez le kernel et vous intégrer f contre r times k, vous voyez que cet homme ici est très close à f. Donc nous avons un bon estimate de f, qui est up to delta to the beta en train d'avoir un estimate comme avant. Quand vous utilisez ce type de techniques, nous avons un estimate d'ordre delta. Ici, nous avons un estimate d'ordre delta to the beta de f. Donc nous pouvons utiliser une forme très smooth pour smoother l'estimage en multipliant par k et obtenir une très précise approximation de f up to the delta to the beta. Donc si beta plus infinity, c'est assez petit. Donc c'est l'idée d'utiliser ce kernel. Et si nous combinons les deux freaks donc si nous allons utiliser une approximation d'un gradient de la fonction smooth ok, vous vous souvenez que le truc de Damerowski disait que nous pouvons construire un estimate de la fonction non-biased qui est close à f. Et ici nous allons faire la même chose, d'excepter que la fonction qui est close à f va être plus close à f que le standard estimate. L'estimage est assez simple. Vous faites la même chose. Donc vous sample la v sur la balle. Et vous computez f de x plus r delta v et vous multipliez par l'air. Vous intégreriez cela contre votre kernel. Et si vous regardez cet homme ici ok, c'est la fonction. Et si vous computez le gradient de cette fonction, le gradient de f de r delta est exactement donné par cette formule. Donc ça vous donne l'estimage de f r delta. Et cet estimateur non-biased est assez intéressant parce que j'ai dit qu'avant f delta n'est pas seulement close à f, c'est delta close mais c'est delta à beta. Donc ici nous avons une mapie qui est très très close à f. Et les gradients sont aussi très très close. Le gradient de f r delta est très très close à la gradient de f, à la delta à la beta minus 1. C'est ce que le kernel nous permet de faire. Et si vous computez le kernel en utilisant ces expressions, vous pouvez computer tous ces termes numériquement. Et c'est seulement quelque chose comme beta2 ou peut-être beta3. Ok, donc ici la seule chose qui est un peu difficile, la main difficulté de cette technique est que la mapie que nous avons définie dans le kernel n'est pas nécessairement de convection. Donc c'est un genre de bummer. Mais c'est toujours mu sur 2, c'est f sur mu, et c'est toujours de convection si beta est equal à 2. Mais toujours, on peut toujours l'utiliser. On va juste perdre un peu de speed mais toujours on va avoir des résultats optimaux. Ok, oui. Confuse que vous dites que c'est strongly convex, si f est mu strongly convex. F est mu strongly convex. Ça implique que c'est convex. Si f est mu strongly convex, alors f r data est mu sur 2 strongly convex. Donc c'est convex. Mais si f n'est pas strongly convex, f r data n'est pas nécessairement convex. Ok? Mais ce n'est pas une majorité. Juste perdre un peu de speed de correction. Mais c'est ok. Au lieu d'avoir un bitha, c'est ok. Excuse-moi, et pourquoi le bitha est moins qu'un equal à l'intervention d'inverteurs? Donc ici, ce n'est pas la main, c'est juste un remarque. Mais quand on regarde le bitha pour être 3, 4 ou 5, c'est pas convex. Ok? Mais encore, c'est juste un remarque, et ce n'est pas vraiment correct. Donc, nous allons utiliser les deux bithes. Et ce que nous allons faire, nous allons faire un décent gradient stochastique avec respect à cet estimateur et nous avons deux principaux algorithmes. L'un pour quand l'accès contrainte est compact. Puis nous pouvons créer à chaque stage, nous ne devons que faire une query par stage et nous faisons ce décent gradient. Donc, c'est Xt minus 1 plus minus step size times l'estimateur de l'accès de la douleur d'approximation de F. Ok? Et l'autre algorithme que nous allons utiliser c'est quand X est un constrain, donc quand c'est, on dirait que c'est un set pour être hardy, X2 est hardy. Puis, à chaque stage nous allons faire deux queries. F of X1t et F of X2t avec un noise indépendant. C'est crucial parce que si les noises ne sont pas indépendants, c'est le même noise et les noises se concèlent. Mais à chaque fois qu'on fait une query, il y a un noise indépendant. Donc le noise est toujours ici. Juste pour être honnête à ce point, si on veut faire une notice online, ça signifie que nous pouvons créer deux fois la même fonction Ft pour utiliser ce algorithme. Donc, il peut être discuté si c'est possible ou pas. Si vous assumez que c'est pas possible, utilisez ce algorithme. Ok? Le premier ne utilise pas la même fonction Ft. Il n'y a que la même fonction Ft. Donc, vous pouvez faire un constrain si vous pouvez faire plus de query. Non. L'issue est que, si vous inquiétez une fois et vous regardez l'optimisation sur le cas de l'online, vous avez un intercept qui vous donne. Vous pouvez choisir un intercept pour être le plus grand que vous voulez. Et ça vous donne. Si vous pouvez faire deux points, vous avez un intercept et puis vous pouvez normaliser le problème. Mais ce n'est pas le noise, c'est vraiment l'intercept. Donc, c'est le plus grand algorithme. Et puis, le choix de tous les paramètres. Donc, ici, le paramètre est un gamma de T, delta de T, r de T. Tous ces choix de paramètres vont dépendre de la fonction qu'on fait sur la fonction. Si vous assumez que la fonction est ou pas, le choix de paramètres va changer. Donc, je ne vais pas détailler tous ces choix de paramètres. Mais, par exemple, si vous regardez l'optimisation et l'optimisation, nous avons des choix explicifs de paramètres. Donc, l'optimisation de l'optimisation peut être choisi d'une valeur de T. C'est une option classique. C'est la taille de l'exploration, parce que c'est l'exploration. Donc, delta T peut être choisi d'une valeur de T. Et ce n'est pas si grand. Et à l'exploitation de l'algorithme, nous allons juste l'exploiter par l'arrivée des points. Et cet algorithme donne un erreur avec un scale, comme nous l'avons, dans le delta square de la mu T pour la puissance quand beta est à l'infinité. Donc, nous avons l'optimisation d'un erreur, un scale de delta square de la mu T quand beta est à plus de l'infinité. Donc, qu'est-ce qu'il y a ? Delta, quand beta est à plus de l'infinité ? Donc, quand beta est à plus de l'infinité, je pense que, si je l'envoie correctement, c'est comme un constance. Parce qu'ici, nous avons beta bacteria à plus de l'infinité, on a beta à plus de l'infinité. Donc, on a beta à plus de l'infinité. Delta, non, delta doit être à plus de l'infinité. Peut-être. Je pense que c'est un erreur du constance. Donc, typiquement, c'est le constance. Mais quand beta est à plus de l'infinité, c'est bien parce qu'il signifie que vous êtes vraiment, vraiment doux, et que vous pouvez créer ou vous pouvez obtenir une preuve précise de vos gradients en créant des points à plus de l'infinité de votre point originaire. Si vous avez un mapping, pour l'instant, votre mapping est un erreur donc, ce n'est pas un constance, mais si c'est un erreur, vous pouvez obtenir un bon appréciation de vos gradients en créant des points à plus de l'infinité de l'ex. C'est la même chose avec une fonction qui est vraiment, vraiment smooth. C'est presque un erreur. Donc, vous pouvez créer de l'infinité de votre point pour obtenir une preuve précise de votre point. Par exemple, il y a une autre façon de le voir, c'est que si vous regardez dans la forme des formes qualitaires, si vous voulez avoir une preuve précise de vos gradients de la forme qualitaine, vous pouvez créer un point à plus de l'infinité de l'infinité à plus de l'infinité de l'infinité et cela vous donnera une estimate de vos gradients. C'est la main idée. Maintenant, let's look at the proofs. Donc, vous voyez le prochain slide, c'est le plus éduit slide que vous aurez vu dans votre vie, mais c'est juste pour faire un point à la fin de la parole. Donc, c'est la preuve de l'algorithme précédente. Donc, vous voyez que c'est seulement six arguments principaux et c'est plutôt naturel. Donc, quand vous regardez ça, je vais donc emphasiser le 5e point. Donc, vous regardez comment XT s'éteigne de l'ex. Vous utilisez votre algorithme pour montrer que vous expliquez et que c'est la forme standard. Ici, vous avez un terme d'erreur et vous savez que cette quantité ici est petite. Ici, vous avez cette quantité en orange d'expectation des gradients de f delta r. Donc, vous pouvez pluger les gradients de f delta r ici et vous avez cette type d'équité. Maintenant, regardez le premier 2 termes. Quand vous avez le premier 2 termes ici, vous voyez que vous pouvez réunir ce terme et diviser en gamma t, pour que vous obteniez en fin l'erreur en f delta r. Vous voyez que ici, vous avez XT-X, XT-1-X, XT-1-X, vous faites votre chemise et c'est comme standard algebraique, c'est pas très difficile et vous avez cette forme. Et ici, la idée est que ce terme, ici, en orange, est equal à celle-ci, ici, en orange. Et donc, tous ces termes vont être cancelés quand vous faites le summe. Donc, tous ces termes vont être cancelés et vous serez à gauche avec le summe de tous ces gars. Et c'est exactement ce que nous faisons. Donc, vous avez un summe du remaining terme et c'est ça. Donc maintenant, si vous ne follow tout, c'est OK. C'est la dernière 5 centaines que j'ai faite mais c'est juste de dire que je ne suis pas en train de vous traiter et nous sommes arrivés ici à ce point de la preuve, nous sommes ici. Et quand vous êtes à ce stage 5 de la preuve d'optimisation de convexes typiquement, ce que nous faisons est OK, donc ici j'ai donc cette quantité est plus ou moins constante de la fonction de la fonction convexe. Et je sais que c'est plus grand que la fonction de la fonction de l'avantage. Donc, j'utilise la fonction de convexité de F ici, pour montrer que ce gars est plus grand que la fonction de l'avantage plus ou moins. Et c'est la dernière étape de cette preuve standard de l'optimisation de convexes. Mais ici, si nous avons regardé plus près de cette étape 5 et que vous avez juste retiré ce terme et que vous avez regardé ce gars ici, ce que vous voyez c'est exactement le regret plus ou moins le regret OK, je vais dire que F de delta t est Ft ici vous avez le regret ici, cette quantité c'est l'avantage de l'avantage comparé à l'avantage de l'avantage. Donc, quand vous faites une quantité de convexes typiquement, vous utilisez la dernière étape de votre preuve et la fonction de convex pour montrer que votre regret est plus grand que l'avantage de l'avantage et si vous voulez avoir des résultats pour le regret de l'avantage de l'avantage online vous devez juste faire la même preuve mais au lieu de aller à la dernière étape, vous devez juste rester à la étape 5. Donc, l'avantage de l'avantage online est que vous devez faire la même preuve que l'avantage de convexes d'avantage de convexes parce que vous avez juste besoin d'une étape plus dans la preuve. C'est le point important ici, ce slide n'est pas détaillé dans la preuve parce que personne ne peut l'organiser pas même que, je ne sais pas ce que c'est mais c'est pour vous montrer exactement que votre regret arrive ici dans la preuve et ce n'est pas très compliqué de minimiser les regrets que de minimiser votre erreur et aussi il vous montre que la preuve est pas très compliqué. Ok, merci. Donc, maintenant, si on regarde à l'intérieur de avant que j'aie l'avantage d'avantage de convexes et d'avantage d'utilisation, on dirait que on regarde d'avantage d'utilisation que nous allons utiliser deux points ou deux points de métallique. Donc à chaque étape, vous devez créer x tab minus 1 plus delta rtut minus delta rtut vous devez faire la différence et vous ajoutez un peu de bruit et un peu de paramètres et en faisant la régime uniforme, vous avez les mêmes résultats ok, vous avez les mêmes résultats en constrainant et en constrainant l'optimisation par exemple, pour l'optimisation en constrainant nous devons créer deux points à chaque étape pour qu'on quitte l'intercepte et ok donc ici c'est juste pour dire que je n'ai pas de temps si j'ai un convex on peut poursuivre ces résultats mais ce n'est pas pas vraiment relevant pour maintenant donc la même chose si vous avez seulement un convex et un constrainant, vous pouvez choisir d'autres paramètres nous avons les résultats, je ne vais pas et si vous avez un convex et un constrainant un autre set de paramètres juste croyez-moi ou le papier mais juste croyez-moi, je pense que c'est plus rapidement donc ici c'était l'objectif de la discussion donc vous vous souvenez que les trois columns sont ce que c'est déjà passé nous savons que si nous voulons faire un convex avec une première ordre, nous n'avons plus qu'un sur le côté de T si nous avons une ordre de D si nous avons cette ordre de D donc nous l'avons je pense que nous n'avons pas seulement une ordre de D si nous avons une ordre de D c'est peut-être une ordre de D peut-être un problème naturel ok et ce que nous avons, c'est que nous avons ces ordres de D mais une ordre de P une ordre de B c'est le cas que nous sommes intéressés si nous regardons une ordre de D une ordre de D une ordre de D et nous pensons que la ordre de D est une ordre de D qui n'est pas la même ordre mais qui aussi est une ordre de B et c'est vrai pour une ordre de convex et comme je l'ai dit, je ne suis pas en train c'est aussi vrai pour une ordre de convex c'est juste la ordre de step 5 nous ne allons pas aller au step 6 nous allons juste aller au step 5 donc vous recevrez les mêmes risques pour une ordre de convex et une ordre de convex et je pense que je suis en temps donc je vais rester ici, donc vous avez les objectifs et les résultats à ce moment merci donc dans la conjecture est-ce que assumez-vous de la smoothness de la smoothness, de l'infinite smoothness de la smoothness dans la conjecture c'est une conjecture donc il doit être de la smoothness de la conjecture je ne sais pas parce qu'actuellement, il y a de l'infinite smoothness de la smoothness et de la smoothness de la conjecture où en fait il y a de la smoothness de la smoothness non, même pour la 0 ordre c'est la même ordre que vous considérez donc la optimisation de la smoothness de la conjecture et de la smoothness de la smoothness ici vous dites mais je pense si je me souviens correctement c'est un papier oui donc c'est plus facile donc oui donc c'est plus facile de dire il doit être de la smoothness mais je suis assez sûr que cette conjecture de la smoothness parce que ici on peut poursuivre cette conjecture mais je me souviens que ces deux conditions ne sont pas les mêmes donc non, je ne me souviens pas mais en fait, elles n'ont pas les mêmes conditions si vous le faites c'est bien mais si vous le faites c'est optimal, si vous le faites wrong on a une bonne conjecture oui, j'ai un peu honte que la construction de la laitière utilise une fonction qui est plus que 2 mais nous avons l'agrément parce qu'on a cette discussion en Singapore mais vous vous êtes ok, ce n'est pas la même ambiance mais je ne me souviens pas pourquoi ce n'est pas la même ambiance mais il y a... nous pouvons vérifier en ligne mais ce n'est pas la même ambiance et je pense que c'est l'idée parce que ici si vous regardez si vous regardez l'optimisation de la conjecture vous pouvez obtenir ce trait de convergence pour l'optimisation de la conjecture avec la conjecture avec la conjecture oui oui, on le vérifie mais j'ai l'agrément que pour le bundit ce n'est pas le bundit et je sais que c'est pourquoi vous avez choisi ce trait parce que je sais que si vous regardez le bundit, ce sera correct nous ne faisons pas le bundit de l'optimisation pour le bundit vous n'aurez pas besoin de le trait j'ai l'agrément et je pense que ce trait est entre je ne sais pas le même trait comme le plus bas ok donc dans la première ligne le résultat r est si c'est plus petit que 2 vous obtenez le trait et sur le trait le dernier donc c'est si la conjecture est equal à 2 et c'est si la conjecture est plus grande que 2 donc c'est quand vous n'avez pas une conjecture FR oui mais vous pouvez encore prouver oui parce que en faisant la même conjecture ici la conjecture FR c'est une conjecture mais ici je suis juste en utilisant l'approvision de la conjecture FR donc c'est la conjecture FR à la fin mais si vous utilisez ça au début vous pouvez faire la même conjecture avec la conjecture FR et la conjecture FR est la conjecture vous faites l'approvision et puis vous obtenez un extra termes que vous avez à l'intérieur mais vous pouvez toujours le faire nous ne faisons pas un fonction de conjecture gradant avec des noises donc si j'ai compris où la conjecture est que vous vous inquiétez très loin pour que la conjecture a un petit influence de la conjecture que vous faites est-ce que c'est l'idée ? est-ce que c'est l'intuition ? non non la conjecture est je suis très sûr que si vous faites la conjecture correctement et que la conjecture a un petit impact je suis très sûr c'est pas nécessaire si la conjecture a un petit impact c'est très lent plus lent que la conjecture de la conjecture c'est ok vous pouvez prendre la conjecture de la conjecture l'autre chose si vous faites la conjecture correctement ce que vous avez c'est que vous avez cette variante bias et si les fonctions sont vraiment très bonnes même avec la conjecture de la conjecture vous pouvez avoir une variante très petite pour avoir un estimateur de une variante très petite avec une variante très petite à une variante fixe vous pouvez couper mais votre variante bias est à l'imprové quand la conjecture est à l'imprové ce n'est pas réel c'est parce que c'est réel que votre fonctionnement est incroyable si c'est très douloureux vous pouvez avoir une variante très petite ou une variante basée c'est toujours quelque chose donc vous pouvez interpréter comme une variante reduction c'est drôle parce que c'est la question d'Alex c'est la dernière fois je pense que nous pouvons utiliser une variante réduction pour improving ces algorithmes c'est une variante réduction mais il y a pas de question on va dire qu'on suppose que c'est un point de vue sur la planète oui c'est une bonne question vous pouvez faire sur cette optimisation on peut aussi avec cette façon nous pouvons d'improver les droits de convergence. Par exemple, si vous assumez qu'il y a des idées, vous pouvez assumez qu'il y a des prenaux de choses comme ça, et que vous pourrez imposer les droits de convergence. Je pense que c'est vrai, si vous faites un autre set d'assumptions, comme vous l'avez mentionné, d'être plus fort avec l'espace, ou même de l'espace de formation finale, vous pouvez imposer les droits de convergence et les techniques. Pour moi, la maturation était un peu claire. J'ai utilisé beaucoup de bonnes fonctions en machine d'amie. Mais par exemple, le premier exemple qui vient de moi est la fonction sigmoïde, mais ce n'est pas différentable. Les gens utilisent des choses réglerisées comme la convolution, avec la fonction des bonnes supportes, réglerisez la sigmoïde, mais encore... C'est le sigmoïde ? C'est le sigmoïde ? Non, c'est pas le sigmoïde, c'est la fonction stèque. C'est la fonction stèque ? C'est la fonction stèque, oui, oui, c'est bon. Et c'est... Le maximum du gradient est très fort. Je veux dire, si vous essayez... Il sera encore infiniment smooth, mais tout ce constance et l'ambituriel tenteront de l'entraîner. La question est... Comment va-t-il s'entraîner ? Si vous essayez de... La question est que... Normalement, ces fonctions, elles ont une singularité dans un petit set compact. Il y a des résultats de Murowski pour l'adaptation d'agriculture. Quand ils travaillent avec un petit set compact, c'était un peu compliqué pour moi. C'était une motivation d'utiliser le maximum du gradient ou le maximum du grand dérivé sur les boundes. C'est-à-dire qu'il y a... Qu'est-ce que c'est-à-dire ? L'adaptation stèque est épidémique, avec les boundes de tous les boundes, donc l'adaptation stèque est suffisante pour la motivation. C'est constatable. Si vous utilisez... Je pense que la question correcte est... Si j'ai une fonction, je vais optimiser la fonction qui n'est pas convex, peut-être que j'utilise une approximation d'elle qui n'est pas smooth, et puis utilisez ce type d'algorithme sur la fonction smooth à optimiser ma fonction originale. C'est-à-dire que vous avez une fonction au début qui n'est pas smooth ? Je vais vous dire qu'est-ce que l'exemple des fonctions que vous appliquez ? C'est pour la fonction logistique et toutes les fonctions qui sont normales, typiquement. Ok. C'est pour la fonction logistique et toutes les fonctions qui sont normales, typiquement. Ok. Si vous avez... C'est l'exemple principale. Mais si vous avez une fonction qui n'est pas smooth, et vous essayez d'approxier avec une fonction très smooth, je ne suis pas sûr que c'est la meilleure idée de ce type d'algorithme. Oui, c'est ce que je fais avec la fonction smooth pour une fonction smooth. Ça peut être efficace. Oui, mais ma question est que si vous êtes le meilleur de la bataille, vous devez contrôler votre bataille et votre directive d'augmentation. Je ne veux pas dire typiquement, mais c'est juste un rendez-vous pure. La bataille de votre bataille va augmenter plus que vous allez perdre plus dans votre approximation que vous devez obtenir de la suite d'algorithmes. Ok, mais c'est juste un rendez-vous pure. Ok. Ok, une autre question. Si vous ne connaissez pas la bataille en advance, ou si vous ne connaissez pas la bataille ? Si vous ne connaissez pas la bataille, ce n'est pas si mauvais. Parce que, ici, on utilise la bataille, ici on utilise la bataille et la bataille, mais si vous ne connaissez pas la bataille, c'est juste un rendez-vous pure, pour l'instant, et au-delà de l'expression de la bataille, on va juste aller au-delà ce n'est pas si bon. Donc, si vous ne connaissez pas la bataille, c'est ok. Vous ne l'utilisez pas. Si vous ne connaissez pas la bataille, c'est plus compliqué. Si vous connaissez la bataille, si vous n'avez pas la bataille et que vous utilisez la bataille, vous allez avoir le même résultat avec la bataille. Parce que si vous avez la bataille moins que la bataille, si vous avez la bataille, pour l'instant, si vous avez... parce que vous avez toujours l'assumé que si vous n'avez pas la bataille moins que la bataille, vous pouvez utiliser la bataille moins que la bataille, c'est ok. Parce que de l'argument que je vous ai dit, si vous avez 2 et 1 bataille, vous avez tout le monde. Si vous n'avez pas d'idée, pouvez-vous trouver un algorithme adaptif ? Je n'en sais pas. Et, depuis que vous venez de créer, vous avez juste un point. Je ne suis pas sûr d'être sûr. Je ne veux pas... Je peux faire d'autres guesses que vous ne pouvez pas estimer, mais c'est encore un guess. Je ne suis pas sûr. C'est bon.