 Aujourd'hui, je veux discuter et présenter à vous des résultats sur l'équilibre de 2-layer neural networks quand ils sont trainés avec gradient descent. Donc, ce sera un parler de l'analyse mathématique d'une sorte de dynamique de traînement. Et je vais présenter quelques résultats que j'ai obtenus avec Francis Bach sur ce topic. Alors, je suis heureux parce que Gael a présenté... Nous serons dans un sèche similaire comme Gael a présenté dans le début de l'histoire qui est l'application de la machine-learning. Donc, nous avons un couple de variables, x et y. L'axe que nous vivons dans R to the D est typiquement large et le y est juste une variable responsable. Et, selon les samples N iid, nous voulons construire la fonction h. Donc, c'était la fonction nommée f dans le stock Gael qui predicte l'outil correct qui n'est pas nécessairement observé précédemment. Il y a beaucoup de moyens de construire une fonction h ou des predicteurs. Mais dans ce stock, nous nous focussons sur pourquoi une 2-layer relu non-networks ? Donc, ce sont des modèles spécifiques qui sont vanilla, 2-layer non-networks qui sont typiquement graphiquement représentés comme suivants, mais pour 2-layer non-networks nous avons une structure spécifique qui peut être rétellée comme un summe de m'simple fonctions et que le summe de m'simple fonctions est le width de la layer h. Et chaque fonction simple, phi, c'est une fonction qui prend l'input x et aussi des paramètres wj qui sont les weight de ces... qui sont les weight de l'input h de la neuron correspondant à l'index j. Et cette function simple pour l'input rectifié non-networks, c'est la composition d'une transformation de l'input qui est paramétruée par votre weight vector a dans r2d1 Et puis, il y a une non-linearity qui est juste la partie positive Et puis, il y a une multiplication par votre scala, qui s'appelle b et c'est juste un numéro réel Donc, pour chaque fonction simple il sera paramétruée par ab le weight de l'input h et le but de l'algorithme de la laur sera de sélectionner les choix de la laur pour tous les unités de l'input neuron pour que l'on achève ce task de prédiction Donc, il y a beaucoup d'autres fonctions qui ne sera pas considérées comme un fil mais dans ce truc, je vais faire attention à l'input rectifié pour la sake de la clé et aussi parce qu'il y a des propriétés de cette fonction que je vais utiliser dans les résultats c'est que 5 est 2 homogénieuses dans les paramètres ce que ça veut dire c'est que si je multiplique les paramètres d'un unité de la laur puis l'input est multipliqué par la laur parce que la laur et la laur et la laur est aussi homogénieuse alors c'est le modèle et maintenant le but est de apprendre ce weight et typiquement, on fait ceci via l'impérical risque de minimisation donc ça veut dire qu'on choisit des lois donc ici on assume que c'est connex et smooth on peut penser de la logistique loss ou de la laur et puis on minimise la fonction de tous les paramètres de la laur fm qui est le summe de l'impérical risque donc le summe de les lois observé sur le train et optionnellement, on peut aussi compter des paramètres de la laur avec des paramètres de la laur qui est non-zero ou positif donc j'ai une question ah non ok, c'était une réponse à la question de la laur j'ai regardé la conversation donc si vous avez une question vous pouvez le demander donc la laur aujourd'hui c'est juste la norme square de tous les paramètres de la laur et c'est optionnellement on considère les cas de la laur donc cette fonction fm qui est typiquement la laur on minimise quand on traîne la laur c'est non connex et c'est difficile de trouver un minimiser mais en pratique, on voit les algorithmes de gradient et on observe les résultats satisfacturaux donc c'est ce que j'aimerais comprendre donc on considère les dynamismes qui s'initialisent tous les weights de la laur indépendant par la distribution de paramètres de la laur donc ici c'est une distribution avec 5 secondes moments qui caractérisent la distribution de tous les weights de la laur et puis de la laur nous suivons le flux gradient c'est juste le temps continu contrepart des algorithmes de gradient c'est-à-dire le flux gradient ou le flux gradient nous considérons les dynamismes juste pour la sake de la simplicité parce que dans ce temps je présente les résultats non quantitifs mais en pratique nous devons discrétiser les algorithmes de la laur nous regardons un exemple pour voir ce que je parle nous sommes intéressés dans ici je vais montrer un vidéo qui montre les dynamismes de la laur ici dans les paramètres chaque point représente la position des paramètres de la laur je l'explique et la couleur dépend de la simplicité des weights et ici c'est la fonction de production pour la classification pour les plus et les minus en noir c'est la décision et nous allons voir comment ces dynamismes de gradient s'évoluent en temps les dynamismes ont présenté previously on voit qu'il y a des phénomènes compliqués mais en fin il y a des phénomènes intéressants on voit que même si on a beaucoup de neurones en fin il y a collapsed les températures on le sent et dans le espace il correspond au predictor c'est assez simple c'est la sphéligone la Größe de la formule et ici c'est un grease le notice pas de régulation on verra uneification implique c'est juste par le fait que l'on a trainé avec gradient descent. Donc, c'est quelque chose. Ce qu'est le but de mon talk c'est d'understand ce qu'est cette légalisation implique. Mais plus généralement, sur ce très spécifique set-up de la vidéo, nous voulons comprendre la performance du predictor laissé par ces 2 lettres, ce qui signifie le predictor correspondant à la weight après le train. Voilà. Donc, ce sera la question de ce talk. Je vais juste donner un petit peu de motivation. Donc, premièrement, bien sûr, le but c'est d'understand 2 lettres non-networks. Il y a un modèle important. Dans ma opinion, c'est juste la prochaine étape théorique après étudier les modèles lignes pour lesquels nous l'understandons bien, caractéristiquement. Et nous verrons qu'il y a beaucoup de difficultés en entendant caractéristiquement ces 2 lettres non-networks mais encore plus, nous pouvons faire progresser. On peut comprendre le rôle de l'initialisation, le choix de l'exemple, etc. Et plus généralement, je pense que c'est un bon modèle d'understand le phénomène de l'enseignement de représentation via l'essence gradiente. Parce que si nous voulons étudier des modèles plus complexes, comme les lettres non-networks, pour que l'analyse soit trop compliquée, nous n'avons pas pu capturer ce phénomène de l'enseignement de représentation. C'est pourquoi nous étudions plus complexes et plus complexes modèles. Donc, ici, les lettres non-networks sont un important step intermédiaire pour comprendre plus précisément les modèles de l'enseignement de représentation. Donc, ce talk sera divisé dans 3 parts. D'abord, je présente l'infinitrice limite, qui est un outil théorique pour pushing l'analyse plus loin, l'analyse de ces lettres non-networks plus loin. Et puis, je vais étudier ce qui se passe quand on réglera l'objectif, qui signifie que ce lambda est non-zero. Et puis, finalement, je présenterai ce qui se passe dans l'infinitrice irrégulière, quand le lambda est 0, ce qui est la sitting de la vidéo précédente. Donc, je vais présenter les résultats globales. Donc, comme je l'ai dit, le premier outil théorique que nous serons utilisés est d'étudier l'infinitrice non-network dans la limite où c'est avec. Donc, le paramètre M et il y a un moyen naturel de reparamétrer ces modèles dans un moyen insensitif à la limite. Nous allons simplement utiliser une distribution, une distribution de probabilité sur l'espace de paramètres. Et maintenant, ce somme que nous avons, donc, je vais retourner au slide précédent. Ce somme qui a été défini notre modèle ici, ok? Nous allons juste replacer l'intègre contre ce somme distribution. Donc, c'est ce que nous faisons avec le paramètre non-network qui est paramétrisé par une distribution de probabilité et nous retrouvons une 2-layer non-network où mu est une distribution numériques avec M atomes. Donc, maintenant que nous avons changé cette paramétrisation, nous pouvons définir la fonction objective sur l'espace des mesures de probabilité qui est la même qu'avant, d'excepter que nous avons changé notre paramétrisation. Donc, nous avons le risque et potentiellement une distribution de non-network de 2-layer non-network. Donc, les premiers résultats que nous pouvons dériver avec ce changement de point de vue sont pour dire que ça fait sens de parler de la dynamique de la non-network à la limite infinitive. Qu'est-ce que je veux dire? Donc, nous allons définir cette quantité, cette distribution de mu M pour être la distribution de probabilité de la finite non-network. Donc, je prends tous les paramétres de mes neurones. Je définis la distribution de ces paramétres. Donc, c'est le point de vue que nous avons vu dans la vidéo. C'est la distribution de probabilité de temps. Le premier résultat que nous pouvons montrer est que c'est convergé comme le risque de plus infinité pour des dynamiques de la distribution de probabilité de temps. Mais aujourd'hui, je ne veux pas focusser sur les technicalités. Et donc, je ne vais pas mentionner les conditions techniques et les subtleties pour focusser sur les idées principales. Donc, ce premier résultat nous dit qu'il y a un objet ideal idéal de la distribution de temps dépendant de la distribution qui décrive bien les dynamiques de la training de la distribution de temps. Donc, ce sera exactement ces dynamiques. Alors, en instant cette dynamique compliquée avec Mfinite, nous ne fâchons pas mais focusons ces dynamiques idéales qui capturent bien le comportement de 2-layers non-networks. Et nous voyons ce que nous pouvons dire sur ces dynamiques idéales. Le premier résultat de la initialisation, la distribution, c'est d'abord, l'uniforme dans la sphère pour les intérêts de temps, donc, les intérêts de temps A, J ou les intérêts de temps distributifs dans la sphère et les intérêts de temps de temps sont uniformes en minus 1. Donc, juste plus 1 ou minus 1 avec une probable probability. Donc, c'est juste un exemple que si ce dynamique dans les limites infinitaires mutiles convertissent rapidement pour une distribution plus infinitaires, la limite est la minimisation globale de la fonction objective F. Donc, ici, ce résultat est non trivial parce que la fonction objective F mérite que c'est non convex. Et en particulier, nous pouvons montrer qu'il existe un point stationnel qui n'est pas globalement minimisé. Donc, nous avons besoin d'une condition sur la stabilisation afin de éviter tous ces points stationnels et c'est là où la stabilisation vient de jouer. En fait, l'assumption qu'on doit faire pour prouver ces résultats c'est que Muzero est vraiment divers. C'est pourquoi nous avons cette distribution uniforme de la sphère comme exemple. Nous avons besoin d'une diversité à la stabilisation ok, c'est les potions. Mais, qu'est-ce que c'est le prédicteur que nous avons appris ? C'est juste que nous savons qu'on a appris un global minimisé mais, ce qui veut dire un minimiser global de la fonction objective F. Donc, ça dépend de nos choix d'objectif d'objectif de si c'est une régulation ou pas et sur les propriétés des données. J'imperchir c'est purement une question statistique parce que l'on a appris le minimiser du problème de l'amperical risk. Et donc on peut contrôler les propriétés statistiques de l'estimateur que nous avons atteint. Ensuite, il y a un autre cas intéressant, qui est celui que j'ai présenté dans la vidéo, c'est quand on ne réglerait pas l'amperical risk, l'amperical risk est 0, nous devons comprendre mieux les dynamismes de l'entraînement, afin de parler de la performance de l'amperical risk. Pourquoi ? Parce que non-networks de ce type, il y a des approximateurs universaux. Cela signifie que nous pouvons interpréter entre les points d'entraînement, de toute façon, et encore trouver un risque de l'amperical risk. Donc nous devons comprendre combien de tous ces minimiseurs mondiaux, les dynamismes de l'entraînement, ont parlé, afin de parler des propriétés de l'ampericalisation, de comment les predicteurs s'actueraient au-delà des samples de l'entraînement. Ce sera le sujet de ma troisième partie, où nous devons retourner aux dynamismes de l'entraînement, pour comprendre à quel point les minimiseurs mondiaux ont été choisis. Juste un petit commentaire, c'est que nous pouvons aussi couvrir le cas du risque de l'amperical risk, ou le risque de l'amperical risk dans cette théorie, qui signifie d'autres types d'insights. Le dernier commentaire, c'est que ce résultat est purement non quantitative, en fait, c'est encore une question d'entraînement, pour trouver des conditions où nous pouvons faire ce résultat quantitatif, avec et en termes d'entraînement. Pour ça, c'est purement asymptotique dans tous les sens. Je vais vous montrer une illustration de cette convergence globale. Nous sommes dans un espace paramétre. Il n'y a pas de dimension comme la vidéo précédente, mais c'est de la même convention. Nous minimiserons le risque de l'amperical risk dans le contexte synthétique, où l'input et l'output sont générés par une networks non-network avec 5 neurones. Le but sera de récovoir les paramètres de ces 5 neurones avec nos networks non-network. C'est pour cela que les dynamismes de traînement s'évoluent. Nous avons initialisé une sphère small autour de l'aéros, et nous verrons que, à la fin de la traînement, après une dynamisme compliquée, tous les neurones sont alignés avec la direction des élèves, ce qui signifie que nous avons converti à un minimiser globale. Et ici, j'ai mis 100 neurones pour récovoir 5 neurones, et vous pouvez observer que si vous avez juste 5 neurones dans votre networks non-network, vous n'aurez généralement pas converti à un minimiser globale. Vous avez besoin de la paramétrisation. Vous avez besoin de plus de neurones qui sont nécessaires. Et notre résultat est que, quand le nombre de neurones arrive à plus de l'infinité, ce comportement est garantie dans un sens. Alors, maintenant, je vais passer au cas régulier pour comprendre quel est le predictor que nous avons appris quand nous avons minimisé les risques empiriques régulérisés avec notre networks infinitaires pour comprendre ce que nous avons appris, nous pouvons définir la norme suivante sur le espace des predicteurs qui sont appelés les normes variétaires ou parfois les normes baronnes. Je vous en referai le F1 dans ce talk aujourd'hui. Il est naturellement présenté par la réalisation qu'on a introduite. Il est défini comme suivant. Vous avez appris une fonction H d'un ordinateur ou d'un predictor. Et vous essayez de décomposer et de l'écrire comme un 2-layer de nos networks paramétrisés par des mesures mu. Et puis, sur toutes ces compositions, vous trouverez l'un avec les moments les plus petits secondes. Alors que la mesure mu a les moments les plus petits secondes. Et c'est ce qui définit la norme en utilisant les deux homogénéities de phi. Comme suivant, vous essayez maintenant de décomposer H sur les unités rectifiées de cette forme paramétrisée par A où A est maintenant juste un vector sur la sphère et nu est une mesure sur la sphère. Donc, nous avons changé un peu la représentation, mais maintenant, si on décompose H comme suivant, ce norme correspond à trouver cette décomposition avec la plus petite quantité infinidimensional de la generalisation de la norme L1. Donc, il y a un effectif sparcifiant dans cette norme. Nous allons essayer de trouver une expression de H qui utilise un peu de neurones comme possible. Donc, il y a un effectif sparcifiant dans cette norme. Donc, c'est la norme F1. Et maintenant, ce que nous pouvons dire depuis le fait que c'était le termin de la regularisation de l'objectif, c'est que si L1 est un minimiser global de la fonction objective F, puis le predicteur correspondant minimise le problème régularisé de l'impact risques avec la norme F1 de la regularisation. Ok. Donc, nous avons réveillé la fonction objective dans le espace predictor. Et donc, nous savons que, dans le contexte de la priorité, nous conversons à un predicteur qui minimise pour mieux comprendre les propriétés de ce predicteur. Nous pouvons comparer avec une norme différente qui est la chose que nous obtiendrons si nous fixons les weightages des unités de l'impact donc, les weightages d'input pour être la distribution uniforme dans la sphère. Donc, c'est le predicteur que nous obtiendrons si nous trainons les deux liens non-networks, mais nous ne trainons pas les deux liens, nous ne trainons seulement les outils. Donc, en termes de code, cela veut dire commenter une ligne de code qui updates les weightages de l'impact, mais nous verrons qu'il lead à des predicteurs très différents. Donc, nous défendons les set S des distributions qui ont l'uniforme marginal dans la sphère pour les weightages d'input. Cela veut dire que nous fixons les weightages aux valeurs initiales de l'impact et cela définit les normes différentes dans le espace des predicteurs qui sont créées comme suivants. Nous décomposons l'impact en deux liens non-networks avec les weightages d'uniforme dans la sphère et sur toutes ces décompositions, nous tentons de trouver un où les weightages d'outils sont les plus petits de l'impact. Donc, c'est vraiment ce que je disais. Nous avons le même algorithme, mais nous commentons que les weightages d'input sont les plus petits de l'impact. Cela définit les normes différentes dans le espace des predicteurs qui peuvent être créées dans la sphère associée à un espace de l'impact. Donc, maintenant, si nous seulement étendons l'outil de la sphère non-networks, on peut dire qu'on a converti le minimum du problème d'impact avec les normes F1 et F2. Si nous étendons les deux layers ou seulement les deux layers ou les deux layers non-networks. Donc, je vais commenter un petit peu sur ces deux normes. Donc, ici, c'est une illustration de ce que nous avons obtenu pour un simple de regression en deux dimensions où les plus ou les cross et les minus les labels ou les cercles. Ici, j'étendons les deux layers. Donc, nous convertons les normes F1 régulérées sur le prédicteur minimum de prédicteur. OK. Ici, j'ai Lambda, Strictly larger than zero. Il y a la régulérisation. Et ici, c'est le même traînement, mais je fixe l'outil pour la valeur initiale. Et donc, ce sera le prédicteur avec la régulérisation F2. Donc, quelques commentaires sur ces deux types de régulérisation. D'abord, en termes de statistiques priores, cette régulérisation F2, dans le sens qu'elle peut être correspondée d'un genre de smoothness isotropique prior sur la fonction que nous essayons de prédiquer dans les tasks de régulation. Cela signifie que nous serons bons sur les fonctions qui sont smooths dans toutes les directions isotropique et extrêmement smooth dans la dimension haute. Mais sinon, ce sera très difficile de apprendre les fonctions de régulérisation. On peut avoir l'adaptation de la régulérisation isotropique isotropique. Cela signifie qu'on peut avoir une fonction qui n'est pas smooth dans un petit subspace et smooth dans toutes les directions. Et F1 est encore capable d'efficier les fonctions. Donc, je veux dire que c'est très difficile d'aller vite, mais tous ces résultats peuvent être précis. Je sais qu'avec la régulérisation F2, c'est facile. En fait, on peut montrer qu'il y a des algorithmes qui garantissent la vitesse de conversion parce que c'est un problème de connexion. Nous étions en train de apprendre l'HHS et tout ça est bien compréhendant. En en train de F1, c'est beaucoup plus difficile. Nous avons seulement ces résultats asymptotiques que j'ai présenté ici. En fait, nous savons qu'il y a des problèmes de compétition qui sont inclus dans les fonctions avec des fonctions f1. C'est plus difficile que l'optimisation. C'est la comparaison entre F1 et F2. Donc, nos networks peuvent prendre une capacité de apprendre ce que c'est la direction dans les données qui sont utiles pour faire le procès correct. Maintenant, je vais tomber aux dernières parts. Je pense que j'ai 5 ou 10 minutes pour les fonctions. Nous voulons comprendre ce que nous avons appris avant. J'ai focussé sur l'exemple spécifique même si les analyses peuvent être carried dans d'autres conditions, mais nous avons différentes conclusions. J'ai focussé sur la spécifique. Nous sommes intéressés. La prediction que nous avons appris est le signe que nous avons appris. Nous ne ne ne ne ne ne ne ne ne ne ne ne ne ne ne ne ne ne ne ne ne Vous voyez que si vous avez une correcte prediction, ces types de losses vont vous motiver à augmenter la norme de votre predictor afin de réduire la losse. Donc, en fait, le minimiser ou à l'infinité pour ces losses, et ce sera très important dans notre analyse. Mais avant de parler de non-network, je veux donner le résultat qui nous a inspirés pour donner le résultat, pour le résultat que je présente, qui est par ce set d'authors. Et c'est avec les predicteurs linéaires. Donc, juste pour ce slide, on n'oublie pas le non-network, et on considère les predicteurs qui ont un simple predicteur linéaire, comme il y a. Donc, le paramètre W est juste un objectif de victoire. Et on considère un objectif de séparation linéaire, qui signifie qu'il existe un objectif de victoire W, ainsi que l'H, qui a le correct signe sur tous les objectifs de victoire. Ok ? Donc, depuis que l'H est un objectif de victoire W, je peux toujours augmenter sa norme et réduire le risque empirique parce que de cette exponentialité. Donc, en particulier, la première chose que nous pouvons montrer est que pour toute initialisation, le objectif de l'affaire et de l'effet, ou de l'affaire et de l'affaire, ce qui peut être aussi montré, va diverger à plus en plus de plus en norme. Donc, la question est à quelle direction nous devons diverger ? Et en fait, nous pouvons montrer que si nous prenons le flux normalisé, donc juste la direction du predictor, cela convertit à un classif de l2 Max Margin. Cela signifie que sur tous les objectifs W avec les normes L2 plus petites que l'1, cela est celui qui est le plus grand confident dans sa prédiction. Si la prédiction est la meilleure prédiction sur tous les secteurs de traînement, cela peut être représenté comme un objectif. Ok. Alors, nous allons juste vous montrer une petite illustration de ce résultat. Donc, maintenant, je vous montre les séparables séparables de traînement et le paramètre n'est pas seulement un vector en ordinateur. Et quand je dérange un décent gradant avec la classe logistique, je convertis à l'affaire Max Margin. Ici, pour avoir une vidéo plus belle, j'ai utilisé un case radial afin que l'unité sphère soit à l'infinité. J'ai appliqué un tangent hyperbolic à la direction radiale afin que ce n'est pas de bouger à l'infinité. Cela signifie qu'on se démarre à l'infinité mais à la direction de fixation. Donc, c'est le cas de la classe de Max Margin où ce décent gradant nous a aidé. Et bien sûr, c'est très spécifique à la façon dont nous avons converti le modèle parce que tous les classeurs qui classifient parfaitement les données peuvent nous aider à ne pas avoir plus d'entraînement. Mais l'entraînement de l'entraînement s'étendait à une spécifique, qui est la classe de Max Margin. Maintenant, nous allons retourner à deux lois noires. Et nous allons présenter les résultats correspondants dans le set-up. Donc, avant, nous considérons une initialisation qui est uniforme sur la sphère pour les outils d'input et d'uniforme pour les outils d'input. Et nous n'avons pas besoin d'assurer que le set d'entraînement soit linaire et separable parce que les outils d'input et d'outils d'outils d'uniforme sont de l'approximateur universel. Donc, nous avons besoin de l'input et d'outils correspondants. C'est tout ce que nous devons assurer sur le set d'entraînement. Et puis, il y a plusieurs conditions techniques qui ne seraient pas détails aujourd'hui. Dans ces conditions, nous pouvons montrer qu'il y a encore un predicteur qui se diverge dans la norme à plus de l'infinité. Mais si on normalise ça, en particulier par la norme F1, le predicteur est allé à la dynamique traînée d'un network de 2-layers, il se convertira à une norme F1 Max-Margin classif. Cela signifie que toute la fonction de prediction avec les normes F1 plus petites que 1, ce sera que nous converserons avec la confédérité la plus grande dans sa production. Donc, nous avons un comportement similaire et c'est très spécifique pour la structure des 2-layers réunis sur notre networks. Je ne parlerai pas de la preuve, mais ce résultat est très spécifique pour la structure de ce modèle. Nous pouvons aussi montrer que si nous fixons la laitière comme je vous l'ai dit dans la seconde partie, nous pourrons convertir à une classifier F2 Max-Margin, qui est la même définition, mais avec la norme F2. Alors, qu'est-ce que ça ressemble à? Je vais vous montrer un exemple de la dynamique traînée. C'est la même position, un task de classification. Nous avons traîné seulement la laitière de l'output, donc nous espérons convertir à une classifier F2 Max-Margin. Et ici, nous avons traîné les deux laitières, donc nous convertirons à un classifier F1 Max-Margin. Ce sont des dynamiques de traînée de la 2-layers réunis sur notre networks. Et nous avons observé ce type de comportement. Nous avons converti à un classifier avec une bande de décision smooth et c'est quelque chose que nous pouvons s'exprimer de la régulation F2. Nous pouvons comprendre pourquoi il a un certain degré de smoothness. Nous avons converti à un classifier qui a une bande de décision polygonale. Il n'y a que quelques réunions. Et c'est l'effet sparcifiant de la norme F1 que nous avons présentée précédemment. Je vais commencer par... Ok, je vais peut-être laisser plus de temps pour les questions et poursuivre la suivance de ce talk. Je vais juste présenter la dernière slide et les résultats non plus théoretiques. Nous allons montrer l'advintage d'avoir un classifier F1 Max-Margin. Je l'ai mentionné précédemment que cette régulation F1 était capable d'être efficace dans des conditions où il y avait beaucoup d'anisotropie dans le task à la main. Je vais vous montrer un exemple synthétique où c'est le cas. Nous observons ce phénomène. C'est un task de classification 2 classifier dans dimension 15. Et le datae est utilisé sur les deux coordonnées. Certaines clôtures avec pluses et minuses. Et tous les restes 13 coordonnées sont uniformes et non utiles pour faire la production. Avec ce set-up, je déterris les deux coulures réunis sur les réseaux. Je déterris les deux coulures en bleu ou juste l'output. On voit que avec les samples 500, quand je déterris les deux coulures, je n'ai presque pas de performances de generalisation. Je comprends la structure de ce set-up. C'est un classifier F1 Max-Margin. Si je déterris les deux coulures, c'est une légérisation F2. On voit que après les samples 500, nous sommes encore plus loin d'entendre la structure. Nous faisons un erreur sur une quatrième de toutes les samples. Donc, la performance est beaucoup plus haute avec ce classifier Max-Margin F2 Max-Margin. C'est vraiment l'effet d'adaptive de deux coulures non-networks que nous observons dans ces données. En fait, nous avons des résultats statistiques qui montrent et qui garantissent ce type de comportement, mais je ne vais pas présenter ces résultats. Je vais directement passer à la conclusion, pour donner un peu de temps pour les questions. Il y a plusieurs manières d'exprimer ce travail. En fait, dans ce que j'ai présenté, il y a plusieurs questions ouvertes. Tout ce qu'on a présenté était qualitatif en termes de dynamique de traitement. Donc, les questions importantes sont de faire toutes ces résultats quantitatives quand il s'agit d'une fonction de l'entraînement avec ce type F1 de prégradation. Donc, comment est-ce qu'il s'agit de la conversion, comment sont-ils beaucoup de renseignements? Nous devons faire ces résultats non asymptotiques. Et ensuite, il y a deux directions d'extension pour cette ligne de travail, par exemple, en faisant le modèle plus général. Donc, en fait, c'est pour aller et étudier plus bas sur nos networks avec plus de coulures. Donc, en ce cas, nous espérons des résultats plus rares, mais il sera intéressant de comprendre comment les networks s'étendent, ils construisent leur représentation interne de la data en utilisant de grands décentres. Et aussi, nous pouvons faire le modèle plus spécifique ou plus simple pour analyser. Et en particulier, nous pouvons étudier les squares de l'île, et comprendre la régularisation implique de grands décentres sur des problèmes simples comme les squares de l'île. Donc, il y a beaucoup de travail qui va dans cette direction. Donc, ici je parle de squares de l'île, mais parmi les squares de l'île ne sont pas dans notre façon. Et il y a beaucoup de travail dans cette direction, mais il y a encore beaucoup d'aspects qui ne sont pas mises, en particulier des résultats quantitifs en ce cas ou ne sont pas mises. Donc, c'est une autre ligne intéressante pour la recherche futures. Et ce sont les papiers sur lesquels ce truc est basé. Et je vous remercie pour votre attention. Je pense que j'ai donné quelques minutes pour des questions. Donc, j'ai une petite question. Dans la partie régularisée, pouvez-vous nous expliquer comment vous calibrez dans la pratique les paramètres lambda ? Oui, donc... Ok, donc ce type de résultats, des résultats théoriciens, ils sont typiquement obtenus avec des problèmes constraintes, où nous minimiserons les risques de l'ampli sur la balle F1 ou la balle F2. Oui. Dans la pratique, si vous voulez avoir la même adaptivité ou la même propriété statistique, la principale tool est la validation de l'ampli. Oui, ok. C'est standard. Oui, oui, il n'y a pas... Ok, donc si vous n'avez pas de choice théorique de l'ampli ? Non, et même dans les plus simples conditions de l'ampli, quand nous avons une choice théorique pour l'ampli, cela dépend des choses que nous ne devons nécessairement savoir sur les données. Dans la pratique, vous utilisez encore la validation de l'ampli. Pour moi, c'est la façon générale. Je peux exprimer un petit peu les analyses théoriques dans les conditions régionales. Il peut nous dire quelque chose de la choice de l'ampli. En particulier, nous pouvons savoir comment l'ampli s'étendait à la fonction du nombre de samples de entraînement. Ce sera une fonction de la smoothness ou de la propriété fonctionnelle de la fonction que nous essayons de apprendre. En particulier, nous pouvons dire que si la fonction que nous essayons de apprendre a un certaine régularité, un nombre de dérivations de boundie, nous savons que la meilleure chose pour l'ampli sera de la diminuer avec un certain exponent en n, donc nous pouvons avoir un certain type de résultats. Nous sommes intéressés sur un aspect satisfait, mais en réalité, nous devons résoudre à la validation de l'ampli. Ok, merci. Il y a peut-être d'autres questions pour Denaïque. Alors, peut-être un petit petit, avant le break de café. Peut-être que vous puissiez nous donner des hints sur comment s'enfermer d'un état de deux étapes de networks neuro-néros à un plus grand état où le problème, le grand problème, se préoccuperait. Oui, donc la main difficulté est que pour deux étapes de networks neuro-néros, nous avons cette représentation comme un nombre de fonctionnels avec paramètres, qui sont... Donc ici, le paramètre WJ n'est pas séparé avec d'autres fonctionnels. Nous avons une structure séparable de l'adapteur. C'est juste un nombre de fonctions simples. Si nous avons de plus de networks neuro-néros, il y aura des connecteurs cross-connectés dans les étapes de la vie, et nous ne pouvons pas écrire la fonction comme un nombre de fonctions simples comme ça. Donc, en particulier, nous ne pouvons pas écrire dans les limites infinites, la structure séparable. Donc ici, cette structure séparable permet à nous d'écrire la structure séparée dans les limites infinites comme une fonction linaire d'une mesure de probabilité. Mais ce n'est pas possible anymore pour les networks neuro-néros. Donc, il y a toutes les séparations complètement. Donc, il y a beaucoup d'attempts pour génériser ce type d'approche pour les networks neuro-néros, mais en tant que ça, ce n'est pas clair ce qui est le meilleur et le plus utile. Donc, merci encore pour ce très intéressant talk, le Naïk.