 Je suis très content de m'avoir invité, très content de parler aujourd'hui et je vais parler un petit peu d'utilisation de réseaux de neurones profonds pour le traitement du signal sonore et sur deux aspects, sur deux sujets. J'ai illustré avec deux problèmes spécifiques et justement l'utilisation de ces réseaux de neurones profonds. Ça ne va pas être très technique, je ne vais pas montrer beaucoup dans les détails mais je vais essayer de donner les points essentiels qui sont spécifiques que je dirais au signal sonore. Voilà un peu le contenu de la présentation, je vais rappeler quelques éléments de base du traitement du signal sonore et de la représentation des signaux sonores pour montrer un peu, c'est un peu différent de l'image qui est peut-être plus diffusé. Et ensuite j'aimerais quelques généralités sur l'utilisation des spécificités des réseaux de neurones pour l'audio avant d'entrer en détail sur deux applications plus spécifiques, sur la séparation de voix chantée aidée par les paroles de la chanson et sur le transfert de style musical. Alors un signal sonore, c'est un nom de sonore, une variation de pression autour de la pression atmosphérique. C'est un nom de contenu et la première chose qu'on fait c'est qu'on la discrétise dans l'échantillon. Et pour donner une ordre d'idée évidemment pour le signal sonore, le signal discrétisé sur un CD audio est échantillé à 44000 Hz, c'est à dire 44100 Hz. C'est à dire qu'on prend 44100 valeurs par seconde de signal. Ça peut donner une idée du nombre de données nécessaires pour représenter un signal sonore, puisque pour une seconde il y a 44100 valeurs. Et donc ce qui rend les approches comme on le verra de type end-to-end en raison de neurones qui dise directement comme représentation le signal sonore en entrée et long de sonore assez complète. Alors en général ce qu'on fait c'est qu'on va utiliser une représentation du signal. Donc notamment la représentation, la transformée de fourriers à temps discret, vous avez les formules classiques qui sont en haut, qui permet à partir du signal X2N, la forme nom de sonore, de représenter une module des coefficients de fourriers qui permettent de voir les différentes composantes énergétiques du signal. Si on voit que le signal c'est une somme de 10 fonctions sinistruelles, on retrouve ici avec leurs différentes amplitudes dans le temps. Mais comme le signal sonore varie dans le temps, on ne peut pas faire une seule transformée de fourriers de moins l'infini à plus l'infini, sinon on représenterait que la moyenne de l'énergie à chaque composante sonore et on ne traquerait pas les variations dans le temps. Et donc ce qu'on fait c'est qu'on fait une analyse localisée en fréquence et puis on se déplace dans le temps à l'aide d'une fenêtre d'analyse qui permet de construire ce qu'on appelle un spectrogramme. Et ce spectrogramme donc pour chaque fenêtre d'analyse donne une représentation des coefficients de fourriers et donne donc le contenu de l'énergie à chaque fréquence du signal avec ses variations dans le temps. Alors là, si je reprends le signal précédent, on a la somme de 10 sinistruelles. Si on fait une transformée de fourriers, on a cette représentation que j'avais montrée au début, les modules des coefficients fourriers et le spectrogramme, on refait l'analyse en déplaçant cette fenêtre d'analyse. Évidemment quand le signal est très très stable, on voit effectivement la représentation du spectrogramme avec on ordonné les fréquences, on abscisse le temps et puis en niveau de gris, l'intensité de chaque fréquence qui ici ne couche pas puisque le signal est très stable. Mais si on prend un signal musical classique comme ici par exemple, donc là c'est un signal où pendant la moitié du temps, on a la note non, c'est-à-dire avec une fréquence fondamentale de 262 Hz qui est produite par un piano et ensuite au bout d'un certain temps, à partir du temps de 2,8 secondes, on a la même note de musique, même hauteur qui est jouée par un violon. Et là dans la représentation spectrogramme qui est située en dessous, donc avec toujours fréquence en fonction du temps et en niveau de gris, l'intensité de chaque représentant, on voit la représentation du signal, on voit que pour le son de piano, il y a une somme de ligne, je dirais, horizontal qui sont régulièrement espacées, qui sont la fréquence fondamentale et les harmoniques, ce sont les multiples de cette fréquence fondamentale, donc c'est les lignes régulièrement espacées sur la désirèque, et on voit que les harmoniques élevées se tombent dans le temps. Tandis que pour le son de violon qui est situé juste après, on voit à la fois toutes ces lignes qui sont toutes les harmoniques du son, mais aussi le fait, la présence qui est un peu le de vibrato, quand le violoniste s'est vibré son doigt, ou bougé son doigt sur la touche du violon autour d'une position, et on voit ce vibrato comme une modulation de fréquence d'environ assis air. Pourquoi je présente ça ? C'est parce que ça va me permettre de montrer un peu les différences, parce que là effectivement que le spectrogramme, qu'est-ce qu'on constate ? C'est que le spectrogramme c'est une image, parce qu'on voit que c'est une image, et on pourrait très bien se dire qu'il suffit de faire du traitement d'image pour faire du traitement du son. Alors oui, effectivement c'est une bonne idée, on me prend une image, là vous voyez un autre spectrogramme, mais on reconnaît un peu, là c'est un signal qui est un peu plus varié que les précédents, mais on reconnaît quand même que sur la segmentation de ce spectrogramme, si vous voyez ma souris, ici on a une note, et puis ici on a une autre note, avec tout le temps les lignes spectrales qui sont régulièrement espacées, qui représentent les harmoniques d'une note, qui sont typiques d'un son périodique, qui est donc une note. Mais il y a quand même des différences fondamentales entre ces deux images, lorsqu'on parle d'une image, d'une vraie image, je dirais, on a déjà l'axe des Y et l'axe des X, qui représentent le même concept, dans une position dans l'espace. Ensuite, on a une certaine corrélation spatiale, des pixels qui sont les uns à côté des autres, et ces deux caractéristiques déjà, et puis en plus, non seulement sont un peu corrélés, mais peuvent représenter le même objet. Donc ces deux caractéristiques, on fait que l'enimage, évidemment les réseaux de neurones convolutionnels, sont particulièrement appropriés, effectivement les réseaux de neurones sont connectés localement à l'image d'enfeuille. On peut partager des paramètres entre les neurones d'une même carte fissure, et puis les procédés comme le max-polling va permettre de construire une certaine spatiale spatiale. Alors que si on regarde l'image spécographique qui provient un de l'audio, et bien, comme j'ai essayé de le montrer juste avant, l'axe des Y et l'axe des X représentent des concepts vraiment différents. L'un c'est le temps, et l'autre c'est les fréquences. Et donc, on a déjà pas cette même... c'est une différence assez majeure entre les deux. Et de plus, on peut pas dire vraiment qu'il y a une invariance spatiale, puisqu'effectivement, un son va être représenté de manière parsimonieuse sur l'axe des Y, de manière stable, par exemple, sur l'axe des X, mais d'un pixel à l'autre, je dirais, ici on va passer d'une position d'une harmonique à une position où il n'y a pas d'énergie, et donc il va y avoir... il ne peut pas y avoir une création spatiale aussi forte. Et donc, en fait, les CNN, les régime neurones convictifs ne sont pas aussi appropriés pour l'audio que pour l'image. Alors, je n'y ai pas aussi approprié, parce qu'effectivement, ils ont quand même été beaucoup utilisés, ils sont toujours beaucoup utilisés, et ils sont, effectivement, ils sont quand même assez performants, même si ce n'est pas tout à fait intuitif. Alors, j'ai évidemment un raison neurone, une convolutionnelle classique où ça fonctionne, je me souviens rapidement et je vais vous donner une illustration de comment ça a été utilisé en vidéo. Donc, là, par exemple, une application de tagging musical automatique, donc là, typiquement, l'objet d'une telle application c'est à partir du spectrogramme que vous reconnaissez ici, vous essayez de prédire, par exemple, la présence d'une émotion, ou quel est le genre musical qui est joué, ou quelle est l'instrumentation qui est présente dans la musique, pouvoir chaque élément ici représente un tag, et vous essayez de prédire la probabilité de présence de chaque tag musical. Et là, une application comme ça par CNN marche très bien et ça a été un système, c'est-à-dire de cette tâche musicale pendant 50 ans. Et ce qui est vrai, c'est que le seul changement qui a été fait par rapport à l'image de ce spectrogramme que je vous ai montré, c'est que pour les deux points d'une échelle linéaire en fréquence, pour calculer cette image spectrographique, on a pris une échelle sur une échelle qui est de type mogarithmiques, plus proche des caractéristiques de perception. On voit bien que c'est un amélioré et qu'on peut évidemment prendre nos comptes des caractéristiques du signal audio et prendre en compte la façon dont est calculée cette image spectrographique fréquence en fonction du temps. Et aussi les caractéristiques du signal audio, c'est-à-dire c'est un signal temporel qu'il y a, évidemment, dans l'ordre du temps et qu'il y a une certaine corrélation temporelle. Alors, on se regarde certaines des approches qui ont été particulièrement développées en audio et bien on peut très bien améliorer les réseaux de neurones convolutionnels en les rendant plus adaptés au signal musico. Et donc, comme on a vu effectivement que la structure est spécifique avec des lignes spectrales des caractéristiques à la fois verticales qui sont liées aux fréquences et à la fois des caractéristiques qui sont liées à la tenue des harmoniques dans le temps, on peut construire des filtres convolutionnels qui ne sont pas forcément rectangular ou carrés. Donc, on peut construire des filtres horizontaux qui vont mieux traquer l'évolution des harmoniques qui vont être impariants à la propagation des harmoniques ou des filtres verticaux qui vont essayer d'intégrer la présence aux couleurs harmoniques. On peut aussi utiliser des représentations d'une signale sonore différentes. Donc, j'ai donné un exemple en prenant du spectrogramme sur une échelle logarithmique de type MEL proche de la perception de l'oreille et tout un tas d'autres transformés qu'on peut utiliser des transformés à cul constant des autres transformés à mangelette etc. Nous, on peut utiliser aussi des modèles qui vont représenter l'entrée du signal comme une somme d'éléments des méthodes de décomposition ça peut être des modèles par c'est le mieux des modèles de type factorisation matrice non négative qui permettent de représenter le signal comme une somme d'éléments présents dans des temps additionnaires et on peut aussi aller même jusqu'au bout et il est uniquement directement le signal sonore, c'est à dire long sonore en pléthu dans le fonction du temps et comme je l'ai dit, ici on se retrouve avec des architectures qui viennent vite complexes puisqu'on a effectivement 44100 échantillons par seconde de signal pour une chanson évidemment c'est très très important Alors vers quoi quels sont les évidemment ce qui est plus approprié c'est aussi de peut-être se démarquer un peu du réseau de neurones convolutionnels et de prendre des réseaux de neurones qui vont intrinsèquement prendre en compte l'aspect temporel l'aspect séquence, l'aspect série temporel qu'on analyse l'utilisation de réseaux temporels des réseaux récurrents et ce qui est assez populaire en Osio c'est évidemment d'utiliser des neurones des unités plus spécifiques qui vont permettre de mieux lutter contre le problème de les vanessants du gradient donc les unités les plus populaires je dirais c'est les LSTM et puis les les neurones les unités récurrents de l'utilité de l'acquérance humaine d'autres réseaux de neurones qui sont extrêmement populaires en Osio sont les modèles génératifs les Gaannes, les Vacherche-en-Gaannes etc. et puis peut-être récemment ce qui fait le plus ce que nous pouvons percer c'est l'utilisation des zones neurones avales de mécanismes d'attention notamment récemment et transformées donc voilà pour un schéma un petit peu général pour une introduction je dirais et qui va me permettre maintenant de rentrer dans un peu plus de détails autour de deux applications et puis je préfère des demonstrations des performances qui peuvent être obtenues donc la première application en utilisant du texte en plus qui serait les paroles des chansons qui sont chantées donc je vais remettre sur cette tâche et puis une autre tâche qui est du stade du transfert de styles c'est à dire qu'après un morceau dans un style donné dans un morceau on va extraire le contenu dans un autre morceau on va extraire le style et puis on va essayer de jouer le morceau on va essayer de jouer le contenu du morceau 1 dans le style du morceau 2 c'est donc un travail mené par Kilian Schultz-Furser qui évène sa thèse sur la direction de conjointe des 3 autres personnes alors quand on parle de la séparation de sources c'est quoi l'objectif de la séparation de sources des signaux musicaux au part d'un signal enregistré un disque avec plusieurs instruments qui jouent simultanément par exemple on voit batterie guitare et on essaye d'extraire uniquement la voix chantée alors évidemment l'état de l'art de men maintenant si il y a quelques années c'est encore des techniques traditionnelles traitement de signal maintenant clairement les meilleures méthodes sont à base de réseaux de neurones supervisés on apprend cette transformation en ayant une base de données de signaux séparés d'une raison drône va apprendre l'opération de filtrage pour obtenir le signal séparé le problème c'est que obtenir les données d'entraînement ici sont très difficiles puisqu'on n'a pas forcément beaucoup de signaux où les voix sont séparées et en même temps le enregistrement donc l'idée c'est ça un des challenges c'est de pouvoir faire de la séparation de sources d'une des voix de l'enregistrement sans avoir besoin d'une masse de données énormes de voix séparées avant l'exage et alors une des façons d'essayer d'avoir moins de données à utiliser et bien c'est d'utiliser d'autres sources de données qui sont disponibles je dirais quasi gratuitement et effectivement on a beaucoup d'enregistments de musicaux ça c'est clair mais on a aussi beaucoup de paroles disponibles de paroles de chansons qui sont disponibles par ailleurs et donc l'idée c'est de se dire on va utiliser ces deux éléments pour améliorer la séparation de sources sans avoir beaucoup plus de pairs signaux mélangés signaux c'est pas alors évidemment on voit bien qu'il a un problème c'est que les paroles sont dans une dimension c'est du texte l'audio on l'a vu c'est des échantillons numériques on a pas un alignement du texte sur l'audio on sait pas à quel moment telle parole est présente sur l'audio et un autre problème c'est que comme on veut apprendre la tâche globale on veut effectivement pas utiliser un séparateur de voix chantée déjà entraînée sur la partie mélange pour pouvoir avoir une voix séparée le texte ou l'alignement serait un petit peu possible l'alignement directement à partir du texte et du mélange sonore qui comprend la voix chantée mais tous les autres alors là ce que je vais vous présenter c'est quelques éléments qui permettent de faire la tâche de manière globale c'est à dire que elle va à la fois à partir du texte et du mélange audio extraire la voix chantée et obtenir l'alignement du texte sur l'audio et d'avoir donc la liste qui est prononcée à quel moment du temps chaque sonème est prononcée dans la voix chantée donc voilà un peu le mécanisme un peu global qui est utilisé donc on a vous avez ici donc c'est un système auto encodeur je dirais avec un mécanisme d'attention donc on a ici le signal enregistré musical scène donc les spectrogrammes les spectrogrammes et donc les fnets de son métier sucessif et on a ici l'information adjacent qui est ici le texte et qui est donc ici les mots qui sont prononcés les phonèmes qui sont prononcés donc on a on va avoir ici un mécanisme d'attention qui va coupler à cet encodeur du contenu va permettre de prédire la voix chantée ou le spectrogramme de la voix chantée mais va pouvoir utiliser le mécanisme d'attention qui lui va utiliser l'information l'information de la voix chantée alors pour donner un petit peu plus de détails on a ici d'abord un premier mécanisme qui va rechercher à calculer une similarité entre ces sorties H du réseau de neurones de l'information textuelle et la sortie G du réseau de neurones associé à la sortie musicale ce mécanisme ce score de similarité va ensuite réutiliser ces poids alpha qui vont servir à pondérer l'ensemble de ces informations H qui viennent du texte pour calculer un poids du contexte d'attention qui lui va être utilisé pour dire à quel élément H on doit faire attention pour aider l'encodage de la voix chantée à partir de l'information de contenu donc c'est ce que je disais là donc l'élément de contexte ici va être obtenu comme une pondération de ces poids H de ces poids alpha et de ces sorties H qui dépend de donc donc là j'ai rappelé un peu la structure qui est ici pour vous donner un petit peu plus d'éléments de détails de structure évidemment il y a quelques éléments qui sont importants la taille de cette information adjacent est totalement différente de la taille de ce que l'on a du texte et là on a du audio l'encoder les deux encodeurs sont des réseaux bidirectionnels récurrents avec des cellules de type LSTM donc short et puis l'information donc là c'est les deux mêmes encodeurs au niveau du décoder c'est un petit peu plus il y a un peu plus de couches on a d'abord une première couche complètement connectée qui permet de calculer ces éléments QN ensuite à partir de cette prodération interne QN ensuite on a deux couches de réseaux bidirectionnels récurrents comme l'encoder un petit peu de cellules qui vont construire cette représentation interne QN ou 2 ensuite on a une couche complètement connectée avec l'activation en relis pour obtenir l'estimation de cette fenêtre spectrogramme de la voie chimique alors ce qui est intéressant c'est que là effectivement avec ce mécanisme là on s'aperçoit que finalement ces poids ici de alpha2N c'est poids alpha2N qui pondèrent finalement quelle information est intéressante dans le texte pour aider la séparation de la voie chantée et en d'autres termes ces poids alphaN peuvent être utilisés pour faire l'alignement du texte ils font en fait automatiquement l'alignement du texte sur la voie chantée et donc on peut très bien lorsqu'on regarde finalement cette matrice d'attention on s'aperçoit qu'elle est là tous les phonèmes ont été mis dans l'ordre puisqu'on va supposer que les phonèmes sont prononcés dans l'ordre on s'aperçoit que cette matrice d'attention et bien suit les phonèmes dans l'ordre et finalement est arrivé à faire l'alignement des phonèmes dans le temps avec la voie chantée et on s'aperçoit que si on recherche le chemin optimal dans cette matrice d'attention par exemple par les mécanismes d'apprentissage dynamique d'TTW programmation dynamique et bien on retrouve le chemin d'alignement optimal entre les phonèmes le texte prononcé et puis ce qui va être les sons et dans une élaboration un peu plus récente du mécanisme de ce travail-là on a même intégré directement ce principe de DTW l'optimisation du réseau pour forcer la matrice d'attention à être monotone dans le temps et éviter des sons dans le temps ou des sons à rien alors je vais peut-être sauter quelques détails pour avoir un peu de temps pour vous présenter l'autre application mais en gros ce qu'on utilise c'est qu'on utilise pour l'apprentissage un corpus de musique dans lequel on a les voies séparées et et où on a également les phonèmes pour pouvoir apprendre un petit élément un nombre d'exemples un nombre de chansons assez faibles c'est un relativement peu de données pour l'apprentissage je vous donne quelques éléments de résultats mais ce qu'on voit c'est qu'effectivement quand on compare par rapport de base on arrive à faire un alignement direct des phonèmes sur le signal sonore avec une très bonne performance tout en étant capable de faire tout en étant capable de faire de la séparation de cette voix chantée au plus haut de vous commenter ces chiffres qui mesure finalement la qualité de séparation quelques exemples je vais vous jouer quelques exemples de son séparé qui vous donnera une idée un peu de la performance pardon alors vous allez pouvoir entendre les sons vous allez me confirmer que vous entendrez bien les sons là je vais vous jouer le son de départ l'enregistrement de départ vous joue maintenant la voix qui faudrait trouver le résultat idéal et voilà donc une première approche de base line qui est utilisée sans plus simple qui ne m'utilise pas toute la partie de l'apotex là un des problèmes c'est que par exemple le S était complètement oublié et on a perdu le son le S dans la transcription donc avec l'approche que je vous ai décrite on va mieux entendre le S au moment où il est prononcé et ce qu'il y a d'amusant c'est que comme on a fait un alignement avec les phonèmes on peut très bien remplacer le phonème cible dans le texte et ça va pouvoir changer dans la synthèse le son prononcé ça cet effet là est assez intéressant parce qu'on s'est rendu compte que si au lieu de une fois qu'on a appris le réseau et qu'on lui donne un texte comme information adjacent pour séparer la voix chantée et qu'en entrer ou lui donner le signal sonore réel mais en lui donnant un bruit blanc comme je vais vous le jouer eh bien on va obtenir en sortie finalement la synthèse de ce bruit blanc et la reconstruction des phonèmes autour de ce bruit blanc c'est le son d'entrée qu'on rentre ce n'est donc plus du tout un signal musical mais à la sortie, voilà ce qu'on obtient avec le séparateur de voix chantée aidé par le texte je vais le rejouer parce que c'est peut-être pas très bien on entend quasiment tous les phonèmes de la phrase alors que la voix cible qu'on aurait dû reconnaître que je vais vous jouer était celle-là et donc ça c'est un exemple qui montre bien que l'information de texte a bien été apprise par le réseau et aide bien à séparer la voix chantée puisqu'elle a capturé finalement cette information phonétique à partir du texte donc voilà pour cette première application j'ai donc il y a d'autres exemples sonores sur le lien aussi bien dans le premier cap dans le deuxième et puis je vais vous parler rapidement de la séparation de la transfert de style de style musical n'hésitez pas à me dire si j'ai dépassé mon temps puisque j'ai commencé à 40 jusqu'à 16h10 je pense que c'est pas mal encore quelques minutes et pour ensuite avoir le temps pour les questions donc là l'objectif comme je disais en introduction c'est d'arriver on prend un morceau A dans un style donné un morceau B dans un autre style et on va essayer de jouer le contenu du morceau A dans le style du morceau B donc c'est exactement un problème similaire en image on essaie de prendre le style d'une des images et de l'appliquer au contenu de la fauteuil alors il y a évidemment des choses un peu différentes ce qu'on appelle transcription de style traduction de style et transfert exact de style donc le premier aspect que je vais vous donner c'est plutôt de je dirais de conversion de style donc comment on fait ici là c'est un modèle qui est assez proche des modèles de séquence des modèles utilisés en traitement du langage naturel on va utiliser une synthétique de musique on va rentrer des accords vous voyez ici la séquence des accords ou ici ce qu'on appelle en piano roll c'est-à-dire qu'il dit les notes de musique qui sont ici et joué dans le temps et combien de temps et c'est cette représentation discrétisée avec des unités de temps qui va être utilisé pour apprendre le système et comment on utilise un synthétiseur automatique qui est un logiciel du commerce on utilise ici des partitions avec le logiciel synthétique dans le style A on génère la musique dans le style B et on peut apprendre d'une manière supervisée un encodeur des codeurs la conversion du même contenu A en contenu B qui conserve le contenu mais qui va aller vers le style donc on a un mécanisme d'attention ici qui va donner l'identification du style vers lequel on veut aller je vais tester un petit peu les détails il n'y a pas de temps pour vous donner des choses un peu plus intéressantes vous voyez que c'est un réseau assez simple qui est basé sur les réseaux sec-to-sec en traduction de machine des couches de réseau convolutionnel et puis une couche de réseau bidirectionnel RNL avec des cellules en couche et le decodeur c'est juste un réseau RNL avec attention donc on rentre en input ce qu'on appelle ce Piano Roll qui donne des notes et en sortie on a un modèle de séquence qui dit quand est-ce que les notes sont actives etc. là vous avez exactement l'encodage en texte on a la note 50 qui est jouée là qui joue à certains temps pendant le temps, pendant 9, 7 ans puis ensuite on a les quatre autres notes qui sont en unisophone qui sont les quatre notes c'est bon et donc c'est ça qui fait la sortie du réseau on va piloter un nouveau synthétiseur sonore pour le style ce sont de quelques éléments et donc ça si on fait ça ça marche très bien ça vous arrive vraiment bien à prendre ce style de synthèse mais par contre on peut pas générer dans un style qui n'a pas été vu à l'apprentissage et c'est pas vraiment du transfert de style comme je l'ai montré avec les images on a un contenu qui prit dans une image et un style qui est pris dans une autre image on va faire exactement la même chose qu'en image qu'on appelle ici le one shot style transfert eh bien on est obligé d'avoir un encodeur de style et cette fois on va pouvoir avoir un encodeur de style qui va prendre le style dans l'image le pondérer dans le décoder pour que le décoder puisse prendre l'information de contenu dans le signal audio de départ et générer le contenu du départ dans le style et donc là effectivement on va apprendre le modèle sur un de même avec un triplet le morceau dans le style alors là comment on le fait ici on fait avec un mécanisme d'auto d'auto apprentissage d'auto supervision pour apprendre ce encodeur de style on prend le même le même morceau mais un autre endroit pour avoir le même type de contenu le même type de contenu alors je vais peut-être vous faire une petite démonstration c'est peut-être qu'on a une idée de comment ça peut marcher les détails sont dans les papiers et donc là ce que vous allez avoir c'est que typiquement le morceau contenu ça va être le premier qui va être joué le morceau style ça va être le deuxième qui va être joué et le morceau résultat le troisième morceau c'est-à-dire du contenu 1 avec le style numéro 2 alors ce que je peux préciser qu'est-ce qui est ressynthétisé dans cette démonstration c'est uniquement l'accompagnement musical mais la mélodie c'est la même elle a été juste extraite du signal initial et elle a été recopiée dans le signal de sortie donc la mélodie n'a pas changé c'est uniquement l'accompagnement musical tous les autres instruments on a changé le style le morceau initial c'est le morceau de style le morceau de synthèse je vais m'arrêter là pour laisser un peu de temps aux questions juste pour conclure effectivement je vous laisse le final pour conclure dire effectivement ce qui est de plus en plus utilisé pour le signal audio c'est effectivement l'architecture temporelle mécanise d'attention, le transformer est particulièrement pertinent parce que ça permet d'avoir des mécanismes plus simples mais plutôt c'est important voilà donc je m'arrête là et puis s'il y a des questions je serai directement moi j'en ai une petite pour commencer tu disais que les 2D d'entraînement la audio data training était difficile à obtenir de les obtenir en fait parce qu'en fait on a beaucoup d'enregistrements on a beaucoup d'enregistrements finalisés tous les instruments jouent en même temps mais on a beaucoup moins d'enregistrements où on a toutes les voix séparées d'accord et donc c'est ça en fait on n'a pas assez de paire pour faire l'entraînement supervisé on en a, il y en a mais on n'a pas assez d'exemples toutes les voix séparées et tous les enregistrements polyphoniques qui vont avec d'accord, très bien l'enchoin qu'il y a Charles il vous pose une petite question j'avais une question d'abord j'ai bien aimé ton exposé c'est un overview très très large de beaucoup de problèmes il y a un truc qui m'a pas intrigué au départ tu parlais de la NMF et de fait de mettre je crois la NMF c'est un truc de méthode basée raison de neurone et donc du coup je me demandais en fait ce que tu voulais dire par là parce que typiquement la NMF il y a eu un peu le le tsunami apprentissage profond et puis avant les méthodes basées de la NMF c'était l'état de l'art donc du coup une question naturelle c'est est-ce que on peut utiliser des algorithmes qui existaient pour les implanter dans les réseaux de neurone un peu à l'image de ce proposé mini ce matin alors oui tout à fait je vais mettre un peu de transparent parce que j'ai un haut de transparent justement sur ça, pour illustrer un aspect donc déjà donc je vais repartager mon document et donc bon alors en audio la NMF comment ça peut être utilisé typiquement on a le spectrogramme ici et effectivement lorsqu'on fait tourner cet algorithme de NMF qui essaie de représenter le spectrogramme comme une multiplication de deux matrices W x h si ici on avait vraiment une démonsion 2 c'est à dire qu'il y a que deux notes il y a une note qui est jouée, une deuxième note qui est jouée enfin on peut représenter ce spectrogramme avec deux templates, deux atomes de notes et l'autre matrice H l'activation va permettre de dire à quel moment du temps ces templates sont activés donc ici la première note ensuite elle est rejouée à la fin la deuxième note en rouge, là elle est jouée au milieu et après elle est rejouée à la fin donc ça c'est évidemment un mécanisme extrêmement intéressant pour représenter les signaux sonores et notamment faire la séparation de sources et donc dans un problème de donc dans un problème de par exemple reconnaissance d'événements sonores où on a le signal sonore et à partir du signal sonore on veut reconnaître à quel moment chaque type de signaux est prononcé donc ici il y a un bruit d'un Jackson de voiture, ici il y a un bruit de paroles ici des oiseaux qui chantent surtout ce super pause et on veut retrouver à partir du signal audio ces différents éléments donc ça perçoit qu'on est assez intéressé par avoir un mécanisme de séparation de sources, un mécanisme qui représente le signal comme une somme d'objets et que la nmf peut être très bien adaptée pour faire cette étape de somme d'objets du signal sonore et donc dans un des travaux qu'on a fait vous avez pas la référence mais c'est un travail réalisé par Victor avec signes, signes et moments on a on a ici une approche assez classique de l'analyse de signal sonore où on prend le signal sonore, on extrait le spectrogramme et à partir du spectrogramme on fait tourner les réseaux de neurones comme classifier donc que ce soit des cnn soit des rnn et en fait comment on peut utiliser la nmf donc là c'est une façon de le faire on peut utiliser un nmf comme une étape intermédiaire comme une étape qui va là elle ne s'est pas vraiment impliquée dans le réseau de neurones mais c'est une étape intermédiaire qui va finalement représenter le spectrogramme comme une somme d'objets sonores et on va pouvoir apprendre des dictionnaires W pour décrire ce spectrogramme d'une manière appropriée et on va pouvoir par exemple faire la classification sur cette matrice H qui vont être des nouveaux caractéristiques un peu plus haut niveau et cette fois nous raisonnerons dans une seconde étape à partir de cette décomposition en matrice non négative je ne vous donne pas les détails c'est un petit peu plus compliqué que ça parce qu'il y a un peu trop d'informations il faut qu'on s'intitise et qu'on fasse pas mal de clarifications de tics max pooling mais ce qu'on arrive à montrer en faisant ça c'est qu'on arrive à avoir des performances équivalentes avec ce type d'architecture ici à gauche mais avec des réseaux beaucoup plus petits oui en fait l'idée c'est d'avoir une dimensionnalité parce qu'on réduit la dimensionnalité et on réduit la nécessité du réseau de devoir apprendre toutes les toutes les caractéristiques du signal sonore à la fois on réduit la dimensionnalité mais on réduit aussi la complexité du problème pour le réseau de nourriture donc besoin de moins de données et comme on sait effectivement c'est besoin de moins de données c'est intéressant sur le plan d'aspect merci Galrichard pour ton exposé et donc voilà pour clore cette journée on voulait remercier très chaleureusement les oratrices et orateurs de cette journée les spectateurs et le soutien de l'IHS