 Muy bien, continuamos con o segundo tema deste bloque. Recibamos agora a Maite Jiménez, con su ponencia que recibe o nombre de un vector por su palabra. Hola. Benvenida. E pues, primeiro que nada a presentarme, eu sou Maite Jiménez, non podréis se encontrar entre estas redes sociales. Soy estudiante do Doctorado de la Universitat Politecnica de Valencia e forman parte de la Asociación de País en España. Aí tenéis un link para saber que hacemos, para hacer os socios, pero como estamos aquí, podéis venir a Jamila, a Juan Lugo, a mí a preguntarnos, buscarnos por Twitter. Pero seis muy tímidos, porque eu sou muy tímida, aunque non lo parezca, podéis clicar aí e logo preguntarnos por Twitter e esas cosas. Vale. E, vale, onde están as slides? As slides se están en ese repo. E isto vía na coalación de mi charla. Mi charla os voy a contar que la ciencia, la ciencia está rota, joder. Vale, intentarei non decir estas cosas. La ciencia está rota, porque se os informáticos fuéramos científicos e modelaramos la física, el péndulo non rozaria ligeramente anail de Grace de Tyson. Leiria outra cosa. Então, eu vengo a contaros por qué la ciencia está rota. Vale. E lo voy a hacer de noa na científica, porque os científicos probamos las cosas de manera científica. Entonces, vamos a describir un problema, vamos a evaluar un entorno de trabajo e vamos a probar que realmente las cosas non funcionan. Vale. Pues supongo que se habéis visto alguna charla de Machine Learning, habéis visto este super diagrama de Cyclinglands. Cyclinglands, en su na librería Aprendiza Jutomático, que tiene algoritmos de clasicación, de reclasión, de reducción de la dimensiónalidad e de clasicación. Genial. Que comentos estos algoritmos números e que queremos hacer los científicos que trabajamos con el proceso de entrar en lenguaje natural leer palabras. No entra. No entra. Lo siento. Así que, lo siento mucho, pero el lenguaje natural no está pensado para el Aprendiza Jutomático. Pero no os preocupéis. Seguro que todos habéis oído. A ver. Una próada rápida. Quien ha habido hablar de Warthuber, TensorFlow, Press Hands? Vale. Warthuber que está roto. E os lo voy a probar aquí de manera empírica. Vale. E para no contaros esto de la representación de texto de manera... Me mou mucho porque aquí nos veo. Para no contaros esto de manera así en el aire os voy a hablar del problema de la clasificación binaria de género. El primer fund disclaimer. La ciencia está rota e la clasificación binaria de género máis. Non existen dos cubos en los que podas poner a las personas. Vale. E antes tendria que contaros que es este problema. Nosotros cojamos un stream de texto de una persona e dísimos por tu estilo de escritura, por tu vocabulario, creo que eres hombre o creo que eres mujer de manera totalmente automática. Estava muy bien para marketing, para psicología, etcétera, etcétera. E este será el artículo urso minal de soccer e pen evaquer. Pen evaquer es el famoso del grupo. E tenemos esta distribución de palabras. No veis el caption de la tabla. Esta es la distribución de palabras, cada mil palabras e el estándar error por género. Ento resulta que las mujeres ongleamos, no vivimos en India e no programamos. E los hombres no tienen madres, no lloran e sobretodo no se asustan. E salgo como curioso. E este problema está roto porque en realidad no están haciendo clasificación por género. En realidad lo que están haciendo es clasificación por tópico que es algo muy fácil de hacer. Es decir, estas palabras aparecen en este conjunto de datos e estas no. Hiperplano separador. Fin de la historia. Pues no. Vale. E este corpo non me gusta nada e tengo revisores que me dicen que no, es el mejor. Xatefano. E cogemos nostros propios datos. Twitter temo unha librería para recoger delitamente por Twitter que os he dejado este fichero preparado máso menos para ver con guys vuestra app key e vuestro toque. Cuidado con os jits. Luego buscas internet e os jits están llenos de claves preparadas de gente. Cuidado que os heche Twitter con razón. A mi me ha echado varias veces pero quiero decir tenia motivos. Vale. Entonces como iremos arreglar o de la clasificación de género? Pues vamos coger a estos 10 hombres estas 10 mujeres estos 10 gramas estas 16 gramas que estos son de de la comunidad de Paizan e que deberíais seguirlos a todos del tirón ahora mismo porque mola mucho e vamos a recoger sus 100 últimos tweets. Vale. Una de las cosas que es un auténtico rollo pero que tenemos que hacer es limpiar los datos. Lo que hacemos son xes prisiones regulares aqui a Casco Porro para cambiar los nombres dos usuarios no nos interesa es importante anonizar los conjuntos de datos cambiamos las URLs porque no tienen información relevante e isto que nos gusta tanto escribir a en Twitter estas repeticiones las reducimos a las dos últimas letras e ya está. Vale o genial. Lo tenemos listo. Cogemos pandas que es una lluria moi chula e lo metemos en un CSV. Bueno, aqui tenéis pandas. Vale. Una cosa que tenéis que hacer quando queréis que un experimento sea replicable porque todos queremos que nos dos experimentos sean muy replicables es compartir los datos. Leeros el acuerdo de Twitter pero así dentro sonidas cuentas te permite compartir los ideas de un conjunto de datos pero no el dataset completo. Entonces nada tú devuelves todo los tweets e deixas el código para que os podan descargar de manera automática. E celebramos. Yei. Vale. Antes de ponernos a hacer nada en serio vamos a estudiar nos dos datos. Entonces outra librería mucho la tenemos en el etika. Vale. Aunque las top words cada vez que llega una palabra rara luego me lo podéis preguntar. Las top words son palabras vacías de significado. Es decir, pronombres, advernos. Todas esas palabras no importa realmente en lo que estás diciendo sino que son palabras funcionales ayudan a organizar el lenguaje. El discurso en realidad. Entonces para ver el vocabulario las eliminamos. Todos los números distintos las cambiamos a number e generamos outro vocabulario nuestro vocabulario con counter. Unos tuturátos muy molana de collections que nos devuelve la clave de la palabra e el número de veces que aparece. Tenemos una frecuencia por vocabulario. Entonces vale. Sacamos nuestros protweeds y nuestras sistweeds y vemos que en este caso las palabras han cambiado completamente. Ya no tenemos palabras distintas entre los brogramas e las sistgramas porque obviamente el tópico es el mismo. Entonces aparece Python, aparece Python, aparece charlas. Lo que esperamos cuando realmente el problema es lo que tiene que ser. Ahora estamos realmente intentando clasificar entre hombres e mujeres en un problema duro, de verdad. El estilo cuenta en la forma de hablar que tengamos cuenta. Vale. Entonces vamos aplatarlo porque los humanos somos muy malos con os números. Entonces estas son las 50 vamos a decir que son as 50 senão o logo reviseis el código. Las 50 palabras más comunas por brogramas e sistgramas y veis que todos están máso menos igual. Lo que yo me di cuenta en este gráfico es que los brogramas que en las sistgramas vale. Igual ahí tenemos una pista entonces vamos a ver la longitud de los tweets de los brogramas e de las sistgramas pues en general vemos que esta es mágoxiana que tiene el piquito en la media vemos que los brogramas se estiran un poquito más hacia el final e apuran un poquito e en las sistgramas la distribución es máso menos uniforme. Es máso mágoxiana típica. Lo cual nos indica que igual por ahí tenemos una pista igual los brogramas hablan máis largo e las sistgramas son máis cortito e voy a coger agua antes de morir e que cosas tenemos que hacer para para un segundo antes de morir. Ok hay una cosa sacrosanda en el data science separa los datos en dos un conjunto de entrenamiento en el cual evaluas los emperdómetros con montas una arquitectura de redes neuronales haces lo que quieras con ese conjunto de datos e luego un conjunto de test no se toca caca no nada no se evalúa no se prueba no se nada quando tengas el sistema perfectamente entrenada coges el test e lo evaluas así sabes si en el mundo salvaje tu sistema es bueno o no lo es vale entonces esta es la forma má sencilla si teniendo los poquitos datos que tenemos igual seria mejor hacer un cross vale de iso pero se va fuera el ámbito de esta charla en los sistemas de aprendizaje automático entonces imaginemos que tenemos estas tres plazas I love python I love en el pi by ladies are cool vale muy bien entonces temos que en el pi by ladies are cool siete palabras genial nos montamos un vector de tamaño 7 e ponemos un 1 cada vez que a palavra aparezca genial no pues entonces qual es el problema las palabras me vistas en el test hemos dicho que no se tocaba que no se veía nunca entonces puede ser que ya en palabras que no hayamos visto e non tendrán representación en el vector eso es muy malo luego outra cosa es que la one hot representation no tiene no tiene en cuenta la similitud de la palabra por ejemplo hotel y motel tendrían estas representaciones que si haces la unión de los 22 vectores la similitud es 0 mal y las palabras como hotel y motel deberían aparecer en contextos similares por lo tanto tenemos un problema sí han gricato tienes razón vago for xunga también y luego tenemos la maldición de la dimensionalidad me gusta mucho esto porque es como una maldición que nos han echado los matemáticos a los informáticos y que tenemos que vivir con ellas bueno pues la maldición de la dimensionalidad nos dice que se estamos en un espacio unidimensimal necesitamos ver unas poquitas muestras para ver cuándo nos vamos al bidimensional ya vemos que no era tan fácil como estábamos prengendo necesitamos mucha máis muestras para ser capaces de diferenciar entre un e outro entre un e outro posición e cuándo nos vamos a bidimensional necesitaremos muchísimas máis muestras tenemos mil tweets no estamos mostrando todas entonces es muy importante conocer estas cosas porque luego cuando entrenemos un sistema e conozcamos un sistema sabremos dónde está fañando vale pero Sike and Learn ti han implementado un contractor ICER entonces simplemente le decimos vale Sike and Learn mola as un montón genera este supervector con palabras engramas engramas es cuantas palabras quiero se voy de una a una ire de palabra en palabra pero podríamos ir de una a tres e tendríamos una ventana deslizante sobre las palabras que fuera de tres en tres e fuera corriendo e generamos nuestro vector de entrenamento e nuestro vector de tres vemos que es un vector de cuatro mil sessenta posiciones con un conjunto de datos extremadamente pequeno e que es un bag of words es esto a vi un juego moi chuno en jota pot que es spot de one mas encontráis el uno habéis visto unos pues al pocos entonces esta es a maldición de la dimensionalidad tendremos necesitamos tweets para recorrer todas estas que llenen todas as posiciones del vector e que sean enlinamente senacarables un desastre e aqui viene nuestro colega Mikolov a salvarnos na vida Mikolov para mim es muy importante reconocer os científicos que nos están haciendo avanzar e Mikolov es un gran tipo pero a ideia esta de los word embeddings e o word to back non es nueva de hecho Johan Firth tiene un artículo en el cincuenta y siete que hice conocerás una palavra por la compañía que mantiene ok entonces que intentaban hacer esto es una historia más vieja que el procesamiento del lenguaje natural calculas la probabilía de una palabra en función de las palabras que tienen al lado e se ha hecho de múltiples maneras con modelos de Markov vale word to back vale primero necesitamos hablar un momento esto es una intervención word to back non es un algoritmo es un conjunto de algoritmos quando hablas de word to back normalmente estás hablando de un modelo de script y programas entranados con ruido negativo que más non es el sagradorial e de hecho os lo voy a demostrar de aquí de manera empírica porque va a fallar e es muy importante yo sé que que la librería está ahí e que la podemos gastar e que es muy chula pero es muy importante saber lo que estamos haciendo en ese artículo de me call of que da original word to back bueno es el de word to back e a partir de eso sei bastantes más es muy importante que aunque os leéis la documentación también leáis las matemáticas que hay detrás e las intentemos comprender entre todos porque si no pasaran cosas que no queremos que pasen vale word to back hemos dicho que son dos modelos el continuo es vago words e el script grand model son uno para arriba e uno para abajo me voy a poner porque es más fácil que os lo ensenha vale el continuo es vago words esto es la entrada a la red neuronal este es el vago force porque va hacia arriba pero el script grand se va hacia abajo esto es la entrada de la red neuronal ahí hay un high end layer que puede ser un montón de cosas vamos imaginar que es una red neuronal con un auto encoder normal e corriente e o que hace es preifir la probabilía de que aparezca a palabra matte quando tenemos de entrada entonces hace eso muchas veces vale ok lo tengo la probabilía de que aparezca a palavra matte es 006 en este contexto vale e el script grand se hace lo contrario calcula la probabilidad de la palabra matte no la probabilidad del contexto de cat sits on teniendo como entrada matte os he perdido mucho e se entrena de dos maneras mediante un hierarchical softmax que arriba le colocas una función softmax que lo que hace es normalizar ponen una especie gausiana e normaliza las probabilidades de manera hierarchica tiene un árbol de definición pero el que se gasta es el negative sampling que lo que haces es vale de cat sat on de matte es una muestra positiva e de cat sat on de juju es una muestra negativa esa frase non tiene que estar en el vocabulario e a partir de ahí ajusta las probabilidades de las palabras vale e esto es word to record pero no estogo le hago un agent en Stanford peniton soker e manning manning nos tiene un libro de procesante de lenguaje natural que os recomiendo encarecidamente porque es muy muy bueno es que vieron e encontrado la ciencia detrás de esto porque lo malo del artículo de glove del artículo de word to record es que hay muy magios mucha magia negra e a los científicos e a los ingenieros non nos debería gustar nada la magia negra tevriamos querer romperlo e saberlo que hay dentro vale e nos lo que hacen word en glove saca un poquito más de la ciencia e lo que hacen e lo que hacen e lo que hacen e lo que hacen o que tenia era unha cuenta e unha factorización de matrices e a gente de esta forma e que a factorización de matrices las sabemos hacer muy bien e tenemos ciencia muy buena para ésa e luego además teníamos un modelo que era o LDA que también era muy bueno pues vamos a combinar con un modelo o clean air que intenta pesar las dos cosas la probabilidad del contexto e la probabilidad de la frase entera porque el contexto e no podríamos tener todo o vocabulario en memoria seria unha loucura e entonces aqui tenemos esta super no ai no cabe entera bueno a cuestión es que se proyectamos las representaciones vectoriales de dos palabras vemos que hay una relación entre ellas por ejemplo aqui sister and brother tiene el mismo momento vectorial que in a union e más omenos palabras con contextos similares sister nice and on son palabras de familia acaban un espacio vectorial parecido vale isto es mucho mejor que o báuford onde las palabras non tenia ningún sentido entre si la representación de las palabras e esto es o incluido porque a mi me hace mucha gracia es que la primera versión del artículo de glove tenia un la matemática era espectacular pero luego la evaluaron muy malo o sea a la experimentación que hicieron non era exactamente la mejor e entonces es un documento en word onde un científico pregunta soccer contesta e asi un poquito de drama que es alegra mucho la vida vale entonces vamos a preen glove nos da palabras preentrenadas entonces ellos han cogido stream de twitter así a lo loco e han entrenado un modelo de palabras lo bueno de todos estos modelos tanto de word to be como de glove es que son unsupervised es decir yo una persona dicendo esta palabra es esto esta palabra está no va metiendo e se las palabras aparecen juntas entonces dicen que tienen una probabilidad similar entonces nada cargamos nuestro diccionario que es un diccionario de palabra valor para competir en igualdad lo hacemos todo con las de cien e tenemos 25 100 50 e 200 pero bueno en la web lo podéis ver e ahora vamos a hacer o que hemos hecho antes vamos a conseguir e aplotear las palabras máis frecuentes esta gráfica que habéis visto antes es un TSN que hace una reducción de la dimensionalidad e se inicializa con PCA máis o menos para que pensáis es parecido a PCA moi moi similar o que haces tengo 100 dimensiones e lo aplasto contra dos obviamente se pierde mucha mucha información en el camino pero nos permite a los humanos que no podemos ver máis allá de dos dimensiones percosas tres asísme puras vale e tenemos esta representación aqui ya vemos que bueno lo que intuíamos antes el vocabulario de los programas e las esgramas está pegadito no hay diferencia vale e aquí vemos que Python Chippos a ver tengo ejemplos que molen foto parís estamos juntos supongo que se hacen muchas fotos en parís amazing fantastic ok eso tiene sentido wonderful son palabras de positivas agendivos genial tiene sentido que estén juntas vale que problema tenemos con estos vectores preentranados que tenemos muchas palabras que nos han visto si en el stream de datos de twitter non estaba pues non se ven entonces claro pues soccer mola mucho pero no ha cogido agente de la comunidad Python porque non está Python Toolkit hyperparámetros hyperparámetros debería estar bueno sí vayan scikit learn scikit no está pues es bastante normal que si coges un stream comun hayan palabras que nos hayan visto vale pues vamos a generar también nuestra propia representación ya teníamos el conjunto de datos representado con el bow of watch e vamos a representarla también con glove vale entonces toquenizamos los tokens son porque nambere está entrenado en glove pero el número 23 no así que queremos que nos do una representación vectorial vale a un full disclaimer outro si veis una lista es un error debería ser un un pay a write vale ya está vale pero máite me has dicho que podíamos representar nostros propios datos vale vamos a usar o word to way word to way que está implementado está implementado en C ahora está importado a tensor flow que se ha hecho panzor a partir de 2012 pero un unha cosa tenemos que hablar se queremos utilizar tensor flow es un precio a pagar es un precio totalmente justo pero bueno para hacer juegos está implementada en esta librería jensson e de hecho prácticamente toda la ciencia está utilizando entonces le decimos vale entrename con el train porque hemos dicho que el test no se ve pero nada entrename con 4 hilos porque o min pobre mág non tiene más de tamaño 100 porque vamos a comparar en igualdad de condiciones glove que teníamos un vector de 100 y además queremos que no me quites ninguna palabra porque por ejemplo se una palabra aparece muchas veces podemos intentar suarizar su probabilidad o podemos intentar eliminarla como este conjunto de datos es muy pequeño vamos intentar evitar eso aún así el vocabulario que tenemos es de 4.193 palabras e de dimensión unidad 100 e si es un un paillard vale e vamos a ver el TSN nos da a la impresión de que isto va un poco raro esta toda la probabilidad se ha ido a un bloque e además non tiene ningún sentido prácticamente numbers, science con today, better, con astil pero me has dicho que Warthuback molaba ya pero yo se he dicho que os iba a demostrar que non Warthuback en cambio tiene unha cosa muy chula que te puedes decir que palabras son las más similares a outra como tenemos paixón entrenado e vamos a buscar os vecinos máster canos en el espacio vectorial e nos devuelve la similitud con esta palabra e vemos que as palabras máster canas son de, a, tú son stock wars non deberían estar ahí en cambio están porque ahora se os voy a explicar porqué en cualquier caso vamos a ponerlos a trabajar representamos otra vez el Warthuback en nuestro train nuestro test con Warthuback e os ponemos a competir como non me queria meter en explicar os algoritmos a aprendizaje automático simplemente deciros que voy a utilizar unha máquina de soporte vectorial que lo que haces se tenemos un plano busca un hiperplano separado tenemos las muestras representadas e buscan hiperplano separado es el más justo porque por ejemplo random trees e da un poco má igual a representación este es totalmente es totalmente dependiente de la representación lo cual también es importante que sepamos que está haciendo para alimentarlo con las cosas que sean correctas vale e vemos que el número que tiene que interasar é o teléfono que es como una relación de compromiso entre os tuples e tiflos que damos con ese número con los casiertas contra los que no deberías haber acertado e aí tenemos una beta que ajustar pero bueno e vemos que Warthuback e Warthuback e Warthuback va igual de mal e eso é un warning que en teoría está seleccionado en cycle lar pero no e es que quando no a cierta ni uno pues te dice igual la métrica non está bien definida non non está bien definida es que el algoritmo no ha dado ni una vale e como de novo os humanos veamos mucho mejor las cosas con gráficas vale la línea gris de puntos é lanzar una moneda light e decir é sombre de es mujer ok e las líneas que van por debajo é hacerlo peor que eso o algoritmo ideal iría por la esquina derecha superior que haría unha curva por encima entonces vemos que Warthuback não funciona que que va igual de mal además que o Bauford que é unha implementación super rápida super eficiente porque não hace absolutamente nada e que o preentrenado de glove está funcionando bastante mejor vale e então é ok e a ciencia está ropa está e não vamos hablar de dos cosas eu sei dicho que skip grammas era bom se teníamos un conjunto de datos grande pero aqui não temos un conjunto de de datos grande por lo tanto estamos bastante fastigados também nos he dicho que o Warthuback que havia que entrenarlo não temos datos suficientes en cambio glove viene preentrenado con datos de twitter com o qual a similitude é bastante similar entre uns e outro vocabulario e luego que má vale que conozcas vuestros algoritmos e ah, ostras me he dejado como unha trozo entero vale vai a recopitular e o que hacíamos para representar una palavra un tweet era tengo na representación de 100 de 100 un vector de 100 de esta palavra un vector de 100 de la siguiente tal, tal, tal, tal vale imaginamos un tweet en cinco palabras e outro tiene 10 pues acabaríamos por de mil pero os algoritmos comen números e input sempre, sempre, sempre fija entonces que hacemos pues o que está haciendo a la ciencia ahora mismo que es un desastre é sacar la media la media de un vector me igual en la vida aunque eso ese vector o que tenía era a probabilidad de aparición de una palavra en función de su contexto quando haces la media estás rompiendo absolutamente toda la ciencia que hay detrás entonces no hagáis eso por favor quando reviséis el código miráldo veréis que a gente lo hace pero no sé de hacer entonces que estamos haciendo nosotros nosotros estamos haciendo unha convulsión al lo que hacemos es generar unha cada palabra tiene su vector e generamos unha especie de imagen se al fondo nos queda unha tweet de 10 palabras vale pues rellenamos hasta 10 un tweet de 5 palabras rellenamos hasta 5 e abajo ponemos un padín de 0 se lo damos unha convulsión que aprende os filtros y eso sale y el ya puedes entrenar lo que quieras arriba lo que se se está poniendo normalmente son a softmax que suaviza la probabilidad vale e ido súper deprisa porque ya está vale la conclusión que quiero que que os quedéis con esta charla las librerías son maravillosa están muy bien pero esteis hángris pero no estéis tontos mira leer dos pros algoritmos aprender las matemáticas negais ok unha relu me da igual no no es lo mismo la implicación que tiene la función logarítmica que pones en medio implica implica mucho como sale los resultados por eso esta ciencia no es que este rota es que yo os he engañado porque sí lo entrenas con los datos apropiados e muchísimas gracias ahora me preguntáis lo que queráis e nos vemos en la paicon da almería e ahí está perdón e ido muy deprisa ok gracias noite por toda esta váliosa e prática información que nos ha estradeo oi preguntas por aqui vale tenemos unos 5 minutos para dar preguntas cool vale esto era mocha matemática para mi pero he entendido o problema con el conjunto de datos e que es twitter verdad que es muy cortito a ver quando tengas más datos sacas más contexto e eso es genial pero hoy en día o que queres entonces no es un problema de de aqui eu cogido mil cien tweets por persona entonces son mil tweets por programas e cien mil tweets por cisgramas lo que debería haber hecho es coger cien billones o cien mil millones e lo que se hace ahora mismo lo que es tener un algoritmo entrenado con un conjunto de datos salvaje non es por el tamaño sino por el número de datos que metes a la cadena e luego ademas hay una cosa que se llama active learning e es que moi bien eu tengo este algoritmo entrenado pues cada vez que queestedo a justo un pouco os parámetros llega a esta muestra e es de o un program pero resulta que todas as características que le metido a nuestro sistema de aprendizaje automático son distintas vale pues apriete un poquito porque hay unos super parámetros espera, te voy a enseñar tatatata isto que eu pasado eu soy como super rápido isto que que u e en mas esto da satisfying de tensorflow esta mentira Hay un montón de conexiones e lo que hay en medio son funciones non-liniales. Todas as conexiones que haces, pues soltarlas ou apretarlas un pouco má o decir, ese é o problema. Vale, então capturando a suficiente cantidad de tweets, arrojándolo ao problema, podrías... Podríamos. E funcionaria. E nos próximos que fañas, podríamos. Ah, por un problema computacional. Por un problema computacional e por un problema de que toda ya la matemática no está totalmente resuelto, entonces, hace falta, por ejemplo, se llama deep learning porque esto es mentira, tamén, se quiere ser deep. Aunque word to back se le asume que es deep e word to back só tiene una capa. Entonces, una capa en ningún momento de la vida es deep. Pero o que se hace no non entendip learning es poner n capas. Entonces, se supone que cada capa coge algo de información distinta. Es como un nivel de información un pouco má elevada. La comparación norológica, non me gusta mucho, pero ayuda mucho. Nosotros tenemos un montón de neuronas e cada neurona no es bastante tonta, solo que las conexiones apila información e subesta arriba e se crian os conceptos. Pero no é exáltamente igual porque no tenemos funciones non-liniales en el cérebro, tenemos otra cosa pero vaya, máis mo mo, es eso. Temos que descubrir isso e tene marias problemas de cocina, de que arquitectura mola, quál no e que sí, se podra hacer, estamos en ello. Nada. Gracias. Máis temo todo el resposto, ya tenemos dos preguntas máis por aí e terminamos. Voy primero. Ok, bueno, todo é en inglés, pero quando utilizas a lengua español o corpus que sueles utilizar o que é o que recomiendas? A ver, se vas entrenar un word to bed, te da igual el corpus, en el idioma del corpus, porque lo vas entrenar tú. Eso sí, prepara un corpus grande, grande, muy grande. El problema de todos estos recursos es que están fundamentalmente en inglés. Nosotros en el laboratorio hemos hecho algun puente que es convertir un corpus en castellano al inglés con traducción automática. Entonces, es como un paso previo. Tienes un sistema de traducción paralera entrenado para inglés, situa este dado para español inglés. Y una vez tienes el inglés, ya puedes utilizar todos os recursos que hay disponibles en inglés. Si entrenas túos propios datos, non hay ningún problema. Aunque es que este puente es casi necesario quando estás hablando de túos. Un problema que tengo habitual cuando escaneas documentos o bien documento es que tienes que escanear, a veces hay errores y tienes que pasarlo por un corrector. OCR? Estamos hablando de correctores OCR? Bueno, el OCR a veces son un poco malos. La verdad, te utilizas profesionales, el que hay opensource. Entonces, a partir de ahí, un corrector que pueda... Sí, pero lo que te preguntaba es, es corrector de binarización de la imagen a un imagen binaria? O si es un corrector... Primeiro se pasa por un OCR e un corrector. Vale, estamos hablando de semántica, ya estamos en texto. Entonces, al final es preparar los datos para luego pasar con qué recomiendas ahí un pouco. Pues, yo es que trajo en texto. A mí ya este problema... Ya te vi en el texto totalmente corregido e tal, no? En mi grupo de investigación sí que hay gente que trabajando en detección de líneas o corrector, pero no es mi caso. A mí ya me llega sempre texto. No hay conversión de texto manuscrito a texto escrito. Entonces, no te puedo responder a esa pregunta, lo siento. Y luego, pues has dado antes la solución o World2Beck, le critican un poco porque no trabaja en español, no? Pero dices que no hay problema, entonces... A ver, World2Beck está... es que lo tienes que entrenar tú. Es un modelo que tú le pasas las palabras e tú lo entrenas. Entonces, World2Beck globe sí que está solo preentrenado para Wikipedia en inglés, para Twitter en inglés e para pero World2Beck, no, World2Beck lo entrenas tú e es mucho májore utilizar a implementación que tiene TensorFlow que está que tiene algún Twitch. Muy bien, tenemos un minuto que para a última. Sí, eu iba a preguntar lo mismo que ele, pero ya que has comentado o del tema de la traducción hasta que punto no puedes perder información o convertir información errónea, no? Claro. A traducción? Con qué herramienta? O que useis? Se utiliza... Utilizamos Moses que es una herramienta open source de traducción paralela yo aparte non la hago, pero bueno sí que trabaja unha vez con ella está preentrenado normalmente con Europa, algo así que es corpus paralelo en inglés en castellano, preentrenas un conjunto de palabras paralelas e traduces. E es verdad que todo este problema, cosas pongas en pipeline, máis errores e máis el error se propaga por toda la tubería. Então se tienes errores en la traducción se entrenan máis los sistemas e se entrenan máis los sistemas por ejemplo, se quieres hacer un problema de clasificación de sentimientos e eu introduzido unha palavra por outra que no era vamos a tener un problema sobretodo porque palabras en inglés no significan exactamente porque tú te lo solucionas porque tú estás entrenando exactamente para tu corpus pero tens otros problemas sería mucho mejor entrenar con word2b o utilizar ratos preentrenados se lo sai para tu idioma claro, sí gracias perfecto, muchas gracias de nuevo Maite por las respuestas e complementar el tema ok, pedimos que nos acompañen en dos minutos doremos