 Moltes gràcies. Abans que res, molt bon dia a tothom. I gràcies per haver vingut. I agraïm la Universitat Pompeu Fabra, per haver-me convidat a fer aquesta xerrada i sobretot a la Carme. Qui se li va acudir a aquesta idea, de manera així una mica informal. Perquè, curiosament, com ell ha explicat, jo sóc excel·lumna, però nosaltres no ens havíem conegut, perquè, si no recordo malament, tu ets professora d'Alemany, i les meves llengües extranjeres són l'anglès i el francès. No ens havíem conegut, però vam coincidir a la Localization World, que és la fira del món de la localització, que aquest estiu va ser aquí Barcelona. Vam coincidir amb un parell de sessions, i així tot parlant de manera informal, sobre traducció automàtica i post-edició, va sortir la idea, doncs mira, per què no vens? Fas una xerrada als estudiants, perquè és cert que la traducció automàtica és un tema de què se'n parla molt, estic segura que a vosaltres llegiu articles sobre intel·ligència artificial, deep learning, són conceptes que estan a l'ordre del dia, i molt, molt relacionats amb la traducció automàtica, i encara que se'n parli molt, i encara molt desconeixement, i molts presjudicis, molt despos, per part del sector de la traducció, i no us dic res per fora del sector de la traducció. Hi ha moltes opinions preconcebudes, i crec que és important que entenguem el procés, que tots sapiguem com es treballa, posarem com, exemple, com ho fem nosaltres a CPCL, que jo crec que treballa la majoria d'empreses de services lingüístics, en quant a processos i tal, i sabent això, doncs que vosaltres el dia de demà, que jo sé que està ben a prop, i que va la carme, que tots esteu ja a tercer, doncs que considereu l'apostedició com una feina que no que potser podríeu fer, sinó que jo diria segur que fareu, segur que fareu perquè ja veureu que hi ha combinacions idiomes en què ja gairebé no es tradueix, sinó que directament es postedita, perquè els resultats en traducció automàtica són molt bons, en fait, hi ha alguns idiomes que són impressionants, i per guanyar temps, doncs directament es postedita. Doncs espero que sigui interessant. Faré una molt beua introducció sobre CPCL, la Carme Llosa ha parlat que jo treballo des del 2005, a CPCL gestiona projectes de traducció, i formo part d'un petit equip que és interdisciplinari, on estem persones del Departament de Producció, que som gestors de projectes, i també persones del Departament Tècnic, i ens dediquem, doncs, a traducció automàtica, a millorar, a crear nous motors, a optimitzar els que tenim, a pensar en nous projectes, en nous processos de treball, tot relacionat amb traducció automàtica i postedició. CPCL és una empresa de serveis lingüístics que té teua oficina a Barcelona, a Madrid, a Alemanya, a Regne Unit i als Estats Units, i que va néixer en 1963, m'imagineu-vos que portem molts anys amb l'ofici, i com deia la Carme, no tenim traductors interns, o sigui que tenim, però és un petit equip, tenim el que s'anomenen els sector lingüístic lits, que són persones que es dediquen més aviat a revisar, a muntar els paquets de traducció, a crear glossaris, tota una feina de lingüística de fons. Però sí que tenim una cosa molt valuosa, que és una base dades de col·laboradors externs, on hi ha milers de persones que estan classificades per combinacions d'idiomes, especialitats, experiència, perquè després els gestors de projectes puguem filtrar i trobar la persona que sigui més adequada per a cada tipus d'encarrec. Llavors, dit això, amb una base dades de col·laboradors tan grans, et pots permetre traduir gairebé, diria, qualsevol combinació d'idiomes, no només fem idiomes de l'Unió Europea, sinó també idiomes orientals de la Índia, idiomes de l'Àfrica, qualsevol combinació, busquem recursos, doncs calgui. I respecte a les àrees, també treballem per a empreses de tot tipus d'àmbits, però estem més especialitzats en institucions nationals internacionals, treballem molt per a Nacions Unides, Parlament Europeu, Comissió Europea, per exemple, molts laboratoris, tenim molts clients que són laboratoris, que fan medicaments, traduïm els prospectes, tot tipus de documentació tècnica, de dispositius mèdics, també treballem per a espatxos educats, experts en traduccions jurídiques, legals, i també en l'àmbit tècnic de tota mena, des de transports fins a qualsevol tipus de producte tècnic, també localització de sòfuir i traducció audiovisual, que és un tema que, m'imagino que també n'heu parlat d'aquí, que cada cop al contingut sabeu que és més audiovisual, no és tant text, hem passat del document imprés, el PDF i ara el PDF estem passant els vídeos, els cursos d'ailering, tot això nosaltres hem anat creixent amb tota aquesta informació i hi ha molts dels nostres projectes, són traduccions audiovisuals, i també donem serveis d'interpretació. Dit això, que també no volia que fos una mica d'autobombo, sinó al contrari, perquè veieu una mica també quina mena de possibilitats s'obren quan sortiu d'aquí, i que penseu que segurament ara vosaltres us imagineu com a freelance o traductors interns en una empresa, però que penseu que també us podeu dedicar a altres tasques. Nosaltres tenim d'apartament de producció, gestionem projectes i tenim un departament tècnic, que són els que fan les evaluacions, fan les conversions d'arxius, un altre departament que es dedica a macatar és a dissenyar el document final, etcètera. Aquí crec que és interessant per vosaltres perquè se us obren unes quantes possibilitats. Dit això, volia comentar-vos també ben augment de què parlaré, perquè si vosaltres veieu, l'apostedició a les empreses de serveis lingüístics. Però abans de parlar de l'apostedició en sí, m'agradaria fer-vos una petita introducció sobre la traducció automàtica, que sé que ho heu vist a la classe, segur que la Carmola Cristina ja us han comentat que hi ha diversos tipus de motors, però farem una petita introducció, perquè per vosaltres el que veurem després sobre l'apostedició és molt important que sapigueu que coneixeu les diferències entre els 3 tipus bàsics de motors que hi ha i quins tipus d'arrots són més comuns, perquè el sapigueu conèixer i arreglar quan ens trobem amb ells. Després passaré a parlar, ja directament, sobre com treballem amb traducció automàtica, a CPCL. Us ensenyaré el nostre flux de treball, els diversos tipus de motors que tenim, i en aquest flux de treball intentarem mostrar-vos on intervè, on podem intervenir, com a aposteditors, perquè no sempre us enviem l'arxiu al postediteu i ja està, no al contrari. Aquí hi ha una feina de fons, que s'ha de fer per millorar el motor, i aquí la vostra participació, com a aposteditors, és fonamental. També parlarem una mica de com es treballen amb el setim de quines eines, són les que fareu servir, i quina aspecte tindran els arxius que rebreu per aposteditar. I després, també us explicaré quins tipus d'apostedició n'hi ha, perquè segons l'objectiu, podem fer una apostedició ja veureu més completa o menys, depèn de quin sigui l'objectiu, la finalitat de la vostra traducció. Quines són les competències que creiem que heu de tenir, com a aposteditors, competències i habilitats, algunes veureu que són molt semblants a les que coincideixen, a les que esteu aprenent, com a traductors, altres són una mica diferents, i us ensenyaré també una mostra sobre el que s'anomenen guies i regles d'apostedició. Les guies d'apostedició és com un petit manualet que és recomanable que rebeu en cadascun dels encàrrecs d'apostedició. I finalment parlarem també dels mètodes que hi ha d'evaluació de traducció automàtica, és a dir, de saber com podem saber si un motor de traducció funciona o no, si podem seguir treballant així o cal millorar, i per últim també us explicaré quins són les mètodes de pagament més habituals, perquè sabeu també com es paguen. Hi ha també molt desconeixement, hi ha gent que es pensa que les tarifes són molt baixes, que això no està pagat, no està ben pagat, i crec que va la pena que es comenti també perquè sabeu com es fa en el sector. Així que entrem en matèria. I com us deia, doncs volia començar explicant, definint què és la traducció automàtica, que jo crec que vosaltres ja ho deveu tenir clar, però crec que no està de més insistir en la distinció que hi ha entre els sistemes del que diem eïnestau, les eïnes de traducció assistida per ordinador, i la traducció automàtica. Us he posat una definició, que està extreta de la Wikipedia amb anglès, i us he traduït amb Google Translate, només perquè ho veiem en castellà, i estic segura que vosaltres, com tothom, fa servir Google Translate de manera bastant habitual, no sé si sabeu que va néixer sent una eina, un motor de traducció estadístic, i que ara és neuronal, després parlarem de tot això, i és veritat que la traducció, de combinacions d'idiomes, ha millorat molt, i és molt fluida, i de tot això parlarem després. De fet, aquesta traducció està treta de quan el motor era estadístic, però l'altre dia vaig comprovar ara amb la neuronal, i gairebé és pràcticament idèntica, és que s'adacua bastant. La traducció automàtica és l'uso de sòfuir per traducir el text o el habla d'un lenguatge natural a l'altre. Diuen, l'uso de sòfuir. Com podem distingir? Vostè sabeu que una eina de traducció assistida es basa, és en realitat, un sistema de recuperació d'informació. Perquè vosaltres sabeu que, en una memòria de traducció, el que nosaltres tenim és un text que està segmentat, normalment, amb frases, i que aquestes frases tenen una correspondència. Per cadascun d'aquests segments, normalment frases, com deien, està la seva correspondència amb la llengua de destí. I això està guardat, i el que fa el sistema de traducció assistida és, simplement, quan detecta que hi ha una coincidència, sigui total o parcial, doncs et diu, aquí tenim una traducció que s'hi assembla, i vosaltres ja podeu recuperar, i el sistema, més a més, sabeu que us indica el grau de coincidència i que a partir d'aquí podeu treballar, modificar-la, o acceptar-la tal qual si la coincidència és total i esteu d'acord, o fins i tot si és una repetició. Això, perquè fa les eines tal. En la traducció automàtica, la primera diferència és que el segment no és un invocament, una frase. De fet, els segments acostumen a ser molt més petits. Depèn del sistema de traducció automàtica, es cementen en paraules o fins i tot en sintagmes, però no és allò de cada punt un segment. El sistema, moltes vegades, és el que decideix com fer les particions en funció de la informació, de les dades, amb les quals nosaltres estem entrenant. No hi ha un repositori on hi ha una coincidència, un invoca. Per cada tipus de document, es processen les dades que tenim i es genera contingut. I he dit generar, perquè és molt important, els sistemes de traducció automàtica, el que fan és generar una traducció en l'idioma d'estir, i aquesta és la diferència. D'altres us trobeu una frase i amuntada fet. A pot estar més bé o més malament, però està amuntada per dir-ho així a trossos. En canvi, en la memòria de traducció estàs recuperant un segment sencer. I jo crec que aquí és on raó la diferència principal. He dit això, també volia repassar els tres tipus principals, els tres sistemes principals, amb què podem comptar avui dia de traducció automàtica. El primer de tots, sempre el comento el primer, perquè a més és el que va néixer primer amb la història, és el que es diu en anglès, es coneix normalment per les sigles en anglès, és el que diem sistema basat en regles. És un sistema que es basa en coneixement lingüístic. Què vol dir això? A altres hem de crear informació de tipus lingüístic, hem d'alimentar-lo en un diccionari, hem d'alimentar-lo en unes regles de concordança, de conjugació, regles de tipus... Això, no? Morfològic. Amb tota aquesta informació lingüística, amb la llengua d'origen i la llengua de destí, és com treballar aquest motor. I si us hi fixeu, amb aquesta piràmide, els sistemes basats en regles, el que fan un primer pas d'anàlisi, del text original, arriben, no sempre, no del tot, però arriben una espècie que diem interlingua, que no és una llengua en concret, sinó que és com un estat intermitge que és producte d'aquest primer anàlisi que es fa de l'idioma original, i després generen el contingut amb l'idioma destí, aplicant totes aquestes regles, amb les quals nosaltres hem preparat el motor. D'acord? És per això que es parla de transferència en tres passos. Hi ha un primer anàlisi, després una interlingua i després una generació del text de destí. En canvi, els sistemes de traducció automàtica estadístics, que són més recents, el que fan és una transferència directa. Com s'entrenen? S'entrenen i com es preparen? Es preparen en dades, en moltes dades. Què són dades? Aquí són dades per un sistema estadístic. Doncs dades pot ser una memòria de traducció, pot ser un glossari, qualsevol tipus d'informació, en la qual hi hagi també aquest tipus de correlació entre segment original i segment de destí. Vosaltres pensareu, això és una mica com una eina de traducció assistida. En aquest sentit, sí, però després el motor no treballa igual, que omegater, quadrados, qualsevol eina, tal. El que farà un motor estadístic és, ell mateix, processa tota la informació de la descater i decideix com segmentar tota aquella informació de la manera millor possible, aplica un càlcul estadístic i per probabilitats troba la traducció que creu que s'escau per cadascun d'aquests segments. És per això que se'n diu estadístic. Està basat en càlculs estadístics i probabilístics. I és per això que la transferència que fa és directa. O sigui, diguem que és la base de la piràmide. Tenim un text original, s'apliquen aquestes fórmules estadístiques i genera un contingut en el text de destí. Cada motor, i crec que és molt important per vosaltres com a posteditors, com a futurs posteditos, saber quin tipus d'error... Bueno, no parlarem d'error, que sempre és com posar-se de la part molt negativa. Quina classe d'edicions heu de fer, de modificacions, haureu de fer en cada tipus de motors. Perquè cadascun té els seus avantatges i els seus inconvenients. Si enteneu com funcionen, segurament una mica els podeu esgrinar. I esgrinareu que el motor que està basat en regles funcionarà molt bé pel que fa a informació homofològica. És a dir, les concordances de subjecte hivern, segur que te les farà bé, les conjugacions també te les farà bé, etcètera. El que passa és que, des del punt de vista terminològic, si no l'hem entrenat amb terminologia especificada al sector, en el qual l'estem traduint, aquí el resultat serà més fluix. En canvi, un motor estadístic on és superimportant i la qualitat de les dades i la quantitat, com més especifica siguin aquestes dades i més relacionades estiguin amb el document que estem traduint en aquest sistema, millor seran els resultats. Per això aquest tipus de motors estadístics funcionen molt bé pel que fa a precisió terminològica i funcionen superbé per textos de dominis concrets. En canvi, els que són basats en regles funcionen molt bé per a ells a llengües, que siguin molt similars, morfològica i lèxicament, perquè és molt més fàcil de fer aquests diccionaris, aquestes regles que abans parlaven, i també funcionen molt bé o són més adients per a llengües minoritzades, on no podem trobar tantes dades. Us podeu imaginar que per crear un motor estadístic posem pel cas d'Espanyol a Esturia, que és una llengua minoritzada, que em sembla que hi ha una wikipedia amb Esturia, però vull dir, sabeu que no és una llengua oficial a l'estàtica, gairebé no hi ha... les webs oficials no es tradueixen, segur que hi ha molt poc material. En canvi, que hi ha comunitats de persones, de programadors, que el que fan és... de Franck, o perquè són investigadors, es dediquen a crear aquest tipus d'informació lingüística, de vocabularis i que podem fer servir per crear motors basats en regles, per llengües, com deia, per ells de llengües més minoritzades, o d'on no podem treure tantes dades. Jo diria, per llengües minoritzades, estem parlant de regles, o per llengües on no podem trobar moltes dades, perquè per poder fer servir un motor estadístic necessites no només dades de qualitat, que en això s'assembla a les llengües de tradució assistida. Nosaltres quan traduïm amb omega-t, trados, amb la eina que vulgueu, abans de processar un document, segur que ens volem assegurar de si la memòria de tradució que volem fer servir, si és de qualitat, si és fiable, el Glossari està validat pel client o l'ha revisat algú, de la mateixa manera, quan estem entrenant un motor estadístic, o sigui, a més de assegurar-nos de tenir dades de qualitat, el que volem són moltes dades, perquè per fer tots aquests càlculs estadístics, com més a destinguem, millor. Si tenim un parell d'idiomes, on no tenim moltes dades, doncs és millor intentar-ho amb un motor que sigui basat en regles, llengües minoritzades o llengües de les quals no podem treure moltes dades. I el tercer tipus de motor de que tothom, del sistema de tradució automàtica, de que tothom parla avui dia, són els sistemes de traducció neuronal, que, vaja, sincerament, us dic per experiència, no són fàcils d'entendre ni fàcils d'explicar, però, bueno, com es parla, és el new hype, que també és una paraula que se'n parla molt, és la última novetat, tothom en parla, diu que no és el futur, és el present, Google Translate, Microsoft Translator i Dipel, no sé si coneixeu, és un altre tipus de sistema de tradució automàtica en línia, que de moment és gratuït, que podeu consultar, si voleu, tots aquests 3 estan basats ja en traducció neuronal. I bé, llavors, sense entrar massa en detalls, crec que és important que us quedem una cosa, i és que són motors que estan inspirats en les xarxes neuronals del servei. O sigui, són capaços d'aprendre de manera progressiva. Com veieu en aquest esquema, ja no estem parlant de... parlem d'un... passem d'un nó d'un altre. No, són sistemes, com diuen, multinodals, i de cadascun es bifurca en diverses direccions. Són capaços d'arribar a l'output, a la generació de producció, des de diversos punts, i, a més, són capaços d'aprendre solets, de reprogramar arregles, ni de reentrenar-los, que de vegades és un misteri fins i tot pels seus propis creadors. En la piramide que veiem abans, s'assembla més als sistemes de... basats en regles, perquè sí que hi ha un pas d'anàlisi, i gairebé s'arriba a la interlíngua, però després el text es genera directament. I s'ha de passar per tota aquesta... aquesta direcció multinodal. Són motors que es triguen molt més temps en entrenar. I, per exemple, per posar-vos un exemple, un sistema de traducció estadística pots trigar un parell de dies en entrenar i poder començar a treballar amb ell. En canvi, un sistema de traducció purament neuronal pots trigar una setmana o fins i tot 15 dies. I, a més, necessites molta més capacitat de... de... de hardware, no? Necessites unes CPUs amb bastanta més capacitat per poder processar totes les dades. Doncs potser que... Potser no, si queda clar. Va la pena... va la pena, perquè és una paraula que surt molt... Sí. És... us podeu imaginar, igual que us entreneu al gimnàs, entrenar un motor és preparar-lo. És una paraula que també se'n diu molt, és alimentar. Us imagineu, és com un... el motor al principi és això. I tu, el que has de fer és posar-li materials, en el cas dels sistemes estadístics, el que estem fent, com deia, més ficadades, quantes més millor, i en el cas dels sistemes de basatge en regles, més ficades regles. D'això se'n diu entrenar o alimentar. Alimentar és veritat que hi ha una mica lleig antic. Però sí, en anglès us ho trobareu molt, també, en anglès es diu to train, to train assistent. Sí, sí, bona... Abans de continuar, si en algun moment hi ha un concepte que no en teniu, o tu mateixa Carme o Cristina, i voleu... em podeu aturar sense problemes, si no, jo em engresco i continuo. És preparar el motor. No, és preparar el motor. Siguem regles o sigui endades, o amb totes dues coses. Perquè, de fet, el que volia comentar és que... Ara us he parlat de tres motors, de tres tipus de motors, però que també existeixen els motors híbrids. Nosaltres, per exemple, després ho comentarem a CPCL, el que tenim són uns sistemes que són de base, que són estadístics, és a dir, els preparem amb moltes dades de qualitat, però després els anem millorant amb regles, sobretot amb parells idiomes que són rics morfològicament, perquè a mi de què vas traduint, després ho veurem amb el flux de treball, però a base que vas traduint i vas post-editant, tu pots... i hauries de detectar i classificar quina mena de rosa es fan, per poder així millorar la qualitat de producció del motor. D'acord? Llavors, amb els sistemes, com dèiem abans, és important que vosaltres sabeu sempre, quan us donin un encàrrec de post-edició, que tingueu molt clar d'on surt allò. No només coses com, evidentment, combinació d'idiomes, quina memòria heu de fer servir, glossaris, quin és el destinatari del text, a més a més és superimportant que sabeu de quin tipus de motor ha sortit, perquè com deia abans, el tipus d'edició, de modificacions que hagueu de fer també seran molt diferents. I deia que els de... els basats en regla, la conjugació i la concordància la tenen molt bé, els estadístics són més bons en precisió terminològica, però llavors, quan llegiu una frase o un paraure al sencer, es nota bastant que és producte d'un motor, perquè hi ha temes de concordància que no estan ben resolts, i aquí és on un sistema híbrid, el que fa és aglutinar els dos avantatges dels dos sistemes. I perquè fa la traducció neuronal, doncs, clar, us preguntareu per què li agrada a tothom. Com que imita el cervell, imita la manera com funciona el cervell humà, les produccions que dona també són molt més fluides i molt més naturals. Hi ha resultats sorprenents, jo us convido a aprovar Google Translate, no només amb castellà català, sinó amb combinacions, no sé, anglès, francès, alemanya, amb els idiomes amb què treballeu vosaltres, si veureu que ha millorat moltíssim, ha guanyat molt en fluidesa. Però un dels inconvenients de la traducció neuronal és que tota aquesta fluidesa, de vegades, hem d'anar en compte, és una mica perillós, perquè el que no sap el sistema, de vegades, s'ho inventa. I s'ho inventa a la seva manera. Vull dir que si no troba una paraula, doncs és com, mira, aprovarem, posarem això, a veure si queda bé. Si tu, postadites, ha contingut de producte d'un sistema neuronal, sense mirar l'original, estàs corrent el risc de donar per bo una frase que llegida sense context, doncs té sentit, però potser quan la compareix amb l'original, hi ha un error de traducció, perquè hi ha una part de la frase que se l'ha inventat. O sigui, això és molt important i heu de saber perfectament on surt i sempre teniu dret a preguntar al vostre client, sigui una empresa de serveis lingüístics, o sigui, un client final, teniu dret a preguntar sempre on surt, quan us envidin un arxiu preparat per traducció automàtica, on surt allò i quin tipus de motores. Bueno, aquí us poso unes quantes de les excuses que em trobo i que jo, i les meves companyes, i jo ens trobem diàriament per persones de col·laboradors habituals, que són traductors i que no volen acceptar en càrrecs de postedició. I dic unes quantes perquè us podem imaginar que ens han dit de tot. Llavors, espero, sincerament, que al final d'aquesta xerrada, doncs, canviï, si us sentiu que formeu part d'alguna d'aquestes, doncs espero poder ser capaç de canviar-la, de canviar la vostra percepció sobre la traducció automàtica i la postedició. Bé, hi ha moltes persones que diuen no vull posteditar perquè em nego rotundament perquè les màquines s'acabaran substituint a les persones, o l'argoment contrari, que és que no vull posteditar perquè no crec en el resultat perquè les màquines no podran substituir mai les persones. De tot ens trobem. Llavors, aquí crec que és molt important pensar que la traducció automàtica, en principi, no està pensada per substituir ningú. Està pensada per ser un suport. Igual que us són les eines de traducció assistides. Jo me'n recordo, com ha dit la Carme, ja porto aquí molts anys de la primera promoció i és cert que el Trados vaig fer aquest postre, el que ella comentava, però després, quan ho veus a la feina, llavors és quan t'has de posar les piles. Fa molts anys d'això i jo recordo que va ser una lluita constant intentar aconseguir que molts dels nostres col·laboradors més habituals acceptessin treballar trados, però potser trànsit, amb qualsevol eina de traducció assistida. Perquè es veia, o si hi havia una percepció d'aquestes eines es trauran la feina, això de que ja ens posa la traducció, que la recupera de la memòria fa que jo vagi més de pressa, però llavors ja cobraré menys, no crec que si vas més de pressa, però llavors és que tens més temps per agafar més encàrrecs. No és una substitució i tampoc ho és la traducció automàtica. La traducció automàtica està per ajudar-nos, d'acord? És important canviar una mica aquesta percepció. Especialment hi ha molta gent que creu que quan rep un arxiu que està pretreduit i ja ha passat pel motor, que et perd el control sobre el text. Això tampoc és veritat, perquè tots aquests segments que estan passant pel motor, després ja us posaré una captura de pantalla on poder veure un arxiu que estarà pretreduit, tots aquests segments que estan passats pel motor vosaltres es podeu identificar molt fàcilment i es podeu distingir perfectament d'aquells que són coincidències de la memòria. Per tant, vosaltres podeu saber que aquest segment m'he del motor. A veure, jo aquí sé que el motor és estadístic i hauré de tocar segurament qüestions de concordança. Ja us podeu preparar mentalment per poder editar el que calgui. O sigui, el control el seguiu tenim vosaltres, d'acord? I per últim, no per últim, que hi ha un altre argument final, hi ha moltes persones que diuen que les traduccions que provenen d'un motor són massa literals. Doncs sí, és cert, alguna sí. Alguna sí, però no totes. És per això que diem que això és un suport que vosaltres teniu. I per això necessitem dels posteditors perquè vosaltres podeu modificar aquestes primeres traduccions, aquests primers resultats que s'obtenen amb el motor i que els milloreu perquè ja siguin més fluïts i siguin presentables. Vosaltres penseu que... Nosaltres treballem molt per la Comissió Europea i de tant en tant assistim a reunions que convoquen aprovaïdors aquest any hi va haver una, que va ser el maig, i ens van dir que a la Comissió Europea, el Departament de Traducció d'Espanyol, que no és cap secret, sabeu que ells tenen també un sistema de traducció automàtica, em sembla que es diu MTI-HCI, va néixer estadístic, ara no sé si ja és neuronal o està a punt de ser, o va ser que estan treballant amb això. I el Departament d'Espanyol, com a mínim, em consta que tots els documents els passa pel motor i aprofiten tot el que poden. Imagineu, vosaltres a la Comissió Europea, que els nostres traductors són gent amb moltíssimes experiències, gent molt bèlida, gent que reivisa i bèlida les nostres traduccions, penseu que si ho fan ells perquè no ho podem fer nosaltres, i ells mateixos em deien, és que gràcies al que hi ha sort del motor, hi ha moltes coses que ja no he de reescriure, si poden aprofitar la meitat de la frase, doncs endavant ja modificaré el que calgui, i es també fan una combinació, i es combinen el memòries de traducció amb sistema de traducció automàtica estadístic, que és el que fem nosaltres a FPCL també, i que després us comentaré. O sigui que... que vaja, que sí, de vegades les traduccions són massa literals, però hi ha un estalvi de temps igualment, perquè hi ha molta informació que es pot reaprofitar. I si no es pot reaprofitar res, llavors és que alguna cosa ha anat malament i això és inacceptable. Vosaltres sempre esteu a temps de refusar un arxiu que us hagi arribat amb males condicions. D'això també parlarem després. I ara sí, doncs una de les excuses que també ens hi trobem habitualment és que ens diuen que és una feina que no està ben pagada. La retribució és un aspecte que també comentarem més tard, però vaja, us diré així, com a pinzallada, tenim de la nostra base de dades de col·laboradors, hi ha persones que, malauradament, no volen posteditar i quan se'ls ha demanat, mira en potser quina és la teva tarifa de postedició, han posat una tarifa que és el doble de la traducció. Us podeu imaginar que això no té absolutament cap sentit, perquè estem parlant, o sigui, la postedició, en si mateixa, és una revisió. És cert que requereix un esforç una mica més gran, que una revisió d'una traducció humana, però a cap i a la fi estem parlant de revisar, no estem parlant de retraduir. I si parlem de retraduir és que, com us deia abans, alguna cosa en el malament i vosaltres sempre esteu a temps de parlar, i esteu en el vostre dret de negociar les condicions de pagament, tant al principi com al final de l'encarrec. Vaja, nosaltres sempre intentem ser justos, es fan sempre una sèrie de proves, i d'alguna manera estem en una estimació del temps que creiem que es trigaran a posteditar, de la qualitat del motor, i si alguna cosa es desvia, doncs sempre demanem que ens acomponiquin els posteditons quan abans millor per poder reaccionar, d'acord? Sobretot, penseu que abans ho deien amb la Carme, el dia que parlàvem, és que la postedició és que no és el futur, és que és el present. Hi ha moltíssimes combinacions d'idiomes, com us deia abans, on ja només es postedita, perquè els resultats són realment bons. Llavors crec que hem de canviar l'escenari la cara del minutet aquest d'abans, i crec que hem d'anar amb una actitud més positiva, i de pensar a veure com hi puc enfrontar, provem-ho, mirem si puc ajudar a millorar el resultat del motor, i la propera vegada que m'enrivi aquest encàrrec, el resultat segur que serà millor, i no serà més feina. Aquest és l'objectiu. Penseu que ja... Bueno, ho sabeu, perquè ho sabeu que ho veieu, hi ha tant de contingut per traduir, però tant, que moltes vegades la traducció automàtica és la única solució. Moltes vegades és que és un tema de pressupost. Com sabeu, des que existeixen els blogs, i allò que es deia que ja és molt antic, la web 2.0, les xarxes socials, hi ha moltíssim contingut que, si no fos per la traducció automàtica, no es podria traduir, no arribaria a tantes llengües com arriba. Per això dic que ja no és un futur, és el present, i crec que és una oportunitat més que se us ofereixi, que és com a tal, és l'actitud que heu de tenir. Llavors, ara, en aquest esquema, veieu el flux de treball que tenim a CPCL, no crec que sigui gaire diferent d'altres empreses de traducció, tot i que cada empresa reorganitza una mica, fa els apartaments a la seva mida. Aquest és el flux de treball standard, de com arribar un encàrrec. Us el comento primer, abans de veure què és el que fem, quan arriba un encàrrec de traducció automàtica. Més bastant autoexplicatiu, quan arriba un encàrrec de client, l'arxiu s'analitza i es prepara per traduir amb l'eina que es decideixi que sigui més adient, sigui tràdors, mèmsors, mèmoquiu. Nosaltres treballem amb un d'eines de traducció i localització, i per cada tipus d'arxiu, algunes són més adients que d'altres. S'escull l'equip de traductors i revisors que participaran, el gestor de projecte se'ls envia el paquet de traducció i no només els arxius preparats, sinó també la memòria de traducció i glossaris i es d'estil, en cas necessari. Quan es rep la traducció, es prepara un paquet pel revisor, també amb tot aquest material, se li envia, i llavors és quan es rep la revisió, s'inicia un procés tècnic, que és el de conversió de format, perquè sabeu que el format amb què treballen, la majoria d'eines de traducció assistida, avui dia és el format X-LIF, d'intercanvi d'arxius, que és un estandar internacional, i tant és, si és de traducció és de l'X-LIF, si és de memsos és MxLIF, però al final és un X-LIF, i és un format intermitx que després s'ha de convertir al format final. A CPCL tenim un departament tècnic, que és qui s'encarrega de fer aquesta conversió inicial en la preparació i la conversió final. Es comprova que tot està bé, i si el document necessita macatació, és a dir, una edició final, posem per cas un manual de l'usuari, que té gràfics, o quan tu has volgat el contingut amb un InDesign, posem per cas un manual de l'usuari, que normalment estàu amb Word o InDesign, o fins i tot Quark Express, allò ho has de tornar a mirar, perquè les caixes del contingut encaixin perfectament i les caixes de texta, etc. Passaria el LLOT DTP, són les sigles de Desktop Publishing, que és el Departament d'Emacatació o Edició, i si no hi ha amacatació, passa directament al control de qualitat. El control de qualitat s'han responsabilitzat també el gestor de projectes, i finalment s'entrega el client. Aquest és el... Us he posat també la casella de Client Validation, moltes vegades que el client fa una validació de les nostres traduccions, tenen un equip intern, normalment són oficinats locals, que validen el contingut amb el seu idioma. I llavors, quan això passa, el que fem és amb aquella archivalitat, s'actualitzen les memòries, s'actualitzen glossaris, i és com tornar a començar, i així tot està a punt per la propera vegada que arribi un altre encàrrec de traducció. Això seria un encàrrec estándar, sense traducció automàtica. Què passa quan volem fer servir un sistema de traducció automàtica? No és gaire diferent, és a dir, jo diria que el procés és el mateix, el que passa és que hi ha alguna faci més. O sigui, el client envia el texta, i hi ha un primer pas, hi ha un primer pas on el gestor de projectes, i juntament amb l'apartament tècnic, decideix si aquell document, aquell text, és un bon candidat per ser processat per un sistema de traducció automàtica. Després veurem en base a quins criteris, però pot passar que sigui una combinació d'idiomes que sempre s'ha fet per traducció automàtica, llavors sempre la propera vegada que arribi també voldrem fer. O és un document o un text que per motius de pressupost, o perquè els termini són molt ajustats, volem provar un motor nou, o volem provar un motor ja existent. Després mirarem a veure quina mena de projectes són els candidats ideals per poder fer servir amb un projecte i un sistema de traducció automàtica. És una decisió que s'ha de prendre des del principi. Un cop està decidit, es parla amb el Departament Tècnic, i el que fa el Departament Tècnic és, igual que amb el procés estàndard, es prepara un paquet de traducció. Aquí és on està la diferència. Si d'aquell client tenim una memòria de traducció, llavors abans de passar l'arxiu pel sistema de traducció automàtica, primer es pretredueix amb la memòria, de manera que aprofitem la memòria tot el que poden. Es pretredueix amb la memòria tots els segments que tinguin coincidències alabades, coincidències de 75% cap a un. Això de vegades és el 75%, altres pot ser el 80%, això es pot decidir, però aquest és l'estàndard. I tots els segments que tinguin coincidències inferiors, on està més o menys avustrat per uns estudis que s'han fet, si no recordo malament a la Universitat de Dublin, on s'han fet unes proves per veure com anaven de ràpids als posteditors, es va decidir o es va arribar la conclusió que tots els segments que estan per sota d'una coincidència del 75%, el traductor de vegades triga i igual o triga més intentant refer aquella coincidència que refén la de zero. Llavors, és aquí on es decideix, doncs mira, passem-ho pel motor, aviam si així ajuda més que la memòria, i penseu que la memòria sempre la podeu consultar, sempre podeu fer una cerca de concordància, sempre podeu buscar les paraules que vulgueu, perquè la teniu sempre disponible. Llavors, aquest tarchiu que està mig pretraduita amb la memòria i mig processat pel motor, és a què forma part del kit de traducció que el gestor envia al posteditor. I juntament, amb una cosa que nosaltres diem, en les PI, són les sigles de postediting, de postedició. És un document que us ensenyaré també després, que és un petit manual que nosaltres recomanem que s'enviï sempre a tots els posteditors, perquè sàpiguen. És una petita descripció sobre el document que han de posteditar, i a més a més els demana quin tipus de postedició han de fer, quines menes de coses han de corregir i quines altres coses poden passar per alt. De vegades no cal corregir-ho tot. De vegades només cal fer el que diem una postedició ràpida, després ho veurem també, i això ha de quedar reflectit en aquestes guies de postedició, que són les PI i guidelines. Llavors, aquí és on entra en joc el posteditor, el posteditor, el postedit dels arxius, i els torna el gestor juntament amb un altre document que es diu feedback template. És una plantilla que nosaltres hem creat per aquests projectes que passen per traducció automàtica, on simplement volem que el posteditor ens digui no tot el que ha modificat, perquè no cal, i a més seria un treball molt angurrós, sobretot per arxius llargs, sinó el que volem és que posi 4 o 5 exemples dels errors que, a més, li hagin cridat l'atenció i que a més no se li hagin fet, i que a més li agradaria, que li agradaria que estiguessin corregits la propera vegada que li enviem un arxiu per posteditar. O sigui, és informació subjectiva, perquè és, diguem-ne, la decideix el posteditor, però combinada amb altres anàlisis o mètriques objectives que després veurem, és molt útil i ens serveix per saber quin ha estat el resultat del motor. Llavors, el posteditor, hem dit que aquest arxiu hi ha posteditat al gestor, juntament amb aquesta plantilla. El gestor envia als arxius posteditats el departament tècnic, que els processa, com hem vist abans, això és igual que el procés estàndard, però, a més a més, s'analitza aquesta plantilla d'arrots més greus, s'analitza i es filtra i es té en compte per reentrenar el motor. Abans parlàvem d'entrenar, ara parlem de reentrenar. O sigui, tenim un motor que ja està entrenat i preparat, però per cada cicle de traducció, el que volem és millorar-lo. Amb aquesta plantilla de fitback i amb aquests arxius posteditats, tot es volca a dins del motor i així millora per la propera vegada. El departament tècnic processa els arxius finals, que són els que s'envien al client, com hem dit abans, si s'han de maquatar es maqueta, es fa un control de qualitat final i s'entreguen al client. I llavors, en paral·lel, el departament tècnic es calcula les mètriques de traducció automàtica, és el que surt aquí com a empty metrics. Després us ensenyaré també. És el que deiem com informació objectiva que ens diu que compara l'arxiu tal qual ha sortit al motor, amb l'arxiu finalment posteditat, és capaç de trobar un percentatge de diferències i si aquest percentatge de diferències és molt elevat, doncs, clar, pensarem que aquí alguna cosa no ha funcionat i el posteditor ha tingut molta més feina del que semblava. Si aquest percentatge és baix, haurà estat un èxit. Després parlarem de nivells de percentatges i de tipus de mètriques. Aquest seria el procés, el procés de treball, quan un arxiu s'ha de passar per un motor. I aquí, aquí us he posat una captura de pantalla d'un arxiu que es va traduir del castellà, el portugès de Brasil, i que, si us fixeu en la columna del mig, suposo que us veu bé, oi? Com veieu, és trados-stúdio. Aquí podeu veure el nivell de coincidència de cada segment. Com veieu, clar, el motor, el motor. A trados et mostra segments amb coincidències barrejades. Quan tu estàs treballant, t'hi pots trobar un segment amb una coincidència parcial del 90%, i el següent és un cabell de traducció automàtica, que estan marcats com a AT. Això depèn ja de cada eina. A trados-stúdio marca com a AT de color blau, els que venen del motor, i les coincidències d'aquest color taronja. Aquí veieu alguns segments que posa AT que estan en blanc, és perquè el posteditori ha fet algun canvi. Els que estan en blau són els que s'han confirmat i acceptat tal qual. I la veritat és que espanyol, portugès, és una combinació que funciona. La mar de bé. Es fa molt poca edició i es guanya molt de temps. Els resultats són bastant impressionants. Aquí les ratlles que veiem en blau és per taxar informació confidencial de noms de client i tal. La idea és que el que vosaltres us trobareu segurament, sobretot si treballeu amb empreses de serveis lingüístics, com nosaltres, és un arxiu on ja està tot pretraduït. Hi ha una part que estarà passada per la memòria, com hem dit, les coincidències més altes, a partir del 75%, i totes les coincidències que estan per sota s'han passat pel motor i les podeu identificar fàcilment perquè són les que estan marcades com a AT. Recapitulant sobre el ninotet aquell que deies, que perdo el control, no perquè aquí saps perfectament on ve cada segment, i a quin tipus d'arròs t'hi pots enfrontar i quina mena de modificacions hi has de fer. Com a consell, us diré... Mira, hi ha gent que treballa de diverses maneres, hi ha gent que li agrada passar primer per tots els segments que venen de la memòria i després modificar els segments que venen del motor, o a la inversa, o gent que fa... Que treballa de manera seguida, segment per segment, vingui, doncs vingui. Això, avui dia, les eines de traducció assistida et permeten fer de tot, perquè tu pots filtrar segments de la manera que vulguis. El que crec que és molt important és que... com que el nivell, com dir-ho, de concentració, el nivell d'esforç cognitiu que fareu amb un tipus de segment o d'un altre és diferent, és superimportant que tingueu molt clar a quin segment us estem enfrontant. I us passarà també, perquè ens ha passat, sobretot quan els motors són nous i encara els estem millorant, que veiem que els posteditors posen molt d'esforç a modificar els segments que venen del motor i després hi ha facis, hi ha coincidències de nivell alt, que com que són gairebé correctes, però canvia una paraula, alguna petita cosa, aquesta petita cosa es perd. Si perds la concentració, és molt fàcil perdre-la, perquè acabes de modificar un segment que a lo millor requeria molta més edició. I a tot passar, que aquestes coincidències molt altes no les editis bé i llavors continguin errors. Llavors aquí us recomano, vosaltres treballeu com vulgueu, potser jo crec que de cara... no sé, al context és més fàcil treballar tot seguit, però que després feu una passada final, potser per al segment de coincidències altes, per assegurar-vos que el seu ha llegit tots i que el seu ha modificat com s'escau. Perquè, com us dic, és molt fàcil d'arribar a un segment que ve de traducció automàtica, escandalitzar-se. A mi també m'ha passat a dir, ah, per quin error... Comences a editar allò que... amb el teclat, que dius quin desastre, espera que ho arreglo, i passa a ser un segment que és gairebé un 100%, però no la veus. Doncs el consell és això, filtrar i tornar a sobre aquestes coincidències parcials que són elevades per procurar que quedi tot, absolutament, tot arreglat. Sí? Que més... crec que d'aquí més o menys ja està... ja està tot comentat. Sí, llavors, abans d'ell, no, hi ha una part del procés on el gestor de projectes ha de decidir, per diversos motius, si aquell text va la pena processar-lo amb un motor de traducció automàtica o no. Això dependrà de molts factors. Alguns són aquests, però el primer factor és... tenim un motor amb aquesta combinació, tenim un motor amb aquest domini, va la pena crear un de nou, tenim temps a crear-lo, penseu que crear un motor i entrenar-lo, hem dit abans que en dos dies pots tenir un motor preparat, però els primers resultats segurament no seran tan bons com t'esperes. Això és millor en diversos cicles. Llavors, amb un projecte, us diré, amb un projecte que és molt urgent, on només tenim un termini d'una setmana per poder-lo lliure al client, potser no és un bon exemple o no és un bon moment per crear un motor de nou, perquè gairebé hi ha les de lliurar. Però si tenim un projecte llarg amb molts arxius o volumes estables de traducció que et permeten fer diversos cicles de reentrenament, doncs sí que seria una bona idea. Nosaltres a CPCL hem elaborat una llista que és una mena de llista de comprovació de checklist, de la qual us he acceptat uns quants exemples, per preguntar-nos. Quan tenim davant el text de dir val la pena, tenim un motor per aquest text, creem un de nou, i alguns d'aquests exemples és com us comentava, projectes regulars, projectes que arriben semenal o mensualment, o d'esquastar una planificació on les combinacions lingüístiques són les mateixes. També us poso aquí, al principi, combinacions idiomes semblants. Això, sobretot, si els motors amb què treballeu són basats en regles o híbrids, encara que siguin estadístics, però que també tinguin regles, perquè són molt fàcils de preparar i els resultats sempre són molt bons. Que l'original sigui de bona qualitat. Això és superimportant. Un original que tingui faltes d'ortografia, o arros gramaticals, o arros tipogràfics, penseu que llavors el motor tindrà més dificultats en processar-lo, perquè les dades, les quals nosaltres hem entrenat el motor, són dades de bona qualitat. Si escrivim malament les paraules, el motor no serà capaç d'identificar-les. I moltes vegades, encara que l'original sigui de mala qualitat, si el projecte o el text compleix tots els altres requisits, i hi ha un interès molt gran, o necessitat de processar-ho amb un sistema de traducció automàtica, es fa una tasca de pre-edició, de l'original. Aquesta pre-edició pot consistir en moltes coses, però una cosa bàsica seria demanar a un traductor revisor nadiu de l'idioma original, que passi el corrector, que revisi el tèxtil, de manera que sigui correcta. No estem aquí demanant que canviï paraules, però sí minim una correcció ortogràfica, perquè després el sistema pugui identificar correctament aquestes paraules. Hi ha empreses que també van un pas més enllà, que fan una previsió molt més exhaustiva. Preparen els textos originals, de manera que puguin ser processats per motor, però que, a més, canvien termes. Si el text teniu un text que està redactat en un llenguatge molt general, i tens un motor que és molt específic, i la persona que redacta aquell text no ha tingut en compte que els lectors són els tècnics d'una empresa d'automoció. I tenim un motor que és estadístic, que és molt específic, i que treballa molt bé per textos, no genera sinó específics d'aquell sector, del sector de l'automoció. Doncs va la pena dedicar un temps a preeditar aquell text original, en canviar el vocabulari, que el millor hem fet servir, paraules molt del llenguatge natural i general, canviar-les per unes altres, que siguin més específiques, de manera que les entengui, que les entengui el motor. Això seria com un pas més, i és una forma també d'assegurar-te uns bons resultats. Per fer tot això també és necessitar temps. El temps és una variable que sempre s'ha de tenir en compte. Un altre criteri seria la necessitat o objectiu final. És a dir, per què necessito aquesta tradució, per què la necessita el client. S'ha de publicar o només la vol entendre. Això no vol dir que si s'ha de publicar no es pugui fer servir tradució automàtica, sí que es pot fer servir, però si només es vol entendre que hi posa, llavors podem optar per dos tipus de procés. Podem, directament, passar-ho per un sistema de tradució automàtica i no postaditar. El resultat podria ser comprensible i el client ja en podria tenir prou, o podem, fins i tot, decidir de fer una postadició més ràpida, que no sigui gaire exhaustiva, i que el resultat sigui acceptable. No sempre cal publicar tot. Llavors hi ha documents que ens envien clients. Per exemple, un client que vol presentar-se una licitació internacional i s'ha d'allegir 300 pàgines de documentació sobre com presentar currículums de persones certificats i estar en un idioma que no entén, o que no entenen algunes persones d'aquest client. I només el vol entendre. La documentació de la licitació no cal que es publici, tu només la vols saber si t'hi podràs presentar, si t'hi podràs recuixir. És un cas tipic, on sempre val la pena intentar processar aquell document per un sistema de traducció automàtica. I depèn de la combinació d'idiomes, moltes vegades, amb el resultat del quadre del motor, n'hi ha hagut prou. Un altre criteri és si el document original té patrons repetitius. Hi ha una nivell de segment, que deia abans, perquè per això ja tenim la memòria de traducció, a nivell de paraula de sintigma, que abans deien que els sistemes de traducció el tema automàtica el que fan és atomitzar, els segments treballen amb segments més petits. Si veiem que es repeteixen molt uns tipus de construccions o de terminologia, això és una cosa que ens ha de fer pensar que seria un bon candidat sobre totes sistemes de traducció automàtica estadístics. Moltes dades i de qualitat, això també ho hem comentat abans si treballem molt per un client, tornem a posar pel cas del sector de l'automoció i portem molts anys, tenim una memòria de traducció, totes revises sempre aquesta memòria és fiable, a més a més tenim glossaris validats pel client doncs aquí tenim unes dades molt bones amb les quals segur que podem construir, entrenar un motor estadístic que doni bons resultats, projectes regulars ja els hem comentat i després terminis de lliurement justos. Aquí hem de posar les coses amb una balança com deien abans, si tenim només una setmana per lliurar un document de 10.000 paraules no tenim temps per crear un motor de nou però si ja en tenim un sí que val la pena aprovar-ho. Si tenim un més per entregar documents o és un... encara que sigui un més és molt determiní però realment hi ha molta documentació igualment val la pena d'aprovar invertir 2, 3, 4, 5 dies que et poden portar molts beneficis. Després també hi ha formes de treballar tu pots començar un projecte llarg traduint una petita part que sigui en traducció humana, que és com es diu la traducció normal en contraposició a traducció automàtica pot ser un petit grup d'artxius en traducció humana i després entrenar el motor en aquest petit grup d'artxius amb això pots millorar i tens el motor entrenat per traduir la resta d'artxius i així a mi de què vas treballant doncs vas millorant. I per últim pressupost ajustat clar abans parlàvem que hi ha tant de contingut per traduir i avui dia la majoria ve de... és contingut generat pels usuaris que les empreses volen arribar, han d'arribar tots els mercats però si tot es fa en traducció humana doncs no sempre es pot arribar amb la qualitat desitjada llavors la traducció automàtica és una molt bona solució per poder estalviar amb alguns parells idiomes i llavors poder invertir a uns altres i així poder arribar a més mercats i com a empresa de serveis lingüístics jo crec que és la nostra obligació de poder oferir aquesta possibilitat als nostres clients que també és cert que igual que posava el ninotet al principi de les frases, el ninotet enfadat de no vull postaditar hi ha clients que tampoc no volen sentir parlar de traducció automàtica hi ha moltes por, moltes opinions preconcebudes hi ha una feina aquí que estem fent també d'educació d'explicació i d'intentar dir que un sistema de traducció automàtica no és... ho poso tot a Google Translate i tu després t'ho copies amb un word perquè a més no sé si esteu al cas però fer servir sistemes de traducció automàtica on-line té els seus riscos hi ha hagut unes notícies recentment de filtració de documents confidencials perquè algú va copiar alguns paràgrafs, no sé si era Google o no, crec que era amb un altre web, hi ha més webs que ofereixen serveis de traducció automàtica on-line vosaltres penseu que tot el que sopareix gratis i on-line és per alguna cosa, és perquè després normalment el sistema reentrena en tot allò que li posem però això és molt perillós, intenteu no fer servir sistemes que no siguin fiables o que normalment els fiables són de pagament, d'acord? Nosaltres els motors que tenim són motors propis, estan en servidors nostres i no estem volent informació confidencial en Google perquè no es pot fer, nosaltres signem uns acords de no confidencialitat amb els nostres clients i els nostres col·laboradors excemsa amb nosaltres una cosa és buscar una paraula, intentar buscar ajuda però vaja, tingueu sempre en ment que d'anar en compte de no posar mai informació confidencial aquí us explicaré una mica quin tipus de motors tenim a CPCL com us deia al principi, extractar de motors híbrids i la base és estadística, és a dir que estan entrenats bàsicament amb memòries de traducció fiables i específiques de sector i regles ara us deia memòries específiques de sector però és cert que també tenim motors híbrids que són generics que no són d'un domini específic normalment aquests motors generics que són els que veieu aquí sota suposo que esteu familiaritzats amb la codificació ISO dels idiomes de sistemes de traducció us he parlat d'altres tipus en funció al seu funcionament però també es parla de tipus de dominis, de sistemes generics és a dir que no són de cap domini, de cap àrea d'especialitat en concret sinó que serveixen per tot tipus de textos i dominis concrets que serveixen per àrees concretes són aquests en tenim més però aquests són els que millor funcionen en la veritat en aquestes combinacions com podeu veure els generics són espanyol, català i valencià i gallec que funcionen amb les dues direccions i funcionen la mar de bé, ja fa anys que en aquestes combinacions ja no es tradueix directament a l'espostadita i l'esforç d'apostadició és molt, molt baix estem parlant d'un percentatge de canvis inferior al 10% de vegades oscila crec sinó recordo malament entre el 5% i el 8% més o menys un 5% de canvis que no és res és que realment pràcticament canvies 4 coses i pots donar per bo el resultat sobretot amb aquests primers, amb els idiomes que oficials després ja tenim un altre nivell de motors generics que són espanyol, portuguès, portuguès espanyol que no ho he posat aquí però també és portuguès a Brasil l'exemple que heu posat abans era portuguès a Brasil funciona raonablement bé també, pocs canvis i després espanyol anglès, espanol, itàlia i francès aquests generics no funcionen també com els específics però estem treballant perquè per poder-lo optimitzar i la gràcia és que cada cop que tu processes un arxiu per un sistema un cop està post-editat doncs sempre el pots tornar a entrenar i millorar amb els canvis que has fet també traduïm patents amb aquestes combinacions d'idiomes i és curiós perquè les patents és un exemple de text on es repeteix gairebé sempre la mateixa informació i no només hi ha terminologia molt específica perquè a més les empreses quan volen registrar una patent han de fer servir una terminologia en concret per classificar el producte segons el seu invent amb unes categories en concret això fa que sigui un tipus de document que es processa molt bé i que funciona molt bé amb un sistema estadístic no només es fan servir termes concret sinó de les construccions concretes i és per això que aquestes combinacions ara fa anys que han de ser servir i que funcionen raonablement bé en aquests casos el nivell de canvis és una mica superior però està en torn del 20% que tampoc és molt penseu que un 20% de canvis és que no has modificat tampoc la meitat aconsegueixes reduir moltíssim el temps que dediques i que d'altra manera hauries de primer traduir o revisar d'aquesta manera pots decidir si només posteditar o posteditar i revisar també però ja has guanyat molt de temps també tenim motors específics de localització de software en aquestes dues combinacions anglès-espanol i anglès-frances i també motors de textos que fem per laboratoris del sector de la farmàcia, sobre tot anglès-espanol anglès-portugues-brasile i també aquí no surt però hem passat per motor textos de farmàcia d'anglès-frances i també ha funcionat raonablement bé i la intenció és que anem augmentant que aquests motors vagin millorant amb el temps i que l'any està sigui cada cop més gran amb l'ajuda dels posteditos naturalment però la retribució per ara no insistiré i ho mirarem al final però costuma la feina de postedició la costumem a pagar per paraula però també en alguns casos específics es paga per hora això depèn del gust del posteditor i de la tarifa i de l'acord que s'hagi fet nosaltres estem oberts al que sigui més còmoda per cadascú i el que tingui més sentit de fer per cada projecte En aquesta imatge veureu un grafic que és molt interessant, us convido a que busqueu l'article que és de la revista tradomàtica, és de desembre de 2012 però ja considero que no ha canviat gaire jo crec que tot és perfectament aplicable és un article escrit per la Celia Rico que és professora de la Universitat Europea de Madrid i el Enrique Torrejón que és conegut tradutor i posteditor van fer un analisi sobre el tipus de competències, habilitats que preferiblement haurien de tenir els posteditors llavors ja es van plantejar, realment han de ser molt diferents a les que han de tenir els traductors o n'hi ha alguna de més o alguna de menys i les van classificar en aquests 3 apartats que en aquests 3 grans blocs que serien habilitats lingüístiques, competències instrumentales i competències clau com podeu veure, de les habilitats lingüístiques destacant 3, que jo crec que són comunes a les que ha de tenir un traductor o un revisor i són les que vosaltres esteu adquirint la primera seria la capacitat obviament comunicativa amb el parell d'idiomes, amb el que esteu treballant competències culturals, adiconeixements de la cultura tant de partida com d'arribada i per descontat sobre la matèria sobre la que esteu traduint sobre el domini del text jo crec que aquestes són comunes a les que ha de tenir qualsevol traductor o revisor i les competències instrumentales aquí ja sí que entren algunes que són noves i que són concretes del posteditor empty knowledge, coneixement sobre tradució automàtica tampoc no cal saber entre un motor aquí també es parla de programacions habilitats de programació jo crec que no és imprescindible perquè si vosaltres treballeu en una empresa que ja us dona els archius pre-traduïts i passats pel sistema, vosaltres no us demanarà que programeu però sí que sabeu com us deia al principi quin tipus de motor és i com funciona perquè vosaltres sabeu quina mena de canvis heu de fer això és el que englobaria el coneixement sobre tradució automàtica les altres dues, que és la gestió terminològica i dediccionaris, doncs jo crec que també són equiparables a les que ha de tenir un traductor i un revisor i les competències bàsiques del final aquí hi ha una que jo crec que és clau és clau i que... jo crec que és especifica en el cas del posteditor també es pot demanar d'un traductor però és que aquí és fonamental, és a dir, l'actitud amb la qual us enfronteu a la tasca de postedició perquè pot que et gira l'èxit d'un projecte si comencem una feina de postedició amb pos i amb una actitud negativa al final no ens sentirem còmodes i no voldrem continuar o acabarem fent més canvis dels que cal o menys canvis del que cal perquè ens pensarem que no ens pecaran bé crec que l'actitud bona és la de anem a aprovar i anem a negociar tot el que calgui amb l'empresa que ens ha enviat l'arxiu i ja veurem quins canvis fem i que sempre estem a punt de tornar-ne a parlar, de tornar l'arxiu si veieu que no està bé però que l'actitud és molt important nosaltres hem vist, això és molt curiós, hem vist traductors excelents de tota la vida que són pèssims post-editant perquè ho ve modificant més o ho ve modificant menys i en canvi hi ha traductors més mediocres que en canvi són uns cracs post-editant perquè han entès perfectament d'aquest tracte han rebut unes guies de post-edició i han entès que a lo millor no és imprescindible canviar-ho tot, no? Anem a aprofitar tot el que calgui del sistema i en aquí ens hem endut algunes sorpreses i per això de mica en mica ens anem fent els nostres equips favorits de col·laboradors externs i ara sí, tipus de post-edició no us comentava al principi els dos tipus principals són dos el que anomenem post-edició ràpida i el que anomenem o que amb anglès es diu light post-editing i el que anomenem post-edició completa que en anglès es diu a s'acostuma a dir full post-editing aquí us he copiat una descripció que he tret de les guies de post-edició de taus no sé si coneixeu però és una organització que es dedica a això no a crear material de suport per clients i empreses de serveis lingüístics a recopilar dades com a reglossaris, memòries i posar-les a disposició dels seus membres ser membre de taus és de pagament però no sé si em sembla que tenen una part d'academy que jo crec que us ho podeu mirar perquè tenen consells que són molt interessants i material i documentació que és gratuït i que us pot ajudar a conèixer una mica més sobre traducció automàtica i post-edició de la post-edició ràpida aquests punts són els punts bàsics que nosaltres com a post-editors haurem de corregir volem que la traducció sigui correcta semànticament que no hi hagi cap omició ni cap edició perquè hem vist que hi ha sistemes que afegegen o meten fragments que no saben evidentment igual que en una traducció que no hi hagi cap paraula o que no sigui apropiada, que pugui ser ofensiva reestructurar les frases només el que calgui de manera que hi hagi un mínim de fluidesa però tampoc no estem parlant aquí de reestructurar de manera que sembli traducció humana aquí estem parlant d'una modificació mínima i sobretot intentar aprofitar al màxim tot el que surt aquest tema de traducció automàtica us he posat també la velocitat a títol indicatiu perquè això varia molt depèn de cada combinació d'idiomes i de com estigui preparat el motor però les guies de taus diu que aproximadament acostuma a ser de 1.000 paraules per hora imagineu-vos si traduim a 250 paraules doncs imagineu-vos com guanyem de temps ja us dic que és totalment indicatiu realment aquesta velocitat no la aconseguim amb tots els paraules d'idiomes hi ha vegades que et quedes en 500, que és la meitat però encara que siguin 500 ja et val la pena perquè tradueixes a la meitat de ritme això perquè fa a l'apostadició ràpida perquè fa la completa que volem corregir els mateixos punts que a l'apostadició ràpida però a més a més afegim el punt de la terminologia segurament tindrem un glossari i voldrem corregir voldrem assegurar-nos que la terminologia clau s'està fent servir introduim el factor sintàctic i gramatical intentarem que el text a més a més sigui el més fluït possible de manera que sembli una traducció humana una apostadició completa ha de ser en principi un text que no es noti que hagi passat per un sistema de traducció i per això l'últim punt ja també parla de passar el corrector ortogràfic i de reclar totes les qüestions relatives a puntuació i fins i tot qüestions d'estil que a l'estil jo diria que és la diferència principal entre una apostadició completa i una ràpida amb una ràpida l'estil no t'almires tant i en canvi amb una apostadició completa doncs sí que sigui que no sembli que ha passat per un sistema per això la velocitat està en d'art doncs és una mica inferior i es considera que ha d'estar al torn de les 700 paraules per hora però com he dit abans això depèn molt de cada sistema i de cada combinació d'idiomes llavors la decisió entre una u altra dependrà de molts factors dependrà de l'objectiu del text com hem dit abans també quan repassàvem la llista de documents candidats si tu només vols entendre el que posa doncs pots intentar passar el text pel sistema de traducció automàtica i si no queda prou bé fer una apostadició ràpida i estar o si realment el que es vol és publicar el resultat doncs l'occió correcta seria fer una apostadició completa i també pot passar que tens una combinació d'idiomes que en traducció automàtica funcionen estupendament com és espanyol, català o a la inversa i només et calgui fer una apostadició ràpida i encara que allò s'hagi de publicar però el motiu és que realment en quatre cosetes que canvies el resultat sembla traducció humana en aquesta diapositiva teniu un exemple dels dos tipus d'apostadició aquest exemple està tret d'un curs d'apostadició anglès espanyol que vam preparar per taus per aquesta organització que us comentava el curs és de pagament podeu fer si voleu els exemples, són tots de CPCL i un d'ells és aquest i al final té una part de teoria que vam preparar conjuntament amb taus i després això a la part pràctica que consisteix en fer una petita pràctica d'apostadició i pots tenir una certificació si voleu us ho podeu mirar, ja us dic que és de pagament el que és gratuït és un webinar que va ser introductorial al curs que vaig donar juntament amb Atila Górok que és una persona de taus, el responsable dels cursos i aquest webinar si el voleu buscar per postediting anglès espanyol taus, el webinar és gratuït és un vídeo que està penjat al YouTube i us ho podeu mirar i reconeixereu algunes de les diapositives perquè són de les mateixes que he posat aquí però amb més exemples concrets i hi ha una secció de preguntes al final que van fer els assistents i crec que val la pena i crec que es pot donar encara més informació el webinar em sembla que era només mitjora el curs, no recordo, no recordo però no sé la veritat és que ara no me'n recordo però és online t'hi pots inscriure si el pots fer quan vulguis no és una dedicació, no és allò de dir que són 6 mesos de curs ara diré una cosa però crec que amb un o dos mesos el pots acabar, depèn de la teva dedicació tens un temps per poder-lo acabar i et donen una certificació llavors aquí, com exemple, podeu veure el rowMT que és com es diu en anglès, és el que surt directament del motor i ha marcat en vermell el que podem considerar un error que és un error, una mala construcció sintàctica i gramàtica aquí sobra o falta alguna cosa, indicar-li que ha de una conexió llavors tenim dues opcions si decidim fer una post-edició ràpida doncs una opció molt ràpida i senzilla seria per indicar-li que no s'ha connectado bueno, us pot semblar que no és una solució elegant perquè al principi de la frase ja surt el verb connectar però funciona i s'entén perfectament això seria un exemple d'apostedició ràpida, sense pensar-ho molt proposo recluir això que està malament en canvi, una postedició completa seria doncs em torno a llegir tot el segment intento fer servir un sinònim o una altra estructura perquè la frase resulta que digui que és elegant hi ha moltes possibilitats però una era aparecer a un mensatge d'advertencia per indicar-lo estàs una omissió d'informació però està clar perquè està ja dita la primera part de la frase i funciona molt bé, és bastant més elegant d'acord? llavors ara ja per acabar us volia posar com exemple algunes captures de les nostres guies d'apostedició o sigui al principi que les guies d'apostedició formen part del material que enviem juntament amb els actius preparats i pretreduits als posteditors són unes guies en les quals es defineix l'abast del projecte això és molt senzill, una guia d'apostedició pot tenir el format que cadascú vulgui i empreses que ho fan a Word nosaltres de moment treballem en un Excel perquè ens permet de treballar d'una manera així com una mica més interactiva amb més pastanyes i tal llavors el primer que fem és aquesta columna d'aquí són les variables que hem de definir perquè el posteditor tingui molt clar a què s'està enfrontant si té blossari, si té una memòria, si el blossari està validat si el que volem és una apostedició ràpida o completa si això es publicarà, si quin tipus de velocitat estimada calculem que trigarà de número de paraules per hora creiem que trigaran a fer-ho si és un material sensible perquè surten noms de marca o s'han de publicar o és material de màrqueting tot aquest tipus d'informació i la columna de la dreta el que teniu és una mostra del que diem regles d'apostedició les regles d'apostedició són com regles són com una xeclis d'instruccions per cada encàrrec se us indica quina és cal fer i quina és no cal fer es parla d'activar o desactivar les regles s'activen o desactiven, en aquest cas posem llest si volem que es miri o no, per la regla que volem que no cal que es miri la veritat és que la majoria de vegades fem servir postedició completa fins ara no hem rebut molts encàrrecs d'apostedició ràpida o que encaixin en aquesta categoria quan és postedició completa volem que s'activin totes les regles però l'important és que aquesta reflexió us vingui feta que vosaltres també podeu repassar-la i donar la vostra opinió, perquè també podríeu decidir m'has dit que no miri la puntuació la puntuació està desactivada però és que realment el resultat del motor és un desastre i crec que val dir la pena mirar-ho i és molt important que vosaltres també participeu tot al màxim possible del procés i també procurem enviar exemples d'activació d'aquestes regles d'apostedició aquest exemple que us envio és una taula està adaptada, està treta d'un projecte que es diu EDITA que també està disponible online que era un projecte per definir les tasques d'apostedició i quina és la mena d'intervenció que ha de tenir el posteditor en cada moment del procés i també per definir exemples i de regles d'apostedició per exemple aquest és de la combinació d'anglès castellà com el que hem vist abans, si us hi fixeu la marca tan negreta, la paraula o les parts que s'han canviat de com sortia del motor a com ha quedat en l'apostedició final i per exemple en l'última frase que crec que és interessant que aquí s'havia demanat que s'arregléssim les qüestions estilístiques només si eren necessàries o quan són imprescindibles, per tant si de la màquina si de la traducció automàtica ja surt gent de jovent sin treballos no és una traducció elegant però si us estan demanant una traducció, una apostedició ràpida o fer una cosa que s'entengui doncs podem deixar sin treballos i no canviar-ho per desempleada Això sempre depèn de les característiques de l'encarreg que arraveu També us dic que de vegades us heu d'estar disposats a aguantar-vos de vegades les ganes de corregir coses que no us agradaria però és que realment ni hi ha temps, no es canvien perquè no hi ha temps, no hi ha diners o simplement no hi ha la necessitat L'evaluació de la traducció automàtica havíem parlat d'això al principi quan s'ensenya l'esquema de procés Això és fonamental per saber si un motor està funcionant o no Hi ha diferents moments en el procés on es fa aquesta evaluació Els dos moments clau és evidentment al principi quan el motor és nou i s'ha d'aprovar, es fa un test, s'encarrega un posteditor que postediti un archiu, no ho sé, posem 2.000, 3.000 paraules és una quantitat raonable, ser no 200 no ho seria que consideren que no n'hi ha prou perquè hi ha una casuística de problemes gran Amb aquell archiu posteditat es fan dues coses Una, com us deia abans, aquest posteditor ha d'omplir una feedback template que és un document... sembla que surt aquí, sí, he posat l'exemple Aquest és molt senzill, potser més complexa, això depèn de cada projecte i de cada empresa però, bàsicament, el que se li demana és que posi no tots els exemples sinó una representació dels que trobi més greus i els errors que no li agradaria tornar-se a trobar perquè ha trigat molt a encorregir i, sobretot, això molt important se li demana que els classifiqui veieu aquí la columna, kind of change perquè aquesta classificació els sistemes automàtics que calculen les mètriques no la fan això és el que se li demana el posteditor També se li pot demanar que a comentaris posi classifiqui per nivell de gravetat això també ens dona una idea de la prioritat a l'hora de corregir o de reentrenar el motor i, evidentment, primer volem corregir el que els errors que sigui més greus Les mètriques, això és un altre tipus d'evaluació que és automàtic, com a part del sistema de traducció automàtica Nosaltres tenim també una interfícia que calcula el que anomenem distància d'edició La distància d'edició el que fa és comparar l'arxiu que originalment havia sortit del motor, del qual, sense cap canvi, amb l'arxiu que, finalment, s'ha posteditat s'ha de comparar arxius bilingües, el XLIF Llavors, genera una llista de canvis però el que ens interessa al final és quin percentatge global de canvis s'han fet L'estàndar és que tot el que estigui per sobre de 50% de canvis és bastant, és massa, diria Un motor que amb una prova tingui un 70% de distància d'edició això vol dir que alguna cosa no hem fet bé i que s'ha de tornar a reentrenar d'alguna manera alguna solució s'ha de trobar No podem pretendre posar projectes en marxa d'aquestes característiques, en canvi tot el que estigui per sota dels 50% amb esforç i altres cicles de tèsting es pot millorar i s'hi pot continuar treballant Aquí he posat tres exemples de mètriques la Blur, que és una mica diferent del que es comentava Compara també, el que passa és que compara de manera, igualment compara la traducció que surt del motor, però compara amb un model de traducció humana i el que et diu és com s'hi assembla O sigui, en aquest cas com més el sigui aquest número millor resultat serà En canvi, amb les altres dues mètriques la de World Edit Distance o Levenstein la de World és per paraula i la Levenstein és a nivell de caràcter Aquesta comparació és diferent, perquè el que fa és buscar errors Aquestes com més altes sigui la xifra, pitjor resultat serà És molt important saber en quin tipus de mètriques estem treballant Nosaltres treballem sobretot amb la Levenstein Tenim un sistema que calcula el número de caràcters i percentatge de caràcters modificats per segment després fa una sadística, una mitja i tenim un percentatge global de canvis de cada arxiu Per últim, una altra dada que ens dona informació molt important sobre si un motor ha funcionat bé o no és la velocitat Jo crec que s'ha de tenir una relació fluida i de confiança amb el posteditor quan tu li preguntes quant de temps has invertit i que el posteditor sigui honest i que no s'inventi les hores i que tinguin en compte que sigui un temps real que hi ha dedicat És una altra variable que ens pot donar informació interessant sobre si funciona o no Aquí he posat que, com a mínim, s'espera que hagi trigat la meitat Si no, com deíem abans, tot el que estigui per sobre del 50% de canvis és que alguna cosa no ha funcionat bé i s'ha de continuar treballant però moltes vegades la velocitat és superior que només en casos concrets, en combinacions que ja són difícils de tractar ens trobarem amb velocitats molt elevades Aquesta és la plantilla que ja us l'he ensenyat I ara ja sí, un tema capdent perquè ara ja crec que està bastant sobre rodes però us podeu imaginar que als inicis quan la gent, quan molts dels col·laboradors habituals es pensaven que els archius que havien de posteditat tenien mala qualitat ens oferien unes tarifes que eren impossibles i de vegades eren fins i tot com us deia abans més altes que les de traducció, això no tenia cap sentit però de mica en mica, a copia de treballar i de veure que amb la seva col·laboració, els sistemes poden millorar doncs també hem aconseguit arribar a un acord en els mètodes de pagament òbviament ha de ser just per tots els implicats per l'empresa que dona l'encarre i per la persona qui treballa i aquí és molt important això, que hi ha una relació de confiança si es paga per paraula és més fàcil de calcular perquè tu pots definir una tarifa inicialment i és fàcil de calcular perquè les paraules són les que són aquí no hi ha error i el posteditor les veu perquè sempre s'envia l'anàlisi de la traducció assistida que s'hagi fet servir normalment és la meitat de la tarifa de traducció com que es considera que la velocitat és el doble és més o menys l'estàndar, pot variar però aquest és més o menys l'estàndar i quan es paga per hora aquí ja cadascú fixa la seva tarifa però és important per nosaltres acordar una estimació i clar estimació la fem en base a treballes anteriors o a proves que haguem fet amb aquest motor perquè qualsevol desviació d'aquesta estimació té un impacte amb el cost que nosaltres havíem previst no només amb el cost sinó també amb el temps i el termini de lliurement és molt important que també quan s'està posteditant com que és una feina que de vegades poden sortir sorpreses cada cop menys perquè ja és més conegut i més controlat però és important que sempre, qualsevol desviació que us hi trobeu sempre la comuniqueu a la persona que us hagi enviat l'encàrrec i vaja, doncs espero que quan us hi trobeu els encàrrecs de postedició de mica en mica vagi canviant la vostra percepció si és que a lo millor no us heu sentit identificats en cap dels comentaris al minutet del principi i tant de bo però vaja, si és així doncs espero que això canviï de mica en mica perquè realment amb la traducció automàtica com us deia podem ser molt més competitius no només les empreses de serveis lingüístics sinó també vosaltres amb nosaltres podeu assumir moltíssima més feina perquè aneu molt més ràpids i amb la vostra col·laboració els motors es poden millorar i això repercuteix amb els propers encàrrecs vostres i a més vosaltres mateixos us sorprendreu dels resultats que de vegades són impressionants de vols que són, espero que al final podem canviar totes les pos i prejudicis inicials i millori en definitiva la percepció que tots tenim de la traducció automàtica i la postelició i només acabar amb aquesta frase que m'agrada sempre dir que la traducció és com el vi, que millora amb el temps i sobretot que millora amb la vostra col·laboració o sigui que vosaltres sempre envieu tot el fitbe que pugueu i intenteu intervenir el màxim amb qualsevol encàrrec de postedició perquè això repercuteixi també amb vosaltres i això és tot, o sigui moltes gràcies.