 En we hebben de afgelopen jaren hard gewerkt aan het project IJsberg gezichtbaar maken. En we hebben daarin twee miljoen scans onsloten met automatische handschrifterkening. We hebben archiefen, nationaal archief geselikteerd, maar ook archieven uit de provincie. Rijksarchieven. Voor de nationaal archief hebben Fr. Oost-Indische Compagnie materiaal gedaan. En de Rijksarchieven hebben meegedaan met 19e eeuws noterieelarchief. En de volgende slide laat zien wat dat ongeveer voor poolet aan handschiften geeft. Daar heb je natuurlijk wel wat Ground Truth ver nodig om daar verzoedelijke automatische handschrifterkening op los te laten. Dus de volgende slide laat ons transcriptie-team zien. En die hebben ongeveer 6000 pagina's overgeklopt of ingeklopt om daar de machine-metertrainer. En dat kwam een redelijk goed model uit. Volgende slide met een fouten marge van ongeveer 6%. Wij waren er heel tevreden mee. Dus met dit model hebben we die 2 miljoen scans getranscribeerd. Maar omdat je er dan nog niet bent, je wilt natuurlijk ook iets hebben om het materiaal te kunnen laten zien. We hebben een website laten maken, de volgende slide. We hebben een website dat bestaat uit een front- en een back-end. Twee verschillende leveranciers hebben daarvoor gebruikt om de tooling zo generiek mogelijk te maken. En ook voor andere inzetbaar. Je kan in zoek in transcripties punten echt zoeken op de transcripties. Volgende slide. En aan de linker kant zie je allerlei filters die je kan toepassen. En er zit ook een query-expansie waarmee je ook de zoekvraag kan uitbreiden met historische synonima. Historische varianten van de woorden. En wat je dan natuurlijk heel mooi hebt is dat je dan een zoekresultaat hebt. En als je dat opklikt, dat je zoals we natuurlijk willen de scan en de transcriptie naast elkaar presenteren. Dat ziet heel mooi uit. En in de back-end van die website zit allerlei AI. We hebben entiteiten herkennen die je hier onderstreept in verschillende variaties. Afhankelijk of het een persoon na een plaatsname of een tijdstip is. En ook het zoekwoord wordt natuurlijk gehighlight. Als je bovenaan kijkt, dan zie je een scan, transcriptie, verrijkt de scan. Dan kan je bepinkjes zetten. We willen ook handschriftherkenning inbedden in het Nationaal Archief. Want we merken dat er ontzettend veel toegevoegde waarde is voor onze klanten om transcripties te hebben om in archieven te kunnen zoeken. We hebben zoveel positieve reacties ontvangen aan de aanleiding van de publicatie van deze resultaten. En mijn uitgangspunt is dat we dan ook alles wat we tot nu toe hebben gedigitaliseerd. Dat is ongeveer 40 miljoen scans willen verwerken in zo'n pijplijn. Bij het Zatssagief Amsterdam werken we altijd een beetje met grote hoeveelheden en daarop. En in de praktijk willen we het liefst de hele grote archieven die een soort zwarte gaten zijn en heel slecht toegankelijk willen. Daar willen we HTR op inzetten. En dat hebben we in de afgelopen jaren vooral gedaan op het neutreel archief. 16 en 18 in de eeuw. En wat dat messier is aan het discord, doen we dat ook op 1920e eeuwse historische bouwargiefen. En daar hebben we voor het eerst ook met structuren te maken met tabellen. Sinds 2018 verzorgen we Ground Truth met wilvuldvrijwilligers. We hebben tussen 20.000 scans Ground Truth, dus een beetje van 17.00 en 18.00. Het doel van ons, ik zou bedoelen het een beetje met de botterbel. Wij zetten eigenlijk in op de zindbaarheid. Voeltext door zoekbaarheid. En dat betekent eigenlijk dat wij misschien met minder kwaliteit genoegen nemen, maar dan als je een 100% perfecte transcriptie wil, omdat je daar een editie van wil maken. Onze grote strategie is om maar zoveel mogelijk variatie in transcripties te gooien en zo dicht mogelijk bij een soort algemeen beschaafd benelukse model te komen. Zelfs een 20.000 scans Ground Truth, daar hebben we nu. Daarvan hebben we specifieke modellen gemaakt van handschriften, maar die steeds weer gecombineerd tot algemene modellen. Bonjour à tout. Je m'appel Wouter Havertals. Aujourd'hui, de modellen zijn gesproken in verschillende Europese bibliotheken. De vorige analyse ontwikkeld dat 13 copyisten in de fabrikatie van de modellen waren. Vooral, intensieve collaboraties waren tussen de verschillende copyisten. En deze collaboraties zijn heel vreemde, want de scherpe modellen praktiken een leven van meditatieve silencen. Door deze silencen, de modellen hadden te ontwikkelen de strategie en de creatieve solutionen om te communiceren tussen de modellen. Iedereen van hun conversaties hadden ze inregistreerd, onder de vorm van een marginale notatie in hun manuscreëer. Dat geeft ons een moderne behoorlijk plek om een koedeuil over de schrijvenpulver te ontwikkelen, terwijl hij de teksten negociëert. De principale vraag van onze project is hoe de moeilijke collaboraties werken. Hoe werken ze samen in de praktijk? Wat schrijven ze samen? En hoe speelden ze hem? Als we zo intensief samen werken, hebben ze hun ortografische profiel geïnflict geïnflict over de tijd, of hun gebruik van de aandrijvings? We hebben ook examinerd dat we de manuscreëer kunnen klassen met een chronologische ordel op basis van de vervolking van de schrijving. Om te vragen, hebben we de materiaal van reiswerking nodig. En dat is waar we de reiswerking inleidt. We gebruiken de reiswerking van de manuscreëer. We produceren de diplomatische reiswerking die we kunnen reiswerken en analyseren. Na de reiswerking van de linguistische reiswerking, ons objectief is ook reconstitueren virtueel de Bibliotheek Medievale du Monaster om alle manuscreëer op de triple IF met een kouch tekstueel. Mijn onderzoek maakt eigenlijk deel uit van een grotere project aan de oude land dat de handgegeven studentenotities van de faculteitrechten, de faculteittheologie en het Jezuite college van de oude universiteit van leuvenonderzoek namelijk uit de zestiende en zeventiende eeuw. Die manuscreepten zijn een grotendeels gedigitaliseerd via het platform Magister Tixit van Keileuwe Libraries en vanuit daar werken we met de transcribespond transcreepsies te maken van die Latijnse studentenotities. Dat er dus heel veel verschillende manuscreepten over verschillende onderwerpen gescheerd door verschillende handen zijn. Nu hebben we al drie modellen gemaakt ondertussen. We zijn heel voorzichtig begonnen. Het eerste model bevatten slechts transcripsies van één manuscreep van één hand. Maar we zien dus dat in de volgende modellen waarbij we verschillende handen hebben toegevoegd aan het model dat die modellen ook verbeteren maar niet gezien handschriften. Ons project heet Kwanakling-Navoti, New Knowledge in the Low Countries. Dat ik samen leid met Judith Polman van de Universiteit Leiden. En we doen onderzoek naar de toeeigening van kennis en ideeën en technologie bij een publiek van non-specialist zoals we het noemen namelijk de chronicschrijvers die meestal worden tot de hogere middenklasse. Nou, we doen dit door een corpus samen te stellen van 320 Nederlandstalige chronica uit Nederland en België na ongeveer 320, het aantal groeit. We hebben scans verzameld uit 43 archieven en bibliotheken in Nederland en België voor een deel gescans met een scantentje. Andere zijn juist door de archieven aan ons gegeven over een periode van 350 jaar. Wat hebben we gedaan? We hebben niet alleen getranscribeerd en HTR gebruikt daarbij maar ook geannoteerd pagina nummers, datums, locatie, persoonsnamen en een aantal meer structurele features en ook hebben we gekeken naar wat de informatie waren van chronicschrijvers en wat het type medium was waar ze gebruik van maakte en wie dan de ontvanger was van de bol. Waar we nu heel erg mee bezig zijn is natuurlijk de post-processing van de data. Een groot deel van de chronica is inmiddels klaar. Het anoteren gaat nog wel door. Maar het verwerken van de data voor onderzoek vraagt nog een heleboel stappen. Een project waar ik wat ik vertegenwoordig is in de publiek gaat over het beschikbaarstellen uitgegeven online van de resoluties van de Statengeneraal tussen 1576 en 1796 maar gelijk doorgaan wat doen we eigenlijk met de teksten. We hebben een corpus dat gedeeltelijk hand geschreven is en gedeeltelijk gedrukt. Op het scherm zie je een voorbeeld van de resolutiepagina die gedrukt is. Dat betekent niet dat we niks met de handgeschreven tekst doen maar die laat ik ze ook nog even zien maar meer om even aan te geven wat we doen met de teksten als we eenmaal een machine leesbaar corpus hebben. Bedoeling is om het zo veel mogelijk doorzoekbaar te maken en dat gaat dan uit boven simpel zoeken op woorden wat wij proberen te doen is het zo gestructureerd mogelijk dat we daar aan bieden van de tekst. Daarbij maken we gebruik van een structuur die aanwezig is in de resoluties en daar zie je allerlei blokjes in de tekst staan en die geven eigenlijk de structuur aan waarin de resoluties zijn opgedeeld dus zittingsdagen resoluties en zelfs binnen die resoluties verschillende typenresoluties en de manier waarop dat gedaan wordt onder andere door een fusie search and match algoritme dat Marijn heeft ontwikkeld en daarbij maken we ook gebruik behalve de structuur in de layout die de resoluties bieden aan een structuur in de tekst zelf want die was erg standardiseerd die heeft nog even een voorbeeld uit de handgezeven resoluties die heeft in tegenstelling tot de gedrukt ook marginale jaan die zegt ook het onderwerp van de resoluties het heet game of thrones waarbij je kijkt naar niet die vorsten de thrones maar juist naar republieken en hoe die hun regelgeving organiseerden dus mijn bronnen die staan uit wet teksten of enorme uit die tijd zowel handgeschreven als gedrukt voor Gelderland, Holland en Bern in Zwitserland en uiteraard maak ik daar transcripties van maar wat ik vervolgens doe is dat ik ook wil automatisch meta-dateren of semi-automatisch wil meta-dateren op basis van een vaste lijst of min of meer vaste lijst van onderwerpen waar de regels over gingen dit is een lijst die al eerder in Frankvoort bij het Max Planck Instituut voor rechtsgeschiedenis en rechtstheorie is ontwikkeld en wat dat feitelijk inhoudt wil ik doen door middel van het gebruik van de Fincentool ANIF is dat ik een dataset heb waarbij aangegeven wordt welke onderwerpen er in de text voorkomen en die vervolgens koppel aan de full text transcripties waarbij ik de computer laat leren welke begrippen er dus blijkbaar gekoppeld worden aan de teksten we hebben een zoekomgeving prototype zoekomgeving voor htr en verder ontwikkeld met de partijen die je hier ziet te vinden op archieven in beeld.nl en heel kort wat je daarmee kan wat hebben we gedaan binnen de htr hebben we een entity recognition gedaan om de namen van personen, locaties en datems te vinden en wat kan je er dan mee dat wilden we gebruiken in die zoekomgeving waar je hier wat impressies van ziet trouwens als je naar toe wilt dan kan je hier de naam en wachtwoord in toetsen de locaties vooral die hebben we ook verrijkt met andere bronnen zodat we die bijvoorbeeld wikidata zodat we daar ook ordinaten voor hebben en dat je niet alleen op keywords en filtering zoekt maar dat je ze ook kan plotten op kaarten hier impressie op een detailpagina met geplot de locaties die ook te mappen zijn metadata en de htr uiteraard waarin keywords gehighlight zijn hier het voorbeeld van de lange straat ook gekoppeld en de beeldmank van de archieve zodat in dit geval hier van de lange straat je ook de resultaten ziet van wat het stadsarchief Amsterdam over deze locatie heeft