NULL Skriv ut sidan - SV: Transkribus

Anbytarforum

Titel: SV: Transkribus
Skrivet av: Erik Stenhols skrivet 2022-06-12, 23:34
Erik Stenhols!
Jag vet inte var du ha fått det ifrån att 15000 ord sv samma skribent skulle krävas. Och du verkar ha missförstått hur Transkribus används.
Det används i olika projekt, där många hjälps åt att lära programmet texter från en speciell typ av källa, lämpligen att man använder sidor av olika skribenter som underlag. Det är inte tänkt för en privatperson för att tolka ett enskilt dokument.
Förutom Riksarkivets projekt enligt ovan har Stockholms Stadsarkiv använt det för kämnärsrättsdomböcker för Stockholm. Och Riksarkivet har ett nytt projekt där olika typer av domböcker ingår och som jag själv är involverad i.

Ulf Berggren!
(Hej, använder vi utropstecken på det viset nu?)

Transkribus stadgar att det måste ta 5000-15000 ord för att få AIn att lära sig:
Citera
You will need between 25 and 75 pages of manual transcription to get started.

En AI är i det här fallet ett tensornätverk som närmast skall efterlikna en människas neurala nätverk. Den kräver att du måste använda ett antal iterationer per grafem eller ordbild för att få nätverket att lära sig (baserat på ett belönings- och bestraffningssystem, 1,-1, där varje rätt tolkning ger 1, varje fel ger -1). Ju fler tolkningar nätverket gör desto säkrare blir det att "gissa" för den går på den senaste tolkningen med flest belöningspoäng. Som programmet ser ut just nu använder de tolkningar av ordbilder och inte grafem, vilket är rätt intressant i sig. Steg två i träningen blir sedan att använda olika handstilar för att se om AIn kan generalisera nog för att kunna transkribera texten oavsett skribent.

Eftersom att vi har med handskriven text att göra, dessutom skrivstil och speciell inkonsekvent använda allografer, krävs det således runt 5000 ord från samma handstil för att ett naivt nätverk skall kunna lära sig. Oavsett vilken typ av neuralt nätverk man använder är inte nätverket ett centralt nervsystem. Därav kan inte nätverket generalisera på det sätt som vi människor kan, vilket märktes när den transkriberade en bouppteckning till tyska. Vi människor har ju också svårt att tolka t.ex. olika sätt folk skriver h på.

Därav ställde jag frågan hur RA hade hittat tillräckligt mycket med exemplar för att kunna köra några tusen iterationer per grafem/ordbild. Du svarade således att de har använt olika projekt från både SSA och RA, vilket var det svar jag ville få.

Givetvis skall privatpersoner kunna använda AIn då tjänsten är öppen för alla. Varför ska inte privatpersoner kunna hjälpa till att transkribera? Som en person som bla. är intresserad av just tidigt läsavkodning i barns tidiga år (dvs läsinlärning) är det väldigt intressant att också kunna lära om sig och även få bidra till gemenskapen när man ändå sitter och lär sig läsa genom sin egen släktforskning.

Jag tackar för din expertis! Som vanligt får man kvalitativ hjälp på detta forum. Samtidigt görs ett försök att få igång detta forum igen genom lite mer diskussion än bara läshjälp av källor.

Tack för svaret!