Anbytarforum

Metoder & hjälpmedel => Datorprogram (för släktforskning) => Datorprogram, webb och teknik => Datorprogram för släktforskning (allmänt) => Ämnet startat av: Marie Axtelius skrivet 2020-10-02, 00:24

Titel: Transkribus
Skrivet av: Marie Axtelius skrivet 2020-10-02, 00:24
Hej finns här någon som har erfarenhet av Transkribus? Jag har laddat ner det och kan använda deras övningstext. Men jag kan inte ladda ner ett eget dokument.
Någon som kan förklara för mig?
Jag har flera olika guider, men de är på tyska och på engelska. Jag kan inte tyska och jag har svårt att förstå även de engelska guiderna.

Tack på förhand
Titel: SV: Transkribus
Skrivet av: Erik Stenhols skrivet 2022-06-09, 12:53
Jag hittade detta verktyg när jag försökte se om RA hade ett handskriftverktyg. Det verkar som att du får själv importera din bild av en text du vill jobba med och sedan manuellt lära programmet att tyda texter skrivna av samma präst eller häradsskrivare.

Om vi får detta projekt att fungera vore det guld värt. Att man då helst kategoriserar AIn för socken så att vi lättare kan välja rätt präst.

Tyvärr är det ju så att de flesta HTR är skrivna för engelska texter. Jag märkte att Transcribus kodade av en av mina bouppteckningar på tyska, så det finns lite egenheter i programmet.
Titel: SV: Transkribus
Skrivet av: Jörgen Tollesson skrivet 2022-06-09, 15:02
Jag märkte att Transcribus kodade av en av mina bouppteckningar på tyska, så det finns lite egenheter i programmet.

Var bouppteckningen möjligen skriven med tysk/gotisk stil?  :)
Titel: SV: Transkribus
Skrivet av: Erik Stenhols skrivet 2022-06-09, 15:25
Nja, jag vet inte om den var särskilt tysk-gotisk. Men bilden är lite avskuren för att jag använde den här på forumet förut.

Men jag vet inte hur vi skall kunna använda transcribus på ett korrekt sätt. AIn behöver ha 15 000 ord med en handstil som källa. Det betyder att vi behöver ha en häradsskrivare som har gjort 25 ingresser till bouppteckningarna. Kan man hitta det? Sedan behöver någon kunna transcribera dessa manuellt för att lära AIn hur man gör.

Titel: SV: Transkribus
Skrivet av: Jörgen Tollesson skrivet 2022-06-09, 16:45
En kopia av bouppteckningen lämnades in till häradsrätten (eller rådhusrätten i städerna), men den upprättades inte av rätten eller någon annan myndighet. Det var (då liksom nu) arvingarna själva som skulle upprätta den. Ofta anlitade man en nämndeman eller en annan betrodd man i bygden, men i princip kunde vem som helst hålla i pennan.

Den här aktuella bouppteckningen är skriven med tysk/gotisk stil (den är ju från 1763). En del ord (namn, lånord, rubriker) är dock skrivna med latinska bokstäver, vilket inte var ovanligt.
Titel: SV: Transkribus
Skrivet av: Erik Stenhols skrivet 2022-06-09, 17:05
Så frågan är då hur Transcribus och framför allt RA hade tänkt sig att vi skulle kunna använda denna tjänst. För den kräver att man hittar 15000 ord av samma handstil. Vi människor kan ju "fuska" och generalisera den gotiska stilen, men det kan inte ett neuralt nätverk göra.
Titel: SV: Transkribus
Skrivet av: Kalle Birgersson skrivet 2022-06-10, 09:57
Kolla i domböcker och mantalslängder om samma skribent kan ha varit där, det är väl inte omöjligt. Då kan man snabbt komma upp i 15.000 ord.
Titel: SV: Transkribus
Skrivet av: Erik Stenhols skrivet 2022-06-10, 10:30
Det skulle man ju kunna göra. Tack för förslaget. Jag är också sugen på att vet hur långt RA kom i sitt projekt innan de släppte verktyget publikt. Vilka dokument som de själva har transkriberat. Hittar inte något konkret vad de har gjort.
Titel: SV: Transkribus
Skrivet av: KG Hammarlund skrivet 2022-06-10, 11:30
Det skulle man ju kunna göra. Tack för förslaget. Jag är också sugen på att vet hur långt RA kom i sitt projekt innan de släppte verktyget publikt. Vilka dokument som de själva har transkriberat. Hittar inte något konkret vad de har gjort.

Här hittar du lite info:
https://sok.riksarkivet.se/htr

Ett annat exempel:
http://fornskrift.se/transkribus-2-2/
Titel: SV: Transkribus
Skrivet av: Ulf Berggren skrivet 2022-06-12, 21:08
Erik Stenhols!
Jag vet inte var du ha fått det ifrån att 15000 ord sv samma skribent skulle krävas. Och du verkar ha missförstått hur Transkribus används.
Det används i olika projekt, där många hjälps åt att lära programmet texter från en speciell typ av källa, lämpligen att man använder sidor av olika skribenter som underlag. Det är inte tänkt för en privatperson för att tolka ett enskilt dokument.
Förutom Riksarkivets projekt enligt ovan har Stockholms Stadsarkiv använt det för kämnärsrättsdomböcker för Stockholm. Och Riksarkivet har ett nytt projekt där olika typer av domböcker ingår och som jag själv är involverad i.
Titel: SV: Transkribus
Skrivet av: Erik Stenhols skrivet 2022-06-12, 23:34
Erik Stenhols!
Jag vet inte var du ha fått det ifrån att 15000 ord sv samma skribent skulle krävas. Och du verkar ha missförstått hur Transkribus används.
Det används i olika projekt, där många hjälps åt att lära programmet texter från en speciell typ av källa, lämpligen att man använder sidor av olika skribenter som underlag. Det är inte tänkt för en privatperson för att tolka ett enskilt dokument.
Förutom Riksarkivets projekt enligt ovan har Stockholms Stadsarkiv använt det för kämnärsrättsdomböcker för Stockholm. Och Riksarkivet har ett nytt projekt där olika typer av domböcker ingår och som jag själv är involverad i.

Ulf Berggren!
(Hej, använder vi utropstecken på det viset nu?)

Transkribus stadgar att det måste ta 5000-15000 ord för att få AIn att lära sig:
Citera
You will need between 25 and 75 pages of manual transcription to get started.

En AI är i det här fallet ett tensornätverk som närmast skall efterlikna en människas neurala nätverk. Den kräver att du måste använda ett antal iterationer per grafem eller ordbild för att få nätverket att lära sig (baserat på ett belönings- och bestraffningssystem, 1,-1, där varje rätt tolkning ger 1, varje fel ger -1). Ju fler tolkningar nätverket gör desto säkrare blir det att "gissa" för den går på den senaste tolkningen med flest belöningspoäng. Som programmet ser ut just nu använder de tolkningar av ordbilder och inte grafem, vilket är rätt intressant i sig. Steg två i träningen blir sedan att använda olika handstilar för att se om AIn kan generalisera nog för att kunna transkribera texten oavsett skribent.

Eftersom att vi har med handskriven text att göra, dessutom skrivstil och speciell inkonsekvent använda allografer, krävs det således runt 5000 ord från samma handstil för att ett naivt nätverk skall kunna lära sig. Oavsett vilken typ av neuralt nätverk man använder är inte nätverket ett centralt nervsystem. Därav kan inte nätverket generalisera på det sätt som vi människor kan, vilket märktes när den transkriberade en bouppteckning till tyska. Vi människor har ju också svårt att tolka t.ex. olika sätt folk skriver h på.

Därav ställde jag frågan hur RA hade hittat tillräckligt mycket med exemplar för att kunna köra några tusen iterationer per grafem/ordbild. Du svarade således att de har använt olika projekt från både SSA och RA, vilket var det svar jag ville få.

Givetvis skall privatpersoner kunna använda AIn då tjänsten är öppen för alla. Varför ska inte privatpersoner kunna hjälpa till att transkribera? Som en person som bla. är intresserad av just tidigt läsavkodning i barns tidiga år (dvs läsinlärning) är det väldigt intressant att också kunna lära om sig och även få bidra till gemenskapen när man ändå sitter och lär sig läsa genom sin egen släktforskning.

Jag tackar för din expertis! Som vanligt får man kvalitativ hjälp på detta forum. Samtidigt görs ett försök att få igång detta forum igen genom lite mer diskussion än bara läshjälp av källor.

Tack för svaret!

Titel: SV: Transkribus
Skrivet av: Paul Jönsson skrivet 2024-02-25, 17:31
Har använt Transkribus en kort tid, var inte så imponerad. Har istället använt Google drive för att ladda upp textbilden och sedan öppnat den i google dokument. Var mer imponerad hur mycket bättre det fungerade. Fick redigera texten betydligt mindre.