ssf logo blue Rötter - din källa för släktforskning driven av Sveriges Släktforskarförbund
ssf logo blue Rötter - din källa för släktforskning

Choose language:
Anbytarforum

Innehållet i inläggen på Anbytarforum omfattas inte av utgivningsbeviset för rotter.se

Författare Ämne: Transkribus  (läst 871 gånger)

2020-10-02, 00:24
läst 871 gånger

Utloggad Marie Axtelius

  • Anbytare *
  • Antal inlägg: 3
  • Senast inloggad: 2021-03-25, 14:13
    • Visa profil
Hej finns här någon som har erfarenhet av Transkribus? Jag har laddat ner det och kan använda deras övningstext. Men jag kan inte ladda ner ett eget dokument.
Någon som kan förklara för mig?
Jag har flera olika guider, men de är på tyska och på engelska. Jag kan inte tyska och jag har svårt att förstå även de engelska guiderna.

Tack på förhand

2022-06-09, 12:53
Svar #1

Utloggad Erik Stenhols

  • Anbytare ***
  • Antal inlägg: 104
  • Senast inloggad: 2022-07-03, 21:54
    • Visa profil
Jag hittade detta verktyg när jag försökte se om RA hade ett handskriftverktyg. Det verkar som att du får själv importera din bild av en text du vill jobba med och sedan manuellt lära programmet att tyda texter skrivna av samma präst eller häradsskrivare.

Om vi får detta projekt att fungera vore det guld värt. Att man då helst kategoriserar AIn för socken så att vi lättare kan välja rätt präst.

Tyvärr är det ju så att de flesta HTR är skrivna för engelska texter. Jag märkte att Transcribus kodade av en av mina bouppteckningar på tyska, så det finns lite egenheter i programmet.

2022-06-09, 15:02
Svar #2

Utloggad Jörgen Tollesson

  • Arkivguiden (www.arkivguiden.net)
  • Anbytare *****
  • Antal inlägg: 5397
  • Senast inloggad: 2022-07-03, 21:55
  • Bild: Båhusläns flagga
    • Visa profil
    • Arkivguiden med Arkivguidens Forum, Båhus Arkivguide och Göteborgs Arkivguide
Jag märkte att Transcribus kodade av en av mina bouppteckningar på tyska, så det finns lite egenheter i programmet.

Var bouppteckningen möjligen skriven med tysk/gotisk stil?  :)
Kontakt: http://www.arkivguiden.net/jts.shtml. | Ser gamla inlägg (före april 2016) underliga ut? Argumenterar jag mot mig själv? Saknas något i inläggen? Finns där något som inte borde vara där? Läs då om orsaken här: http://forum.arkivguiden.net/agf/disk/42626/62869.shtml#post16472.

2022-06-09, 15:25
Svar #3

Utloggad Erik Stenhols

  • Anbytare ***
  • Antal inlägg: 104
  • Senast inloggad: 2022-07-03, 21:54
    • Visa profil
Nja, jag vet inte om den var särskilt tysk-gotisk. Men bilden är lite avskuren för att jag använde den här på forumet förut.

Men jag vet inte hur vi skall kunna använda transcribus på ett korrekt sätt. AIn behöver ha 15 000 ord med en handstil som källa. Det betyder att vi behöver ha en häradsskrivare som har gjort 25 ingresser till bouppteckningarna. Kan man hitta det? Sedan behöver någon kunna transcribera dessa manuellt för att lära AIn hur man gör.


2022-06-09, 16:45
Svar #4

Utloggad Jörgen Tollesson

  • Arkivguiden (www.arkivguiden.net)
  • Anbytare *****
  • Antal inlägg: 5397
  • Senast inloggad: 2022-07-03, 21:55
  • Bild: Båhusläns flagga
    • Visa profil
    • Arkivguiden med Arkivguidens Forum, Båhus Arkivguide och Göteborgs Arkivguide
En kopia av bouppteckningen lämnades in till häradsrätten (eller rådhusrätten i städerna), men den upprättades inte av rätten eller någon annan myndighet. Det var (då liksom nu) arvingarna själva som skulle upprätta den. Ofta anlitade man en nämndeman eller en annan betrodd man i bygden, men i princip kunde vem som helst hålla i pennan.

Den här aktuella bouppteckningen är skriven med tysk/gotisk stil (den är ju från 1763). En del ord (namn, lånord, rubriker) är dock skrivna med latinska bokstäver, vilket inte var ovanligt.
Kontakt: http://www.arkivguiden.net/jts.shtml. | Ser gamla inlägg (före april 2016) underliga ut? Argumenterar jag mot mig själv? Saknas något i inläggen? Finns där något som inte borde vara där? Läs då om orsaken här: http://forum.arkivguiden.net/agf/disk/42626/62869.shtml#post16472.

2022-06-09, 17:05
Svar #5

Utloggad Erik Stenhols

  • Anbytare ***
  • Antal inlägg: 104
  • Senast inloggad: 2022-07-03, 21:54
    • Visa profil
Så frågan är då hur Transcribus och framför allt RA hade tänkt sig att vi skulle kunna använda denna tjänst. För den kräver att man hittar 15000 ord av samma handstil. Vi människor kan ju "fuska" och generalisera den gotiska stilen, men det kan inte ett neuralt nätverk göra.

2022-06-10, 09:57
Svar #6

Utloggad Kalle Birgersson

  • Anbytare *****
  • Antal inlägg: 3707
  • Senast inloggad: 2022-07-03, 23:31
    • Visa profil
Kolla i domböcker och mantalslängder om samma skribent kan ha varit där, det är väl inte omöjligt. Då kan man snabbt komma upp i 15.000 ord.

2022-06-10, 10:30
Svar #7

Utloggad Erik Stenhols

  • Anbytare ***
  • Antal inlägg: 104
  • Senast inloggad: 2022-07-03, 21:54
    • Visa profil
Det skulle man ju kunna göra. Tack för förslaget. Jag är också sugen på att vet hur långt RA kom i sitt projekt innan de släppte verktyget publikt. Vilka dokument som de själva har transkriberat. Hittar inte något konkret vad de har gjort.

2022-06-10, 11:30
Svar #8

Utloggad KG Hammarlund

  • Anbytare ****
  • Antal inlägg: 924
  • Senast inloggad: 2022-07-03, 17:43
    • Visa profil
Det skulle man ju kunna göra. Tack för förslaget. Jag är också sugen på att vet hur långt RA kom i sitt projekt innan de släppte verktyget publikt. Vilka dokument som de själva har transkriberat. Hittar inte något konkret vad de har gjort.

Här hittar du lite info:
https://sok.riksarkivet.se/htr

Ett annat exempel:
http://fornskrift.se/transkribus-2-2/

2022-06-12, 21:08
Svar #9

Utloggad Ulf Berggren

  • Anbytare *****
  • Antal inlägg: 3603
  • Senast inloggad: 2022-07-03, 14:11
    • Visa profil
    • www.stacken.kth.se/~ulfb/genealogi.html
Erik Stenhols!
Jag vet inte var du ha fått det ifrån att 15000 ord sv samma skribent skulle krävas. Och du verkar ha missförstått hur Transkribus används.
Det används i olika projekt, där många hjälps åt att lära programmet texter från en speciell typ av källa, lämpligen att man använder sidor av olika skribenter som underlag. Det är inte tänkt för en privatperson för att tolka ett enskilt dokument.
Förutom Riksarkivets projekt enligt ovan har Stockholms Stadsarkiv använt det för kämnärsrättsdomböcker för Stockholm. Och Riksarkivet har ett nytt projekt där olika typer av domböcker ingår och som jag själv är involverad i.
Ulf Berggren

2022-06-12, 23:34
Svar #10

Utloggad Erik Stenhols

  • Anbytare ***
  • Antal inlägg: 104
  • Senast inloggad: 2022-07-03, 21:54
    • Visa profil
Erik Stenhols!
Jag vet inte var du ha fått det ifrån att 15000 ord sv samma skribent skulle krävas. Och du verkar ha missförstått hur Transkribus används.
Det används i olika projekt, där många hjälps åt att lära programmet texter från en speciell typ av källa, lämpligen att man använder sidor av olika skribenter som underlag. Det är inte tänkt för en privatperson för att tolka ett enskilt dokument.
Förutom Riksarkivets projekt enligt ovan har Stockholms Stadsarkiv använt det för kämnärsrättsdomböcker för Stockholm. Och Riksarkivet har ett nytt projekt där olika typer av domböcker ingår och som jag själv är involverad i.

Ulf Berggren!
(Hej, använder vi utropstecken på det viset nu?)

Transkribus stadgar att det måste ta 5000-15000 ord för att få AIn att lära sig:
Citera
You will need between 25 and 75 pages of manual transcription to get started.

En AI är i det här fallet ett tensornätverk som närmast skall efterlikna en människas neurala nätverk. Den kräver att du måste använda ett antal iterationer per grafem eller ordbild för att få nätverket att lära sig (baserat på ett belönings- och bestraffningssystem, 1,-1, där varje rätt tolkning ger 1, varje fel ger -1). Ju fler tolkningar nätverket gör desto säkrare blir det att "gissa" för den går på den senaste tolkningen med flest belöningspoäng. Som programmet ser ut just nu använder de tolkningar av ordbilder och inte grafem, vilket är rätt intressant i sig. Steg två i träningen blir sedan att använda olika handstilar för att se om AIn kan generalisera nog för att kunna transkribera texten oavsett skribent.

Eftersom att vi har med handskriven text att göra, dessutom skrivstil och speciell inkonsekvent använda allografer, krävs det således runt 5000 ord från samma handstil för att ett naivt nätverk skall kunna lära sig. Oavsett vilken typ av neuralt nätverk man använder är inte nätverket ett centralt nervsystem. Därav kan inte nätverket generalisera på det sätt som vi människor kan, vilket märktes när den transkriberade en bouppteckning till tyska. Vi människor har ju också svårt att tolka t.ex. olika sätt folk skriver h på.

Därav ställde jag frågan hur RA hade hittat tillräckligt mycket med exemplar för att kunna köra några tusen iterationer per grafem/ordbild. Du svarade således att de har använt olika projekt från både SSA och RA, vilket var det svar jag ville få.

Givetvis skall privatpersoner kunna använda AIn då tjänsten är öppen för alla. Varför ska inte privatpersoner kunna hjälpa till att transkribera? Som en person som bla. är intresserad av just tidigt läsavkodning i barns tidiga år (dvs läsinlärning) är det väldigt intressant att också kunna lära om sig och även få bidra till gemenskapen när man ändå sitter och lär sig läsa genom sin egen släktforskning.

Jag tackar för din expertis! Som vanligt får man kvalitativ hjälp på detta forum. Samtidigt görs ett försök att få igång detta forum igen genom lite mer diskussion än bara läshjälp av källor.

Tack för svaret!


Innehållet i inläggen på Anbytarforum omfattas inte av utgivningsbeviset för rotter.se


Annonser





Marknaden

elgenstierna utan-bakgrund 270pxKöp och Sälj

Här kan du köpa eller sälja vidare böcker och andra produkter som är släktforskaren till hjälp.

Se de senast inlagda annonserna