Ivančica Sabadin, Jan Cotič

Prepoznavanje z roko napisanega besedila s pomočjo umetne inteligence

12. 04. 2023, 12:04 , posodobljeno:

Tehnologija optičnega prepoznavanja znakov, simbolov in drugih pismenk ali OCR (angl. Optical Character Recognition) je bila poznana že pred uporabo računalnikov. Prvi poskus zaznavanja vsebine slike je leta 1928 opravil avstrijski pionir informacijske tehnologije Gustav Tauschek z izumom magnetnega bobna, čigar potencial te tehnologije izkoristijo konec 40. let prejšnjega stoletja kot pripomoček za branje besedila slepim in slabovidnim.

Odsek elektronske različice dokumenta istrskega prefekta Angela Calafatija iz leta 1808, ko je odobril ustanovitev koprske knjižnice.

Pomembnejši prelom za razmah tehnologije optičnega branja ročno in strojno napisanega besedila se zgodi leta 1960, ko ga v svoj delovni proces implementirajo poštna podjetja, kot so ameriški USPS United States Postal Service, angleški The Royal Mail in nemški Deutsche Post. Širši populaciji pa se ta tehnologija približa v devetdesetih letih prejšnjega stoletja, ko so se začeli uporabljati osebni digitalni asistenti (angl. PDA - Personal Digital Assistant) in vse večja uporaba računalnikov ter pametnih mobilnih naprav.

V arhivih je zadnjih nekaj let vse večji poudarek na digitalizaciji, ki omogoča lažjo, hitrejšo dostopnost in preglednejšo uporabo arhivskega gradiva v elektronski različici. Slednja posledično omogoča tudi nadaljnjo zaščito izvirnikov pred zunanjimi vplivi nadaljnje rabe. Z izvedbo kvalitetnega procesa pretvorbe formata ne zadostuje zgolj optična preslikava oziroma sken gradiva, temveč je treba upoštevati potrebe uporabnika in kako digitalizirano gradivo najustrezneje približati uporabnikom. Na tem področju je ključnega pomena tehnologija OCR s poudarkom na prepoznavanju z roko napisanega besedila ali HTR (angl. Handwritten Text Recognition). Leta 2019 je bil ustanovljen READ-COOP SCE z nalogo razvoja platforme Transkribus, ki na podlagi umetne inteligence prepozna ročno in strojno napisana besedila ter omogoča iskanje znotraj posameznih dokumentov zapisanih v različnih tipografijah. Platforma omogoča več kot 100 javnih modelov za prepoznavanje različnih besedil in ponuja možnost izdelave lastnega modela, ki ga raziskovalec oziroma avtor ustvari na podlagi že obstoječih predlogov sorodnih jezikov.

Ob 600. obletnici koprskega statuta smo se v Pokrajinskem arhivu Koper odločili spojiti staro z novim. Z uporabo elektronskih različic posameznih odsekov koprskega in piranskega statuta ter drugih dokumentov, ki jih hranimo v Pokrajinskem arhivu Koper, smo se lotili preverjanja delovanja platforme Transkribus z namenom ugotoviti točnost in natančnost delovanja le-te. Predvideni cilj je ugotovitev, ali lahko orodje za samodejno prepoznavanje besedila dosega pričakovanja za vsesplošno rabo. Dobljeni rezultati transkripcije pete knjige koprskega statuta z leta 1668 so pokazali, da za orodje tovrstni tekst ni predstavljal večje problematike glede prepoznavanja besedila, saj je besedilo v izvirniku tiskano jasno, pregledno in dobro razvidno. Kljub temu je treba poudariti, da prepoznavanje besedila ni bilo brez napak. Platforma ali orodje še ni tako dovršeno, ki bi omogočalo samodejno ločevanje med seboj si podobnih zapisanih črk. Uporabljeni model Transkribus Print M1, ki na podlagi CER predvideva 2,2 odstotka odstopanja od resničnega pomena besedila, je na našem primeru napačno prepoznal 2,04 odstotka vsebine.

Samosvojo specifiko tipografije predstavljajo rokopisi, ki se med seboj razlikujejo predvsem po slogu in načinu pisanja avtorja besedila. V koprskem arhivu hranimo veliko dokumentov pisanih na roko, ki so neprecenljive vrednosti za razumevanje preteklosti in imajo trajen pomen za zgodovino. Eden teh je dokument istrskega prefekta Angela Calafatija z leta 1808, ki je odobril ustanovitev koprske knjižnice. Kljub temu, da gre za lažje berljiv dokument, je pri tem primeru odstotek odstopanja prepoznavanja besedila z orodjem Transkribus bistveno večji (12,75 odstotka). Uporabljeni modeli za prepoznavanje besedila mešajo posamezne črke in ponekod besede.

Transkribus nedvomno sodi med zanimivejša in pomembnejša raziskovalcem prijazna orodja za preučevanje pisne dediščine, ko je govora o prepletanju preteklosti s prihodnostjo. Treba pa je poudariti, da se mora program še “veliko naučiti”, saj gre za sistematičen in dolgoročen proces ustvarjanja ustreznih, natančnih in specifičnih modelov prepoznavanja besedila s strani stroke in poznavalcev tematike. Pomanjkljivost so še vedno manjkajoči modeli za npr. slovenski, italijanski in latinski jezik, medtem ko so drugi jeziki (npr. nemški, angleški itd.) iz različnih časovnih obdobij bistveno bolje zastopani.

IVANČICA SABADIN (informatik, Pokrajinski arhiv Koper) in JAN COTIČ (arhivist, Pokrajinski arhiv Koper)

na valovih znanja