Konferenca Semantic Web in Libraries (SWIB20)

Od 23. do 27. novembra 2020 je prek spleta potekala dvanajsta mednarodna konferenca SWIB20. Konference se je udeležilo 740 posameznikov iz 57 držav. Glavna tema konference so bili (angl.) linked open data (LOD), kar prevajamo kot povezani odprti podatki. Predavanja so se navezovala predvsem na deljenje in povezovanje podatkov ter na orodja in programsko opremo, ki nam to omogočata. Medtem ko so ostale dni potekala predavanja in razprave, je bil drugi dan rezerviran za izvedbo delavnic, ki so potekale vzporedno. V eni od teh smo se na kratko seznanili s SkoHub, ki predstavlja svojstven pristop k iskanju vsebin na spletu. Pokazali so nam objavo geslovnika s shemo SKOS (Simple Knowledge Organization System) in konfiguracijo spletne forme za kreiranje strukturiranih metapodatkov.

Vsebinsko bi konferenco lahko strnili na pet bistvenih točk, s katerimi se srečujemo pri vprašanjih in dilemah povezanih podatkov: sodelovanje, definiranje, avtomatiziranje, pridobivanje in primerjanje ter pretvarjanje (konverzije). V nadaljevanju sem na kratko povzel nekaj predavanj, ki so bila po mojem mnenju najbolj zanimiva.

Sodelovanje

Digitalni minister za družbene inovacije na Tajvanu Audrey Tang je predstavil razplet dogodkov in njihovo izkušnjo ob pojavu pandemije. Prikazal je, kako so v sodelovanju med državnimi ustanovami in civilno sfero uspeli v nekaj korakih pripraviti izredno dobro delujočo in uporabno aplikacijo oziroma zemljevid, ki prikazuje zaloge zaščitnih obraznih mask. Povedal je, da je sprva začel ta zemljevid izdelovati posameznik, ki je opazil, da bi bila stvar v obdobju pandemije zelo koristna. Z vključitvijo različnih deležnikov so izdelali zemljevid, ki uporabnikom prikaže zalogo zaščitnih mask v realnem času, po skoraj vseh prodajnih mestih.

Definiranje

Ricardo Eito-Brun (Universidad Carlos III de Madrid, Spain) je prikazal, kako so se soočili s težavami, ki nastajajo zaradi pomanjkanja uporabe dobro definiranih geslovnikov in tezavrov pri vnosih podatkov v repozitorije. Težava je še bolj izrazita, kadar želimo združiti različne repozitorije. Zadali so si nalogo, da bi avtomatizirano vpisali gesla iz obstoječih tezavrov v obstoječe zapise v repozitorijih španskih univerz. S tem bi dosegli izboljšano iskanje po zapisih z dodatnimi zmožnostmi prikaza sorodnih, širših in ožjih terminov in s tem uporabnikom ponudili boljše iskanje. V postopku avtomatizacije so uporabili komercialno orodje PoolParty.

Avtomatiziranje

Osma Suominen iz Finske nacionalne knjižnice je predstavil projekt razvoja in implementacije avtomatiziranega predmetnega indeksiranja (Annif). Snovalci so najprej začrtali glavne smernice projekta, s katerim so želeli zgraditi sistem, ki bo:

  • večjezičen,
  • neodvisen od geslovnika indeksiranja,
  • podpiral različne algoritme predmetnega indeksiranja (predvsem strojne),
  • moral imeti CLI (angl. command line interface), spletni uporabniški vmesnik in REST API (ki bo omogočal integracijo v različne sisteme),
  • moral biti družbeno naravnan in odprto dostopen projekt (odprto-dostopna koda in spodbujanje drugih uporabnikov za uporabo in sporočanje povratnih informacij).

Z različnimi primerjavami so s procesi razvoja preverjali, kako dobro deluje avtomatizirano indeksiranje. Vzporedno z razvojem so gradili tudi skupnost, ki so ji ponudili vse informacije in predstavili delovanje. V ta namen je postavljena spletna stran annif.org z obrazcem za preverjanje delovanja. Na spletni strani so dosegljivi tudi video vodiči.

Govorec je v nadaljevanju ponazoril preprostost uporabe orodja Annif. Na primeru postopka oddaje diplomskega dela v repozitorij je poudaril, da se študentom s pomočjo Annif-a generira nabor predmetnih oznak, iz katerega lahko izberejo tiste, za katere menijo, da so primerne; dodajo pa lahko tudi svoje oznake. Na koncu je poudaril, da je dodeljevanje predmetnih oznak zahtevno in da med tem, ko ljudje pri tem delajo razumljive napake, lahko razni algoritmi delajo napake, ki so nam nerazumljive.

Anna Kasprzik (ZBW – Leibniz Information Centre for Economics, Germany) je predstavila razvoj prototipa avtomatskega predmetnega indeksiranja v knjižnici AutoSE. Želeli so razviti avtomatiziran sistem predmetnega indeksiranja za uporabo v knjižnicah, ki bi bil sposoben naprednega strojnega učenja in bi hkrati bil enostaven za vgradnjo v obstoječe procese dela. Dokaj hitro so spoznali, da bodo za razvoj potrebovali dodatne vire in posebna znanja ter da takšen razvoj zahteva svoj čas. Povedal nam je še, da sodelujejo tudi z razvijalci Annif-a in da za enkrat uporabljajo Annif kot osnovno ogrodje, za produkcijo pa razvijajo svojo kodo.

Pridobivanje in primerjanje

Eva Seidlmayer (ZB MED – Information Centre for Life Sciences, Germany) nam je predstavila postopek pridobivanja in primerjave podatkov o avtorjih znanstvenih publikacij iz podatkovne baze Wikidata, ki jih želijo kot metapodatke dodati v njihovo podatkovno bazo. Ugotovili so, da so znanstvene publikacije sicer zelo dobro zastopane in najdljive v Wikidata (95 % so jih lahko določili in pridobili podatke), vendar pa je zapisov za avtorje zelo malo (le 3 %). Ugotovili so, da avtorji oziroma osebe predstavljajo že na splošno zelo majhen delež podatkov v Wikidata in tudi, da v veliko primerih avtorji niso povezani z njihovimi deli. Da bi izboljšali osnovo za bibliografsko analizo, so z uporabo zbirke podatkov ORCID (Open Researcher and Contributor ID) vzpostavili potek dela (angl. workflow) za določanje ujemanja avtorjev in znanstvenih člankov. Predstavila je tudi, kako pridobijo podatke o publikacijah in njihovih avtorjih iz ORCID, kako izvedejo poizvedbe po Wikidata za obstoječe objekte, ki so prav tako v ORCID, in kako preverjajo medsebojno ujemanje. Pri tem so uporabili Orcboth in Wikidata API.

Jakob Voss (Verbundzentrale des GBV, Germany) je predstavil povezovanje vzajemnega knjižničnega kataloga K10plus s podatkovno bazo Wikidata. Za povezovanje zapisov knjižnih enot, ki so obstajali tako v Wikidata kot v njihovem vzajemnem katalogu so potrebovali skupne identifikatorje. Uporabili so standardno številko ISBN, s pomočjo katere so v zapise, vsebovane v Wikidata, vpisali povezavo do njihove strani. Zaradi velike količine podatkov so postopek avtomatizirali. To so storili s pomočjo Wikidata bot-a, za katerega so morali najprej ustvariti Wikidata račun, ga programirati, testirati, opisati kaj dela in pokazati, da ni zlonameren. Ko so opravili vse zahtevano, so lahko zaprosili za dodelitev statusa bot-a. Sedaj jim ta avtomatsko vpisuje povezave v Wikidata in vse, kar morajo storiti, je občasno preveriti, ali stvari delujejo, kot bi morale.

Huda Khan (Cornell University, United States of America) je predstavila nekaj možnosti vključevanja odprtih povezanih podatkov v spletne knjižnične kataloge, s čimer lahko dopolnimo iskanje in s tem izboljšamo uporabniško izkušnjo. Knjižnični katalogi so v osnovi zasnovani tako, da lahko po njih iščemo po znanih pojmih, kot so naslov, avtor ipd.

Iskanje so želeli izboljšati tako, da so za svoje entitete kataloga pridobili dodatne podatke, ki so na voljo v raznih bazah. Pri tem so se morali najprej odločiti, katere baze bi lahko bile primerne, nato pa še, kako bi te podatke vključili. Tako so recimo za avtorje, ki so vpisani v njihovem katalogu, poskušali pridobiti čim več spletnih naslovov, ki se nanašajo nanje, in s teh strani potem pridobiti podatke. Preverjali so baze, kot so WikiData, OCLC, LCSH, LCNAF idr. Uporabnikom so s tem lahko potem ponudili dodatne informacije o avtorjih, dodali so lahko sliko, zunanje povezave in jim s tem bolje predstaviti iskano osebo. Pri iskalnikih lahko k rezultatom iskanja dodajo povezane vsebine, ponudijo lahko iskalne predloge, ki se navezujejo na predmetne oznake iskanja (širše in ožje pojme), dodajo lahko tudi zunanje povezave (LCSH).

Predavateljica je tudi omenila, da so samodejni iskalni predlogi, ki se izpišejo ločeno po tipu (avtor, predmetna oznaka, kraj …), pod iskalno vrstico – ko začnemo z vnosom besedila. Tudi ti predlogi so lahko iz njihovega kataloga ali vsebine iz Wikidata. Kot smo lahko videli, so ti načini dodajanja odprtih povezanih podatkov za končne uporabnike lahko zelo uporabni, po drugi strani pa se lahko vprašamo, ali si vse te podatke tudi želimo objaviti. Podatki so lahko namreč pomanjkljivi, nepopolni ali pa celo sporni. Vprašanje je tudi, kako zagotoviti učinkovito iskanje in združevanje podatkov iz različnih baz ter kako zagotoviti njihovo posodabljanje.

Pretvarjanje (konverzija)

Jim Hahn (University of Pennsylvania, United States of America) je predstavil kratek vpogled v pretvorbo katalogov zapisov MARC v BIBFRAME/RDF povezane podatke. Večina metapodatkov v Share-VDE je trenutno pridobljena iz transformacij zapisov MARC. Pri teh transformacijah se pojavi potreba po določanju osnovnih enoličnih določil za združevanje v BIBFRAME-u. Določanje oziroma razločevanju entitet poteka predvsem s pomočjo zanesljivih opisnih podatkov založnikov. Na področju identifikacije ali določanja založniških entitet so osredotočeni na združevanje, razreševanje, ter ponovno uporabo ISBN številk in imen založnikov (MARC 21 podpolje 260b Name of publisher distributor), skupaj s predmetnimi oznakami (MARC 21 polje 650 Subject Added Entry), glavnimi (MARC 21 blok 1XX Main Entries) in dodatnimi vpisi (MARC 21 polje 710 Added Entry-Corporate Name). Vse te podatke uporabljajo kot smernice pri razvoju pravil rudarjenja s pomočjo algoritmov strojnega učenja.

Anna Lionetti (Casalini Libri, Fiesole, Italy) je v svoji predstavitvi izpostavila iniciativo Share-VDE, ki pretvori zapise MARC v RDF z uporabo geslovnika BIBFRAME. Obstoječe zapise MARC sodelujočih knjižnic pretvorijo v povezane podatke in jih pri tem dopolnijo z zunanjimi viri (kot so ISNI, VIAF) in identifikatorji Share-VDE. Pretvorjene podatke uskladijo in jih med seboj tudi združijo. Knjižnicam nato vrnejo obdelane in obogatene podatke, ki jih lahko uporabijo in vključijo v svoje sisteme. Pretvorjeni povezani podatki so objavljeni tudi na platformi www.share-vde.org. V naslednjem koraku bodo dodali orodje J.Cricket, s katerim bodo lahko njihovi uporabniki te povezane podatke tudi sami urejali. Z istim orodjem pa bodo v prihodnje poskušali tudi dodati identifikatorje Wikidata v zapise Share-VDE.

Prispevek pripravil: Stanislav Pavlič