Dvojniki zapisov za imena oseb v CONOR.SI

Med večjimi težavami CONOR.SI so dvojniki normativnih zapisov za imena oseb, tj. več normativnih zapisov za isto osebo. Zato smo v IZUM-u na osnovi seznama potencialnih dvojnikov izvedli aktivnost odkrivanja in razreševanja podvojenih normativnih zapisov za osebna imena, ki jo predstavljamo v tem prispevku.

A picture containing photo Description automatically generated

Normativni zapisi za osebna imena – seznam potencialnih dvojnikov

V IZUM-u štirikrat letno pripravimo Normativni zapisi za osebna imena – seznam potencialnih dvojnikov (v nadaljevanju Seznam) in ga objavimo na e-forumu Katalogizacija z normativno kontrolo, novico o tem pa objavimo na spletni strani COBISS.SI – Novice. Na seznam so vključeni ID-ji normativnih zapisov za osebe z enakim imenom, normativne točke dostopa in imena kreatorjev oz. redaktorjev normativnih zapisov. Normativne točke dostopa vsebujejo enak osnovni del točke dostopa, vsaj ena normativna točka pa je brez podatkov za razlikovanje (tabela 1).

CONOR.ID Točka dostopa
74478179 Wade, John E.
243919971 Wade, John E., lutkar
170295907 Wade, Laura
271482723 Wade, Laura, 1977-
223379555 Wade, Paul
89691747 Wade, Paul, 1961-
281736291 Wade, Robert
16787811 Wade, Robert, 1962-
272159075 Wade, Robert, ekonomist

Tabela 1: Izsek iz Seznama

Seznam je katalogizatorjem v pomoč pri odkrivanju in razreševanju dvojnikov normativnih zapisov za osebe in v pomoč pri odkrivanju oseb z enakim imenom, ki jih moramo med seboj razločiti. Če ugotovimo, da več zapisov z enakim osnovnim delom normativne točke dostopa opisuje isto osebo, obdržimo en zapis, preostale pa označimo za brisanje. Če pa zapisi z enakim osnovnim delom normativne točke dostopa, pri katerih je vsaj ena normativna točka brez podatkov za razlikovanje, opisujejo različne osebe, potem te zapise ustrezno uredimo in k normativni točki dodamo podatek za razlikovanje.

Zaradi obsežnosti seznama (npr. marca 2018 je bilo na seznamu več kot 80.000 zapisov) smo oblikovali in izvedli le aktivnost odkrivanja in razreševanja podvojenih normativnih zapisov.

Odkrivanje in razreševanje podvojenih normativnih zapisov

V IZUM-u smo od aprila 2018 do novembra 2019 na seznamu preverili 87.444 normativnih zapisov, da bi med njimi odkrili podvojene zapise.

Startup, Wall, Painter, House Painter, Start Up

Zapise s seznama smo v iskalniku COBISS3/Katalogizacije izpisali v uporabniško definiranem prikazu rezultatov iskanja. Ta prikaz je vseboval normativno točko dostopa (polje 200 – Normativna točka dostopa – osebno ime), morebitni datum rojstva (polje 190 – Datum rojstva/začetka), morebitne biografske podatke (polje 830 – Splošna katalogizatorjeva opomba) in navedbo vira, v katerem je bil najden podatek o točki dostopa (polje 810 – Podatek je) (tabela 2).

Polje 200 Polje 190 Polje 830 Polje 810
Wade, Laura Bacterial and parasitic diseases / guest editor, Laura Wade. – 2009
Wade, Laura, 1977- 1977 Pisateljica, scenaristka The Riot club [Videoposnetek] = Elitni klub / directed by Lone Scherfig. – 2015 / Laura Wade

Tabela 2: Izsek iz izpisa zapisov v prikazu, ki smo ga sami definirali

V zapisih z enakim osnovnim delom normativne točke dostopa (npr. v zapisih za Wade, Laura in Wade, Laura, 1977-) smo med seboj primerjali podatke iz polj 190 in 830. Če zaradi pomanjkljivih podatkov nismo mogli zanesljivo ugotoviti, ali izbrani zapisi opisujejo različne osebe ali ne, smo nadaljevali s primerjavo naslovov bibliografskih virov, navedenih v poljih 810. Če nismo mogli ugotoviti vsebine iz naslova vira, smo za te bibliografske vire poiskali bibliografske zapise v COBIB-u (iskalna zahteva je AU=Priimek, Ime*) ter med seboj primerjali predmetne oznake v bloku 6XX (vsebinski opis) in vrstilce UDK. Če je šlo za isto oz. sorodno vsebino, smo domnevali, da je vsa dela napisala ista oseba in da je eden izmed normativnih zapisov za enako osebno ime verjetno dvojnik. Svojo domnevo smo preverili v različnih referenčnih virih, kot so VIAF, ISNI, ORCID, nacionalne normativne baze, katalogi in bibliografije nacionalnih knjižnic (do ISNI, ORCID ter do nekaterih knjižnic in normativnih baz lahko dostopamo preko VIAF), Wikipedija (do nekaterih gesel o osebi je možen dostop preko VIAF), spletna stran ustanove, v kateri je oseba zaposlena, osebna spletna stran osebe ipd.

Če smo potrdili domnevo, da več zapisov opisuje isto osebo, smo obvestili tistega katalogizatorja, ki je kreiral zapis najnovejšega datuma. Priporočali smo, naj preveri izbrane zapise in presodi, ali gre za dvojnike, ter po potrebi enega izmed zapisov označi za izbrisanega. Če pa ne gre za podvojene zapise, potem naj zapise ustrezno popravi in dopolni. V pomoč smo navedli referenčne vire, ki smo jih pregledali mi.

V nekaterih primerih smo zapise sami označili za izbrisane.

V COBIB-u smo poiskali tudi bibliografske zapise za dela, povezana z izbranim osebnim imenom. Če smo ugotovili, da so v bibliografski bazi bibliografski zapisi pomotoma povezani z napačnim normativnim zapisom, smo o tem prav tako obvestili katalogizatorja in predlagali prevezavo bibliografskih zapisov na pravilni normativni zapis.

Startup, Search, Name, Domain, Website, Blog, Brand

Rezultati

Izmed 87.444 zapisov v Seznamu smo za 522 zapisov sklepali, da gre za podvojene zapise. Za 343 zapisov smo poslali obvestila katalogizatorjem, naj preverijo, ali gre za dvojnike. 179 zapisov smo sami označili za izbrisane.

Odziv katalogizatorjev smo preverili od januarja do februarja 2020. Izmed 343 zapisov so katalogizatorji označili za izbrisane 220 zapisov. Za 4 normativne zapise so ugotovili, da ne gre za dvojnike, zato so jih popravili in dopolnili, npr. k imenu dodali podatek za razlikovanje itd. Nespremenjenih je ostalo 119 zapisov.

Med pregledom odziva katalogizatorjev smo zapise, ki so ostali nespremenjeni, ponovno preverili in presodili, da je vseh 119 zapisov dvojnikov.

Od 522 zapisov, za katere smo sklepali, da so dvojniki, je bilo dejansko podvojenih 518 zapisov. Za 4 zapise so katalogizatorji presodili, da niso podvojeni.

Zaključek

Namen naše aktivnosti je bilo predvsem obveščanje in seznanjanje katalogizatorjev s seznamom. V obvestilu o potencialnih dvojnikih smo jih povabili, naj spremljajo nove objave seznama ter v njem preverijo in uredijo zapise, ki so jih sami kreirali oz. ažurirali.

Za kakovost sistema COBISS sta med drugim pomembni dve aktivnosti: 1) preprečevanje kreiranja dvojnikov ter 2) njihovo odkrivanje in razreševanje.

Preden začnemo kreirati nov normativni zapis, temeljito preverimo, ali zapis za osebo že obstaja v bazi. V Tehnikah iskanja smo na podlagi krajše analize štirih podvojenih zapisov katalogizatorjem pripravili povzetek tehnik iskanja v CONOR.SI, s katerimi lahko preprečimo kreiranje podvojenih zapisov.

Za preprečevanje kreiranja dvojnikov je pomembno, da so zapisi v normativni bazi čim bolj popolni. V čim bolj popolnem normativnem zapisu zberemo dovolj podatkov o osebi in imenih, pod katerimi objavlja, da lahko zagotovimo njeno nesporno in nedvoumno identifikacijo, in jo zaradi enolične identifikacije razlikujemo od drugih oseb ter s tem preprečimo kreiranje podvojenih normativnih zapisov. Zato smo katalogizatorjem pripravili priporočila Kako sestavimo normativni zapis za osebno ime.

Z odkrivanjem in razreševanjem dvojnikov dosežemo samo en in čim bolj popoln zapis za osebo v normativni bazi podatkov. Posledično dosežemo, da so vsi bibliografski zapisi za dela izbrane osebe povezani z istim normativnim zapisom. Dvojnik je označen za brisanje in ga ne moremo povezovati z bibliografskimi zapisi. Tako lahko najdemo v katalogu vsa dela izbrane osebe pod vsemi oblikami imena, pod katerimi objavlja, na enem mestu. Z odkrivanjem in razreševanjem podvojenih normativnih zapisov torej omogočamo boljše in učinkovitejše iskanje.

Zahvala

Zahvaljujemo se vsem katalogizatorjem za sodelovanje in pozitiven odziv.

Prispevek pripravila: mag. Jelka Kos

Viri:

Fotografije: Freepik