»Pikice in vejice« pod drobnogledom: spremljanje kakovosti zapisov v letu 2018

Kakovost zapisov in njihovih (meta)podatkov predstavlja tehnični in teoretični izziv. V bibliotekarski stroki kakovost podatkov lahko razumemo v kontekstu uporabnika, enotne obdelave, katalogizatorja, racionalizacije delovnega procesa in tehnologije (Badovinac, 2017). V okviru aktivnosti spremljanja kakovosti zapisov dnevne produkcije smo h kakovosti pristopili z vidika enotne obdelave virov. Zanima nas, ali podatki ustrezajo mednarodnim standardom, saj vnos podatkov v knjižnične baze podatkov, v primerjavi z drugimi ponudniki podatkov, temelji na načelih natančne preslikave podatkov iz zelo različnih vrst bibliografskih virov, v katerih so upoštevane tudi pomenske značilnosti podatkov, kar pogosto povečuje njihovo kompleksnost.

Slika 1: Primer dveh podatkov v formatu COMARC/B

Za potrebe naše aktivnosti smo najprej določili, kakšne podatke želimo. Izbrali smo 11 dimenzij, ki povedo, da je posamezni podatek kakovosten, kadar je:

naveden v edinstvenem zapisu (EDIN),
semantično točen (SEMTOČ),
točno prepisan (TOČPRE),
strukturalno popoln (STRUPOP),
vsebinsko popoln (VSEPOP),
strukturalno skladen (STRUSKLAD),
vsebinsko skladen (VSEBSKLAD),
oblikovno dosleden (OBLIDOS),
predviden oziroma neodvečen (ODVEČ),
aktualen (AKT) in
(lahko) je dodatno informativen (DODV) (Badovinac, 2018).

Aktivnost pregleda zapisov dnevne produkcije poteka od junija 2015 z metodo vzorčenja 10 % bibliografskih zapisov s pripadajočimi normativnimi zapisi, kreiranih na določen dan (Badovinac, 2016; Dornik et al., 2017). Poglavitni cilj aktivnosti je takojšnja odprava morebitnih napak (v sodelovanju s kreatorjem zapisa), ugotovitve analiz pa se uporabijo tudi na področju usposabljanja za delo v COBISS.SI, oblikovanja programskih kontrol, izboljšave dokumentacije ipd. Pri branju rezultatov, ki v prispevku sledijo, je treba še razumeti, da gre za majhen vzorec (letno pribl. 2.500 zapisov v primerjavi z letnim prirastom), da gre za pregled brez primarnega vira in da gre za pregled z metodo ekspertnega mnenja ter da so pri nekaterih podatkih vključene programske kontrole, ki omejujejo pojav napak. Raven zanesljivosti priporočil zvišujemo s strokovnimi posveti sodelavcev in z odzivi katalogizatorjev.

V letu 2018 smo iz 42 zajemov (skupaj 23.261 zapisov) vzorčili 2.323 zapisov (pribl. 55 % zapisov na zajem), ki jih je kreiralo 372 različnih katalogizatorjev iz 190 različnih ustanov. Analiza je pokazala, da je 40,18 % zapisov ustreznih, 35,63 % zapisov je imelo manjšo pomanjkljivost, 1,8 % (43) zapisov ni dobilo preglednega komentarja (zapisi začetnikov s statusom novinci, nedorečena pravila, brisani zapisi). V nekaj manj kot četrtini zapisov (22,24 %) smo zasledili večje pomanjkljivosti, kot je to določeno s Kriteriji za ocenjevanje bibliografskih in normativnih zapisov v COBISS.SI (2009) ali pa ti zapisi vključujejo napake, povezane s formatom (zlasti blok 1XX). Na te pomanjkljivosti smo opozorili s 452 elektronskimi sporočili (v povprečju 10 sporočil na vzorec), ki smo jih poslali 220 različnim katalogizatorjem iz 125 različnih ustanov.

V letu 2018 smo, glede dimenzije kakovosti, v 1.153 edinstvenih bibliografskih zapisih s pomanjkljivostjo analizirali 2.131 slabih podatkov. Ugotovili smo, da so v tem letu najpogosteje manjkali priporočljivi podatki (DODV, 44,72 %) in drugi podatki (STRUPOP, 12,44 %). Beležili smo tudi težave s točnostjo (SEMTOČ, 10,28 %) in oblikovanjem (OBLIDOS, 10,14 %) podatkov. Sledile so napake vpisa podatkov v napačno (pod)polje ali masko ipd. (STRUSKLAD, 7,18 %), nekaj podatkov je bilo odvečnih (ODVEČ, 6,29 %), drugi so bili pomanjkljivi (VSEBPOP, 2,91 %) ali pa se niso ujemali (VSEBSKLAD 2,49 %). Zatipkanih podatkov (TOČPRE) je bilo nekaj manj kot štiri odstotke, dvojnikov zapisov (EDIN) pa v letu 2018 nismo zasledili. V primerjavi s prejšnjimi leti se je število priporočljivih podatkov povečalo zaradi uvedbe fasetnega omejevanja zapisov v COBISS+ (l. 2017), kjer so potrebni zlasti kodirani podatki (slika 2). Za normativne zapise pa je bilo značilno, da smo poleg dodatnih podatkov priporočali zlasti ažuriranje zapisov nasploh.

Slika 2: Odstotek slabih podatkov v bibliografskih zapisih glede na dimenzijo kakovosti po posameznih letih 2015 (jun-)–2018

Katalogizatorji pred popravki preverijo, ali je priporočilo glede na dejanski vir relevantno. Analiza pregleda manjšega vzorca zapisov s poslanih priporočil kaže, da so se katalogizatorji odzvali na naša priporočila tudi v letu 2018. Odzivnost v letih 2016–2018 je v povprečju 80-odstotna (slika 3).

Slika 3: Odzivnost in ustreznost popravkov glede na poslana priporočila v obdobju 2016–2018 (n = 172).

V letu 2018 nas je zanimal tudi vpliv aktivnosti spremljanja kakovosti dnevne produkcije na kakovost podatkov v COBIB.SI. Na podlagi analize kazalcev vnosa odvečnih, napačnih, priporočljivih in neujemajočih podatkov v obdobju 2015–2018 smo ugotovili, da ima aktivnost pozitiven učinek (slika 4).

Slika 4: Prikaz vpliva aktivnosti na podlagi izbranih kazalcev v obdobju 2015–2018

V definiciji kakovosti smo posebej izpostavili dimenzijo točnost prepisa, ki ima zelo velik vpliv na najdljivost vira in pa tudi na ugled podatkovne baze. V okviru te dimenzije preverjamo, ali katalogizatorji pri vnosu podatkov naredijo tipkarske napake – torej tiste napake, ki so neodvisne od vira, saj so na viru lahko tiskarske napake in/ali nenormativne značilnosti jezika. Od leta 2016 je v programski opremi COBISS3/Katalogizacija omogočena uporaba črkovalnika za slovenski jezik. Zato smo v letu 2018 izvedli še dva ločena in obsežna pregleda, kjer smo preverjali zatipkanost podatkov v glavnem stvarnem naslovu (podpolje 200a) in v podpoljih predmetnih oznak (600–610, 960–969) v obdobju štirih let. V pregledu 666.241 podatkov iz 601.858 bibliografskih zapisov smo zasledili le 0,2 % zatipkanih podatkov (1.150 v podpolju 200a; 773 v podpoljih predmetnih oznak 600–610). Ugotovili smo tudi, da črkovalnik pozitivno vpliva na podatke v naslovu, medtem ko je pri predmetnih oznakah ta učinek manjši (slika 5). Pri slednjih predvidevamo, da se pri vnosu podatka ne vnese še končni presledek, s katerim bi se črkovalnik aktiviral (prim. video vsebine Črkovalnik).

Slika 5: Število zatipkanih podatkov v glavnem stvarnem naslovu (podpolje 200a) in predmetnih oznakah (podpolja 600–610, 960–969) v obdobju 2. 4. 2014–2. 4. 2018

Pripravila: mag. Branka Badovinac

Literatura:

Badovinac, B. (2016). Spremljanje kakovosti bibliografskih in normativnih zapisov dnevne produkcije. Blog COBISS, 25. 7. 2016. Dostopno s spletne strani: https://blog.cobiss.si/2016/07/25/spremljanje-kakovosti-bibliografskih-in-normativnih-zapisov-dnevne-produkcije/.
Dornik, E., Badovinac, B., Kos, J., Farkaš, B. (2017). Sistem zagotavljanja kakovosti COBIB.SI : izbrane aktivnosti za leto 2016. Knjižnica, 61 (1/2), 191–205. Dostopno s spletne strani: http://www.dlib.si/details/URN:NBN:SI:doc-6G3T8BQO.
Badovinac, B. (2017). Izhodišča za proučevanje kakovosti podatkov v bibliografskih in normativnih zapisih: kakovost podatkov v kontekstu in raziskovalne usmeritve v katalogizaciji. Knjižnica, 61 (1/2), 119–154. Dostopno s spletne strani: http://www.dlib.si/details/URN:NBN:SI:doc-QEBXUT6A
Badovinac, B. (2018). Nabor dimenzij za opredelitev kakovosti podatkov v bibliografskih in normativnih zapisih. Organizacija znanja, 23 (1/2), 2–10. Dostopno s spletne strani: http://dx.doi.org/10.3359/oz1812002.