Kakovost zapisov in njihovih (meta)podatkov predstavlja tehnični in teoretični izziv. V bibliotekarski stroki kakovost podatkov lahko razumemo v kontekstu uporabnika, enotne obdelave, katalogizatorja, racionalizacije delovnega procesa in tehnologije (Badovinac, 2017). V okviru aktivnosti spremljanja kakovosti zapisov dnevne produkcije smo h kakovosti pristopili z vidika enotne obdelave virov. Zanima nas, ali podatki ustrezajo mednarodnim standardom, saj vnos podatkov v knjižnične baze podatkov, v primerjavi z drugimi ponudniki podatkov, temelji na načelih natančne preslikave podatkov iz zelo različnih vrst bibliografskih virov, v katerih so upoštevane tudi pomenske značilnosti podatkov, kar pogosto povečuje njihovo kompleksnost.
Slika 1: Primer dveh podatkov v formatu COMARC/B
Za potrebe naše aktivnosti smo najprej določili, kakšne podatke želimo. Izbrali smo 11 dimenzij, ki povedo, da je posamezni podatek kakovosten, kadar je:
- naveden v edinstvenem zapisu (EDIN),
- semantično točen (SEMTOČ),
- točno prepisan (TOČPRE),
- strukturalno popoln (STRUPOP),
- vsebinsko popoln (VSEPOP),
- strukturalno skladen (STRUSKLAD),
- vsebinsko skladen (VSEBSKLAD),
- oblikovno dosleden (OBLIDOS),
- predviden oziroma neodvečen (ODVEČ),
- aktualen (AKT) in
- (lahko) je dodatno informativen (DODV) (Badovinac, 2018).
Aktivnost pregleda zapisov dnevne produkcije poteka od junija 2015 z metodo vzorčenja 10 % bibliografskih zapisov s pripadajočimi normativnimi zapisi, kreiranih na določen dan (Badovinac, 2016; Dornik et al., 2017). Poglavitni cilj aktivnosti je takojšnja odprava morebitnih napak (v sodelovanju s kreatorjem zapisa), ugotovitve analiz pa se uporabijo tudi na področju usposabljanja za delo v COBISS.SI, oblikovanja programskih kontrol, izboljšave dokumentacije ipd. Pri branju rezultatov, ki v prispevku sledijo, je treba še razumeti, da gre za majhen vzorec (letno pribl. 2.500 zapisov v primerjavi z letnim prirastom), da gre za pregled brez primarnega vira in da gre za pregled z metodo ekspertnega mnenja ter da so pri nekaterih podatkih vključene programske kontrole, ki omejujejo pojav napak. Raven zanesljivosti priporočil zvišujemo s strokovnimi posveti sodelavcev in z odzivi katalogizatorjev.
V letu 2018 smo iz 42 zajemov (skupaj 23.261 zapisov) vzorčili 2.323 zapisov (pribl. 55 % zapisov na zajem), ki jih je kreiralo 372 različnih katalogizatorjev iz 190 različnih ustanov. Analiza je pokazala, da je 40,18 % zapisov ustreznih, 35,63 % zapisov je imelo manjšo pomanjkljivost, 1,8 % (43) zapisov ni dobilo preglednega komentarja (zapisi začetnikov s statusom novinci, nedorečena pravila, brisani zapisi). V nekaj manj kot četrtini zapisov (22,24 %) smo zasledili večje pomanjkljivosti, kot je to določeno s Kriteriji za ocenjevanje bibliografskih in normativnih zapisov v COBISS.SI (2009) ali pa ti zapisi vključujejo napake, povezane s formatom (zlasti blok 1XX). Na te pomanjkljivosti smo opozorili s 452 elektronskimi sporočili (v povprečju 10 sporočil na vzorec), ki smo jih poslali 220 različnim katalogizatorjem iz 125 različnih ustanov.
V letu 2018 smo, glede dimenzije kakovosti, v 1.153 edinstvenih bibliografskih zapisih s pomanjkljivostjo analizirali 2.131 slabih podatkov. Ugotovili smo, da so v tem letu najpogosteje manjkali priporočljivi podatki (DODV, 44,72 %) in drugi podatki (STRUPOP, 12,44 %). Beležili smo tudi težave s točnostjo (SEMTOČ, 10,28 %) in oblikovanjem (OBLIDOS, 10,14 %) podatkov. Sledile so napake vpisa podatkov v napačno (pod)polje ali masko ipd. (STRUSKLAD, 7,18 %), nekaj podatkov je bilo odvečnih (ODVEČ, 6,29 %), drugi so bili pomanjkljivi (VSEBPOP, 2,91 %) ali pa se niso ujemali (VSEBSKLAD 2,49 %). Zatipkanih podatkov (TOČPRE) je bilo nekaj manj kot štiri odstotke, dvojnikov zapisov (EDIN) pa v letu 2018 nismo zasledili. V primerjavi s prejšnjimi leti se je število priporočljivih podatkov povečalo zaradi uvedbe fasetnega omejevanja zapisov v COBISS+ (l. 2017), kjer so potrebni zlasti kodirani podatki (slika 2). Za normativne zapise pa je bilo značilno, da smo poleg dodatnih podatkov priporočali zlasti ažuriranje zapisov nasploh.
Slika 2: Odstotek slabih podatkov v bibliografskih zapisih glede na dimenzijo kakovosti po posameznih letih 2015 (jun-)–2018
Katalogizatorji pred popravki preverijo, ali je priporočilo glede na dejanski vir relevantno. Analiza pregleda manjšega vzorca zapisov s poslanih priporočil kaže, da so se katalogizatorji odzvali na naša priporočila tudi v letu 2018. Odzivnost v letih 2016–2018 je v povprečju 80-odstotna (slika 3).
Slika 3: Odzivnost in ustreznost popravkov glede na poslana priporočila v obdobju 2016–2018 (n = 172).
V letu 2018 nas je zanimal tudi vpliv aktivnosti spremljanja kakovosti dnevne produkcije na kakovost podatkov v COBIB.SI. Na podlagi analize kazalcev vnosa odvečnih, napačnih, priporočljivih in neujemajočih podatkov v obdobju 2015–2018 smo ugotovili, da ima aktivnost pozitiven učinek (slika 4).
Slika 4: Prikaz vpliva aktivnosti na podlagi izbranih kazalcev v obdobju 2015–2018
V definiciji kakovosti smo posebej izpostavili dimenzijo točnost prepisa, ki ima zelo velik vpliv na najdljivost vira in pa tudi na ugled podatkovne baze. V okviru te dimenzije preverjamo, ali katalogizatorji pri vnosu podatkov naredijo tipkarske napake – torej tiste napake, ki so neodvisne od vira, saj so na viru lahko tiskarske napake in/ali nenormativne značilnosti jezika. Od leta 2016 je v programski opremi COBISS3/Katalogizacija omogočena uporaba črkovalnika za slovenski jezik. Zato smo v letu 2018 izvedli še dva ločena in obsežna pregleda, kjer smo preverjali zatipkanost podatkov v glavnem stvarnem naslovu (podpolje 200a) in v podpoljih predmetnih oznak (600–610, 960–969) v obdobju štirih let. V pregledu 666.241 podatkov iz 601.858 bibliografskih zapisov smo zasledili le 0,2 % zatipkanih podatkov (1.150 v podpolju 200a; 773 v podpoljih predmetnih oznak 600–610). Ugotovili smo tudi, da črkovalnik pozitivno vpliva na podatke v naslovu, medtem ko je pri predmetnih oznakah ta učinek manjši (slika 5). Pri slednjih predvidevamo, da se pri vnosu podatka ne vnese še končni presledek, s katerim bi se črkovalnik aktiviral (prim. video vsebine Črkovalnik).
Slika 5: Število zatipkanih podatkov v glavnem stvarnem naslovu (podpolje 200a) in predmetnih oznakah (podpolja 600–610, 960–969) v obdobju 2. 4. 2014–2. 4. 2018
Pripravila: mag. Branka Badovinac
Literatura:
- Badovinac, B. (2016). Spremljanje kakovosti bibliografskih in normativnih zapisov dnevne produkcije. Blog COBISS, 25. 7. 2016. Dostopno s spletne strani: https://blog.cobiss.si/2016/07/25/spremljanje-kakovosti-bibliografskih-in-normativnih-zapisov-dnevne-produkcije/.
- Dornik, E., Badovinac, B., Kos, J., Farkaš, B. (2017). Sistem zagotavljanja kakovosti COBIB.SI : izbrane aktivnosti za leto 2016. Knjižnica, 61 (1/2), 191–205. Dostopno s spletne strani: http://www.dlib.si/details/URN:NBN:SI:doc-6G3T8BQO.
- Badovinac, B. (2017). Izhodišča za proučevanje kakovosti podatkov v bibliografskih in normativnih zapisih: kakovost podatkov v kontekstu in raziskovalne usmeritve v katalogizaciji. Knjižnica, 61 (1/2), 119–154. Dostopno s spletne strani: http://www.dlib.si/details/URN:NBN:SI:doc-QEBXUT6A
- Badovinac, B. (2018). Nabor dimenzij za opredelitev kakovosti podatkov v bibliografskih in normativnih zapisih. Organizacija znanja, 23 (1/2), 2–10. Dostopno s spletne strani: http://dx.doi.org/10.3359/oz1812002.