»Pikice in vejice« pod drobnogledom: spremljanje kakovosti zapisov v letu 2018

Kakovost zapisov in njihovih (meta)podatkov predstavlja tehnični in teoretični izziv. V bibliotekarski stroki kakovost podatkov lahko razumemo v kontekstu uporabnika, enotne obdelave, katalogizatorja, racionalizacije delovnega procesa in tehnologije (Badovinac, 2017). V okviru aktivnosti spremljanja kakovosti zapisov dnevne produkcije smo h kakovosti pristopili z vidika enotne obdelave virov. Zanima nas, ali podatki ustrezajo mednarodnim standardom, saj vnos podatkov v knjižnične baze podatkov, v primerjavi z drugimi ponudniki podatkov, temelji na načelih natančne preslikave podatkov iz zelo različnih vrst bibliografskih virov, v katerih so upoštevane tudi pomenske značilnosti podatkov, kar pogosto povečuje njihovo kompleksnost.

slika1

Slika 1: Primer dveh podatkov v formatu COMARC/B

Za potrebe naše aktivnosti smo najprej določili, kakšne podatke želimo. Izbrali smo 11 dimenzij, ki povedo, da je posamezni podatek kakovosten, kadar je:

  • naveden v edinstvenem zapisu (EDIN),
  • semantično točen (SEMTOČ),
  • točno prepisan (TOČPRE),
  • strukturalno popoln (STRUPOP),
  • vsebinsko popoln (VSEPOP),
  • strukturalno skladen (STRUSKLAD),
  • vsebinsko skladen (VSEBSKLAD),
  • oblikovno dosleden (OBLIDOS),
  • predviden oziroma neodvečen (ODVEČ),
  • aktualen (AKT) in
  • (lahko) je dodatno informativen (DODV) (Badovinac, 2018).

Aktivnost pregleda zapisov dnevne produkcije poteka od junija 2015 z metodo vzorčenja 10 % bibliografskih zapisov s pripadajočimi normativnimi zapisi, kreiranih na določen dan (Badovinac, 2016; Dornik et al., 2017). Poglavitni cilj aktivnosti je takojšnja odprava morebitnih napak (v sodelovanju s kreatorjem zapisa), ugotovitve analiz pa se uporabijo tudi na področju usposabljanja za delo v COBISS.SI, oblikovanja programskih kontrol, izboljšave dokumentacije ipd. Pri branju rezultatov, ki v prispevku sledijo, je treba še razumeti, da gre za majhen vzorec (letno pribl. 2.500 zapisov v primerjavi z letnim prirastom), da gre za pregled brez primarnega vira in da gre za pregled z metodo ekspertnega mnenja ter da so pri nekaterih podatkih vključene programske kontrole, ki omejujejo pojav napak. Raven zanesljivosti priporočil zvišujemo s strokovnimi posveti sodelavcev in z odzivi katalogizatorjev.

V letu 2018 smo iz 42 zajemov (skupaj 23.261 zapisov) vzorčili 2.323 zapisov (pribl. 55 % zapisov na zajem), ki jih je kreiralo 372 različnih katalogizatorjev iz 190 različnih ustanov. Analiza je pokazala, da je 40,18 % zapisov ustreznih, 35,63 % zapisov je imelo manjšo pomanjkljivost, 1,8 % (43) zapisov ni dobilo preglednega komentarja (zapisi začetnikov s statusom novinci, nedorečena pravila, brisani zapisi). V nekaj manj kot četrtini zapisov (22,24 %) smo zasledili večje pomanjkljivosti, kot je to določeno s Kriteriji za ocenjevanje bibliografskih in normativnih zapisov v COBISS.SI (2009) ali pa ti zapisi vključujejo napake, povezane s formatom (zlasti blok 1XX). Na te pomanjkljivosti smo opozorili s 452 elektronskimi sporočili (v povprečju 10 sporočil na vzorec), ki smo jih poslali 220 različnim katalogizatorjem iz 125 različnih ustanov.

V letu 2018 smo, glede dimenzije kakovosti, v 1.153 edinstvenih bibliografskih zapisih s pomanjkljivostjo analizirali 2.131 slabih podatkov. Ugotovili smo, da so v tem letu najpogosteje manjkali priporočljivi podatki (DODV, 44,72 %) in drugi podatki (STRUPOP, 12,44 %). Beležili smo tudi težave s točnostjo (SEMTOČ, 10,28 %) in oblikovanjem (OBLIDOS, 10,14 %) podatkov. Sledile so napake vpisa podatkov v napačno (pod)polje ali masko ipd. (STRUSKLAD, 7,18 %), nekaj podatkov je bilo odvečnih (ODVEČ, 6,29 %), drugi so bili pomanjkljivi (VSEBPOP, 2,91 %) ali pa se niso ujemali (VSEBSKLAD 2,49 %). Zatipkanih podatkov (TOČPRE) je bilo nekaj manj kot štiri odstotke, dvojnikov zapisov (EDIN) pa v letu 2018 nismo zasledili. V primerjavi s prejšnjimi leti se je število priporočljivih podatkov povečalo zaradi uvedbe fasetnega omejevanja zapisov v COBISS+ (l. 2017), kjer so potrebni zlasti kodirani podatki (slika 2). Za normativne zapise pa je bilo značilno, da smo poleg dodatnih podatkov priporočali zlasti ažuriranje zapisov nasploh.

slika2

Slika 2: Odstotek slabih podatkov v bibliografskih zapisih glede na dimenzijo kakovosti po posameznih letih 2015 (jun-)–2018

Katalogizatorji pred popravki preverijo, ali je priporočilo glede na dejanski vir relevantno. Analiza pregleda manjšega vzorca zapisov s poslanih priporočil kaže, da so se katalogizatorji odzvali na naša priporočila tudi v letu 2018. Odzivnost v letih 2016–2018 je v povprečju 80-odstotna (slika 3).

slika3

Slika 3: Odzivnost in ustreznost popravkov glede na poslana priporočila v obdobju 2016–2018 (n = 172).

V letu 2018 nas je zanimal tudi vpliv aktivnosti spremljanja kakovosti dnevne produkcije na kakovost podatkov v COBIB.SI. Na podlagi analize kazalcev vnosa odvečnih, napačnih, priporočljivih in neujemajočih podatkov v obdobju 2015–2018 smo ugotovili, da ima aktivnost pozitiven učinek (slika 4).

slika4

Slika 4: Prikaz vpliva aktivnosti na podlagi izbranih kazalcev v obdobju 2015–2018

V definiciji kakovosti smo posebej izpostavili dimenzijo točnost prepisa, ki ima zelo velik vpliv na najdljivost vira in pa tudi na ugled podatkovne baze. V okviru te dimenzije preverjamo, ali katalogizatorji pri vnosu podatkov naredijo tipkarske napake – torej tiste napake, ki so neodvisne od vira, saj so na viru lahko tiskarske napake in/ali nenormativne značilnosti jezika. Od leta 2016 je v programski opremi COBISS3/Katalogizacija omogočena uporaba črkovalnika za slovenski jezik. Zato smo v letu 2018 izvedli še dva ločena in obsežna pregleda, kjer smo preverjali zatipkanost podatkov v glavnem stvarnem naslovu (podpolje 200a) in v podpoljih predmetnih oznak (600–610, 960–969) v obdobju štirih let. V pregledu 666.241 podatkov iz 601.858 bibliografskih zapisov smo zasledili le 0,2 % zatipkanih podatkov (1.150 v podpolju 200a; 773 v podpoljih predmetnih oznak 600–610). Ugotovili smo tudi, da črkovalnik pozitivno vpliva na podatke v naslovu, medtem ko je pri predmetnih oznakah ta učinek manjši (slika 5). Pri slednjih predvidevamo, da se pri vnosu podatka ne vnese še končni presledek, s katerim bi se črkovalnik aktiviral (prim. video vsebine Črkovalnik).

slika5

Slika 5: Število zatipkanih podatkov v glavnem stvarnem naslovu (podpolje 200a) in predmetnih oznakah (podpolja 600–610, 960–969) v obdobju 2. 4. 2014–2. 4. 2018

Pripravila: mag. Branka Badovinac

Literatura: