Splošni geslovnik COBISS.SI (SGC) je zagotovo eden izmed najzahtevnejših dolgoročnih projektov IZUM-a, v katerem so v različnih fazah sodelovali tudi zunanji partnerji.[1] Izgradnja baze podatkov SGC je zahtevna tako s konceptualnega kot tudi tehničnega vidika modeliranja podatkov.
Projekt poteka že od leta 2000. Njegov osnovni namen je katalogizatorjem v sistemu COBISS.SI omogočiti kontroliran vnos pri predmetnem označevanju, kot ga poznajo v sistemih z dolgo tradicijo uporabe kontroliranih slovarjev. Na ta način naj bi sčasoma zagotovili večjo skladnost ter doslednost pri predmetnem označevanju in izboljšali iskanje po vsebini.
Zasnova SGC temelji na naslednjih konceptualnih izhodiščih:
- Univerzalnost in kontrola besedišča
SGC je enciklopedični kontrolirani slovar. Kot tak obsega vsa področja znanja, hkrati pa naj bi čim bolj izčrpno zajemal vse možne izraze za entitete, ki so relevantni tako za opis vsebine in oblike bibliografskih virov kakor tudi za poizvedovanje.
Za vsako entiteto v bazi podatkov SGC obstaja le en normativni zapis, s prednostno obliko imena kot normativno točko dostopa, druge oblike imena (sopomenke ipd.) pa so navedene kot variantne točke dostopa. Slednje omogočajo dostop do prednostnih oblik imena, hkrati pa prispevajo tudi k bogatenju besedišča SGC in posredno k enoličnejši identifikaciji posameznih entitet. Verjetnost, da bi za isto entiteto v geslovniku imeli več normativnih zapisov, je zato manjša. Enoličnost izrazov je nadalje zagotovljena tudi s kontrolo večpomenskosti, kot je na primer raba kvalifikatorjev v primeru homonimov, npr. Kreda (geološka doba) in Kreda (kamnina), ali z opombami o pomenskem obsegu, ki natančno opredeljujejo, v katerem pomenu naj bi se posamezno geslo uporabljalo pri predmetnem označevanju.
Pri zasnovi SGC smo se zgledovali po dveh tujih kontroliranih slovarjih: geslovniku Kongresne knjižnice LCSH in geslovniku Francoske nacionalne knjižnice Rameau. Začetno normativno bazo podatkov SGC, v kateri je bilo 7.833 zapisov, smo vzpostavili leta 2002, ko je bil zaključen prevod geslovnika Sears. Trenutno je v bazi podatkov že več kot 52.000 normativnih zapisov in nekaj manj kot 6.000 napotilnih zapisov. Glede na vrsto entitete ločimo zapise za občna imena, osebna imena, rodbinska imena, imena korporacij in sestankov, zemljepisna imena, naslove ter nekatere druge specifične vrste imen. Osrednji del predstavljajo zapisi za občna in zemljepisna imena. V SGC obstajajo tudi povezave na ekvivalentna gesla LCSH, MeSH, Rameau in Sears.
- Umeščenost v slovenski kulturni kontekst
SGC ni zgolj zvest prevod ali prenos tujega znanja. SGC namreč temelji na upoštevanju posebnosti slovenskega jezika in slovenskega kulturnega prostora, pri čemer imajo pomembno vlogo slovenski referenčni viri (predvsem pri določanju prednostne oblike imena) ter v nič manjši meri tudi slovenski kontekst (npr. pri določanju strukture med izrazi).
V SGC razen tega načrtno dodajamo sklope predmetnih točk dostopa, ki so na kakršen koli način povezane s slovenskim prostorom, npr. plemiške rodbine (Celjski (plemiška rodbina)), arheološka najdišča (Rifnik (Slovenija : arheološko najdišče)), kraji (Vinica (Občina Črnomelj, Slovenija)), bitke (Soška fronta (1915-1917)), živali (Človeška ribica).
- Poenostavljena skladnja
Pomembna značilnost SGC je opustitev predmetnih določil, kot jih poznata geslovnika LCSH in Rameau. Zapletena skladenjska pravila, ki so potrebna za pravilno uporabo določil pri tvorjenju predmetnih nizov (predhodna koordinacija),[2] namreč v precejšnji meri otežujejo uporabo pri predmetnem označevanju in posledično tudi pri iskanju po vsebini. Iz tega razloga se bodo v SGC izrazi za entitete kombinirali šele naknadno pri iskanju (naknadna koordinacija), pri čimer bo omogočena tudi večja prilagodljivost SGC zahtevam semantičnega spleta in povezanih podatkov. Pri oblikovanju predmetnih točk dostopa v obliki besednih zvez pa je v SGC upoštevan naravni vrstni red.
- Vzpostavljanje semantičnih odnosov
SGC ni le navaden seznam gesel. Podobno kot v tezavrih so tudi med gesli SGC vzpostavljeni semantični odnosi v obliki širših, ožjih in sorodnih izrazov. Ti izrazi, skupaj z variantnimi oblikami imen, tvorijo sindetično strukturo[3] geslovnika, s čimer so gesla umeščena v določen kontekst, iz katerega je pogosto razvidna tudi raba pri predmetnem označevanju. Tako vzpostavljena mreža odnosov omogoča navigacijo po geslovniku, kar je lahko v pomoč pri izbiri ustreznega gesla pri predmetnem označevanju ter pri oblikovanju natančnejše iskalne zahteve pri iskanju. Semantične povezave znotraj SGC bo možno izrabiti tudi v drugih aplikacijah in storitvah, npr. za razne vizualne predstavitve podatkov.
V času trajanja projekta je bilo sprejetih kar nekaj metodoloških, organizacijskih in tehničnih odločitev, ki so prispevale k značilnostim baze podatkov. Aprila 2018 je bil dosežen nov razvojni mejnik: nadgradnja formata za normativne zapise COMARC/A ter vključitev normativne baze podatkov SGC v segment COBISS3/Katalogizacija. V tej fazi razvoja lahko katalogizatorji v slovenskih knjižnicah v bazi podatkov SGC le poizvedujejo in pregledujejo, sodelavci s ustreznim pooblastilom pa lahko opravljajo tudi uredniško delo. Vpogled v SGC je vsem drugim uporabnikom omogočen na strani COBISS+.
Naslednji pomembnejši izzivi so zasnova organizacijske strukture vzdrževanja in dopolnjevanja SGC, izdelava uporabniške dokumentacije, priprava in izvedba izobraževanja ter vključitev SGC v vzajemno katalogizacijo v sistemu COBISS.SI.
Strokovno javnost vabimo na predstavitev projekta, kjer bomo podrobneje predstavili značilnosti normativne baze podatkov SGC. Predstavitve bodo v IZUM-u, 17. 9. 2018, (zagotovljen tudi video prenos v živo) in NUK-u, 19.–21. 9. 2018 (vabilo).
Prispevek pripravil: Matjaž Zalokar
Posnetek predstavitve v IZUM-u, 17.9.2018.
Opombe:
[1] In sicer: Osrednji specializirani informacijski centri, Narodna in univerzitetna knjižnica in Univerzitetna knjižnica Maribor.
[2] Predmetne nize uporablja tudi geslovnik Narodne in univerzitetne knjižnice SSSG.
[3] Sindetična struktura je mreža medsebojno povezanih napotil, ki označujejo semantične odnose med točkami dostopa (gesli, deskriptorji) v normativni bazi podatkov, tezavru ipd.