Gå till innehållet

Bakgrund

I denna dokumentation använder vi oss av följande definitioner för begrepp och terminologi:

Begrepp - ett begrepp motsvarar något mer eller mindre abstrakt som vi eller maskiner kommunicerar kring. Ett begrepp bör ha en definition och en eller flera ord eller koder som används för att referera till det. T.ex. begreppet “Sambo” kan också refereras till som “Sammanboende” och eller kanske med en fyrsiffrig kod som används internt i olika system.

Terminologi - är en namngiven samling begrepp som har en gemensam tematik och förvaltas gemensamt. Snarlika och rena synonymer till terminologi inkluderar kodverk, taxonomier och vokabulärer.

Behov av begrepp i allmänhet

Myndigheter konfronteras idag allt som oftast med behovet att stabilisera den terminologi de använder. Även om det finns stor variation mellan organisationer så finns gemensamma behov, listan nedan visar på några vanliga behov.

Förtydliga kommunikation

För att man ska kunna kommunicera internt och externt behöver man ofta en terminologi som är fack-specifik. Det kan vara antingen nya begrepp eller en förtydling om hur vanliga begrepp används i en viss kontext eller en kombination av båda.

Förtydliga variabler i statistik

Att ta fram statistik kräver stringens. Statistiska variabler/dimensioner som grundas i olika begrepp med tydliga definitioner ger både stabilitet över tid och förtydligar hur olika statistiska undersökningar kompletterar varandra.

Systemintegrationer

Det vanliga scenariot är att en organisation har flera system som innehåller överlappande information. Systemintegrationer kan innefatta processer som spänner över flera system såväl som replikering av delar av data för att systemen ska fungera. I dessa lägen är det viktigt att datauttrycken är kompatibla, dvs att de information uttryckt i ett system kan förstås av ett annat. Pragmatiskt handlar det om olika kodlistor som bör synkroniseras och då kan central förvaltning av underliggande begrepp och dess koder medföra att onödigt arbete undviks och också minska risken för att inkompatibel data skapas.

Interoperabilitet mellan organisationer

När kommunikation behöver etableras mellan organisationer, må det vara systemintegrationer eller människor som ska förstå varandras domäner, behövs tydliga begreppsdefinitioner. Kunskap som finns implicit i hur system är byggda / konfigurerade eller vad som tas för givet i vardaglig kommunikation inom en organisation görs med fördel explicit i form av begrepp.

Behov av begrepp för publicering av data

En enhetlig hantering för begreppsförvaltning i samband med publicering av data leder till flera positiva effekter: 1. Tydlighet och enkelhet för den som ska vidareutnyttja data. 2. Tydlighet för den som ska jobba med att publicera data. 3. Ökad återanvändning av samma begrepp mellan olika datamängder leder till ökad interoperabilitet, dvs möjlighet att kombinera datamängder ökar. 4. Förbättrad stöd för olika sektorer och bättre sök och navigeringsmöjligheter.

Huvudsakliga användningsområden vid publicering av data

Det finns två huvudsakliga användningsområden för begrepp vid publicering av data: 1. Uttrycka data 2. Beskriva en datamängd

Uttrycka data

De flesta datamängder uttrycks med hjälp av datastrukturer som innehåller förbestämda koder. Vad dessa koder betyder kräver oftast förklaringar. Dessa förklaringar introducerar i praktiken olika begrepp som refereras via dessa koder. För små mängder koder väljer dataleverantörer ofta att beskriva dem i teknisk dokumentation som tillhandahålls i anslutning till datamängden. Det föredragna sättet är dock att erbjuda maskinläsbara format för begreppen separat snarare än att uttrycka begreppen i textuell form som en del av en större dokumentation. Goda exempel på terminologier som används av aktörer inom öppna data är SNI koder från SCB och AID koder från SKL.

Beskriva en datamängd

Beskrivningar av datamängder sker idag med hjälp av DCAT-AP som innehåller ett 70 tal egenskaper på olika nivåer. En av dessa egenskaper motsvarar “tema” där man ska använda ett eller flera av 13 begrepp definierade av EU. Dessa kategorier är grova och infördes för att täcka ett behov från olika dataportaler för att ge en översiktlig ingång till datamängder. DCAT-AP föreskriver också att man kan använda begrepp från EuroVoc för mer detaljerad kategorisering. Utöver tema finns ett tiotal ytterligare terminologier som är rekommenderade i DCAT-AP, t.ex. uppdateringsfrekvens och organisationstyp.

Central terminologihantering på Sveriges dataportal öppnar upp för ett mer komplett sök och navigeringsstöd för datamängder. T.ex. finna datamängder som är kategoriserade med “sötvatten” från EuroVoc istället för den grova kategorin “Miljö” som används idag. Det är också sannolikt att det finns sektorsspecifika behov, t.ex. när sjukvårdssektorn med den etablerade terminologin SNOMED-CT.