Van Rijn naar Donau

29-01-2010 | Marco Streefkerk

Afgelopen week was ik bij een bijeenkomst van Europeana in Berlijn. Onderwerp van gesprek: het Europeana Data Model (EDM).  Op tafel lag versie 4 waarvan hieronder een uitwerking is te zien.

Europeana Data Model

Europeana Data Model

In twee dagen van presentaties, demonstraties en discussies moesten we komen tot versie 5 die als basis voor de belangrijkste toegang voor Europees Erfgoed voor de komende jaren moet dienen. De doelstelling vanuit de EU daarbij is geen kleintje: de zoekdienst moet beter zijn dan datgene wat de Europese burger nu in de meeste gevallen zal gebruiken: een internet zoekmachine zoals Google.

De introductie van het EDM markeert de overgang tussen versie 1 (verwacht dit najaar) en versie 2 van Europeana die medio 2011 is gepland. De projectorganisatie vernoemt de versies naar Europese rivieren: van de Rijn naar de Donau. Nu is dit geografisch geen hele grote afstand en ligt er een kanaal als directe verbinding, binnen Europeana is toch wel sprake van een enorme stap.

Tot op heden was de aanpak gericht op de grootste gemeenschappelijke deler tussen de beschrijvingen van al die diverse collecties uit al die landen. De Rijn-versie werkt met de Europeana Semantic Elements: in de kern Dublin Core met wat aanvullende velden.

Voor de Donau is gezocht naar een gemeenschappelijk model van een dusdanig hoog abstractieniveau dat het voor alle onderdelen van het erfgoed bruikbaar is. Het model is geïnspireerd door bestaande datamodellen (zoals CIDOC-CRM) en opgezet als een ontologie. Daarnaast moet EDM aansluiten bij het Semantische Web en Linked Data. Vanuit mijn verleden in de wetenschappelijke bibliotheek ben ik persoonlijk zeer nieuwsgierig naar het gebruik van (onderdelen van) OAI-ORE.

Ik vind de aandacht voor datamodellering goed. Ook voor DE BASIS hebben we gedacht aan een ontologie om het erfgoed als gemeenschappelijke onderwerp te beschrijven.  Probleem daarbij is: als je overeenstemming bereikt op een dergelijk hoog abstractieniveau als een ontologie (wat al lastig genoeg is), moet het nog werkend gemaakt worden in de praktijk. Vanuit de ervaringen met bijvoorbeeld CIDOC-CRM is enige scepsis logisch. Maar met een positieve insteek kan je ook zeggen dat met de opkomst van het semantisch web ontologieën een come-back maken.

Feit is wel dat Europeana een zeer ambitieuze planning hanteert. Er is weinig ruimte voor het opdoen van ervaringen met het huidige model (op basis van ESE).  Ervaring die zeer nuttig kan zijn bij het in de praktijk brengen van het nieuwe model (EDM) op het diverse erfgoed. Tijdens de bijeenkomst deze week werden wel al voorbeelden getoond, naast de onvermijdelijke Mona Lisa, van hoe beschrijvingen van boeken, kranten en video als eigenschappen, waarden en relaties in het theoretische model passen.  Vervolg bijeenkomsten voor de afzonderlijke domeinen moeten de (on)mogelijkheden verder in kaart brengen. Hoe zit het bijvoorbeeld met archieven (EAD), AV-collecties (Frbr) en archeologie en monumenten (GIS)?

Een ander vraagstuk waar in Berlijn nog nauwelijks aandacht aan kon worden besteed is in hoeverre het model in staat is om de gevraagde functionele specificaties te leveren. Daar zijn immers al lijvige documenten aan gewijd. Bij het realiseren daarvan moet de Donau-versie daadwerkelijk een grote verbetering voor de gebruikers leveren. Als Europeana daarbij teleurstelt is er het risico dat de politiek in Brussel haar enthousiasme voor de Europese erfgoedsite verliest en de geldkraan dichtdraait.

Heikel punt daarin blijft de meertaligheid. Domme zoekmachines zoals Google lijken steeds beter in staat om over taalgrenzen heen te werken, ook natuurlijk omdat ze het Engels als de facto standaard hanteren. Uniforme betekenis en intelligentie bieden voor de zes kerntalen van de EU, zoals van Europeana wordt verwacht, plus het respecteren van de (historische) taalcultuur van de verschillende erfgoedcollecties vormt een uitdaging waarvoor een oplossing nog niet in zicht is. Vanuit de aanwezigen in Berlijn kwam het verzoek om proefdata vrij beschikbaar te maken zodat onderzoekers wereldwijd zich op dit vraagstuk kunnen storten.

Na twee dagen Berlijn is mijn eigen conclusie dat Europeana voor een enorme uitdaging staat. Het project vormt een katalysator voor iedereen die overtuigd is van het belang van samenwerking en openheid bij het realiseren van een belangrijke maatschappelijke rol voor erfgoed in de digitale wereld. Een kritische maar tegelijk actieve en constructieve houding van dataproviders, de collectiebeheerders, ook in Nederland is essentieel voor het succes van Europeana. DEN zal daarbij waar mogelijk ondersteunen en aanjagen.

Tags ,

Tim Berners Lee “unlocks” data.gov.uk

21-01-2010 | Annelies van Nispen

“Unlocking innovation” staat er groot op de homepage van data.gov.uk.

Data.gov.uk laat zien wat openbare bronnen, semantisch webtechnologie en samenwerking kunnen bewerkstelligen. Overheidsdata is openbare informatie die op een gemakkelijke manier toegankelijk moet zijn voor de burger. In de VS en het Verenigd Koninkrijk wordt daar ook werk van gemaakt. Minister-president Gordon Brown huurde o.a. Tim Berners-Lee in om te adviseren.

Op dit moment zijn 2500 datasets in RDF beschikbaar. Met deze data kunnen geïnteresseerden aan de slag om deze doorzoekbaar te maken op nieuwe manieren. De website is vanaf september online en er hebben ongeveer 2400 ontwikkelaars zich geregistreerd die hebben geparticipeerd in het mogelijk maken van deze website.
Er staan nu tien applicaties online die gebruik maken van de datafeeds. Dit is het begin. Iedereen die wil, kan een applicatie maken en de beste worden toegevoegd. Maar ook als je niet kunt programmeren, kun je je ideeën achterlaten en wellicht worden ze opgepakt en gerealiseerd.

Een aardig voorbeeld en een mix van Web 2.0 en het semantisch web is de website FillThatHole, een website die locatiedata gebruikt van het Office for National Statistics en mensen de mogelijkheid geeft om potholes – gaten en kuilen in de weg – en ander wegongemak te rapporteren.

Tags ,

Classified Information?

04-11-2009 | Annelies van Nispen

Op het kruispunt van Opac en Semantisch Web, is de vraag of “Classified Information” gaat betekenen of informatie gevonden zal worden of niet. Het UDC consortium ziet in ieder geval veel mogelijkheden voor UDC. De titel van het Internationale UDC seminar 2009 sprak voor zich: Classification at a crossroads: Multiple directions to usability.

Universele Decimale Classificatie (UDC)
UDC is een internationaal universeel classificatieschema. Het is begin 20e eeuw ontwikkeld door Henri Lafontaine en Paul Otlet (wiens naam vrijdag ook werd genoemd door collega Robert in De schoonheid van een cataloguskaartje).

UDC is universeel omdat het alle bekende begrippen/concepten in een allesomvattend schema probeert te classificeren. Sommige bibliothecarissen kunnen zeker onder het begrip megalomaan geclassificeerd worden. Otlets doel was alle kennis van de wereld te verzamelen en doorzoekbaar te maken.

Het UDC geeft de vrijheid om een onderwerp vanuit meerdere (hoofd)rubrieken te classificeren en maakt facetnavigatie mogelijk. Een ander zeer belangrijk aspect van UDC is ook de meertaligheid (39 talen). Een ander bekend universeel classificatieschema is DDC (Dewey Decimal Classification) waarvan OCLC eigenaar is.

Over KOS, SKOS en het Semantisch Web
UDC en DDC zijn beide in hedendaagse terminologie een KOS (Knowledge Organisation Systems) en KOS-sen zijn zeer belangrijk voor het Semantisch Web, het zijn zeer rijke gestructureerde informatiesystemen. KOS-sen zijn essentieel om de backbone te vormen van Semantisch Web.

Het Semantisch Web wil intelligente verbindingen kunnen leggen. Dit kan als de (aard van de) relaties tussen de verschillende objecten/concepten duidelijk zijn en vastgelegd zijn, zodat computers dit daarna (razendsnel) kunnen analyseren.
Door het koppelen van zeer gestructureerde KOS-sen kan dit mogelijk gemaakt worden. Indien UDC gemapt kan worden met bijvoorbeeld DDC en LCSH (Library of Congress Subject Headings) zou dat een mooie backbone zijn voor inhoudelijke ontsluiting.

Naast KOS is er ook nog SKOS ontworpen door W3C. SKOS staat voor Simple Knowledge Organisation System. SKOS is speciaal ontworpen om woordsystemen vast te leggen zoals thesauri, classificatieschema’s, taxonomieën en folksonomieën. Lees verder over SKOS: Een makkelijke vorm om uw kennis te organiseren.

Terug op het kruispunt

“UDC is not the mystery, but cataloguing rules are”

UDC is ontworpen om alle kennis van de wereld doorzoekbaar te maken en het Semantisch Web is hetgene dat op dit moment dit oude (doch nog steeds megalomane) ideaal het dichtst benaderd. Tenminste als we Google buiten beschouwing laten (maar die gebruikt andere zoektechnieken). Maar het is de vraag of UDC zich uit (traditionele bibliotheeksystemen en) betalende licentiesystemen kan “bevrijden”. Op het congres was er een luide roep van de (semantisch) webgemeenschap en informatiewetenschappers om UDC vrij te geven. Het UDC consortium wil daar tot zekere hoogte gehoor aangeven door 2000 Core-termen vrij te geven.

Maar het onderhouden van KOS-sen kost heel veel inspanning, mensen en geld. En de paradox is dat door de opkomst van het web hier steeds minder geld voor vrijgemaakt wordt omdat het onderhouden van zoiets ouderwets als een classificatieschema in het internettijdperk niet meer als noodzakelijk wordt gezien. Maar het tegendeel blijkt, KOS-sen kunnen een drijvende kracht blijken van Web 3.0.

At random: chaos en orde
Informatiespecialisten, bibliothecarissen en semantisch webmensen blijken een ding gemeen te hebben: ze hechten erg aan orde en hebben een hekel aan chaos.

De openingslezing van Keynotespeaker Dagobert Soergel had als titel: Illuminating Chaos en ook W3C’s semantische woordkeus spreekt boekdelen “From Chaos, Order: SKOS Recommendation Helps Organize Knowledge (2009-08-18)”. Ik mag toch niet hopen dat de uitvinder van het World Wide Web en tevens directeur van W3C Tim Berners-Lee het Web inmiddels synoniem ziet aan chaos!

Wie meer of liever gezien het onderwerp natuurlijk toch maar alles wil lezen. Van het congres zijn de de samenvattingen en presentaties online beschikbaar.

Tags , , , ,

Een makkelijke vorm om uw kennis te organiseren

21-08-2009 | Marco Streefkerk

Deze week werd bekend dat W3C DEN volgt in het verheffen van SKOS tot aanbeveling (zie ook ons nieuwsbericht). SKOS staat voor Simple Knowledge Organisation System. SKOS is speciaal ontworpen om woordsystemen vast te leggen zoals thesauri, classificatieschema’s, taxonomieën en folksonomieën. Heel relevant voor het erfgoed waar gestandaardiseerde ontsluiting essentieel is voor de vindbaarheid.

SKOS is een toepassing van RDF (Resource Description Framework) de taal van het semantisch web en een structuur om metadata van bronnen op het web vast te leggen. Door erfgoed te ontsluiten op het web met een woordsysteem dat in SKOS gepubliceerd is, kunnen objecten uit verschillende collecties (geautomatiseerd) worden verbonden, zelfs als bij de beschrijvingen verschillende woordsystemen zijn gebruikt.

Er zijn al diverse internationale woordsystemen in SKOS beschikbaar. Bijvoorbeeld de Library of Congress Subject Headings (LCSH) en uit Frankrijk RAMEAU (Répertoire d’autorité-matière encyclopédique et alphabétique unifié). Dat bood de mogelijkheid om de dwarsverbanden tussen beide woordsystemen vast te leggen. Zo zijn in het STICH-project de RAMEAU concepten voorzien van een LCSH als CloseMatch, bijvoorbeeld Oiseaux voor Birds en visa-versa. Dit opent de mogelijkheid om het publiek in staat te stellen om vogels in Amerikaanse collecties te combineren met soortgenoten in Franse. Meer voorbeelden zijn te vinden op website van het onderzoeksproject.

De projectenbank van DEN geeft slechts drie treffers voor SKOS. In het denklab van Europeana is ook gebruik gemaakt van SKOS om meerdere collecties intelligent aan elkaar te koppelen. De ontwikkelplannen ingediend voor de subsidieregeling Digitaleren met Beleid geven aan dat we de komende tijd nog meer digitale diensten powered by SKOS kunnen verwachten.

Recent kwam SKOS ook naar voren bij het vaststellen van minimale eisen voor beschrijving in het kader van de uitbreiding van DE BASIS voor dit jaar. Als alle erfgoedinstellingen nu eens een woordsysteem zouden gebruiken bij de ontsluiting en de gebruikte term als verwijzing naar een gepubliceerde SKOS representatie in DC.subject op het web vindbaar zouden maken, dan zou het mogelijk worden om één geïntegreerde toegang tot de Digitale Collectie Nederland op te zetten. Zo ver is het nog niet. SKOS is voorlopig ook voor DEN … een aanbeveling.

Tags ,

Web 3.0 … een inleiding over het semantisch web

01-08-2008 | Janneke Grooten

Terwijl sommigen van ons de mogelijkheden het Web 2.0 nog volop aan het ontdekken zijn, kijken anderen al weer voorbij de horizon. Het semantisch web, ook wel Web 3.0 genoemd, vat nieuwe ontwikkelingen samen waarbij vooral de betekenis en samenhang van digitale informatiebronnen een grote rol speelt. Dit Engelstalige filmpje legt het allemaal kort en helder uit.

YouTube Preview Image

Tags

MultimediaN Pilot e-Culture

05-02-2008 | Marco de Niet

Het project MultimediaN Pilot e-Culture heeft een leuk filmpje gemaakt om de mogelijkheden van het semantisch web voor de presentatie van digitaal erfgoed te tonen.

YouTube Preview Image

Tags