Semantisch web en gekoppelde gegevens. Correcties en aanvullingen

Ik wil graag een fragment uit dit onlangs verschenen boek aan het publiek presenteren:

Ontologische modellering van een onderneming: methoden en technologieën [Tekst]: monografie / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak en anderen; hoofdredacteur S.V. Gorshkov]. - Ekaterinburg: Ural University Publishing House, 2019. - 234 p.: ill., tabel; 20 cm - Auteur. aangegeven op de achterkap. Met. — Bibliografie aan het einde van Ch. — ISBN 978-5-7996-2580-1: 200 exemplaren.

Het doel van het plaatsen van dit fragment op Habré is vierledig:

  • Het is onwaarschijnlijk dat iemand dit boek in handen kan houden als hij geen cliënt is van een gerespecteerd persoon SergeIndex; Het is zeker niet in de uitverkoop.
  • Er zijn correcties in de tekst aangebracht (deze worden hieronder niet benadrukt) en er zijn toevoegingen gedaan die niet erg compatibel zijn met het formaat van een gedrukte monografie: thematische opmerkingen (onder spoilers) en hyperlinks.
  • ik wil vragen en opmerkingen verzamelen, om hiermee rekening te houden bij het opnemen van deze tekst in herziene vorm in andere publicaties.
  • Veel aanhangers van het Semantisch Web en Linked Data geloven nog steeds dat hun kring zo smal is, vooral omdat het grote publiek nog niet goed is uitgelegd hoe geweldig het is om aanhanger te zijn van het Semantisch Web en Linked Data. De auteur van het fragment, hoewel hij tot deze kring behoort, is deze mening niet toegedaan, maar acht zichzelf niettemin verplicht een nieuwe poging te ondernemen.

aldus

Semantisch web

De evolutie van het internet kan als volgt worden weergegeven (of praat over de segmenten die in de onderstaande volgorde zijn gevormd):

  1. Documenten op internet. Sleuteltechnologieën - Gopher, FTP, enz.
    Het internet is een mondiaal netwerk voor de uitwisseling van lokale bronnen.
  2. Internetdocumenten. Sleuteltechnologieën zijn HTML en HTTP.
    De aard van de blootgestelde bronnen houdt rekening met de kenmerken van hun transmissiemedium.
  3. Internetgegevens. Sleuteltechnologieën - REST en SOAP API, XHR, enz.
    In het tijdperk van internettoepassingen worden niet alleen mensen consumenten van hulpbronnen.
  4. Internetgegevens. Sleuteltechnologieën zijn Linked Data-technologieën.
    Deze vierde fase, voorspeld door Berners-Lee, de schepper van de tweede kerntechnologieën en directeur van het W3C, wordt het Semantische Web genoemd; Linked Data-technologieën zijn ontworpen om gegevens op internet niet alleen machinaal leesbaar te maken, maar ook ‘machine-begrijpelijk’.

Uit wat volgt zal de lezer de overeenkomst tussen de sleutelconcepten van de tweede en de vierde fase begrijpen:

  • URL's zijn analoog aan URI's,
  • het analogon van HTML is RDF,
  • HTML-hyperlinks zijn vergelijkbaar met URI-exemplaren in RDF-documenten.

Het Semantische Web is meer een systemische visie op de toekomst van het internet dan een specifieke spontane of gelobbyde trend, hoewel het met deze laatste rekening kan houden. Een belangrijk kenmerk van wat Web 2.0 wordt genoemd, wordt bijvoorbeeld beschouwd als ‘door gebruikers gegenereerde inhoud’. In het bijzonder wordt er een beroep gedaan op de aanbeveling van het W3C om hiermee rekening te houden “Webannotatie-ontologie"en een dergelijke onderneming als Solid.

Is het semantische web dood?

Als je weigert onrealistische verwachtingenis de situatie met het semantische web ongeveer dezelfde als met het communisme in de tijd van het ontwikkelde socialisme (en laat iedereen zelf beslissen of loyaliteit aan Iljitsj’ voorwaardelijke bevelen wordt nageleefd). Zoekmachines behoorlijk succesvol dwingen websites om RDFa en JSON-LD te gebruiken en gebruiken zelf technologieën die verband houden met de hieronder beschreven (Google Knowledge Graph, Bing Knowledge Graph).

In algemene termen kan de auteur niet zeggen wat een grotere verspreiding verhindert, maar hij kan wel spreken op basis van persoonlijke ervaringen. Er zijn problemen die “out of the box” kunnen worden opgelost onder de omstandigheden van het SW-offensief, hoewel ze niet erg wijdverbreid zijn. Als gevolg hiervan hebben degenen die met deze taken worden geconfronteerd geen dwangmiddelen tegen degenen die een oplossing kunnen bieden, terwijl het onafhankelijk aanbieden van een oplossing door laatstgenoemden in tegenspraak is met hun bedrijfsmodellen. Dus gaan we door met het ontleden van HTML en het aan elkaar lijmen van verschillende API's, die elkaar nog veel erger maken.

Linked Data-technologieën hebben zich echter buiten het reguliere internet verspreid; Het boek is in feite aan deze toepassingen gewijd. Momenteel verwacht de Linked Data-gemeenschap dat deze technologieën nog wijdverspreider zullen worden dankzij Gartner's registratie (of proclamatie, zoals je wilt) van trends zoals Kennisgrafieken и Gegevens weefsel. Ik zou graag willen geloven dat het niet de ‘fiets’-implementaties van deze concepten zullen zijn die succesvol zullen zijn, maar die gerelateerd aan de W3C-standaarden die hieronder worden besproken.

Gelinkte gegevens

Berners-Lee definieerde Linked Data als het semantische web ‘goed gedaan’: een reeks benaderingen en technologieën waarmee het zijn uiteindelijke doelen kan bereiken. Basisprincipes van Linked Data Berners-Lee gemarkeerd het volgende.

Principe 1. URI's gebruiken om entiteiten een naam te geven.

URI's zijn globale entiteits-ID's, in tegenstelling tot lokale tekenreeks-ID's voor vermeldingen. Dit principe kwam vervolgens het beste tot uiting in de Google Knowledge Graph-slogan “dingen, geen snaren.

Principe 2. URI's gebruiken in het HTTP-schema, zodat er geen verwijzingen naar meer naar worden verwezen.

Door naar een URI te verwijzen, zou het mogelijk moeten zijn om de betekende achter die betekenaar te verkrijgen (de analogie met de naam van de operator " is hier duidelijk).*" in C); meer precies, om een ​​representatie hiervan te krijgen - afhankelijk van de waarde van de HTTP-header Accept:. Misschien zal het met de komst van het AR/VR-tijdperk mogelijk zijn om de bron zelf te verkrijgen, maar voorlopig zal het hoogstwaarschijnlijk een RDF-document zijn, dat het resultaat is van het uitvoeren van een SPARQL-query DESCRIBE.

Principe 3. Gebruik van W3C-standaarden - voornamelijk RDF(S) en SPARQL - in het bijzonder bij het derefereren van URI's.

Deze individuele ‘lagen’ van de Linked Data-technologiestapel, ook wel bekend als Semantische weblaagcake, zal hieronder worden beschreven.

Principe 4. Gebruik van verwijzingen naar andere URI's bij het beschrijven van entiteiten.

Met RDF kun je je beperken tot een verbale beschrijving van een hulpbron in natuurlijke taal, en het vierde principe roept op om dit niet te doen. Als het eerste principe universeel wordt nageleefd, wordt het bij het beschrijven van een bron mogelijk om naar andere te verwijzen, inclusief ‘buitenlandse’ bronnen. Daarom worden de gegevens gekoppeld genoemd. In feite is het bijna onvermijdelijk om URI's te gebruiken die genoemd worden in de RDFS-vocabulaire.

RDF

RDF (Resource Description Framework) is een formalisme voor het beschrijven van onderling verbonden entiteiten.

Over entiteiten en hun relaties worden uitspraken gedaan van het type ‘subject-predikaat-object’, triplets genoemd. In het eenvoudigste geval zijn het onderwerp, het predikaat en het object allemaal URI's. Dezelfde URI kan zich op verschillende posities in verschillende triolen bevinden: een onderwerp, een predikaat en een object zijn; De tripletten vormen dus een soort grafiek die een RDF-grafiek wordt genoemd.

Onderwerpen en objecten kunnen niet alleen URI's zijn, maar ook zogenaamde lege knooppunten, en objecten kunnen dat ook zijn letterlijke woorden. Letterlijke waarden zijn voorbeelden van primitieve typen die bestaan ​​uit een stringrepresentatie en een typeaanduiding.

Voorbeelden van het schrijven van letterlijke letters (in de Turtle-syntaxis, meer daarover hieronder): "5.0"^^xsd:float и "five"^^xsd:string. Letterlijke met type rdf:langString kan ook voorzien worden van een taaltag; in Turtle staat het zo geschreven: "five"@en и "пять"@ru.

Lege knooppunten zijn ‘anonieme’ bronnen zonder globale identificatiegegevens, waarover wel uitspraken kunnen worden gedaan; soort existentiële variabelen.

Dus (dit is in feite het hele punt van RDF):

  • onderwerp is een URI of een leeg knooppunt,
  • het predikaat is een URI,
  • object is een URI, een leeg knooppunt of een letterlijke.

Waarom kunnen predikaten geen lege knooppunten zijn?

De waarschijnlijke reden is de wens om triplet informeel te begrijpen en te vertalen in de taal van predikaatlogica van de eerste orde. s p o zoals zoiets Semantisch web en gekoppelde gegevens. Correcties en aanvullingenWaar Semantisch web en gekoppelde gegevens. Correcties en aanvullingen - predikaat, Semantisch web en gekoppelde gegevens. Correcties en aanvullingen и Semantisch web en gekoppelde gegevens. Correcties en aanvullingen - constanten. Sporen van dit begrip zijn te vinden in het document “LBase: Semantiek voor talen van het semantische web", dat de status heeft van een W3C-werkgroepnota. Met dit begrip, de triplet s p []Waar [] - leeg knooppunt, wordt vertaald als Semantisch web en gekoppelde gegevens. Correcties en aanvullingenWaar Semantisch web en gekoppelde gegevens. Correcties en aanvullingen - variabel, maar hoe dan te vertalen s [] o? Document met W3C-aanbevelingsstatus "RDF 1.1-semantiek” biedt een andere vertaalmethode, maar houdt nog steeds geen rekening met de mogelijkheid dat predikaten lege knooppunten zijn.

Echter, Manu Sporni toegestaan.

RDF is een abstract model. RDF kan in verschillende syntaxis worden geschreven (geserialiseerd): RDF/XML, zeeschildpad (meest menselijk leesbaar), JSON-LD, HDT (binair).

Dezelfde RDF kan op verschillende manieren worden geserialiseerd in RDF/XML, dus het heeft bijvoorbeeld geen zin om de resulterende XML te valideren met XSD of te proberen gegevens te extraheren met XPath. Op dezelfde manier is het onwaarschijnlijk dat JSON-LD zal voldoen aan de wens van de gemiddelde Javascript-ontwikkelaar om met RDF te werken met behulp van de punt- en vierkante haakjesnotatie van Javascript (hoewel JSON-LD in die richting beweegt door een mechanisme aan te bieden inlijsten).

De meeste syntaxis bieden manieren om lange URI's in te korten. Bijvoorbeeld een advertentie @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> in Turtle kun je dan in plaats daarvan schrijven <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> gewoon rdf:type.

RDFS

RDFS (RDF Schema) - een basismodelleringsvocabulaire, introduceert de concepten van eigenschap en klasse en eigenschappen zoals rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Met behulp van het RDFS-woordenboek kunnen bijvoorbeeld de volgende geldige expressies worden geschreven:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS is een beschrijvings- en modelleringsvocabulaire, maar is geen beperkingstaal (hoewel de officiële specificatie en bladeren mogelijkheid van een dergelijk gebruik). Het woord "Schema" moet niet in dezelfde zin worden opgevat als in de uitdrukking "XML-schema". Bijvoorbeeld, :author rdfs:range foaf:Person betekent dat rdf:type alle vastgoedwaarden :author - foaf:Person, maar betekent niet dat dit van tevoren moet worden gezegd.

SPARQL

SPARQL (SPARQL Protocol en RDF Query Language) - een querytaal voor RDF-gegevens. In een eenvoudig geval is een SPARQL-query een reeks steekproeven waarmee tripletten van de opgevraagde grafiek worden vergeleken. Patronen kunnen variabelen bevatten in onderwerp-, predikaat- en objectposities.

De zoekopdracht retourneert zulke variabelewaarden die, wanneer ze in de monsters worden gesubstitueerd, kunnen resulteren in een subgrafiek van de opgevraagde RDF-grafiek (een subset van de tripletten). Variabelen met dezelfde naam in verschillende monsters van tripletten moeten dezelfde waarden hebben.

Gegeven de bovenstaande set van zeven RDFS-axioma's zal de volgende query bijvoorbeeld terugkeren rdfs:domain и rdfs:range als waarden ?s и ?p respectievelijk:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Het is vermeldenswaard dat SPARQL declaratief is en geen taal is voor het beschrijven van het doorlopen van grafieken (sommige RDF-opslagplaatsen bieden echter manieren om het uitvoeringsplan voor query's aan te passen). Daarom kunnen sommige standaardgrafiekproblemen, bijvoorbeeld het vinden van het kortste pad, niet worden opgelost in SPARQL, inclusief het gebruik van de eigendomspaden (maar nogmaals, individuele RDF-repository's bieden speciale extensies om deze problemen op te lossen).

SPARQL deelt het vermoeden van openheid van de wereld niet en volgt de ‘negatie als mislukking’-benadering, waarbij mogelijk ontwerpen zoals FILTER NOT EXISTS {…}. Met behulp van het mechanisme wordt rekening gehouden met de gegevensdistributie federatieve zoekopdrachten.

Het SPARQL-toegangspunt - een RDF-opslag die SPARQL-query's kan verwerken - heeft geen directe analogen uit de tweede fase (zie het begin van deze paragraaf). Het kan worden vergeleken met een database, gebaseerd op de inhoud waarvan HTML-pagina's zijn gegenereerd, maar toegankelijk voor buitenaf. Het SPARQL-toegangspunt is meer analoog aan het API-toegangspunt uit de derde fase, maar met twee belangrijke verschillen. Ten eerste is het mogelijk om verschillende ‘atomaire’ queries te combineren in één (wat wordt beschouwd als een belangrijk kenmerk van GraphQL), en ten tweede is zo’n API volledig zelfdocumenterend (wat HATEOAS probeerde te bereiken).

Polemische opmerking

RDF is een manier om gegevens op internet te publiceren, dus RDF-opslag moet worden beschouwd als een document-DBMS. Toegegeven, aangezien RDF een grafiek is en geen boom, bleken ze ook op grafieken gebaseerd te zijn. Het is verbazingwekkend dat het überhaupt is gelukt. Wie had ooit gedacht dat er slimme mensen zouden zijn die blanco knooppunten zouden implementeren. Codd is hier niet gelukt.

Er zijn ook minder uitgebreide manieren om de toegang tot RDF-gegevens te organiseren, bijvoorbeeld: Gekoppelde gegevensfragmenten (LDF) en Gekoppeld dataplatform (LDP).

OWL

OWL (Web Ontology Language) - een formalisme voor het representeren van kennis, een syntactische versie van beschrijvingslogica Semantisch web en gekoppelde gegevens. Correcties en aanvullingen (overal daaronder is het correcter om OWL 2 te zeggen, de eerste versie van OWL was gebaseerd op Semantisch web en gekoppelde gegevens. Correcties en aanvullingen).

Concepten van beschrijvende logica in OWL komen overeen met klassen, rollen komen overeen met eigenschappen, individuen behouden hun vorige naam. Axioma's worden ook wel axioma's genoemd.

Bijvoorbeeld in de zgn Manchester-syntaxis voor OWL-notatie een axioma dat ons al bekend is Semantisch web en gekoppelde gegevens. Correcties en aanvullingen zal als volgt worden geschreven:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Er zijn andere syntaxis voor het schrijven van OWL, zoals functionele syntaxis, gebruikt in de officiële specificatie, en UIL/XML. Bovendien kan OWL worden geserialiseerd om de RDF-syntaxis te abstraheren en verder - in een van de specifieke syntaxis.

OWL heeft een dubbele relatie met RDF. Enerzijds kan het worden beschouwd als een soort woordenboek dat RDFS uitbreidt. Aan de andere kant is het een krachtiger formalisme waarvoor RDF slechts een serialisatieformaat is. Niet alle elementaire OWL-constructies kunnen worden geschreven met behulp van een enkel RDF-triplet.

Afhankelijk van welke subset van OWL-constructen mogen worden gebruikt, spreken ze van zogenaamde OWL-profielen. De gestandaardiseerde en bekendste zijn OWL EL, OWL RL en OWL QL. De profielkeuze beïnvloedt de computationele complexiteit van typische problemen. Een complete set OWL-constructen die overeenkomen met Semantisch web en gekoppelde gegevens. Correcties en aanvullingen, genaamd OWL DL. Soms praten ze ook over OWL Full, waarin OWL-constructies mogen worden gebruikt met de volledige vrijheid die inherent is aan RDF, zonder semantische en computationele beperkingen. Semantisch web en gekoppelde gegevens. Correcties en aanvullingen. Iets kan bijvoorbeeld zowel een klasse als een eigenschap zijn. OWL Full is onbeslisbaar.

De belangrijkste principes voor het verbinden van consequenties aan OWL zijn het aannemen van de open-wereldaanname. OWA) en verwerping van het vermoeden van unieke namen (aanname van unieke naam, Een). Hieronder zullen we zien waar deze principes toe kunnen leiden en enkele OWL-constructies introduceren.

Laat de ontologie het volgende fragment bevatten (in Manchester-syntaxis):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Zal uit wat er is gezegd volgen dat John veel kinderen heeft? Als u UNA afwijst, wordt de gevolgtrekkingsmachine gedwongen deze vraag ontkennend te beantwoorden, aangezien Alice en Bob heel goed dezelfde persoon kunnen zijn. Om het volgende te laten gebeuren, moet je het volgende axioma toevoegen:

DifferentIndividuals: Alice, Bob, Carol, John

Stel nu dat het ontologiefragment de volgende vorm heeft (er wordt verklaard dat John veel kinderen heeft, maar hij heeft slechts twee kinderen):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Zal deze ontologie inconsistent zijn (wat kan worden geïnterpreteerd als bewijs van ongeldige gegevens)? Als je OWA accepteert, zal de gevolgtrekkingsmachine negatief reageren: "ergens" anders (in een andere ontologie) kan heel goed worden gezegd dat Carol ook het kind van John is.

Om de mogelijkheid hiervan uit te sluiten, voegen we een nieuw feit over John toe:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Om de verschijning van andere kinderen uit te sluiten, laten we zeggen dat alle waarden van het eigendom ‘een kind krijgen’ mensen zijn, van wie we er maar vier hebben:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Nu zal de ontologie tegenstrijdig worden, wat de gevolgtrekkingsmachine niet zal nalaten te rapporteren. Met de laatste van de axioma's hebben we in zekere zin de wereld 'gesloten', en merk op hoe de mogelijkheid wordt uitgesloten dat John zijn eigen kind is.

Bedrijfsgegevens koppelen

De Linked Data-reeks van benaderingen en technologieën was oorspronkelijk bedoeld voor het publiceren van gegevens op het web. Het gebruik ervan in een interne bedrijfsomgeving kent een aantal problemen.

In een gesloten bedrijfsomgeving is de deductieve kracht van OWL, gebaseerd op de adoptie van OWA en de afwijzing van UNA, beslissingen die te wijten zijn aan het open en gedistribueerde karakter van het web, bijvoorbeeld te zwak. En hier zijn de volgende oplossingen mogelijk.

  • OWL voorzien van semantiek, wat het verlaten van OWA en de adoptie van UNA impliceert, de implementatie van de overeenkomstige output-engine. - Langs dit pad komt eraan Stardog RDF-opslag.
  • Het opgeven van de deductieve mogelijkheden van OWL ten gunste van regelmotoren. — Stardog ondersteunt SWRL; Jena en GraphDB bieden eigen talen reglement
  • Weigering van de deductieve mogelijkheden van OWL, gebruik van een of andere subset dichtbij RDFS voor modellering. - Zie hieronder meer hierover.

Een ander probleem is de grotere focus die het bedrijfsleven heeft op datakwaliteitsproblemen en het gebrek aan datavalidatietools in de Linked Data-stack. De uitgangen hier zijn als volgt.

  • Nogmaals, gebruik deze voor validatie van OWL-constructies met gesloten wereldsemantiek en unieke namen als er een geschikte inferentie-engine beschikbaar is.
  • Gebruiken SHACL, gestandaardiseerd nadat de lijst met Semantic Web Layer Cake-lagen is hersteld (het kan echter ook als regelengine worden gebruikt), of Shex.
  • Begrijp dat alles uiteindelijk wordt gedaan met SPARQL-query's, en creëer daarmee uw eigen eenvoudige gegevensvalidatiemechanisme.

Maar zelfs een volledige afwijzing van deductieve mogelijkheden en validatietools zorgt ervoor dat de Linked Data-stapel buiten concurrentie blijft bij taken die qua landschap vergelijkbaar zijn met het open en gedistribueerde web: bij data-integratietaken.

Hoe zit het met een regulier bedrijfsinformatiesysteem?

Dat is mogelijk, maar je moet je natuurlijk wel bewust zijn van de problemen die de betreffende technologieën precies moeten oplossen. Ik zal hier een typische reactie van ontwikkelingsdeelnemers beschrijven om te laten zien hoe deze technologiestapel eruit ziet vanuit het oogpunt van conventionele IT. Doet me een beetje denken aan de gelijkenis van de olifant:

  • Bedrijfsanalist: RDF is zoiets als een direct opgeslagen logisch model.
  • Systeem analist: RDF is als EAV, alleen met een aantal indexen en een handige zoektaal.
  • Ontwikkelaar: nou, dit is allemaal in de geest van de concepten van rijk model en low-code, was aan het lezen onlangs hierover.
  • Project manager: ja het is hetzelfde het instorten van de stapel!

De praktijk leert dat de stapel het vaakst wordt gebruikt bij taken die verband houden met de distributie en heterogeniteit van gegevens, bijvoorbeeld bij het bouwen van MDM- (Master Data Management) of DWH-klassesystemen (Data Warehouse). Dergelijke problemen bestaan ​​in elke sector.

Wat branchespecifieke toepassingen betreft, zijn Linked Data-technologieën momenteel het populairst in de volgende industrieën.

  • biomedische technologieën (waarbij hun populariteit verband lijkt te houden met de complexiteit van het domein);

huidig

Het “Boiling Point” was onlangs gastheer van een conferentie georganiseerd door de vereniging “National Medical Knowledge Base”Ontologieën combineren. Van theorie naar praktische toepassing.

  • productie en exploitatie van complexe producten (grote machinebouw, olie- en gasproductie; meestal hebben we het over standaard ISO 15926 );

huidig

Ook hier is de reden de complexiteit van het vakgebied, terwijl bijvoorbeeld in de upstream-fase, als we het over de olie- en gasindustrie hebben, eenvoudige boekhouding enkele CAD-functies vereist.

In 2008 vond een representatief installatie-evenement plaats, georganiseerd door Chevron conferentie.

ISO 15926 leek uiteindelijk een beetje zwaar voor de olie- en gasindustrie (en vond wellicht een grotere toepassing in de machinebouw). Alleen Statoil (Equinor) raakte er helemaal aan verslaafd; in Noorwegen een geheel ecosysteem. Anderen proberen hun eigen ding te doen. Volgens geruchten is het binnenlandse ministerie van Energie bijvoorbeeld van plan een ‘conceptueel ontologisch model van het brandstof- en energiecomplex’ te creëren, dat blijkbaar lijkt op gemaakt voor de elektriciteitsindustrie.

  • financiële organisaties (zelfs XBRL kan worden beschouwd als een soort hybride van SDMX en de RDF Data Cube-ontologie);

huidig

Begin dit jaar spamde LinkedIn de auteur actief met vacatures van vrijwel alle giganten uit de financiële sector, die hij kent van de tv-serie ‘Force Majeure’: Goldman Sachs, JPMorgan Chase en/of Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Waarschijnlijk was iedereen op zoek naar iemand naar wie ze een bericht konden sturen Kennisgrafiekconferentie. Een flink aantal wist het te vinden: financiële organisaties namen alles mee ochtend van de eerste dag.

Op HeadHunter kwam alleen Sberbank iets interessants tegen; het ging over “EAV-opslag met een RDF-achtig datamodel.”

Waarschijnlijk is het verschil in de mate van liefde voor de overeenkomstige technologieën van binnenlandse en westerse financiële instellingen te wijten aan het transnationale karakter van de activiteiten van laatstgenoemde. Blijkbaar vereist integratie over de staatsgrenzen heen kwalitatief verschillende organisatorische en technische oplossingen.

  • vraag-antwoordsystemen met commerciële toepassingen (IBM Watson, Apple Siri, Google Knowledge Graph);

huidig

Trouwens, de maker van Siri, Thomas Gruber, is de auteur van de definitie van ontologie (in IT-zin) als een ‘conceptualisatiespecificatie’. Naar mijn mening verandert de herschikking van de woorden in deze definitie niets aan de betekenis ervan, wat er misschien op wijst dat deze er niet is.

  • publicatie van gestructureerde data (met meer rechtvaardiging kan dit worden toegeschreven aan Linked Open Data).

huidig

Grote fans van Linked Data zijn de zogenaamde GLAM: galerijen, bibliotheken, archieven en musea. Het volstaat te zeggen dat de Library of Congress een vervanging voor MARC21 promoot BIBFRAMEDie biedt een basis voor de toekomst van bibliografische beschrijving en natuurlijk gebaseerd op RDF.

Wikidata wordt vaak aangehaald als voorbeeld van een succesvol project op het gebied van Linked Open Data – een soort machinaal leesbare versie van Wikipedia waarvan de inhoud, in tegenstelling tot DBPedia, niet wordt gegenereerd door import uit artikelinfoboxen, maar min of meer handmatig aangemaakt (en wordt vervolgens een informatiebron voor dezelfde infoboxen).

Wij raden u ook aan om dit eens te bekijken lijst gebruikers van de Stardog RDF-opslag op de Stardog-website in het gedeelte “Klanten”.

Hoe het ook zij, volgens Gartner Hypecyclus voor opkomende technologieën 2016 "Enterprise Taxonomy and Ontology Management" bevindt zich midden in een afdaling naar de vallei van teleurstelling met het vooruitzicht om niet eerder dan over tien jaar een "productiviteitsplateau" te bereiken.

Bedrijfsgegevens verbinden

Voorspellingen, voorspellingen, voorspellingen...

Uit historisch belang heb ik hieronder de voorspellingen van Gartner voor verschillende jaren weergegeven over de technologieën die ons interesseren.

Jaar Технология Verslag Positie Jaren tot een plateau
2001 Semantisch web Emerging Technologies Innovatietrigger 5-10
2006 Bedrijfs semantisch web Emerging Technologies Hoogtepunt van opgeblazen verwachtingen 5-10
2012 Semantisch web Big data Hoogtepunt van opgeblazen verwachtingen > 10
2015 Gelinkte gegevens Geavanceerde analyse en datawetenschap Trog van desillusie 5-10
2016 Beheer van ondernemingsontologie Emerging Technologies Trog van desillusie > 10
2018 Kennisgrafieken Emerging Technologies Innovatietrigger 5-10

Echter al binnen "Hypecyclus..." 2018 er is nog een opwaartse trend verschenen: Knowledge Graphs. Er vond een zekere reïncarnatie plaats: grafiek-DBMS's, waarnaar de aandacht van gebruikers en de inspanningen van ontwikkelaars bleken te zijn verlegd, onder invloed van de verzoeken van eerstgenoemden en de gewoonten van laatstgenoemden, begonnen de contouren en positionering aan te nemen van hun voorgangers, concurrenten.

Bijna elke grafiek DBMS noemt zichzelf nu een geschikt platform voor het bouwen van een zakelijke ‘kennisgrafiek’ (“linked data” wordt soms vervangen door “connected data”), maar hoe gerechtvaardigd zijn dergelijke beweringen?

Grafiekdatabases zijn nog steeds asemantisch; de gegevens in een grafiek-DBMS zijn nog steeds dezelfde gegevenssilo. String-ID's in plaats van URI's maken de taak van het integreren van twee grafiek-DBMS's nog steeds een integratietaak, terwijl het integreren van twee RDF-winkels vaak neerkomt op het simpelweg samenvoegen van twee RDF-grafieken. Een ander aspect van asemanticiteit is de niet-reflexiviteit van het LPG-grafiekmodel, wat het moeilijk maakt om metadata te beheren met behulp van hetzelfde platform.

Ten slotte hebben grafiek-DBMS's geen gevolgtrekkings- of regelmotoren. De resultaten van dergelijke zoekmachines kunnen worden gereproduceerd door zoekopdrachten ingewikkelder te maken, maar dit is zelfs mogelijk in SQL.

Toonaangevende RDF-opslagsystemen hebben echter geen problemen met het ondersteunen van het LPG-model. De meest solide aanpak wordt beschouwd als degene die ooit in Blazegraph werd voorgesteld: het RDF*-model, dat RDF en LPG combineert.

Meer

Meer over RDF-opslagondersteuning voor het LPG-model kunt u lezen in het vorige artikel op Habré: "Wat gebeurt er nu met RDF-opslag". Ik hoop dat er ooit een apart artikel wordt geschreven over Knowledge Graphs en Data Fabric. Het laatste deel is, zoals gemakkelijk te begrijpen, in haast geschreven, maar zelfs zes maanden later is alles niet veel duidelijker met deze concepten.

Literatuur

  1. Halpin, H., Monnin, A. (red.) (2014). Filosofische engineering: naar een filosofie van het web
  2. Allemang, D., Hendler, J. (2011) Semantisch web voor de werkende ontoloog (2e ed.)
  3. Staab, S., Studer, R. (red.) (2009) Handboek over ontologieën (2e ed.)
  4. Hout, D. (red.). (2011) Bedrijfsgegevens koppelen
  5. Keet, M. (2018) Een inleiding tot ontologie-engineering

Bron: www.habr.com

Voeg een reactie