Semantisk webb och länkad data. Rättelser och tillägg

Jag skulle vilja presentera ett fragment av denna nyligen publicerade bok för allmänheten:

Ontologisk modellering av ett företag: metoder och teknologier [Text]: monografi / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak och andra; verkställande redaktör S.V. Gorshkov]. - Jekaterinburg: Ural University Publishing House, 2019. - 234 s.: ill., tabell; 20 cm - Författare. anges på ryggmesen. Med. - Bibliografi i slutet av 978 kap. — ISBN 5-7996-2580-1-200: XNUMX ex.

Syftet med att lägga upp det här fragmentet på Habré är fyra:

  • Det är osannolikt att någon kommer att kunna hålla den här boken i sina händer om han inte är kund till en respekterad SergeIndex; Det är definitivt inte till rea.
  • Rättelser har gjorts i texten (de är inte markerade nedan) och tillägg har gjorts som inte är särskilt kompatibla med formatet på en tryckt monografi: aktuella anteckningar (under spoilers) och hyperlänkar.
  • jag vill samla in frågor och kommentarer, för att ta hänsyn till dem när denna text tas med i reviderad form i andra publikationer.
  • Många anhängare av semantisk webb och länkad data tror fortfarande att deras krets är så snäv, främst för att allmänheten ännu inte har förklarats ordentligt hur fantastiskt det är att vara en anhängare av den semantiska webben och länkad data. Författaren till fragmentet, även om han tillhör denna krets, har inte denna åsikt, men anser sig likväl skyldig att göra ett nytt försök.

Så,

Semantisk webb

Utvecklingen av Internet kan representeras enligt följande (eller prata om dess segment som bildades i den ordning som anges nedan):

  1. Dokument på Internet. Nyckelteknologier - Gopher, FTP, etc.
    Internet är ett globalt nätverk för utbyte av lokala resurser.
  2. Internetdokument. Nyckelteknologier är HTML och HTTP.
    Arten av de exponerade resurserna tar hänsyn till egenskaperna hos deras överföringsmedium.
  3. Internetdata. Nyckelteknologier - REST och SOAP API, XHR, etc.
    En tid präglad av Internetapplikationer, inte bara människor blir konsumenter av resurser.
  4. Internetdata. Nyckelteknologier är länkade datateknologier.
    Detta fjärde steg, förutspått av Berners-Lee, skaparen av den andra kärnteknologin och chef för W3C, kallas den semantiska webben; Länkad datateknik är utformad för att göra data på webben inte bara maskinläsbar utan också "maskinförståelig".

Från det följande kommer läsaren att förstå överensstämmelsen mellan nyckelbegreppen i det andra och fjärde steget:

  • URL:er är analoga med URI:er,
  • analogen till HTML är RDF,
  • HTML-hyperlänkar liknar URI-förekomster i RDF-dokument.

Den semantiska webben är mer en systemisk vision av Internets framtid än en specifik spontan eller lobbad trend, även om den kan ta hänsyn till dessa senare. Till exempel anses en viktig egenskap hos det som kallas Web 2.0 vara "användargenererat innehåll". I synnerhet uppmanas W3C:s rekommendation att ta hänsyn till den "Webannoteringsontologi"och ett sådant åtagande som Fastämne.

Är den semantiska webben död?

Om du vägrar orealistiska förväntningar, situationen med den semantiska webben är ungefär densamma som med kommunismen under den utvecklade socialismens tid (och om lojalitet till Iljitjs villkorliga befallningar iakttas, låt var och en bestämma själva). Sökmotorer ganska lyckat tvinga webbplatser att använda RDFa och JSON-LD och själva använda tekniker relaterade till de som beskrivs nedan (Google Knowledge Graph, Bing Knowledge Graph).

Generellt kan författaren inte säga vad som hindrar större spridning, men han kan tala utifrån personlig erfarenhet. Det finns problem som skulle kunna lösas "out of the box" under SW-offensivens förhållanden, även om de inte är särskilt utbredda. Som ett resultat har de som ställs inför dessa uppgifter inga medel för tvång mot dem som kan tillhandahålla en lösning, medan de senares oberoende tillhandahållande av en lösning strider mot deras affärsmodeller. Så vi fortsätter att analysera HTML och limma ihop olika API:er, varandra skitare.

Dock har länkad datateknik spridit sig utanför den vanliga webben; Boken är faktiskt tillägnad dessa tillämpningar. För närvarande förväntar sig Linked Data-communityt att dessa teknologier kommer att bli ännu mer utbredda tack vare Gartners inspelning (eller proklamation, som du vill) av trender som t.ex. Kunskapsgrafer и Datatyg. Jag skulle vilja tro att det inte kommer att vara "cykelimplementeringarna" av dessa koncept som kommer att bli framgångsrika, utan de som är relaterade till W3C-standarderna som diskuteras nedan.

Länkade data

Berners-Lee definierade länkad data som den semantiska webben "gjort rätt": en uppsättning tillvägagångssätt och teknologier som gör det möjligt för den att uppnå sina slutmål. Grundläggande principer för länkade data Berners-Lee markerad det följande.

Princip 1. Använda URI:er för att namnge enheter.

URI:er är globala enhetsidentifierare i motsats till lokala strängidentifierare för poster. Därefter uttrycktes denna princip bäst i Google Knowledge Graph-slogan "saker, inte strängar".

Princip 2. Använda URI:er i HTTP-schemat så att de kan avreferens.

Genom att hänvisa till en URI bör det vara möjligt att få den betecknade bakom den betecknaren (liknelsen med namnet på operatören " är tydlig här).*"i C); mer exakt, för att få en representation av detta betecknade - beroende på värdet på HTTP-huvudet Accept:. Kanske, med tillkomsten av AR/VR-eran, kommer det att vara möjligt att få själva resursen, men för närvarande kommer det troligen att vara ett RDF-dokument, som är resultatet av att köra en SPARQL-fråga DESCRIBE.

Princip 3. Användning av W3C-standarder - i första hand RDF(S) och SPARQL - i synnerhet vid avledning av URI:er.

Dessa individuella "lager" i den länkade datateknologistacken, även känd som Semantisk Web Layer Cake, kommer att beskrivas nedan.

Princip 4. Användning av referenser till andra URI:er vid beskrivning av enheter.

RDF låter dig begränsa dig till en verbal beskrivning av en resurs på naturligt språk, och den fjärde principen kräver att inte göra detta. Om den första principen följs universellt, blir det möjligt när man beskriver en resurs att hänvisa till andra, inklusive "utländska", vilket är anledningen till att uppgifterna kallas länkade. Det är faktiskt nästan oundvikligt att använda URI:er som är namngivna i RDFS-ordförrådet.

RDF

RDF (Resource Description Framework) är en formalism för att beskriva sammanhängande enheter.

Uttalanden av typen "subjekt-predikat-objekt", kallade tripletter, görs om entiteter och deras relationer. I det enklaste fallet är subjekt, predikat och objekt alla URI:er. Samma URI kan vara i olika positioner i olika tripletter: vara ett subjekt, ett predikat och ett objekt; Trillingarna bildar alltså en sorts graf som kallas en RDF-graf.

Ämnen och objekt kan inte bara vara URI, utan även sk tomma noder, och objekt kan också vara bokstavliga ord. Literals är instanser av primitiva typer som består av en strängrepresentation och en typindikation.

Exempel på att skriva bokstavliga (i Turtle-syntax, mer om det nedan): "5.0"^^xsd:float и "five"^^xsd:string. Bokstaver med typ rdf:langString kan också utrustas med en språktagg; i Turtle skrivs det så här: "five"@en и "пять"@ru.

Tomma noder är "anonyma" resurser utan globala identifierare, om vilka påståenden dock kan göras; typ av existentiella variabler.

Så (det här är faktiskt hela poängen med RDF):

  • ämnet är en URI eller en tom nod,
  • predikatet är en URI,
  • objekt är en URI, en tom nod eller en bokstavlig.

Varför kan inte predikat vara tomma noder?

Den troliga anledningen är önskan att informellt förstå och översätta triplett till första ordningens predikatlogiks språk s p o som något liknande Semantisk webb och länkad data. Rättelser och tilläggvar Semantisk webb och länkad data. Rättelser och tillägg - predikat, Semantisk webb och länkad data. Rättelser och tillägg и Semantisk webb och länkad data. Rättelser och tillägg - konstanter. Spår av denna förståelse finns i dokumentet "LBase: Semantics for Languages ​​of the Semantic Web", som har status som en W3C-arbetsgruppsanteckning. Med denna förståelse, trillingen s p []var [] - tom nod, kommer att översättas som Semantisk webb och länkad data. Rättelser och tilläggvar Semantisk webb och länkad data. Rättelser och tillägg - variabel, men hur man sedan översätter s [] o? Dokument med W3C-rekommendationsstatus "RDF 1.1 semantik” erbjuder en annan översättningsmetod, men överväger fortfarande inte möjligheten att predikat är tomma noder.

Däremot Manu Sporni tillåten.

RDF är en abstrakt modell. RDF kan skrivas (serialiseras) i olika syntaxer: RDF/XML, Turtle (mest läsbara för människor), JSON-LD, HDT (binär).

Samma RDF kan serialiseras till RDF/XML på olika sätt, så det är till exempel ingen mening att validera den resulterande XML med XSD eller försöka extrahera data med XPath. På samma sätt är det osannolikt att JSON-LD kommer att tillfredsställa den genomsnittliga Javascript-utvecklarens önskan att arbeta med RDF med hjälp av Javascripts punkt- och hakparentesnotation (även om JSON-LD rör sig i den riktningen genom att erbjuda en mekanism inramning).

De flesta syntaxer erbjuder sätt att förkorta långa URI:er. Till exempel en annons @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> i Turtle låter dig då skriva istället <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> bara rdf:type.

RDFS

RDFS (RDF Schema) - ett grundläggande modelleringsvokabulär, introducerar begreppen egendom och klass och egenskaper som t.ex. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Med hjälp av RDFS-ordboken, till exempel, kan följande giltiga uttryck skrivas:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS är ett beskrivnings- och modelleringsordförråd, men är inte ett begränsningsspråk (även om den officiella specifikationen och löv möjlighet till sådan användning). Ordet "Schema" ska inte förstås i samma betydelse som i uttrycket "XML Schema". Till exempel, :author rdfs:range foaf:Person betyder att rdf:type alla fastighetsvärden :author - foaf:Person, men betyder inte att detta ska sägas i förväg.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) - ett språk för att fråga RDF-data. I ett enkelt fall är en SPARQL-fråga en uppsättning sampel mot vilka tripletter av den graf som frågas matchas mot. Mönster kan innehålla variabler i subjekt-, predikat- och objektpositioner.

Frågan kommer att returnera sådana variabelvärden som, när de ersätts i proverna, kan resultera i en subgraf av den efterfrågade RDF-grafen (en delmängd av dess tripletter). Variabler med samma namn i olika sampel av tripletter måste ha samma värden.

Till exempel, givet ovanstående uppsättning av sju RDFS-axiom, kommer följande fråga att returnera rdfs:domain и rdfs:range som värden ?s и ?p respektive:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Det är värt att notera att SPARQL är deklarativt och inte är ett språk för att beskriva genomgång av grafer (dock erbjuder vissa RDF-förråd sätt att justera exekveringsplanen). Därför kan vissa standardgrafproblem, till exempel att hitta den kortaste vägen, inte lösas i SPARQL, inklusive att använda fastighetsvägar (men, återigen, individuella RDF-förråd erbjuder speciella tillägg för att lösa dessa problem).

SPARQL delar inte antagandet om världens öppenhet och följer strategin "negation som misslyckande", där möjlig design som t.ex FILTER NOT EXISTS {…}. Datadistribution beaktas med hjälp av mekanismen federerade frågor.

SPARQL-åtkomstpunkten - en RDF-lagring som kan bearbeta SPARQL-förfrågningar - har inga direkta analoger från det andra steget (se början av detta stycke). Det kan liknas vid en databas, baserad på innehållet i vilka HTML-sidor genererades, men tillgänglig för utsidan. SPARQL-åtkomstpunkten är mer analog med API-åtkomstpunkten från det tredje steget, men med två huvudsakliga skillnader. För det första är det möjligt att kombinera flera "atomära" frågor till en (vilket anses vara en nyckelegenskap för GraphQL), och för det andra är ett sådant API helt självdokumenterande (vilket är vad HATEOAS försökte uppnå).

Polemisk replik

RDF är ett sätt att publicera data på webben, så RDF-lagring bör betraktas som ett dokument-DBMS. Det är sant, eftersom RDF är en graf och inte ett träd, visade de sig också vara grafbaserade. Det är fantastiskt att det överhuvudtaget löste sig. Vem hade trott att det skulle finnas smarta människor som skulle implementera tomma noder. Codd är här det gick inte.

Det finns också mindre fullfjädrade sätt att organisera åtkomst till RDF-data, till exempel, Länkade datafragment (LDF) och Länkad dataplattform (LDP).

UGGLA

UGGLA (Web Ontology Language) - en formalism för att representera kunskap, en syntaktisk version av beskrivningslogik Semantisk webb och länkad data. Rättelser och tillägg (överallt nedan är det mer korrekt att säga OWL 2, den första versionen av OWL baserades på Semantisk webb och länkad data. Rättelser och tillägg).

Begreppen beskrivande logik i OWL motsvarar klasser, roller motsvarar egenskaper, individer behåller sitt tidigare namn. Axiom kallas också axiom.

Till exempel i den sk Manchester syntax för OWL-notation ett axiom som redan är känt för oss Semantisk webb och länkad data. Rättelser och tillägg kommer att skrivas så här:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Det finns andra syntaxer för att skriva OWL, som t.ex funktionell syntax, som används i den officiella specifikationen, och OWL/XML. Dessutom kan OWL serialiseras för att abstrahera RDF-syntax och vidare - i någon av de specifika syntaxerna.

OWL har en dubbel relation med RDF. Å ena sidan kan det betraktas som en sorts ordbok som utökar RDFS. Å andra sidan är det en mer kraftfull formalism där RDF bara är ett serialiseringsformat. Inte alla elementära OWL-konstruktioner kan skrivas med en enda RDF-triplett.

Beroende på vilken delmängd av OWL-konstruktioner som tillåts användas talar man om sk OWL profiler. De standardiserade och mest kända är OWL EL, OWL RL och OWL QL. Valet av profil påverkar beräkningskomplexiteten hos typiska problem. En komplett uppsättning OWL-konstruktioner motsvarande Semantisk webb och länkad data. Rättelser och tillägg, kallad OWL DL. Ibland talar de också om OWL Full, där OWL-konstruktioner tillåts användas med den fulla friheten som är inneboende i RDF, utan semantiska och beräkningsmässiga begränsningar Semantisk webb och länkad data. Rättelser och tillägg. Något kan till exempel vara både en klass och en fastighet. OWL Full är obestämbart.

Nyckelprinciperna för att fästa konsekvenser i OWL är antagandet av antagandet om den öppna världen. OWA) och förkastande av presumtionen för unika namn (unika namnantagande, EN). Nedan ser vi vart dessa principer kan leda och introducerar några OWL-konstruktioner.

Låt ontologin innehålla följande fragment (i Manchester-syntax):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Kommer det att följa av det som har sagts att John har många barn? Att vägra UNA kommer att tvinga slutledningsmotorn att svara nekande på denna fråga, eftersom Alice och Bob mycket väl kan vara samma person. För att följande ska ske måste du lägga till följande axiom:

DifferentIndividuals: Alice, Bob, Carol, John

Låt nu ontologifragmentet ha följande form (John förklaras ha många barn, men han har bara två barn):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Kommer denna ontologi att vara inkonsekvent (vilket kan tolkas som bevis på ogiltiga data)? Att acceptera OWA kommer att få inferensmotorn att svara negativt: "någonstans" annars (i en annan ontologi) kan det mycket väl sägas att Carol också är Johns barn.

För att utesluta möjligheten till detta, låt oss lägga till ett nytt faktum om John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

För att utesluta utseendet på andra barn, låt oss säga att alla värden på fastigheten "att ha ett barn" är människor, av vilka vi bara har fyra:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Nu kommer ontologin att bli motsägelsefull, vilket slutledningsmotorn inte kommer att underlåta att rapportera. Med det sista av axiomen har vi på sätt och vis "stängt" världen och lägger märke till hur möjligheten att Johannes är sitt eget barn är utesluten.

Länka företagsdata

Uppsättningen länkade data med tillvägagångssätt och tekniker var ursprungligen avsedd för publicering av data på webben. Deras användning i en intern företagsmiljö står inför ett antal svårigheter.

Till exempel, i en sluten företagsmiljö, är den deduktiva kraften hos OWL baserat på antagandet av OWA och förkastandet av UNA, beslut på grund av webbens öppna och distribuerade natur, för svag. Och här är följande lösningar möjliga.

  • Att förse OWL med semantik, vilket innebär att OWA överges och UNA antas, genomförandet av motsvarande utdatamotor. - Längs den här vägen går Stardog RDF-förvaring.
  • Att överge OWL:s deduktiva kapacitet till förmån för regelmotorer. — Stardog stödjer SWRL; Jena och GraphDB erbjuder egen språk regler
  • Avslag på deduktiva egenskaperna hos OWL, användning av en eller annan delmängd nära RDFS för modellering. – Se mer om detta nedan.

En annan fråga är det större fokus som företagsvärlden kan ha på datakvalitetsfrågor och bristen på datavalideringsverktyg i Linked Data-stacken. Utgångarna här är som följer.

  • Återigen, använd för validering av OWL-konstruktioner med sluten världs semantik och unika namn om en lämplig inferensmotor är tillgänglig.
  • Använd SHACL, standardiserad efter att listan över Semantic Web Layer Cake-lager har fixats (den kan dock också användas som en regelmotor), eller ShEx.
  • Förstå att allt i slutändan görs med SPARQL-frågor, skapa din egen enkla datavalideringsmekanism med hjälp av dem.

Men även ett fullständigt förkastande av deduktiva funktioner och valideringsverktyg lämnar länkade data utanför konkurrensen i uppgifter som i landskapet liknar den öppna och distribuerade webben - i dataintegrationsuppgifter.

Vad sägs om ett vanligt företagsinformationssystem?

Detta är möjligt, men du bör naturligtvis vara medveten om exakt vilka problem motsvarande teknologier måste lösa. Jag kommer här att beskriva en typisk reaktion från utvecklingsdeltagare för att visa hur denna teknikstack ser ut ur konventionell IT-synpunkt. Påminner mig lite om liknelsen om elefanten:

  • Affärsanalytiker: RDF är ungefär som en direkt lagrad logisk modell.
  • Systemanalytiker: RDF är som EAV-förlängning, bara med ett gäng index och ett bekvämt frågespråk.
  • Utvecklare: ja, detta är allt i andan av begreppen rik modell och låg kod, läste nyligen om detta.
  • Projektledare: ja det är samma sak kollapsar stapeln!

Övning visar att stacken oftast används i uppgifter relaterade till distribution och heterogenitet av data, till exempel när man bygger MDM (Master Data Management) eller DWH (Data Warehouse) klasssystem. Sådana problem finns i alla branscher.

När det gäller branschspecifika applikationer är länkade datatekniker för närvarande mest populära i följande branscher.

  • biomedicinska teknologier (där deras popularitet verkar vara relaterad till domänens komplexitet);

nuvarande

"Boiling Point" var nyligen värd för en konferens som anordnades av föreningen "National Medical Knowledge Base" "Att kombinera ontologier. Från teori till praktisk tillämpning".

  • produktion och drift av komplexa produkter (stor maskinteknik, olje- och gasproduktion; oftast talar vi om standard ISO 15926 );

nuvarande

Också här är anledningen ämnesområdets komplexitet, när till exempel på uppströmsstadiet, om vi talar om olje- och gasindustrin, kräver enkel redovisning en del CAD-funktioner.

2008 ägde ett representativt installationsevenemang, organiserat av Chevron, rum konferens.

ISO 15926 verkade i slutändan lite tung för olje- och gasindustrin (och fann kanske större tillämpning inom maskinteknik). Det var bara Statoil (Equinor) som fastnade ordentligt för det, i hela Norge ekosystem. Andra försöker göra sin egen grej. Till exempel, enligt rykten, avser det inhemska energiministeriet att skapa en "konceptuell ontologisk modell av bränsle- och energikomplexet", som uppenbarligen liknar skapad för elkraftsindustrin.

  • finansiella organisationer (även XBRL kan betraktas som en sorts hybrid av SDMX och RDF Data Cube-ontologin);

nuvarande

I början av året spammade LinkedIn aktivt författaren med lediga jobb från nästan alla finansbranschens jättar, som han känner från tv-serien "Force Majeure": Goldman Sachs, JPMorgan Chase och/eller Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Förmodligen letade alla efter någon de kunde skicka till Kunskapsgrafkonferens. Ganska många lyckades hitta: finansiella organisationer tog allt morgonen den första dagen.

På HeadHunter kom bara Sberbank över något intressant; det handlade om "EAV-lagring med en RDF-liknande datamodell."

Förmodligen beror skillnaden i graden av kärlek till motsvarande teknologier hos inhemska och västerländska finansinstitutioner på den transnationella karaktären hos de senares aktiviteter. Tydligen kräver integration över statsgränserna kvalitativt olika organisatoriska och tekniska lösningar.

  • frågesvarssystem med kommersiella applikationer (IBM Watson, Apple Siri, Google Knowledge Graph);

nuvarande

Förresten, skaparen av Siri, Thomas Gruber, är författaren till själva definitionen av ontologi (i IT-bemärkelse) som en "konceptualiseringsspecifikation." Enligt min mening ändrar inte ordnas betydelse i denna definition, vilket kanske tyder på att det inte finns där.

  • publicering av strukturerad data (med större motivering kan detta hänföras till Linked Open Data).

nuvarande

Stora fans av länkad data är de så kallade GLAM: Gallerier, Libraries, Archives, and Museums. Det räcker med att säga att Library of Congress främjar en ersättare för MARC21 BIBFRAMESom ger en grund för framtiden för bibliografisk beskrivning och, naturligtvis, baserat på RDF.

Wikidata nämns ofta som ett exempel på ett framgångsrikt projekt inom området Linked Open Data – en slags maskinläsbar version av Wikipedia, vars innehåll, till skillnad från DBPedia, inte genereras genom import från artikelinfoboxar, utan är skapas mer eller mindre manuellt (och blir sedan en informationskälla för samma infoboxar).

Vi rekommenderar också att du kollar upp det lista användare av Stardog RDF-lagringen på Stardogs webbplats i avsnittet "Kunder".

Hur som helst, i Gartner Hype Cycle for Emerging Technologies 2016 "Enterprise Taxonomy and Ontology Management" är placerad mitt i en nedstigning i besvikelsens dal med utsikten att nå en "produktivitetsplatå" tidigast om 10 år.

Ansluter företagsdata

Prognoser, prognoser, prognoser...

Av historiskt intresse har jag tabellerat nedan Gartners prognoser för olika år om de teknologier som intresserar oss.

År Технология Rapport Position År till platån
2001 Semantisk webb Emerging Technologies Innovationsutlösare 5-10
2006 Corporate Semantic Web Emerging Technologies Topp av uppblåsta förväntningar 5-10
2012 Semantisk webb Stora data Topp av uppblåsta förväntningar > 10
2015 Länkade data Avancerad analys och datavetenskap Tråg av desillusionering 5-10
2016 Enterprise Ontology Management Emerging Technologies Tråg av desillusionering > 10
2018 Kunskapsgrafer Emerging Technologies Innovationsutlösare 5-10

Dock redan i "Hype Cycle..." 2018 en annan uppåtgående trend har dykt upp - Kunskapsdiagram. En viss reinkarnation ägde rum: grafiska DBMS, till vilka användarnas uppmärksamhet och utvecklarnas ansträngningar visade sig vara växlade, under inflytande av de förra förfrågningar och de senares vanor, började ta sig an konturerna och positioneringen av sina föregångare konkurrenter.

Nästan varje graf DBMS förklarar sig nu vara en lämplig plattform för att bygga ett företags "kunskapsdiagram" ("länkad data" ersätts ibland med "ansluten data"), men hur motiverade är sådana påståenden?

Grafdatabaser är fortfarande asemantiska; data i en graf-DBMS är fortfarande samma datasilo. Strängidentifierare istället för URI gör uppgiften att integrera två grafiska DBMS:er fortfarande till en integrationsuppgift, medan integrering av två RDF-lager ofta handlar om att helt enkelt slå samman två RDF-grafer. En annan aspekt av asemantitet är icke-reflexiviteten hos LPG-grafmodellen, vilket gör det svårt att hantera metadata med samma plattform.

Slutligen har graf-DBMS inte inferensmotorer eller regelmotorer. Resultaten av sådana motorer kan reproduceras genom komplicerade frågor, men detta är möjligt även i SQL.

Ledande RDF-lagringssystem har dock inga svårigheter att stödja LPG-modellen. Det mest solida tillvägagångssättet anses vara det som föreslogs vid en tidpunkt i Blazegraph: RDF*-modellen, som kombinerar RDF och LPG.

Mer

Du kan läsa mer om RDF-lagringsstöd för LPG-modellen i den tidigare artikeln om Habré: "Vad händer med RDF-lagring nu". Jag hoppas att det en dag kommer att skrivas en separat artikel om Knowledge Graphs och Data Fabric. Det sista avsnittet, som är lätt att förstå, skrevs i en hast, men även ett halvår senare är allt inte mycket tydligare med dessa begrepp.

Litteratur

  1. Halpin, H., Monnin, A. (red.) (2014). Philosophical Engineering: Toward a Philosophy of the Web
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2nd ed.)
  3. Staab, S., Studer, R. (red.) (2009) Handbook on Ontologies (2nd ed.)
  4. Wood, D. (red.). (2011) Länka företagsdata
  5. Keet, M. (2018) An Introduction to Ontology Engineering

Källa: will.com

Lägg en kommentar