Semantisk nett og koblede data. Rettelser og tillegg
Jeg vil gjerne presentere for publikum et fragment av denne nylig utgitte boken:
Ontologisk modellering av en bedrift: metoder og teknologier [Tekst]: monografi / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak og andre; administrerende redaktør S.V. Gorshkov]. - Ekaterinburg: Ural University Publishing House, 2019. - 234 s.: ill., tabell; 20 cm - Forfatter. angitt på bakmeis. Med. - Bibliografi på slutten av kap. — ISBN 978-5-7996-2580-1: 200 eksemplarer.
Hensikten med å legge ut dette fragmentet på Habré er firedelt:
Det er usannsynlig at noen vil være i stand til å holde denne boken i hendene hvis han ikke er klient til en respektert SergeIndex; Den er definitivt ikke på salg.
Det er gjort rettelser i teksten (de er ikke uthevet nedenfor) og det er gjort tillegg som ikke er særlig kompatible med formatet til en trykt monografi: aktuelle notater (under spoilere) og hyperlenker.
Jeg vil samle spørsmål og kommentarer, for å ta hensyn til dem når denne teksten tas med i revidert form i andre publikasjoner.
Mange tilhengere av Semantic Web og Linked Data tror fortsatt at deres krets er så smal, hovedsakelig fordi allmennheten ennå ikke har fått ordentlig forklart hvor flott det er å være tilhenger av Semantic Web og Linked Data. Forfatteren av fragmentet, selv om han tilhører denne kretsen, har ikke denne oppfatningen, men anser seg likevel forpliktet til å gjøre et nytt forsøk.
således
Semantisk nett
Utviklingen av Internett kan representeres som følger (eller snakk om segmentene som ble dannet i rekkefølgen angitt nedenfor):
Dokumenter på Internett. Nøkkelteknologier - Gopher, FTP, etc.
Internett er et globalt nettverk for utveksling av lokale ressurser.
Internett-dokumenter. Nøkkelteknologier er HTML og HTTP.
Naturen til de eksponerte ressursene tar hensyn til egenskapene til deres overføringsmedium.
Internett-data. Nøkkelteknologier - REST og SOAP API, XHR, etc.
Tiden med Internett-applikasjoner, ikke bare folk blir forbrukere av ressurser.
Internett-data. Nøkkelteknologier er Linked Data-teknologier.
Dette fjerde stadiet, spådd av Berners-Lee, skaperen av den andre kjerneteknologien og direktøren for W3C, kalles Semantic Web; Koblede datateknologier er utviklet for å gjøre data på nettet ikke bare maskinlesbare, men også «maskinforståelige».
Fra det følgende vil leseren forstå samsvaret mellom nøkkelbegrepene i andre og fjerde trinn:
URL-er er analoge med URIer,
analogen til HTML er RDF,
HTML-hyperkoblinger ligner på URI-forekomster i RDF-dokumenter.
The Semantic Web er mer en systemisk visjon om fremtiden til Internett enn en spesifikk spontan eller lobbytrend, selv om den kan ta hensyn til disse sistnevnte. For eksempel anses en viktig egenskap ved det som kalles Web 2.0 å være «brukergenerert innhold». Spesielt oppfordres W3C-anbefalingen til å ta den i betraktning "Webkommentarontologi"og et slikt foretak som solid.
Er det semantiske nettet dødt?
Hvis du nekter urealistiske forventninger, er situasjonen med det semantiske nettet omtrent det samme som med kommunismen under den utviklede sosialismens tid (og om lojalitet til Iljitsjs betingede pålegg blir observert, la alle bestemme selv). Søkemotorer ganske vellykket tvinge nettsteder til å bruke RDFa og JSON-LD og bruker selv teknologier relatert til de som er beskrevet nedenfor (Google Knowledge Graph, Bing Knowledge Graph).
Generelt kan forfatteren ikke si hva som hindrer større spredning, men han kan uttale seg på bakgrunn av egen erfaring. Det er problemer som kan løses "ut av boksen" under forholdene i SW-offensiven, selv om de ikke er veldig utbredt. Som et resultat har de som står overfor disse oppgavene ingen tvangsmidler mot de som er i stand til å tilby en løsning, mens sistnevntes uavhengige tilbud av en løsning er i strid med deres forretningsmodeller. Så vi fortsetter å analysere HTML og lime sammen forskjellige APIer, hverandre skumlere.
Imidlertid har Linked Data-teknologier spredt seg utover det vanlige nettet; Boken er faktisk dedikert til disse applikasjonene. For øyeblikket forventer Linked Data-fellesskapet at disse teknologiene vil bli enda mer utbredt takket være Gartners registrering (eller proklamasjon, som du vil) av trender som f.eks. Kunnskapsgrafer и Datastoff. Jeg vil tro at det ikke vil være "sykkel"-implementeringene av disse konseptene som vil være vellykkede, men de som er relatert til W3C-standardene som er diskutert nedenfor.
Koblede data
Berners-Lee definerte Linked Data som det semantiske nettet "gjort riktig": et sett med tilnærminger og teknologier som gjør det mulig for den å nå sine endelige mål. Grunnleggende prinsipper for koblede data Berners-Lee fremhevet følgende.
Prinsipp 1. Bruke URIer til å navngi enheter.
URIer er globale enhetsidentifikatorer i motsetning til lokale strengidentifikatorer for oppføringer. Deretter ble dette prinsippet best uttrykt i Google Knowledge Graph-slagordet "ting, ikke strenger'.
Prinsipp 2. Bruke URIer i HTTP-skjemaet slik at de kan de-refereres.
Ved å referere til en URI, bør det være mulig å få betegnelsen bak den betegneren (analogien med navnet på operatøren " er tydelig her).*"i C); mer presist, for å få en viss representasjon av dette betegnet - avhengig av verdien av HTTP-headeren Accept:. Kanskje, med ankomsten av AR/VR-tiden, vil det være mulig å få tak i selve ressursen, men foreløpig vil det mest sannsynlig være et RDF-dokument, som er resultatet av å utføre en SPARQL-spørring DESCRIBE.
Prinsipp 3. Bruk av W3C-standarder - først og fremst RDF(S) og SPARQL - spesielt når det refereres til URIer.
Disse individuelle "lagene" av Linked Data-teknologistabelen, også kjent som Semantisk Web Layer Cake, vil bli beskrevet nedenfor.
Prinsipp 4. Bruk av referanser til andre URIer ved beskrivelse av enheter.
RDF lar deg begrense deg til en verbal beskrivelse av en ressurs på naturlig språk, og det fjerde prinsippet krever ikke å gjøre dette. Hvis det første prinsippet overholdes universelt, blir det mulig når man beskriver en ressurs å referere til andre, inkludert "utenlandske", og det er derfor dataene kalles koblet. Faktisk er det nesten uunngåelig å bruke URIer navngitt i RDFS-vokabularet.
RDF
RDF (Resource Description Framework) er en formalisme for å beskrive sammenhengende enheter.
Utsagn av typen "subjekt-predikat-objekt", kalt trillinger, er laget om enheter og deres relasjoner. I det enkleste tilfellet er subjektet, predikatet og objektet alle URIer. Den samme URI kan være i forskjellige posisjoner i forskjellige trillinger: være et subjekt, et predikat og et objekt; Dermed danner trillingene en slags graf som kalles en RDF-graf.
Emner og objekter kan ikke bare være URIer, men også såkalte tomme noder, og objekter kan også være bokstavelig. Bokstaver er forekomster av primitive typer som består av en strengrepresentasjon og en typeangivelse.
Eksempler på å skrive bokstaver (i Turtle-syntaks, mer om det nedenfor): "5.0"^^xsd:float и "five"^^xsd:string. Bokstaver med type rdf:langString kan også utstyres med en språkkode; i Turtle er det skrevet slik: "five"@en и "пять"@ru.
Tomme noder er "anonyme" ressurser uten globale identifikatorer, som det imidlertid kan gjøres utsagn om; slags eksistensielle variabler.
Så (dette er faktisk hele poenget med RDF):
emnet er en URI eller en tom node,
predikatet er en URI,
objektet er en URI, en tom node eller en bokstavelig.
Hvorfor kan ikke predikater være tomme noder?
Den sannsynlige årsaken er ønsket om å uformelt forstå og oversette triplett til språket i førsteordens predikatlogikk s p o som noe sånt Der - predikat, и - konstanter. Spor av denne forståelsen er i dokumentet "LBase: Semantics for Languages of the Semantic Web", som har status som et W3C-arbeidsgruppenotat. Med denne forståelsen, trillingen s p []Der [] - tom node, vil bli oversatt som Der - variabel, men hvordan oversettes s [] o? Dokument med W3C-anbefalingsstatus "RDF 1.1 semantikk” tilbyr en annen oversettelsesmetode, men vurderer likevel ikke muligheten for at predikater er tomme noder.
RDF er en abstrakt modell. RDF kan skrives (serialisert) i forskjellige syntakser: RDF/XML, Turtle (mest leselig for mennesker), JSON-LD, HDT (binær).
Den samme RDF kan serialiseres til RDF/XML på forskjellige måter, så det gir for eksempel ingen mening å validere den resulterende XML ved hjelp av XSD eller prøve å trekke ut data ved hjelp av XPath. På samme måte er det usannsynlig at JSON-LD vil tilfredsstille den gjennomsnittlige Javascript-utviklerens ønske om å jobbe med RDF ved å bruke Javascripts punkt- og firkantnotasjon (selv om JSON-LD beveger seg i den retningen ved å tilby en mekanisme innramming).
De fleste syntakser tilbyr måter å forkorte lange URIer. For eksempel en annonse @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> i Turtle vil da tillate deg å skrive i stedet <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> bare rdf:type.
RDFS
RDFS (RDF Schema) - et grunnleggende modelleringsvokabular, introduserer begrepene eiendom og klasse og egenskaper som f.eks. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Ved å bruke RDFS-ordboken, for eksempel, kan følgende gyldige uttrykk skrives:
RDFS er et beskrivelses- og modelleringsvokabular, men er ikke et begrensningsspråk (selv om den offisielle spesifikasjonen og blader mulighet for slik bruk). Ordet "Skjema" skal ikke forstås i samme betydning som i uttrykket "XML-skjema". For eksempel, :author rdfs:range foaf:Person betyr at rdf:type alle eiendomsverdier :author - foaf:Person, men betyr ikke at dette skal sies på forhånd.
SPARQL
SPARQL (SPARQL Protocol and RDF Query Language) - et språk for spørring av RDF-data. I et enkelt tilfelle er en SPARQL-spørring et sett med prøver som trillinger av grafen som spørres mot, matches. Mønstre kan inneholde variabler i emne-, predikat- og objektposisjoner.
Spørringen vil returnere slike variabelverdier som, når de erstattes i prøvene, kan resultere i en subgraf av den forespurte RDF-grafen (en undergruppe av trillingene). Variabler med samme navn i forskjellige utvalg av tripletter må ha samme verdier.
For eksempel, gitt det ovennevnte settet med syv RDFS-aksiomer, vil følgende spørring returnere rdfs:domain и rdfs:range som verdier ?s и ?p henholdsvis:
Det er verdt å merke seg at SPARQL er deklarativ og ikke er et språk for å beskrive grafgjennomgang (men noen RDF-depoter tilbyr måter å justere spørringsutførelsesplanen på). Derfor kan noen standard grafproblemer, for eksempel å finne den korteste veien, ikke løses i SPARQL, inkludert bruk av eiendomsveier (men igjen, individuelle RDF-depoter tilbyr spesielle utvidelser for å løse disse problemene).
SPARQL deler ikke antagelsen om verdens åpenhet og følger tilnærmingen "negasjon som fiasko", der mulig design som f.eks FILTER NOT EXISTS {…}. Datadistribusjon tas i betraktning ved hjelp av mekanismen fødererte søk.
SPARQL-tilgangspunktet - et RDF-lager som er i stand til å behandle SPARQL-spørringer - har ingen direkte analoger fra andre trinn (se begynnelsen av dette avsnittet). Det kan sammenlignes med en database, basert på innholdet som HTML-sider ble generert i, men tilgjengelig for utsiden. SPARQL-tilgangspunktet er mer analogt med API-tilgangspunktet fra tredje trinn, men med to hovedforskjeller. For det første er det mulig å kombinere flere "atomiske" spørringer til ett (som regnes som en nøkkelegenskap ved GraphQL), og for det andre er et slikt API fullstendig selvdokumenterende (som er det HATEOAS forsøkte å oppnå).
Polemisk bemerkning
RDF er en måte å publisere data på nettet, så RDF-lagring bør betraktes som et dokument-DBMS. Sant nok, siden RDF er en graf og ikke et tre, viste de seg også å være grafbaserte. Det er utrolig at det i det hele tatt ordnet seg. Hvem hadde trodd at det ville være smarte folk som ville implementere tomme noder. Codd er her det gikk ikke.
UGLE (Web Ontology Language) - en formalisme for å representere kunnskap, en syntaktisk versjon av beskrivelseslogikk (overalt under er det mer korrekt å si OWL 2, den første versjonen av OWL var basert på ).
Konsepter med beskrivende logikk i OWL tilsvarer klasser, roller tilsvarer egenskaper, individer beholder sitt tidligere navn. Aksiomer kalles også aksiomer.
For eksempel i den såkalte Manchester syntaks for OWL-notasjon et aksiom som allerede er kjent for oss vil bli skrevet slik:
Class: Human
Class: Parent
EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent
Det finnes andre syntakser for å skrive OWL, som f.eks funksjonell syntaks, brukt i den offisielle spesifikasjonen, og UGLE/XML. I tillegg kan OWL serialiseres å abstrahere RDF-syntaks og videre - i noen av de spesifikke syntaksene.
OWL har et dobbelt forhold til RDF. På den ene siden kan det betraktes som en slags ordbok som utvider RDFS. På den annen side er det en kraftigere formalisme som RDF bare er et serialiseringsformat for. Ikke alle elementære OWL-konstruksjoner kan skrives med en enkelt RDF-triplett.
Avhengig av hvilken undergruppe av OWL-konstruksjoner som tillates brukt, snakker de om såkalte OWL-profiler. De standardiserte og mest kjente er OWL EL, OWL RL og OWL QL. Valget av profil påvirker beregningskompleksiteten til typiske problemer. Et komplett sett med OWL-konstruksjoner tilsvarende , kalt OWL DL. Noen ganger snakker de også om OWL Full, der OWL-konstruksjoner tillates brukt med den fulle friheten som ligger i RDF, uten semantiske og beregningsmessige begrensninger . Noe kan for eksempel være både en klasse og en eiendom. OWL Full er uavgjørelig.
Nøkkelprinsippene for å knytte konsekvenser i OWL er vedtakelsen av den åpne verden-antagelsen. OWA) og avvisning av antagelsen om unike navn (antagelse om unike navn, En). Nedenfor vil vi se hvor disse prinsippene kan føre og introdusere noen OWL-konstruksjoner.
La ontologien inneholde følgende fragment (i Manchester-syntaks):
Class: manyChildren
EquivalentTo: Human that hasChild min 3
Individual: John
Types: Human
Facts: hasChild Alice, hasChild Bob, hasChild Carol
Vil det følge av det som er sagt at John har mange barn? Å avvise UNA vil tvinge inferensmotoren til å svare negativt på dette spørsmålet, siden Alice og Bob godt kan være samme person. For at følgende skal finne sted, er det nødvendig å legge til følgende aksiom:
DifferentIndividuals: Alice, Bob, Carol, John
La nå ontologifragmentet ha følgende form (John er erklært å ha mange barn, men han har bare to barn):
Class: manyChildren
EquivalentTo: Human that hasChild min 3
Individual: John
Types: Human, manyChildren
Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John
Vil denne ontologien være inkonsekvent (som kan tolkes som bevis på ugyldige data)? Å akseptere OWA vil føre til at inferensmotoren reagerer negativt: "et annet sted" (i en annen ontologi) kan det godt sies at Carol også er Johns barn.
For å utelukke muligheten for dette, la oss legge til et nytt faktum om John:
Individual: John
Facts: hasChild Alice, hasChild Bob, not hasChild Carol
For å utelukke utseendet til andre barn, la oss si at alle verdiene av eiendommen "å ha et barn" er mennesker, hvorav vi bare har fire:
ObjectProperty: hasChild
Domain: Human
Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }
Nå vil ontologien bli motstridende, noe inferensmotoren ikke vil unnlate å rapportere. Med det siste av aksiomene har vi på en måte "lukket" verden, og legger merke til hvordan muligheten for at Johannes er sitt eget barn er utelukket.
Koble sammen bedriftsdata
Settet med koblede data med tilnærminger og teknologier var opprinnelig ment for å publisere data på nettet. Bruken av dem i et internt bedriftsmiljø står overfor en rekke vanskeligheter.
For eksempel, i et lukket bedriftsmiljø, er den deduktive kraften til OWL basert på vedtakelse av OWA og avvisning av UNA, beslutninger på grunn av nettets åpne og distribuerte natur, for svak. Og her er følgende løsninger mulige.
Å gi OWL semantikk, noe som innebærer forlatelse av OWA og adopsjon av UNA, implementering av den tilsvarende utgangsmotoren. – Langs denne stien går Stardog RDF-oppbevaring.
Å forlate OWLs deduktive evner til fordel for regelmotorer. — Stardog støtter SWRL; Jena og GraphDB tilbyr egenspråk regler
Avslag på deduktive evnene til OWL, bruk av en eller annen undergruppe nær RDFS for modellering. – Se mer om dette nedenfor.
Et annet problem er det større fokuset som bedriftsverdenen kan ha på datakvalitetsproblemer og mangelen på datavalideringsverktøy i Linked Data-stakken. Utgangene her er som følger.
Igjen, bruk for validering av OWL-konstruksjoner med lukket verden semantikk og unike navn hvis en passende inferensmotor er tilgjengelig.
Bruk SHACL, standardisert etter at listen over Semantic Web Layer Cake-lag er fikset (den kan imidlertid også brukes som en regelmotor), eller ShEx.
Forstå at alt til syvende og sist gjøres med SPARQL-spørringer, lage din egen enkle datavalideringsmekanisme ved å bruke dem.
Selv en fullstendig avvisning av deduktive evner og valideringsverktøy gjør imidlertid at Linked Data-stabelen står utenfor konkurranse i oppgaver som i landskapet ligner på det åpne og distribuerte nettet – i dataintegreringsoppgaver.
Hva med et vanlig bedriftsinformasjonssystem?
Dette er mulig, men du bør selvfølgelig være klar over nøyaktig hvilke problemer de tilsvarende teknologiene må løse. Jeg vil her beskrive en typisk reaksjon fra utviklingsdeltakere for å vise hvordan denne teknologistabelen ser ut fra konvensjonell IT-synspunkt. Minner meg litt om lignelsen om elefanten:
Forretningsanalytiker: RDF er noe som en direkte lagret logisk modell.
Systemanalytiker: RDF er som EAV-utvidelse, bare med en haug med indekser og et praktisk spørrespråk.
Utvikler: Vel, dette er alt i ånden til konseptene med rik modell og lav kode, leste nylig om dette.
Praksis viser at stabelen oftest brukes i oppgaver knyttet til distribusjon og heterogenitet av data, for eksempel ved bygging av klassesystemer MDM (Master Data Management) eller DWH (Data Warehouse). Slike problemer finnes i alle bransjer.
Når det gjelder bransjespesifikke applikasjoner, er Linked Data-teknologier for tiden mest populære i følgende bransjer.
biomedisinske teknologier (der deres popularitet ser ut til å være relatert til kompleksiteten til domenet);
produksjon og drift av komplekse produkter (stor maskinteknikk, olje- og gassproduksjon; oftest snakker vi om standard ISO 15926);
nåværende
Også her er årsaken kompleksiteten i fagområdet, når for eksempel på oppstrømsstadiet, hvis vi snakker om olje- og gassindustrien, krever enkelt regnskap noen CAD-funksjoner.
I 2008 fant et representativt installasjonsarrangement, organisert av Chevron, sted konferanse.
ISO 15926 virket til slutt litt tung for olje- og gassindustrien (og fant kanskje større anvendelse innen maskinteknikk). Bare Statoil (Equinor) ble grundig hekta på det, i hele Norge økosystem. Andre prøver å gjøre sine egne ting. For eksempel, ifølge rykter, har det innenlandske energidepartementet til hensikt å lage en "konseptuell ontologisk modell av drivstoff- og energikomplekset", som tilsynelatende ligner på laget for elkraftindustrien.
finansielle organisasjoner (selv XBRL kan betraktes som en slags hybrid av SDMX og RDF Data Cube-ontologien);
nåværende
I begynnelsen av året spammet LinkedIn aktivt forfatteren med ledige stillinger fra nesten alle gigantene i finansbransjen, som han kjenner fra TV-serien "Force Majeure": Goldman Sachs, JPMorgan Chase og/eller Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Sannsynligvis var alle ute etter noen de kunne sende til Kunnskapsgrafkonferanse. Ganske mange klarte å finne: finansielle organisasjoner tok alt morgenen den første dagen.
På HeadHunter kom bare Sberbank over noe interessant; det handlet om "EAV-lagring med en RDF-lignende datamodell."
Sannsynligvis skyldes forskjellen i graden av kjærlighet til de tilsvarende teknologiene til innenlandske og vestlige finansinstitusjoner den transnasjonale karakteren til sistnevntes aktiviteter. Tilsynelatende krever integrering på tvers av statsgrenser kvalitativt forskjellige organisatoriske og tekniske løsninger.
spørsmål-svar-systemer med kommersielle applikasjoner (IBM Watson, Apple Siri, Google Knowledge Graph);
nåværende
Forresten, skaperen av Siri, Thomas Gruber, er forfatteren av selve definisjonen av ontologi (i IT-forstand) som en "konseptualiseringsspesifikasjon." Etter min mening endrer ikke det å omorganisere ordene i denne definisjonen dens betydning, noe som kanskje indikerer at det ikke er der.
publisering av strukturerte data (med større begrunnelse kan dette tilskrives Linked Open Data).
nåværende
Store fans av Linked Data er den såkalte GLAM: Galleries, Libraries, Archives, and Museums. Det er nok å si at Library of Congress promoterer en erstatning for MARC21 BIBFRAMESom gir et grunnlag for fremtiden for bibliografisk beskrivelse og selvfølgelig basert på RDF.
Wikidata blir ofte trukket frem som et eksempel på et vellykket prosjekt innen Linked Open Data – en slags maskinlesbar versjon av Wikipedia, hvis innhold, i motsetning til DBPedia, ikke genereres ved import fra artikkelinfobokser, men er opprettet mer eller mindre manuelt (og blir deretter en informasjonskilde for de samme infoboksene).
Vi anbefaler også at du sjekker det ut список brukere av Stardog RDF-lagringen på Stardog-nettstedet i "Kunder"-delen.
Uansett, i Gartner Hype Cycle for Emerging Technologies 2016 «Enterprise Taxonomy and Ontology Management» er plassert midt i en nedstigning i skuffelsens dal med utsikter til å nå et «produktivitetsplatå» tidligst om 10 år.
Koble til bedriftsdata
Prognoser, prognoser, prognoser...
Av historisk interesse har jeg nedenfor tabellert Gartners prognoser for forskjellige år på teknologiene som interesserer oss.
År
Технология
Rapport
Posisjon
År til platå
2001
Semantisk nett
Nye teknologier
Innovasjonsutløser
5-10
2006
Corporate Semantic Web
Nye teknologier
Toppen av oppblåste forventninger
5-10
2012
Semantisk nett
Store data
Toppen av oppblåste forventninger
> 10
2015
Koblede data
Avansert analyse og datavitenskap
Gjennom desillusjon
5-10
2016
Enterprise Ontology Management
Nye teknologier
Gjennom desillusjon
> 10
2018
Kunnskapsgrafer
Nye teknologier
Innovasjonsutløser
5-10
Imidlertid allerede i "Hype Cycle..." 2018 en annen oppadgående trend har dukket opp - Kunnskapsgrafer. En viss reinkarnasjon fant sted: grafiske DBMS-er, som brukernes oppmerksomhet og utviklernes innsats viste seg å være skiftet til, under påvirkning av forespørslene fra førstnevnte og sistnevntes vaner, begynte å ta på seg konturene og posisjoneringen av sine forgjengers konkurrenter.
Nesten hver graf-DBMS erklærer seg nå som en passende plattform for å bygge en bedrifts "kunnskapsgraf" ("lenkede data" er noen ganger erstattet med "koblede data"), men hvor berettiget er slike påstander?
Grafdatabaser er fortsatt asemantiske; dataene i en graf-DBMS er fortsatt den samme datasiloen. Strengidentifikatorer i stedet for URI-er gjør oppgaven med å integrere to graf-DBMS-er fortsatt til en integrasjonsoppgave, mens integrering av to RDF-lagre ofte kommer ned til å slå sammen to RDF-grafer. Et annet aspekt ved asemantisitet er ikke-refleksivitet til LPG-grafmodellen, som gjør det vanskelig å administrere metadata ved å bruke samme plattform.
Til slutt, graf-DBMS-er har ikke inferensmotorer eller regelmotorer. Resultatene av slike motorer kan reproduseres ved kompliserende spørringer, men dette er mulig selv i SQL.
Imidlertid har ledende RDF-lagringssystemer ingen problemer med å støtte LPG-modellen. Den mest solide tilnærmingen anses å være den som ble foreslått på en gang i Blazegraph: RDF*-modellen, som kombinerer RDF og LPG.
Mer
Du kan lese mer om RDF-lagringsstøtte for LPG-modellen i forrige artikkel om Habré: "Hva skjer med RDF-lagring nå". Jeg håper en dag vil bli skrevet en egen artikkel om Kunnskapsgrafer og Datastoff. Den siste delen, som er lett å forstå, ble skrevet i en hast, men selv seks måneder senere er ikke alt mye klarere med disse konseptene.
Litteratur
Halpin, H., Monnin, A. (red.) (2014). Philosophical Engineering: Mot en filosofi om nettet
Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2. utg.)
Staab, S., Studer, R. (red.) (2009) Handbook on Ontologies (2. utg.)
Wood, D. (red.). (2011) Koble sammen bedriftsdata
Keet, M. (2018) An Introduction to Ontology Engineering