Semantisk nett og koblede data. Rettelser og tillegg

Jeg vil gjerne presentere for publikum et fragment av denne nylig utgitte boken:

Ontologisk modellering av en bedrift: metoder og teknologier [Tekst]: monografi / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak og andre; administrerende redaktør S.V. Gorshkov]. - Ekaterinburg: Ural University Publishing House, 2019. - 234 s.: ill., tabell; 20 cm - Forfatter. angitt på bakmeis. Med. - Bibliografi på slutten av kap. — ISBN 978-5-7996-2580-1: 200 eksemplarer.

Hensikten med å legge ut dette fragmentet på Habré er firedelt:

  • Det er usannsynlig at noen vil være i stand til å holde denne boken i hendene hvis han ikke er klient til en respektert SergeIndex; Den er definitivt ikke på salg.
  • Det er gjort rettelser i teksten (de er ikke uthevet nedenfor) og det er gjort tillegg som ikke er særlig kompatible med formatet til en trykt monografi: aktuelle notater (under spoilere) og hyperlenker.
  • Jeg vil samle spørsmål og kommentarer, for å ta hensyn til dem når denne teksten tas med i revidert form i andre publikasjoner.
  • Mange tilhengere av Semantic Web og Linked Data tror fortsatt at deres krets er så smal, hovedsakelig fordi allmennheten ennå ikke har fått ordentlig forklart hvor flott det er å være tilhenger av Semantic Web og Linked Data. Forfatteren av fragmentet, selv om han tilhører denne kretsen, har ikke denne oppfatningen, men anser seg likevel forpliktet til å gjøre et nytt forsøk.

således

Semantisk nett

Utviklingen av Internett kan representeres som følger (eller snakk om segmentene som ble dannet i rekkefølgen angitt nedenfor):

  1. Dokumenter på Internett. Nøkkelteknologier - Gopher, FTP, etc.
    Internett er et globalt nettverk for utveksling av lokale ressurser.
  2. Internett-dokumenter. Nøkkelteknologier er HTML og HTTP.
    Naturen til de eksponerte ressursene tar hensyn til egenskapene til deres overføringsmedium.
  3. Internett-data. Nøkkelteknologier - REST og SOAP API, XHR, etc.
    Tiden med Internett-applikasjoner, ikke bare folk blir forbrukere av ressurser.
  4. Internett-data. Nøkkelteknologier er Linked Data-teknologier.
    Dette fjerde stadiet, spådd av Berners-Lee, skaperen av den andre kjerneteknologien og direktøren for W3C, kalles Semantic Web; Koblede datateknologier er utviklet for å gjøre data på nettet ikke bare maskinlesbare, men også «maskinforståelige».

Fra det følgende vil leseren forstå samsvaret mellom nøkkelbegrepene i andre og fjerde trinn:

  • URL-er er analoge med URIer,
  • analogen til HTML er RDF,
  • HTML-hyperkoblinger ligner på URI-forekomster i RDF-dokumenter.

The Semantic Web er mer en systemisk visjon om fremtiden til Internett enn en spesifikk spontan eller lobbytrend, selv om den kan ta hensyn til disse sistnevnte. For eksempel anses en viktig egenskap ved det som kalles Web 2.0 å være «brukergenerert innhold». Spesielt oppfordres W3C-anbefalingen til å ta den i betraktning "Webkommentarontologi"og et slikt foretak som solid.

Er det semantiske nettet dødt?

Hvis du nekter urealistiske forventninger, er situasjonen med det semantiske nettet omtrent det samme som med kommunismen under den utviklede sosialismens tid (og om lojalitet til Iljitsjs betingede pålegg blir observert, la alle bestemme selv). Søkemotorer ganske vellykket tvinge nettsteder til å bruke RDFa og JSON-LD og bruker selv teknologier relatert til de som er beskrevet nedenfor (Google Knowledge Graph, Bing Knowledge Graph).

Generelt kan forfatteren ikke si hva som hindrer større spredning, men han kan uttale seg på bakgrunn av egen erfaring. Det er problemer som kan løses "ut av boksen" under forholdene i SW-offensiven, selv om de ikke er veldig utbredt. Som et resultat har de som står overfor disse oppgavene ingen tvangsmidler mot de som er i stand til å tilby en løsning, mens sistnevntes uavhengige tilbud av en løsning er i strid med deres forretningsmodeller. Så vi fortsetter å analysere HTML og lime sammen forskjellige APIer, hverandre skumlere.

Imidlertid har Linked Data-teknologier spredt seg utover det vanlige nettet; Boken er faktisk dedikert til disse applikasjonene. For øyeblikket forventer Linked Data-fellesskapet at disse teknologiene vil bli enda mer utbredt takket være Gartners registrering (eller proklamasjon, som du vil) av trender som f.eks. Kunnskapsgrafer и Datastoff. Jeg vil tro at det ikke vil være "sykkel"-implementeringene av disse konseptene som vil være vellykkede, men de som er relatert til W3C-standardene som er diskutert nedenfor.

Koblede data

Berners-Lee definerte Linked Data som det semantiske nettet "gjort riktig": et sett med tilnærminger og teknologier som gjør det mulig for den å nå sine endelige mål. Grunnleggende prinsipper for koblede data Berners-Lee fremhevet følgende.

Prinsipp 1. Bruke URIer til å navngi enheter.

URIer er globale enhetsidentifikatorer i motsetning til lokale strengidentifikatorer for oppføringer. Deretter ble dette prinsippet best uttrykt i Google Knowledge Graph-slagordet "ting, ikke strenger'.

Prinsipp 2. Bruke URIer i HTTP-skjemaet slik at de kan de-refereres.

Ved å referere til en URI, bør det være mulig å få betegnelsen bak den betegneren (analogien med navnet på operatøren " er tydelig her).*"i C); mer presist, for å få en viss representasjon av dette betegnet - avhengig av verdien av HTTP-headeren Accept:. Kanskje, med ankomsten av AR/VR-tiden, vil det være mulig å få tak i selve ressursen, men foreløpig vil det mest sannsynlig være et RDF-dokument, som er resultatet av å utføre en SPARQL-spørring DESCRIBE.

Prinsipp 3. Bruk av W3C-standarder - først og fremst RDF(S) og SPARQL - spesielt når det refereres til URIer.

Disse individuelle "lagene" av Linked Data-teknologistabelen, også kjent som Semantisk Web Layer Cake, vil bli beskrevet nedenfor.

Prinsipp 4. Bruk av referanser til andre URIer ved beskrivelse av enheter.

RDF lar deg begrense deg til en verbal beskrivelse av en ressurs på naturlig språk, og det fjerde prinsippet krever ikke å gjøre dette. Hvis det første prinsippet overholdes universelt, blir det mulig når man beskriver en ressurs å referere til andre, inkludert "utenlandske", og det er derfor dataene kalles koblet. Faktisk er det nesten uunngåelig å bruke URIer navngitt i RDFS-vokabularet.

RDF

RDF (Resource Description Framework) er en formalisme for å beskrive sammenhengende enheter.

Utsagn av typen "subjekt-predikat-objekt", kalt trillinger, er laget om enheter og deres relasjoner. I det enkleste tilfellet er subjektet, predikatet og objektet alle URIer. Den samme URI kan være i forskjellige posisjoner i forskjellige trillinger: være et subjekt, et predikat og et objekt; Dermed danner trillingene en slags graf som kalles en RDF-graf.

Emner og objekter kan ikke bare være URIer, men også såkalte tomme noder, og objekter kan også være bokstavelig. Bokstaver er forekomster av primitive typer som består av en strengrepresentasjon og en typeangivelse.

Eksempler på å skrive bokstaver (i Turtle-syntaks, mer om det nedenfor): "5.0"^^xsd:float и "five"^^xsd:string. Bokstaver med type rdf:langString kan også utstyres med en språkkode; i Turtle er det skrevet slik: "five"@en и "пять"@ru.

Tomme noder er "anonyme" ressurser uten globale identifikatorer, som det imidlertid kan gjøres utsagn om; slags eksistensielle variabler.

Så (dette er faktisk hele poenget med RDF):

  • emnet er en URI eller en tom node,
  • predikatet er en URI,
  • objektet er en URI, en tom node eller en bokstavelig.

Hvorfor kan ikke predikater være tomme noder?

Den sannsynlige årsaken er ønsket om å uformelt forstå og oversette triplett til språket i førsteordens predikatlogikk s p o som noe sånt Semantisk nett og koblede data. Rettelser og tilleggDer Semantisk nett og koblede data. Rettelser og tillegg - predikat, Semantisk nett og koblede data. Rettelser og tillegg и Semantisk nett og koblede data. Rettelser og tillegg - konstanter. Spor av denne forståelsen er i dokumentet "LBase: Semantics for Languages ​​of the Semantic Web", som har status som et W3C-arbeidsgruppenotat. Med denne forståelsen, trillingen s p []Der [] - tom node, vil bli oversatt som Semantisk nett og koblede data. Rettelser og tilleggDer Semantisk nett og koblede data. Rettelser og tillegg - variabel, men hvordan oversettes s [] o? Dokument med W3C-anbefalingsstatus "RDF 1.1 semantikk” tilbyr en annen oversettelsesmetode, men vurderer likevel ikke muligheten for at predikater er tomme noder.

Imidlertid Manu Sporni tillatt.

RDF er en abstrakt modell. RDF kan skrives (serialisert) i forskjellige syntakser: RDF/XML, Turtle (mest leselig for mennesker), JSON-LD, HDT (binær).

Den samme RDF kan serialiseres til RDF/XML på forskjellige måter, så det gir for eksempel ingen mening å validere den resulterende XML ved hjelp av XSD eller prøve å trekke ut data ved hjelp av XPath. På samme måte er det usannsynlig at JSON-LD vil tilfredsstille den gjennomsnittlige Javascript-utviklerens ønske om å jobbe med RDF ved å bruke Javascripts punkt- og firkantnotasjon (selv om JSON-LD beveger seg i den retningen ved å tilby en mekanisme innramming).

De fleste syntakser tilbyr måter å forkorte lange URIer. For eksempel en annonse @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> i Turtle vil da tillate deg å skrive i stedet <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> bare rdf:type.

RDFS

RDFS (RDF Schema) - et grunnleggende modelleringsvokabular, introduserer begrepene eiendom og klasse og egenskaper som f.eks. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Ved å bruke RDFS-ordboken, for eksempel, kan følgende gyldige uttrykk skrives:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS er et beskrivelses- og modelleringsvokabular, men er ikke et begrensningsspråk (selv om den offisielle spesifikasjonen og blader mulighet for slik bruk). Ordet "Skjema" skal ikke forstås i samme betydning som i uttrykket "XML-skjema". For eksempel, :author rdfs:range foaf:Person betyr at rdf:type alle eiendomsverdier :author - foaf:Person, men betyr ikke at dette skal sies på forhånd.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) - et språk for spørring av RDF-data. I et enkelt tilfelle er en SPARQL-spørring et sett med prøver som trillinger av grafen som spørres mot, matches. Mønstre kan inneholde variabler i emne-, predikat- og objektposisjoner.

Spørringen vil returnere slike variabelverdier som, når de erstattes i prøvene, kan resultere i en subgraf av den forespurte RDF-grafen (en undergruppe av trillingene). Variabler med samme navn i forskjellige utvalg av tripletter må ha samme verdier.

For eksempel, gitt det ovennevnte settet med syv RDFS-aksiomer, vil følgende spørring returnere rdfs:domain и rdfs:range som verdier ?s и ?p henholdsvis:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Det er verdt å merke seg at SPARQL er deklarativ og ikke er et språk for å beskrive grafgjennomgang (men noen RDF-depoter tilbyr måter å justere spørringsutførelsesplanen på). Derfor kan noen standard grafproblemer, for eksempel å finne den korteste veien, ikke løses i SPARQL, inkludert bruk av eiendomsveier (men igjen, individuelle RDF-depoter tilbyr spesielle utvidelser for å løse disse problemene).

SPARQL deler ikke antagelsen om verdens åpenhet og følger tilnærmingen "negasjon som fiasko", der mulig design som f.eks FILTER NOT EXISTS {…}. Datadistribusjon tas i betraktning ved hjelp av mekanismen fødererte søk.

SPARQL-tilgangspunktet - et RDF-lager som er i stand til å behandle SPARQL-spørringer - har ingen direkte analoger fra andre trinn (se begynnelsen av dette avsnittet). Det kan sammenlignes med en database, basert på innholdet som HTML-sider ble generert i, men tilgjengelig for utsiden. SPARQL-tilgangspunktet er mer analogt med API-tilgangspunktet fra tredje trinn, men med to hovedforskjeller. For det første er det mulig å kombinere flere "atomiske" spørringer til ett (som regnes som en nøkkelegenskap ved GraphQL), og for det andre er et slikt API fullstendig selvdokumenterende (som er det HATEOAS forsøkte å oppnå).

Polemisk bemerkning

RDF er en måte å publisere data på nettet, så RDF-lagring bør betraktes som et dokument-DBMS. Sant nok, siden RDF er en graf og ikke et tre, viste de seg også å være grafbaserte. Det er utrolig at det i det hele tatt ordnet seg. Hvem hadde trodd at det ville være smarte folk som ville implementere tomme noder. Codd er her det gikk ikke.

Det er også mindre fullverdige måter å organisere tilgang til RDF-data på, for eksempel, Koblede datafragmenter (LDF) og Koblet dataplattform (LDP).

UGLE

UGLE (Web Ontology Language) - en formalisme for å representere kunnskap, en syntaktisk versjon av beskrivelseslogikk Semantisk nett og koblede data. Rettelser og tillegg (overalt under er det mer korrekt å si OWL 2, den første versjonen av OWL var basert på Semantisk nett og koblede data. Rettelser og tillegg).

Konsepter med beskrivende logikk i OWL tilsvarer klasser, roller tilsvarer egenskaper, individer beholder sitt tidligere navn. Aksiomer kalles også aksiomer.

For eksempel i den såkalte Manchester syntaks for OWL-notasjon et aksiom som allerede er kjent for oss Semantisk nett og koblede data. Rettelser og tillegg vil bli skrevet slik:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Det finnes andre syntakser for å skrive OWL, som f.eks funksjonell syntaks, brukt i den offisielle spesifikasjonen, og UGLE/XML. I tillegg kan OWL serialiseres å abstrahere RDF-syntaks og videre - i noen av de spesifikke syntaksene.

OWL har et dobbelt forhold til RDF. På den ene siden kan det betraktes som en slags ordbok som utvider RDFS. På den annen side er det en kraftigere formalisme som RDF bare er et serialiseringsformat for. Ikke alle elementære OWL-konstruksjoner kan skrives med en enkelt RDF-triplett.

Avhengig av hvilken undergruppe av OWL-konstruksjoner som tillates brukt, snakker de om såkalte OWL-profiler. De standardiserte og mest kjente er OWL EL, OWL RL og OWL QL. Valget av profil påvirker beregningskompleksiteten til typiske problemer. Et komplett sett med OWL-konstruksjoner tilsvarende Semantisk nett og koblede data. Rettelser og tillegg, kalt OWL DL. Noen ganger snakker de også om OWL Full, der OWL-konstruksjoner tillates brukt med den fulle friheten som ligger i RDF, uten semantiske og beregningsmessige begrensninger Semantisk nett og koblede data. Rettelser og tillegg. Noe kan for eksempel være både en klasse og en eiendom. OWL Full er uavgjørelig.

Nøkkelprinsippene for å knytte konsekvenser i OWL er vedtakelsen av den åpne verden-antagelsen. OWA) og avvisning av antagelsen om unike navn (antagelse om unike navn, En). Nedenfor vil vi se hvor disse prinsippene kan føre og introdusere noen OWL-konstruksjoner.

La ontologien inneholde følgende fragment (i Manchester-syntaks):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Vil det følge av det som er sagt at John har mange barn? Å avvise UNA vil tvinge inferensmotoren til å svare negativt på dette spørsmålet, siden Alice og Bob godt kan være samme person. For at følgende skal finne sted, er det nødvendig å legge til følgende aksiom:

DifferentIndividuals: Alice, Bob, Carol, John

La nå ontologifragmentet ha følgende form (John er erklært å ha mange barn, men han har bare to barn):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Vil denne ontologien være inkonsekvent (som kan tolkes som bevis på ugyldige data)? Å akseptere OWA vil føre til at inferensmotoren reagerer negativt: "et annet sted" (i en annen ontologi) kan det godt sies at Carol også er Johns barn.

For å utelukke muligheten for dette, la oss legge til et nytt faktum om John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

For å utelukke utseendet til andre barn, la oss si at alle verdiene av eiendommen "å ha et barn" er mennesker, hvorav vi bare har fire:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Nå vil ontologien bli motstridende, noe inferensmotoren ikke vil unnlate å rapportere. Med det siste av aksiomene har vi på en måte "lukket" verden, og legger merke til hvordan muligheten for at Johannes er sitt eget barn er utelukket.

Koble sammen bedriftsdata

Settet med koblede data med tilnærminger og teknologier var opprinnelig ment for å publisere data på nettet. Bruken av dem i et internt bedriftsmiljø står overfor en rekke vanskeligheter.

For eksempel, i et lukket bedriftsmiljø, er den deduktive kraften til OWL basert på vedtakelse av OWA og avvisning av UNA, beslutninger på grunn av nettets åpne og distribuerte natur, for svak. Og her er følgende løsninger mulige.

  • Å gi OWL semantikk, noe som innebærer forlatelse av OWA og adopsjon av UNA, implementering av den tilsvarende utgangsmotoren. – Langs denne stien går Stardog RDF-oppbevaring.
  • Å forlate OWLs deduktive evner til fordel for regelmotorer. — Stardog støtter SWRL; Jena og GraphDB tilbyr egen språk regler
  • Avslag på deduktive evnene til OWL, bruk av en eller annen undergruppe nær RDFS for modellering. – Se mer om dette nedenfor.

Et annet problem er det større fokuset som bedriftsverdenen kan ha på datakvalitetsproblemer og mangelen på datavalideringsverktøy i Linked Data-stakken. Utgangene her er som følger.

  • Igjen, bruk for validering av OWL-konstruksjoner med lukket verden semantikk og unike navn hvis en passende inferensmotor er tilgjengelig.
  • Bruk SHACL, standardisert etter at listen over Semantic Web Layer Cake-lag er fikset (den kan imidlertid også brukes som en regelmotor), eller ShEx.
  • Forstå at alt til syvende og sist gjøres med SPARQL-spørringer, lage din egen enkle datavalideringsmekanisme ved å bruke dem.

Selv en fullstendig avvisning av deduktive evner og valideringsverktøy gjør imidlertid at Linked Data-stabelen står utenfor konkurranse i oppgaver som i landskapet ligner på det åpne og distribuerte nettet – i dataintegreringsoppgaver.

Hva med et vanlig bedriftsinformasjonssystem?

Dette er mulig, men du bør selvfølgelig være klar over nøyaktig hvilke problemer de tilsvarende teknologiene må løse. Jeg vil her beskrive en typisk reaksjon fra utviklingsdeltakere for å vise hvordan denne teknologistabelen ser ut fra konvensjonell IT-synspunkt. Minner meg litt om lignelsen om elefanten:

  • Forretningsanalytiker: RDF er noe som en direkte lagret logisk modell.
  • Systemanalytiker: RDF er som EAV-utvidelse, bare med en haug med indekser og et praktisk spørrespråk.
  • Utvikler: Vel, dette er alt i ånden til konseptene med rik modell og lav kode, leste nylig om dette.
  • Prosjektleder: ja det er det samme kollapser stabelen!

Praksis viser at stabelen oftest brukes i oppgaver knyttet til distribusjon og heterogenitet av data, for eksempel ved bygging av klassesystemer MDM (Master Data Management) eller DWH (Data Warehouse). Slike problemer finnes i alle bransjer.

Når det gjelder bransjespesifikke applikasjoner, er Linked Data-teknologier for tiden mest populære i følgende bransjer.

  • biomedisinske teknologier (der deres popularitet ser ut til å være relatert til kompleksiteten til domenet);

nåværende

"Boiling Point" var nylig vertskap for en konferanse organisert av "National Medical Knowledge Base" foreningen "Kombinere ontologier. Fra teori til praktisk anvendelse'.

  • produksjon og drift av komplekse produkter (stor maskinteknikk, olje- og gassproduksjon; oftest snakker vi om standard ISO 15926);

nåværende

Også her er årsaken kompleksiteten i fagområdet, når for eksempel på oppstrømsstadiet, hvis vi snakker om olje- og gassindustrien, krever enkelt regnskap noen CAD-funksjoner.

I 2008 fant et representativt installasjonsarrangement, organisert av Chevron, sted konferanse.

ISO 15926 virket til slutt litt tung for olje- og gassindustrien (og fant kanskje større anvendelse innen maskinteknikk). Bare Statoil (Equinor) ble grundig hekta på det, i hele Norge økosystem. Andre prøver å gjøre sine egne ting. For eksempel, ifølge rykter, har det innenlandske energidepartementet til hensikt å lage en "konseptuell ontologisk modell av drivstoff- og energikomplekset", som tilsynelatende ligner på laget for elkraftindustrien.

  • finansielle organisasjoner (selv XBRL kan betraktes som en slags hybrid av SDMX og RDF Data Cube-ontologien);

nåværende

I begynnelsen av året spammet LinkedIn aktivt forfatteren med ledige stillinger fra nesten alle gigantene i finansbransjen, som han kjenner fra TV-serien "Force Majeure": Goldman Sachs, JPMorgan Chase og/eller Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Sannsynligvis var alle ute etter noen de kunne sende til Kunnskapsgrafkonferanse. Ganske mange klarte å finne: finansielle organisasjoner tok alt morgenen den første dagen.

På HeadHunter kom bare Sberbank over noe interessant; det handlet om "EAV-lagring med en RDF-lignende datamodell."

Sannsynligvis skyldes forskjellen i graden av kjærlighet til de tilsvarende teknologiene til innenlandske og vestlige finansinstitusjoner den transnasjonale karakteren til sistnevntes aktiviteter. Tilsynelatende krever integrering på tvers av statsgrenser kvalitativt forskjellige organisatoriske og tekniske løsninger.

  • spørsmål-svar-systemer med kommersielle applikasjoner (IBM Watson, Apple Siri, Google Knowledge Graph);

nåværende

Forresten, skaperen av Siri, Thomas Gruber, er forfatteren av selve definisjonen av ontologi (i IT-forstand) som en "konseptualiseringsspesifikasjon." Etter min mening endrer ikke det å omorganisere ordene i denne definisjonen dens betydning, noe som kanskje indikerer at det ikke er der.

  • publisering av strukturerte data (med større begrunnelse kan dette tilskrives Linked Open Data).

nåværende

Store fans av Linked Data er den såkalte GLAM: Galleries, Libraries, Archives, and Museums. Det er nok å si at Library of Congress promoterer en erstatning for MARC21 BIBFRAMESom gir et grunnlag for fremtiden for bibliografisk beskrivelse og selvfølgelig basert på RDF.

Wikidata blir ofte trukket frem som et eksempel på et vellykket prosjekt innen Linked Open Data – en slags maskinlesbar versjon av Wikipedia, hvis innhold, i motsetning til DBPedia, ikke genereres ved import fra artikkelinfobokser, men er opprettet mer eller mindre manuelt (og blir deretter en informasjonskilde for de samme infoboksene).

Vi anbefaler også at du sjekker det ut список brukere av Stardog RDF-lagringen på Stardog-nettstedet i "Kunder"-delen.

Uansett, i Gartner Hype Cycle for Emerging Technologies 2016 «Enterprise Taxonomy and Ontology Management» er plassert midt i en nedstigning i skuffelsens dal med utsikter til å nå et «produktivitetsplatå» tidligst om 10 år.

Koble til bedriftsdata

Prognoser, prognoser, prognoser...

Av historisk interesse har jeg nedenfor tabellert Gartners prognoser for forskjellige år på teknologiene som interesserer oss.

År Технология Rapport Posisjon År til platå
2001 Semantisk nett Nye teknologier Innovasjonsutløser 5-10
2006 Corporate Semantic Web Nye teknologier Toppen av oppblåste forventninger 5-10
2012 Semantisk nett Store data Toppen av oppblåste forventninger > 10
2015 Koblede data Avansert analyse og datavitenskap Gjennom desillusjon 5-10
2016 Enterprise Ontology Management Nye teknologier Gjennom desillusjon > 10
2018 Kunnskapsgrafer Nye teknologier Innovasjonsutløser 5-10

Imidlertid allerede i "Hype Cycle..." 2018 en annen oppadgående trend har dukket opp - Kunnskapsgrafer. En viss reinkarnasjon fant sted: grafiske DBMS-er, som brukernes oppmerksomhet og utviklernes innsats viste seg å være skiftet til, under påvirkning av forespørslene fra førstnevnte og sistnevntes vaner, begynte å ta på seg konturene og posisjoneringen av sine forgjengers konkurrenter.

Nesten hver graf-DBMS erklærer seg nå som en passende plattform for å bygge en bedrifts "kunnskapsgraf" ("lenkede data" er noen ganger erstattet med "koblede data"), men hvor berettiget er slike påstander?

Grafdatabaser er fortsatt asemantiske; dataene i en graf-DBMS er fortsatt den samme datasiloen. Strengidentifikatorer i stedet for URI-er gjør oppgaven med å integrere to graf-DBMS-er fortsatt til en integrasjonsoppgave, mens integrering av to RDF-lagre ofte kommer ned til å slå sammen to RDF-grafer. Et annet aspekt ved asemantisitet er ikke-refleksivitet til LPG-grafmodellen, som gjør det vanskelig å administrere metadata ved å bruke samme plattform.

Til slutt, graf-DBMS-er har ikke inferensmotorer eller regelmotorer. Resultatene av slike motorer kan reproduseres ved kompliserende spørringer, men dette er mulig selv i SQL.

Imidlertid har ledende RDF-lagringssystemer ingen problemer med å støtte LPG-modellen. Den mest solide tilnærmingen anses å være den som ble foreslått på en gang i Blazegraph: RDF*-modellen, som kombinerer RDF og LPG.

Mer

Du kan lese mer om RDF-lagringsstøtte for LPG-modellen i forrige artikkel om Habré: "Hva skjer med RDF-lagring nå". Jeg håper en dag vil bli skrevet en egen artikkel om Kunnskapsgrafer og Datastoff. Den siste delen, som er lett å forstå, ble skrevet i en hast, men selv seks måneder senere er ikke alt mye klarere med disse konseptene.

Litteratur

  1. Halpin, H., Monnin, A. (red.) (2014). Philosophical Engineering: Mot en filosofi om nettet
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2. utg.)
  3. Staab, S., Studer, R. (red.) (2009) Handbook on Ontologies (2. utg.)
  4. Wood, D. (red.). (2011) Koble sammen bedriftsdata
  5. Keet, M. (2018) An Introduction to Ontology Engineering

Kilde: www.habr.com

Legg til en kommentar