Semantisk web og linkede data. Rettelser og tilføjelser

Jeg vil gerne præsentere et fragment af denne nyligt udgivne bog for offentligheden:

Ontologisk modellering af virksomheden: metoder og teknologier [Tekst]: monografi / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak og andre; administrerende redaktør S. V. Gorshkov]. - Jekaterinburg: Ural Universitetets Publishing House, 2019. - 234 s.: ill., tab.; 20 cm - Auth. anført bag på mejsen. Med. — Bibliograf. i slutningen af ​​kap. - ISBN 978-5-7996-2580-1: 200 eksemplarer.

Formålet med at udlægge dette fragment på Habré er firedobbelt:

  • Det er usandsynligt, at nogen vil være i stand til at holde denne bog i hænderne, hvis han ikke er klient hos en respekteret SergeIndex; Den er bestemt ikke til salg.
  • Der er foretaget rettelser i teksten (de er ikke fremhævet nedenfor), og der er foretaget tilføjelser, som ikke er særlig kompatible med formatet på den trykte monografi: aktuelle noter (under spoilere) og hyperlinks.
  • jeg vil gerne indsamle spørgsmål og kommentarerat tage hensyn til dem, når denne tekst indgår i en revideret form i andre udgaver.
  • Mange tilhængere af Semantic Web og Linked Data føler stadig, at deres kreds er så snæver, primært fordi den brede offentlighed endnu ikke er blevet ordentligt forklaret, hvor fantastisk det er at være tilhænger af Semantic Web og Linked Data. Forfatteren af ​​fragmentet, selv om han tilhører denne kreds, holder sig ikke til en sådan mening, men anser sig ikke desto mindre for nødsaget til at gøre et nyt forsøg.

således

Semantisk Web

Udviklingen af ​​internettet kan repræsenteres som følger (eller tal om dets segmenter dannet i følgende rækkefølge):

  1. Dokumenter på internettet. Nøgleteknologier - Gopher, FTP osv.
    Internettet er et globalt netværk til udveksling af lokale ressourcer.
  2. Internet dokumenter. Nøgleteknologier er HTML og HTTP.
    Arten af ​​de eksponerede ressourcer tager hensyn til mediets egenskaber til deres transmission.
  3. Internet data. Nøgleteknologier er REST og SOAP API, XHR osv.
    Tiden med internetapplikationer bliver ikke kun mennesker forbrugere af ressourcer.
  4. internetdata. Nøgleteknologier er Linked Data-teknologier.
    Denne fjerde fase, forudsagt af Berners-Lee, skaberen af ​​nøgleteknologier fra den anden og direktør for W3C, kaldes Semantic Web; Linked Data-teknologier er designet til at gøre data på nettet ikke kun maskinlæsbare, men også "maskinforståelige".

Fra det følgende vil det blive klart for læseren, at nøglebegreberne i anden og fjerde fase svarer:

  • analoger til URL er URI'er,
  • HTML er analog med RDF,
  • HTML-hyperlinks ligner URI-poster i RDF-dokumenter.

Semantisk web er mere en systematisk vision af internettets fremtid end en specifik spontan eller lobbyet tendens, selvom det også er i stand til at tage højde for disse sidstnævnte. For eksempel anses en vigtig egenskab ved det, der kaldes Web 2.0 for at være "brugergenereret indhold". Det opfordres til at tage det i betragtning, især W3C-anbefalingen."Web Annotation Ontologi"og et sådant foretagende som Solid.

Er det semantiske web dødt?

Hvis du nægter urealistiske forventninger, er situationen med det semantiske web omtrent den samme som med kommunismen i den udviklede socialismes dage (og lad enhver selv afgøre, om loyaliteten over for Iljitjs betingede forskrifter overholdes). Søgemaskiner ret vellykket tvinge websteder til at bruge RDFa og JSON-LD og selv bruge teknologier relateret til dem, der er beskrevet nedenfor (Google Knowledge Graph, Bing Knowledge Graph).

Generelt kan forfatteren ikke sige, hvad der forhindrer større formidling, men han kan tale på baggrund af personlige erfaringer. Der er opgaver, der ville blive løst "ud af boksen" i forhold til SW-offensiven, selvom de ikke er særlig massive. Som en konsekvens heraf har de, der har disse opgaver, ikke tvangsmidlerne mod dem, der er i stand til at levere en løsning, og sidstnævnte selv at levere en løsning af sidstnævnte er i strid med deres forretningsmodeller. Så vi fortsætter med at analysere HTML og lime forskellige API'er, den ene lorte efter den anden.

Linked Data-teknologier har dog spredt sig ud over massenettet; Bogen er faktisk helliget deres anvendelser. I øjeblikket forventer Linked Data-fællesskabet, at disse teknologier bliver endnu mere udbredte, når Gartner fikser (eller proklamerer, alt efter hvad du vil) trends som f.eks. Videngrafer и Datastof. Jeg vil gerne tro, at ikke "cykel"-implementeringer af disse koncepter vil være vellykkede, men dem, der er relateret til W3C-standarderne diskuteret nedenfor.

Tilknyttede data

Berners-Lee definerede linkede data som det semantiske web udført rigtigt: et sæt tilgange og teknologier til at nå dets ultimative mål. Grundlæggende principper for linkede data Berners-Lee fremhævet følge.

Princip 1. Brug af URI'er til at navngive enheder.

URI'er er globale enhedsidentifikatorer i modsætning til lokale strengidentifikatorer for poster. Efterfølgende fandt dette princip sit bedste udtryk i Google Knowledge Graph-sloganet "ting, ikke strenge'.

Princip 2. Brug af URI'er i HTTP-skemaet, så de kan dereferencere.

Ved at henvise til en URI burde det være muligt at få betegneren bag denne betegner (analogien med navnet på operatøren "*»i C); mere præcist, for at få en repræsentation af dette betydet - afhængigt af værdien af ​​HTTP-headeren Accept:. Måske med fremkomsten af ​​AR / VR-æraen vil det være muligt at få selve ressourcen, men indtil videre vil det højst sandsynligt være et RDF-dokument, der er resultatet af en SPARQL-forespørgsel DESCRIBE.

Princip 3. Brug af W3C-standarder - primært RDF(S) og SPARQL - især ved dereference af URI'er.

Disse individuelle "lag" af Linked Data-teknologistakken, også kendt som Semantisk weblagkage, vil blive beskrevet nedenfor.

Princip 4. Brug af referencer til andre URI'er ved beskrivelse af enheder.

RDF giver dig mulighed for at begrænse dig til en verbal beskrivelse af en ressource i naturligt sprog, og det fjerde princip kræver ikke at gøre dette. Med universel overholdelse af det første princip bliver det muligt at henvise til andre, inklusive "fremmede", når man beskriver en ressource, hvorfor dataene kaldes linkede. Faktisk er det næsten uundgåeligt at bruge URI'er navngivet i RDFS-ordbogen.

RDF

RDF (Resource Description Framework) - en formalisme til beskrivelse af indbyrdes forbundne enheder.

Om enheder og deres relationer laves udsagn af formen "subjekt-prædikat-objekt", kaldet tripletter. I det enkleste tilfælde er emnet, prædikatet og objektet begge URI'er. Den samme URI kan være i forskellige trillinger i forskellige positioner: være et subjekt, et prædikat og et objekt; trillingerne danner altså en slags graf kaldet en RDF-graf.

Emner og objekter kan ikke kun være URI'er, men også såkaldte tomme noder, og objekter kan også være bogstavelige. Bogstaver er forekomster af primitive typer, bestående af en strengrepræsentation og en typespecifikation.

Eksempler på at skrive bogstaver (i Turtle-syntaks, mere om det nedenfor): "5.0"^^xsd:float и "five"^^xsd:string. Bogstaver med type rdf:langString kan også forsynes med et sprogmærke, i Turtle skrives det således: "five"@en и "пять"@ru.

Tomme noder er "anonyme" ressourcer uden globale identifikatorer, hvilket dog kan hævdes; slags eksistentielle variabler.

Så (dette er faktisk hele essensen af ​​RDF):

  • emnet er en URI eller en tom knude,
  • prædikatet er en URI,
  • objekt er en URI, en tom node eller en bogstavelig.

Hvorfor kan prædikater ikke være tomme noder?

Den sandsynlige årsag er ønsket om uformelt at forstå og oversætte triplet til sproget i førsteordens prædikatlogik. s p o som sådan noget Semantisk web og linkede data. Rettelser og tilføjelserHvor Semantisk web og linkede data. Rettelser og tilføjelser - prædikat, Semantisk web og linkede data. Rettelser og tilføjelser и Semantisk web og linkede data. Rettelser og tilføjelser - konstanter. Der er spor af en sådan forståelse i dokumentet "LBase: Semantics for Languages ​​of the Semantic Web”, som har status som et W3C-arbejdsgruppenotat. Med denne forståelse trillingen s p []Hvor [] - en tom node, vil blive oversat som Semantisk web og linkede data. Rettelser og tilføjelserHvor Semantisk web og linkede data. Rettelser og tilføjelser - variabel, men hvordan man så oversætter s [] o? W3C's anbefalingsdokument "RDF 1.1 Semantik” foreslår en anden måde at oversætte på, men overvejer stadig ikke muligheden for, at prædikater er tomme noder.

Dog Manu Sporny tilladt.

RDF er en abstrakt model. RDF kan skrives (serialiseret) i forskellige syntakser: RDF/XML, Turtle (mest læselige mennesker) JSON-LD, HDT (binær).

Den samme RDF kan serialiseres til RDF/XML på forskellige måder, så det giver ingen mening, for eksempel at validere den resulterende XML med XSD eller forsøge at udtrække data med XPath. På samme måde er det usandsynligt, at JSON-LD vil tilfredsstille den gennemsnitlige Javascript-udviklers ønske om at arbejde med RDF ved hjælp af Javascript-punkt- og firkantede parentesnotation (selvom JSON-LD bevæger sig i den retning ved at tilbyde en mekanisme indramning).

De fleste syntakser tilbyder måder at forkorte lange URI'er. For eksempel ad @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> i Turtle vil så tillade dig at skrive i stedet <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> bare rdf:type.

RDFS

RDFS (RDF Schema) - grundlæggende modelleringsordforråd, introducerer begreberne ejendom og klasse, og egenskaber som f.eks. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Ved at bruge RDFS-ordbogen, for eksempel, kan følgende gyldige udtryk skrives:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS er et beskrivelses- og modelleringsordforråd, men er ikke et begrænsningssprog (selvom den officielle specifikation og blade muligheden for sådan brug). Ordet "skema" skal ikke forstås i samme betydning som i udtrykket "XML-skema". For eksempel, :author rdfs:range foaf:Person betyder at rdf:type alle ejendomsværdier :authorfoaf:Person, men betyder ikke, at dette skal siges på forhånd.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) er et forespørgselssprog til RDF-data. I et simpelt tilfælde er en SPARQL-forespørgsel et sæt prøver, mod hvilke tripletterne af den forespurgte graf matches. Variabler kan placeres i positionerne af emner, prædikater og objekter i mønstre.

Forespørgslen returnerer sådanne variable værdier, der, når de erstattes i prøverne, kan resultere i, at en undergraf af RDF-grafen forespørges (en undergruppe af dens tripletter). Variabler af samme navn i forskellige prøver af tripletter skal have de samme værdier.

For eksempel, på ovenstående sæt af syv RDFS-aksiomer, ville følgende forespørgsel returnere rdfs:domain и rdfs:range som værdier ?s и ?p henholdsvis:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Det er værd at bemærke, at SPARQL er deklarativ og ikke er et grafisk gennemløbssprog (dog tilbyder nogle RDF-lagre måder at justere forespørgselsudførelsesplanen på). Derfor kan nogle standardgrafproblemer, såsom at finde den korteste vej, ikke løses i SPARQL, herunder brug af mekanismen ejendomsveje (men igen tilbyder individuelle RDF-depoter specielle udvidelser til disse opgaver).

SPARQL deler ikke formodningen om verdens åbenhed og følger tilgangen "negation som fiasko", hvor muligt strukturer som f.eks FILTER NOT EXISTS {…}. Datafordeling tages i betragtning ved hjælp af mekanismen fødererede forespørgsler.

SPARQL-adgangspunktet, et RDF-lager, der er i stand til at behandle SPARQL-forespørgsler, har ingen direkte analoger fra anden fase (se begyndelsen af ​​dette afsnit). Det kan sammenlignes med en database, baseret på indholdet, som HTML-sider blev genereret af, men tilgængelig udefra. SPARQL-adgangspunktet er mere som et API-adgangspunkt fra tredje fase, men med to hovedforskelle. For det første er det muligt at kombinere flere "atomiske" forespørgsler til én (hvilket betragtes som en nøgleegenskab ved GraphQL), og for det andet er en sådan API fuldstændig selvdokumenteret (hvilket HATEOAS forsøgte at opnå).

Polemisk bemærkning

RDF er en måde at publicere data på nettet på, så RDF-lagre bør betragtes som dokument-DBMS'er. Sandt nok, da RDF er en graf, ikke et træ, viste de sig at være grafer på samme tid. Det er utroligt, at det overhovedet lykkedes. Hvem skulle have troet, at der ville være smarte mennesker, der implementerer tomme noder. Her er Codd lykkedes ikke.

Der er også mindre fuldendte måder at organisere adgang til RDF-data på, f.eks. Sammenkædede datafragmenter (LDF) og Linket dataplatform (LDP).

UGLE

UGLE (Web Ontology Language) - en formalisme af videnrepræsentation, en syntaktisk version af beskrivende logik Semantisk web og linkede data. Rettelser og tilføjelser (overalt nedenfor er det mere korrekt at sige OWL 2, den første version af OWL var baseret på Semantisk web og linkede data. Rettelser og tilføjelser).

Begreberne beskrivelseslogikker i OWL svarer til klasser, roller til egenskaber, individer bevarer deres tidligere navn. Aksiomer kaldes også aksiomer.

For eksempel i den såkaldte Manchester syntaks for OWL-notationen, det aksiom, vi allerede kender Semantisk web og linkede data. Rettelser og tilføjelser vil blive skrevet sådan her:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Der er andre syntakser til at skrive OWL, som f.eks funktionel syntaks, brugt i den officielle specifikation, og UGLE/XML. OWL kan også serialiseres ind i abstrakt RDF-syntaks og i fremtiden - i enhver af de specifikke syntakser.

OWL er todelt i forhold til RDF. På den ene side kan det ses som en slags ordbog, der udvider RDFS. På den anden side er det en mere kraftfuld formalisme, hvor RDF blot er et serialiseringsformat. Ikke alle elementære OWL-konstruktioner kan skrives med en enkelt RDF-triplet.

Afhængigt af hvilken delmængde af OWL-konstruktioner, der må bruges, taler man om såkaldte OWL profiler. De standardiserede og mest kendte er OWL EL, OWL RL og OWL QL. Valget af profil påvirker den beregningsmæssige kompleksitet af typiske problemer. Et komplet sæt OWL-designs, der matcher Semantisk web og linkede data. Rettelser og tilføjelser, kaldes OWL DL. Nogle gange taler man også om OWL Full, hvor OWL-konstruktioner får lov til at blive brugt med den fulde frihed, der ligger i RDF, uden semantiske og beregningsmæssige begrænsninger. Semantisk web og linkede data. Rettelser og tilføjelser. Noget kan fx være både en klasse og en ejendom. OWL Full er uopløselig.

Nøgleprincipperne for at tillægge konsekvenser i OWL er accepten af ​​den åbne verdensantagelse (åben verdensantagelse, OWA) og afvisningen af ​​antagelsen om det unikke navn, En). Nedenfor vil vi se, hvad disse principper kan føre til, og introducere nogle af OWL-konstruktionerne.

Lad ontologien indeholde følgende fragment (i Manchester-syntaks):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Vil det følge af det, der er blevet sagt, at John har mange børn? At afvise UNA ville tvinge inferensmotoren til at besvare dette spørgsmål benægtende, da Alice og Bob meget vel kunne være den samme person. For at følgende skal finde sted, skal vi tilføje følgende aksiom:

DifferentIndividuals: Alice, Bob, Carol, John

Lad nu ontologifragmentet have følgende form (John er erklæret at have mange børn, men han har kun to børn):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Vil denne ontologi være inkonsekvent (hvilket kan tolkes som bevis på ugyldige data)? At acceptere OWA vil få inferensmotoren til at reagere negativt: "et andet sted" (i en anden ontologi) kunne det godt siges, at Carol også er Johns barn.

For at eliminere denne mulighed, lad os tilføje en ny kendsgerning om John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

For at udelukke udseendet af andre børn, lad os sige, at alle værdierne af ejendommen "har et barn" er mennesker, hvoraf vi kun har fire:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Nu vil ontologien blive inkonsekvent, hvilket inferensmotoren ikke vil undlade at rapportere. Med det sidste af aksiomerne "lukkede" vi på en måde verden, og lægger mærke til, hvordan muligheden for, at John er sit eget barn, er udelukket.

Sammenkædning af virksomhedsdata

Et sæt af tilgange og teknologier Linked Data var oprindeligt beregnet til at publicere data på nettet. At bruge dem i et internt miljø står over for en række vanskeligheder.

For eksempel, i et lukket virksomhedsmiljø, er den deduktive kraft af OWL baseret på vedtagelsen af ​​OWA og afvisningen af ​​UNA, løsninger drevet af nettets åbne og distribuerede natur, for svag. Og her er følgende udgange mulige.

  • At give OWL semantik, hvilket indebærer afvisningen af ​​OWA og vedtagelsen af ​​UNA, implementeringen af ​​den tilsvarende inferensmotor. - ad denne vej går Stardog RDF-depot.
  • Opgivelse af den deduktive kraft af OWL til fordel for regelmotorer. - Stardog støtter SWRL; Jena og GraphDB tilbyder egen Sprog regler.
  • Afvisning af de deduktive muligheder for OWL, brugen af ​​en eller anden delmængde tæt på RDFS til modellering. - Se mere om dette nedenfor.

Et andet problem er den mere betydelige opmærksomhed, som virksomhedsverdenen kan afsætte til datakvalitetsproblemer og manglen på datavalideringsværktøjer i den sammenkædede data-stack. Udgangene er som følger.

  • Igen, ved at bruge OWL-konstruktioner med lukket-verden-semantik og unikke navne til at validere, om der er en passende inferensmotor.
  • Brug SHACL, standardiseret efter listen over Semantic Web Layer Cake-lag er blevet rettet (den kan dog også bruges som en regelmotor), eller ShEx.
  • At indse, at alt i sidste ende udføres af SPARQL-forespørgsler, ved at skabe din egen enkle datavalideringsmekanisme ved hjælp af dem.

Men selv en fuldstændig afvisning af deduktive egenskaber og valideringsværktøjer efterlader Linked Data-stakken ude af konkurrence i opgaver, der ligner det åbne og distribuerede web - i dataintegrationsopgaver.

Hvad med et almindeligt virksomhedsinformationssystem?

Dette er muligt, men man skal selvfølgelig være opmærksom på præcis hvilke problemer de relevante teknologier skal løse. Jeg vil her beskrive en typisk reaktion fra udviklingsdeltagere for at vise, hvordan denne teknologistack ser ud fra konventionel IT-synspunkt. Minder mig lidt om lignelsen om elefanten:

  • Business analytiker: RDF er noget i retning af en direkte lagret logisk model.
  • Systemanalytiker: RDF er ligesom EAV, kun med en masse indekser og et praktisk forespørgselssprog.
  • udvikler: godt, det er alt sammen i ånden af ​​rig model og lav kode koncepter, læste om det for nylig.
  • Projektleder: Ja det er kollapser stakken!

Praksis viser, at stakken oftest bruges i opgaver relateret til distribution og heterogenitet af data, for eksempel når man bygger systemer af klassen MDM (Master Data Management) eller DWH (Data Warehouse). Sådanne problemer findes i enhver branche.

Hvad angår branchespecifikke applikationer, er Linked Data-teknologier i øjeblikket mest populære i følgende brancher.

  • biomedicinske teknologier (hvor deres popularitet synes at være relateret til fagområdets kompleksitet);

nuværende

I "Kogepunktet" blev der forleden afholdt en konference arrangeret af foreningen "National Medical Knowledge Base" "Ensretning af ontologier. Fra teori til praktisk anvendelse'.

  • fremstilling og drift af komplekse produkter (stor teknik, olie- og gasproduktion; oftest er det en standard ISO 15926);

nuværende

Også her er årsagen fagområdets kompleksitet, når der fx på upstream-stadiet, hvis vi taler om olie- og gasindustrien, skal et simpelt regnskab have nogle CAD-funktioner.

I 2008 var Chevron vært for en repræsentativ installation konference.

ISO 15926 virkede til sidst lidt tung for olie- og gasindustrien (og fandt næsten mere anvendelse i maskinteknik). Kun Statoil (Equinor) blev hooked på ham, i hele Norge økosystem. Andre prøver at gøre deres egne ting. For eksempel, ifølge rygter, har det indenlandske energiministerium til hensigt at skabe en "konceptuel ontologisk model af brændstof- og energikomplekset", der tilsyneladende ligner skabt til elindustrien.

  • finansielle institutioner (selv XBRL kan ses som en hybrid af SDMX og RDF Data Cube ontologi);

nuværende

LinkedIn spammede i begyndelsen af ​​året aktivt forfatteren med ledige stillinger fra næsten alle giganterne i finansbranchen, som han kender fra tv-serien Suits: Goldman Sachs, JPMorgan Chase og/eller Morgan Stanley, Wells Fargo, SWIFT/Visa/ Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Alle ledte sikkert efter nogen at sende til Vidensgrafkonference. Det lykkedes en hel del at finde: finansielle institutioner besatte alt første dag morgen.

På HeadHunter stødte man kun på noget interessant fra Sberbank, det handlede om "EAV-lagring med en RDF-lignende datamodel."

Sandsynligvis skyldes forskellen i graden af ​​kærlighed til de tilsvarende teknologier i indenlandske og vestlige finansielle institutioner den transnationale karakter af sidstnævntes aktiviteter. Tilsyneladende kræver integration på tværs af statsgrænser kvalitativt forskellige organisatoriske og tekniske løsninger.

  • spørgsmål-svar-systemer, der har kommercielle applikationer (IBM Watson, Apple Siri, Google Knowledge Graph);

nuværende

I øvrigt er skaberen af ​​Siri, Thomas Gruber, forfatter til selve definitionen af ​​ontologi (i IT-forstand) som en "konceptualiseringsspecifikation". Efter min mening ændrer omarrangeringen af ​​ord i denne definition ikke dens betydning, hvilket måske indikerer, at det ikke er der.

  • offentliggørelse af strukturerede data (med god grund kan dette allerede henføres til Linked Open Data).

nuværende

Store fans af linkede data er de såkaldte GLAM: Gallerier, Biblioteker, Arkiver og Museer. Det er tilstrækkeligt at sige her, at for at erstatte MARC21 promoverer Library of Congress BIBFRAMEHvilket giver et grundlag for fremtidens bibliografiske beskrivelse og selvfølgelig baseret på RDF.

Wikidata nævnes ofte som et eksempel på et succesfuldt projekt inden for Linked Open Data - en slags maskinlæsbar version af Wikipedia, hvis indhold i modsætning til DBPedia ikke genereres ved import af artikler fra infobokse, men er oprettes mere eller mindre manuelt (og bliver efterfølgende en informationskilde for de samme infobokse).

Anbefales også til gennemgang Listen brugere af Stardog RDF-lageret på Stardog-webstedet i afsnittet "Kunder".

Hvorom alting er, i Gartner "Hype Cycle for Emerging Technologies" 2016 "Enterprise Taxonomy and Ontology Management" er placeret midt i en nedstigning i skuffelsens dal med udsigt til at nå et "produktivitetsplateau" tidligst om 10 år.

Tilslutning af virksomhedsdata

Forudsigelser, forudsigelser, forudsigelser...

Af historisk interesse har jeg sammenfattet Gartners prognoser for forskellige år for de teknologier, der er interessante for os, i tabellen nedenfor.

År Технология Rapport Position År til plateau
2001 Semantisk Web Emerging Technologies Innovationsudløser 5-10
2006 Corporate Semantic Web Emerging Technologies Toppen af ​​oppustede forventninger 5-10
2012 Semantisk Web Big data Toppen af ​​oppustede forventninger > 10
2015 Tilknyttede data Avanceret analyse og datavidenskab Trug af skuffelse 5-10
2016 Enterprise Ontology Management Emerging Technologies Trug af skuffelse > 10
2018 Videngrafer Emerging Technologies Innovationsudløser 5-10

Dog allerede i "Hype Cycle..." 2018 en anden optrend dukkede op - Vidensgrafer. En vis reinkarnation fandt sted: grafisk DBMS, som brugernes opmærksomhed og udviklernes kræfter viste sig at være skiftet til, under påvirkning af førstnævntes anmodninger og sidstnævntes vaner, begyndte at erhverve konturerne og positioneringen af deres konkurrenters forgængere.

Næsten hver graf DBMS hævder nu at være en egnet platform til at bygge en virksomheds "vidensgraf" ("linked data" erstattes nogle gange med "connected data"), men hvor berettigede er sådanne påstande?

Grafdatabaser er stadig asemantiske, dataene i en graf-DBMS er stadig den samme datasilo. Strengidentifikatorer i stedet for URI'er gør, at opgaven med at integrere to graf-DBMS'er stadig er den samme integrationsopgave, mens integration af to RDF-lagre ofte kun er et spørgsmål om at flette to RDF-grafer. Et andet aspekt af asemantitet er ikke-refleksivitet af LPG-grafmodellen, hvilket gør det vanskeligt at administrere metadata ved hjælp af den samme platform.

Endelig har graf-DBMS'er ikke inferensmotorer eller regelmotorer. Resultaterne af sådanne motorer kan reproduceres ved at komplicere forespørgsler, men dette er muligt selv i SQL.

De førende RDF-depoter har dog ingen problemer med at understøtte LPG-modellen. Den mest solide er den tilgang, der på et tidspunkt blev foreslået i Blazegraph: RDF*-modellen, som kombinerer RDF og LPG.

mere

Du kan læse mere om støtten til LPG-modellen af ​​RDF-lagre i den tidligere artikel om Habré: "Hvad sker der med RDF-lagre nu". Om Knowledge Graphs og Data Fabric håber jeg, at der en dag vil blive skrevet en separat artikel. Det sidste afsnit, som er let at forstå, blev skrevet i en fart, men selv seks måneder senere er disse begreber ikke meget klarere.

Litteratur

  1. Halpin, H., Monnin, A. (red.) (2014). Filosofisk teknik: Mod en filosofi om nettet
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2. udgave)
  3. Staab, S., Studer, R. (red.) (2009) Handbook on Ontologies (2. udgave)
  4. Wood, D. (red.). (2011) Sammenkædning af virksomhedsdata
  5. Keet, M. (2018) An Introduction to Ontology Engineering

Kilde: www.habr.com

Tilføj en kommentar