Semantiese web en gekoppelde data. Regstellings en byvoegings

Ek wil graag 'n fragment van hierdie onlangs gepubliseerde boek aan die publiek voorhou:

Ontologiese modellering van 'n onderneming: metodes en tegnologieë [Teks]: monografie / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak en ander; uitvoerende redakteur S.V. Gorshkov]. - Ekaterinburg: Ural University Publishing House, 2019. - 234 bl.: ill., tabel; 20 cm - Skrywer. op die agtermes aangedui. Met. — Bibliografie aan die einde van hfst. — ISBN 978-5-7996-2580-1: 200 kopieë.

Die doel om hierdie fragment op Habré te plaas is viervoudig:

  • Dit is onwaarskynlik dat iemand hierdie boek in hul hande sal kan hou as hy nie 'n kliënt van 'n gerespekteerde is nie Serge-indeks; Dit is beslis nie te koop nie.
  • Regstellings is aan die teks aangebring (dit word nie hieronder uitgelig nie) en toevoegings is gemaak wat nie baie versoenbaar is met die formaat van 'n gedrukte monografie nie: aktuele notas (onder bederf) en hiperskakels.
  • ek wil versamel vrae en kommentaar, om dit in ag te neem wanneer hierdie teks in 'n hersiene vorm in enige ander publikasies ingesluit word.
  • Baie Semantiese Web- en Gekoppelde Data-aanhangers glo steeds dat hul kring so nou is, hoofsaaklik omdat die algemene publiek nog nie behoorlik verduidelik is hoe wonderlik dit is om 'n aanhanger van die Semantiese Web en Gekoppelde Data te wees nie. Die skrywer van die fragment, alhoewel hy tot hierdie kring behoort, huldig nie hierdie mening nie, maar ag homself tog verplig om nog 'n poging aan te wend.

So,

Semantiese Web

Die evolusie van die internet kan soos volg voorgestel word (of praat oor sy segmente wat gevorm is in die volgorde hieronder aangedui):

  1. Dokumente op die internet. Sleuteltegnologieë - Gopher, FTP, ens.
    Die internet is 'n globale netwerk vir die uitruil van plaaslike hulpbronne.
  2. Internet dokumente. Sleuteltegnologieë is HTML en HTTP.
    Die aard van die blootgestelde hulpbronne neem die eienskappe van hul oordragmedium in ag.
  3. Internet data. Sleuteltegnologieë - REST en SOAP API, XHR, ens.
    In die era van internettoepassings word nie net mense verbruikers van hulpbronne nie.
  4. Internet data. Sleuteltegnologieë is Gekoppelde Data-tegnologieë.
    Hierdie vierde stadium, voorspel deur Berners-Lee, die skepper van die tweede kerntegnologieë en direkteur van die W3C, word die Semantiese Web genoem; Gekoppelde data-tegnologie is ontwerp om data op die web nie net masjienleesbaar te maak nie, maar ook "masjienverstaanbaar."

Uit wat volg, sal die leser die ooreenstemming tussen die sleutelbegrippe van die tweede en vierde fase verstaan:

  • URL's is analoog aan URI's,
  • die analoog van HTML is RDF,
  • HTML-hiperskakels is soortgelyk aan URI-voorkoms in RDF-dokumente.

Die Semantiese Web is meer 'n sistemiese visie van die toekoms van die Internet as 'n spesifieke spontane of gelobbyde tendens, hoewel dit laasgenoemde in ag kan neem. Byvoorbeeld, 'n belangrike eienskap van wat Web 2.0 genoem word, word beskou as "gebruiker-gegenereerde inhoud." In die besonder word 'n beroep op die W3C-aanbeveling gedoen om dit in ag te neem "Web Annotasie Ontologie"en so 'n onderneming soos Solid.

Is die semantiese web dood?

As jy weier onrealistiese verwagtinge, is die situasie met die semantiese web ongeveer dieselfde as met kommunisme gedurende die tye van ontwikkelde sosialisme (en of lojaliteit aan Iljitsj se voorwaardelike opdragte nagekom word, laat elkeen self besluit). Soekenjins redelik suksesvol dwing webwerwe om RDFa en JSON-LD te gebruik en gebruik self tegnologieë wat verband hou met dié wat hieronder beskryf word (Google Knowledge Graph, Bing Knowledge Graph).

In algemene terme kan die skrywer nie sê wat groter verspreiding verhoed nie, maar hy kan op grond van persoonlike ervaring praat. Daar is probleme wat “buite die boks” opgelos kan word in die toestande van die SW-offensief, hoewel dit nie baie wydverspreid is nie. Gevolglik het diegene wat voor hierdie take gekonfronteer word, geen middel van dwang teen diegene wat in staat is om 'n oplossing te bied nie, terwyl laasgenoemde se onafhanklike voorsiening van 'n oplossing hul besigheidsmodelle weerspreek. So ons gaan voort om HTML te ontleed en verskillende API's aan mekaar vas te plak, mekaar kak.

Gekoppelde data-tegnologieë het egter verder as die hoofstroomweb versprei; Die boek is in werklikheid aan hierdie toepassings opgedra. Tans verwag die Gekoppelde Data-gemeenskap dat hierdie tegnologieë selfs meer wydverspreid sal word danksy Gartner se opname (of proklamasie, soos jy wil) van tendense soos bv. Kennisgrafieke и Data Stof. Ek wil graag glo dat dit nie die "fiets"-implementerings van hierdie konsepte sal wees wat suksesvol sal wees nie, maar dié wat verband hou met die W3C-standaarde wat hieronder bespreek word.

Gekoppelde data

Berners-Lee het gekoppelde data gedefinieer as die semantiese web "reg gedoen": 'n stel benaderings en tegnologieë wat dit toelaat om sy uiteindelike doelwitte te bereik. Basiese beginsels van gekoppelde data Berners-Lee uitgelig die volgende.

Beginsel 1. Gebruik URI's om entiteite te noem.

URI's is globale entiteit identifiseerders in teenstelling met plaaslike string identifiseerders vir inskrywings. Vervolgens is hierdie beginsel die beste uitgedruk in die Google Knowledge Graph slagspreuk "dinge, nie snare nie".

Beginsel 2. Die gebruik van URI's in die HTTP-skema sodat hulle ontverwys kan word.

Deur na 'n URI te verwys, behoort dit moontlik te wees om die betekende agter daardie betekenaar te verkry (die analogie met die naam van die operateur " is hier duidelik).*"in C); meer presies, om 'n voorstelling van hierdie betekenis te kry - afhangende van die waarde van die HTTP-opskrif Accept:. Miskien, met die koms van die AR/VR-era, sal dit moontlik wees om die hulpbron self te bekom, maar vir nou sal dit waarskynlik 'n RDF-dokument wees, wat die resultaat is van die uitvoering van 'n SPARQL-navraag DESCRIBE.

Beginsel 3. Gebruik van W3C-standaarde - hoofsaaklik RDF(S) en SPARQL - veral wanneer URI's afgewys word.

Hierdie individuele "lae" van die Gekoppelde Data-tegnologiestapel, ook bekend as Semantiese weblaagkoek, sal hieronder beskryf word.

Beginsel 4. Gebruik van verwysings na ander URI's wanneer entiteite beskryf word.

RDF laat jou toe om jouself te beperk tot 'n mondelinge beskrywing van 'n hulpbron in natuurlike taal, en die vierde beginsel vereis om dit nie te doen nie. As die eerste beginsel universeel nagekom word, word dit moontlik wanneer 'n hulpbron beskryf word om na ander te verwys, insluitend "vreemde"s, en daarom word die data gekoppel genoem. Trouens, dit is byna onvermydelik om URI's te gebruik wat in die RDFS-woordeskat genoem word.

RDF

RDF (Hulpbronbeskrywingsraamwerk) is 'n formalisme vir die beskrywing van onderling verwante entiteite.

Stellings van die tipe "onderwerp-predikaat-objek", wat drieling genoem word, word gemaak oor entiteite en hul verhoudings. In die eenvoudigste geval is die onderwerp, predikaat en voorwerp almal URI's. Dieselfde URI kan in verskillende posisies in verskillende drielinge wees: wees 'n subjek, 'n predikaat en 'n voorwerp; Die drieling vorm dus 'n soort grafiek wat 'n RDF-grafiek genoem word.

Onderwerpe en voorwerpe kan nie net URI's wees nie, maar ook sg leë nodusse, en voorwerpe kan ook wees letterlike. Letterlikes is gevalle van primitiewe tipes wat bestaan ​​uit 'n stringvoorstelling en 'n tipe aanduiding.

Voorbeelde van letterlike skryf (in Skilpad-sintaksis, meer daaroor hieronder): "5.0"^^xsd:float и "five"^^xsd:string. Letterletters met tipe rdf:langString kan ook toegerus word met 'n taalmerker; in Turtle word dit so geskryf: "five"@en и "пять"@ru.

Leë nodusse is "anonieme" hulpbronne sonder globale identifiseerders, waaroor stellings egter gemaak kan word; soort eksistensiële veranderlikes.

Dus (dit is eintlik die hele punt van RDF):

  • onderwerp is 'n URI of 'n leë nodus,
  • die predikaat is 'n URI,
  • voorwerp is 'n URI, 'n leë nodus of 'n letterlike.

Hoekom kan predikate nie leë nodusse wees nie?

Die waarskynlike rede is die begeerte om drieling informeel te verstaan ​​en te vertaal in die taal van eerste-orde predikaatlogika s p o soos iets soos Semantiese web en gekoppelde data. Regstellings en byvoegingsWaar Semantiese web en gekoppelde data. Regstellings en byvoegings - predikaat, Semantiese web en gekoppelde data. Regstellings en byvoegings и Semantiese web en gekoppelde data. Regstellings en byvoegings - konstantes. Spore van hierdie begrip is in die dokument "LBase: Semantiek vir tale van die semantiese web", wat die status van 'n W3C-werkgroepnota het. Met hierdie begrip, die drieling s p []Waar [] - leë nodus, sal vertaal word as Semantiese web en gekoppelde data. Regstellings en byvoegingsWaar Semantiese web en gekoppelde data. Regstellings en byvoegings - veranderlike, maar hoe om dan te vertaal s [] o? Dokument met W3C-aanbevelingstatus "RDF 1.1 Semantiek” bied 'n ander vertaalmetode, maar oorweeg steeds nie die moontlikheid dat predikate leë nodusse is nie.

Manu Sporni toegelaat.

RDF is 'n abstrakte model. RDF kan in verskeie sintakse geskryf (geserialiseer) word: RDF/XML, Turtle (menslikste leesbaar), Into-LD, HDT (binêr).

Dieselfde RDF kan op verskillende maniere in RDF/XML geseraliseer word, so dit maak byvoorbeeld geen sin om die resulterende XML met XSD te bekragtig of om data met XPath te probeer onttrek nie. Net so is dit onwaarskynlik dat JSON-LD die gemiddelde Javascript-ontwikkelaar se begeerte sal bevredig om met RDF te werk deur gebruik te maak van Javascript se punt- en vierkanthakies-notasie (hoewel JSON-LD in daardie rigting beweeg deur 'n meganisme te bied raamwerk).

Die meeste sintakse bied maniere om lang URI's te verkort. Byvoorbeeld, 'n advertensie @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> in Skilpad sal jou dan toelaat om eerder te skryf <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> net rdf:type.

RDFS

RDFS (RDF Skema) - 'n basiese modellering woordeskat, stel die konsepte van eiendom en klas en eienskappe bekend soos rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Deur byvoorbeeld die RDFS-woordeboek te gebruik, kan die volgende geldige uitdrukkings geskryf word:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS is 'n beskrywing- en modelleringswoordeskat, maar is nie 'n beperkingstaal nie (hoewel die amptelike spesifikasie en blare moontlikheid van sodanige gebruik). Die woord "Skema" moet nie in dieselfde sin verstaan ​​word as in die uitdrukking "XML Skema" nie. Byvoorbeeld, :author rdfs:range foaf:Person beteken dat rdf:type alle eiendomswaardes :author - foaf:Person, maar beteken nie dat dit vooraf gesê moet word nie.

SPARQL

SPARQL (SPARQL-protokol en RDF-navraagtaal) - 'n taal vir die navrae van RDF-data. In 'n eenvoudige geval is 'n SPARQL-navraag 'n stel monsters waarteen drieling van die grafiek wat navraag gedoen word, ooreenstem. Patrone kan veranderlikes in onderwerp-, predikaat- en objekposisies bevat.

Die navraag sal sulke veranderlike waardes terugstuur wat, wanneer dit in die monsters vervang word, kan lei tot 'n subgrafiek van die navraag RDF-grafiek ('n subset van sy drieling). Veranderlikes met dieselfde naam in verskillende monsters van drieling moet dieselfde waardes hê.

Byvoorbeeld, gegewe die bogenoemde stel van sewe RDFS-aksiomas, sal die volgende navraag terugkeer rdfs:domain и rdfs:range as waardes ?s и ?p onderskeidelik:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Dit is opmerklik dat SPARQL verklarend is en nie 'n taal is vir die beskrywing van grafiekdeurkruising nie (sommige RDF-bewaarplekke bied egter maniere om die navraaguitvoerplan aan te pas). Daarom kan sommige standaardgrafiekprobleme, byvoorbeeld om die kortste pad te vind, nie in SPARQL opgelos word nie, insluitend die gebruik van die eiendom paaie (maar, weereens, individuele RDF-bewaarplekke bied spesiale uitbreidings om hierdie probleme op te los).

SPARQL deel nie die vermoede van openheid van die wêreld nie en volg die "negasie as mislukking"-benadering, waarin moontlik ontwerpe soos FILTER NOT EXISTS {…}. Dataverspreiding word met behulp van die meganisme in ag geneem gefedereerde navrae.

Die SPARQL-toegangspunt - 'n RDF-berging wat in staat is om SPARQL-navrae te verwerk - het geen direkte analoë vanaf die tweede stadium nie (sien die begin van hierdie paragraaf). Dit kan vergelyk word met 'n databasis, gebaseer op die inhoud waarvan HTML-bladsye gegenereer is, maar toeganklik na buite. Die SPARQL-toegangspunt is meer analoog aan die API-toegangspunt vanaf die derde stadium, maar met twee hoofverskille. Eerstens is dit moontlik om verskeie "atomiese" navrae in een te kombineer (wat as 'n sleutelkenmerk van GraphQL beskou word), en tweedens is so 'n API heeltemal selfdokumenterend (dit is wat HATEOAS probeer bereik het).

Polemiese opmerking

RDF is 'n manier om data op die web te publiseer, so RDF-berging moet as 'n dokument-DBBS beskou word. Dit is waar, aangesien RDF 'n grafiek is en nie 'n boom nie, het dit ook geblyk dat dit grafiekgebaseer is. Dit is ongelooflik dat dit enigsins uitgewerk het. Wie sou kon dink dat daar slim mense sou wees wat leë nodusse sou implementeer. Codd is hier dit het nie uitgewerk nie.

Daar is ook minder volledige maniere om toegang tot RDF-data te organiseer, byvoorbeeld, Gekoppelde datafragmente (LDF) en Gekoppelde dataplatform (LDP).

OWL

OWL (Web Ontology Language) - 'n formalisme vir die voorstelling van kennis, 'n sintaktiese weergawe van beskrywende logika Semantiese web en gekoppelde data. Regstellings en byvoegings (Oral onder is dit meer korrek om OWL 2 te sê, die eerste weergawe van OWL was gebaseer op Semantiese web en gekoppelde data. Regstellings en byvoegings).

Konsepte van beskrywende logika in OWL stem ooreen met klasse, rolle stem ooreen met eienskappe, individue behou hul vorige naam. Aksiomas word ook aksiomas genoem.

Byvoorbeeld, in die sg Manchester sintaksis vir UIL-notasie 'n aksioma wat reeds aan ons bekend is Semantiese web en gekoppelde data. Regstellings en byvoegings sal so geskryf word:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Daar is ander sintakse vir die skryf van OWL, soos funksionele sintaksis, gebruik in die amptelike spesifikasie, en UIL/XML. Boonop kan OWL serialiseer word om RDF-sintaksis te abstraheer en verder - in enige van die spesifieke sintakse.

OWL het 'n dubbele verhouding met RDF. Aan die een kant kan dit beskou word as 'n soort woordeboek wat RDFS uitbrei. Aan die ander kant is dit 'n kragtiger formalisme waarvoor RDF net 'n serialiseringsformaat is. Nie alle elementêre UIL-konstrukte kan met 'n enkele RDF-drieling geskryf word nie.

Afhangende van watter subset van UIL-konstrukte toegelaat word om gebruik te word, praat hulle van sg OWL profiele. Die gestandaardiseerde en bekendste is OWL EL, OWL RL en OWL QL. Die keuse van profiel beïnvloed die berekeningskompleksiteit van tipiese probleme. 'n Volledige stel UIL-konstrukte wat ooreenstem met Semantiese web en gekoppelde data. Regstellings en byvoegings, genoem OWL DL. Soms praat hulle ook van OWL Full, waarin OWL-konstrukte toegelaat word om gebruik te word met die volle vryheid inherent aan RDF, sonder semantiese en berekeningsbeperkings Semantiese web en gekoppelde data. Regstellings en byvoegings. Byvoorbeeld, iets kan beide 'n klas en 'n eiendom wees. UIL Vol is onbeslisbaar.

Die sleutelbeginsels vir die heg van gevolge in OWL is die aanvaarding van die oopwêreld-aanname. O.W.A.) en verwerping van die vermoede van unieke name (unieke naam aanname, A). Hieronder sal ons sien waarheen hierdie beginsels kan lei en 'n paar UIL-konstrukte bekendstel.

Laat die ontologie die volgende fragment bevat (in Manchester-sintaksis):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Sal dit volg uit wat gesê is dat Johannes baie kinders het? Die verwerping van UNA sal die inferensie-enjin dwing om hierdie vraag ontkennend te beantwoord, aangesien Alice en Bob heel moontlik dieselfde persoon is. Vir die volgende om plaas te vind, is dit nodig om die volgende aksioma by te voeg:

DifferentIndividuals: Alice, Bob, Carol, John

Laat die ontologiefragment nou die volgende vorm hê (Johannes word verklaar dat hy baie kinders het, maar hy het net twee kinders):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Sal hierdie ontologie inkonsekwent wees (wat geïnterpreteer kan word as bewys van ongeldige data)? Die aanvaarding van OWA sal veroorsaak dat die inferensie-enjin negatief reageer: "iewers" anders (in 'n ander ontologie) kan daar wel gesê word dat Carol ook John se kind is.

Om die moontlikheid hiervan uit te sluit, kom ons voeg 'n nuwe feit oor John by:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Om die voorkoms van ander kinders uit te sluit, kom ons sê dat alle waardes van die eiendom "om 'n kind te hê" mense is, van wie ons net vier het:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Nou sal die ontologie teenstrydig word, wat die inferensie-enjin nie sal nalaat om te rapporteer nie. Met die laaste van die aksiomas het ons in 'n sekere sin die wêreld "gesluit", en let op hoe die moontlikheid dat Johannes sy eie kind is, uitgesluit word.

Koppel ondernemingsdata

Die Gekoppelde Data-stel benaderings en tegnologieë was oorspronklik bedoel om data op die web te publiseer. Die gebruik daarvan in 'n interne korporatiewe omgewing staar 'n aantal probleme in die gesig.

Byvoorbeeld, in 'n geslote korporatiewe omgewing, is die deduktiewe krag van OWL gebaseer op die aanvaarding van OWA en die verwerping van UNA, besluite as gevolg van die oop en verspreide aard van die web, te swak. En hier is die volgende oplossings moontlik.

  • Toekenning van OWL met semantiek, wat die verlating van OWA en die aanvaarding van UNA impliseer, die implementering van die ooreenstemmende uitsetenjin. - Langs hierdie pad gaan Stardog RDF-berging.
  • Laat vaar OWL se deduktiewe vermoëns ten gunste van reëlenjins. - Stardog ondersteun SWRL; Jena en GraphDB bied eie tale reëls
  • Weiering van die deduktiewe vermoëns van OWL, gebruik van een of ander subset naby RDFS vir modellering. - Sien meer hieroor hieronder.

Nog 'n kwessie is die groter fokus wat die korporatiewe wêreld op datakwaliteitkwessies kan hê en die gebrek aan datavalideringsinstrumente in die Gekoppelde Data-stapel. Die uitsette hier is soos volg.

  • Weereens, gebruik vir validering van OWL-konstrukte met geslote wêreld semantiek en unieke name indien 'n toepaslike inferensie-enjin beskikbaar is.
  • Gebruik SHACL, gestandaardiseer nadat die lys Semantiese Weblaagkoeklae reggestel is (dit kan egter ook as 'n reël-enjin gebruik word), of ShEx.
  • Verstaan ​​​​dat alles uiteindelik met SPARQL-navrae gedoen word, en skep u eie eenvoudige data-valideringsmeganisme deur dit te gebruik.

Selfs 'n volledige verwerping van deduktiewe vermoëns en valideringsinstrumente laat die Gekoppelde Data-stapel egter buite kompetisie in take wat in landskap soortgelyk is aan die oop en verspreide web - in data-integrasietake.

Wat van 'n gewone ondernemingsinligtingstelsel?

Dit is moontlik, maar jy moet natuurlik bewus wees van presies watter probleme die ooreenstemmende tegnologieë sal moet oplos. Ek sal hier 'n tipiese reaksie van ontwikkelingsdeelnemers beskryf om te wys hoe hierdie tegnologiestapel uit die oogpunt van konvensionele IT lyk. Herinner my bietjie aan die gelykenis van die olifant:

  • Besigheid ontleder: RDF is iets soos 'n direk gestoor logiese model.
  • Stelselontleder: RDF is soos EAV uitbreiding, net met 'n klomp indekse en 'n gerieflike navraagtaal.
  • Ontwikkelaar: wel, dit is alles in die gees van die konsepte van ryk model en lae kode, was besig om te lees onlangs hieroor.
  • Projek bestuurder: ja dit is dieselfde die stapel ineenstort!

Praktyk toon dat die stapel meestal gebruik word in take wat verband hou met die verspreiding en heterogeniteit van data, byvoorbeeld wanneer MDM (Master Data Management) of DWH (Data Warehouse) klasstelsels gebou word. Sulke probleme bestaan ​​in enige bedryf.

Wat industriespesifieke toepassings betref, is Gekoppelde Data-tegnologie tans die gewildste in die volgende bedrywe.

  • biomediese tegnologieë (waar hul gewildheid blykbaar verband hou met die kompleksiteit van die domein);

huidige

Die "Kookpunt" het onlangs 'n konferensie aangebied wat deur die "National Medical Knowledge Base" vereniging "Die kombinasie van ontologieë. Van teorie tot praktiese toepassing".

  • produksie en bedryf van komplekse produkte (groot meganiese ingenieurswese, olie- en gasproduksie; meestal praat ons van standaard ISO 15926);

huidige

Ook hier is die rede die kompleksiteit van die vakgebied, wanneer, byvoorbeeld, in die stroomopstadium, as ons oor die olie- en gasbedryf praat, eenvoudige rekeningkunde sommige CAD-funksies vereis.

In 2008 het 'n verteenwoordigende installasiegeleentheid, gereël deur Chevron, plaasgevind die konferensie.

ISO 15926 het op die ou end 'n bietjie swaar gelyk vir die olie- en gasbedryf (en het miskien groter toepassing gevind in meganiese ingenieurswese). Net Statoil (Equinor) het deeglik daaraan vasgehaak; in Noorweë, 'n geheel ekosisteem. Ander probeer hul eie ding doen. Byvoorbeeld, volgens gerugte, is die binnelandse Ministerie van Energie van voorneme om 'n "konseptuele ontologiese model van die brandstof- en energiekompleks" te skep, wat blykbaar soortgelyk is aan geskep vir die elektriese krag industrie.

  • finansiële organisasies (selfs XBRL kan beskou word as 'n soort baster van SDMX en die RDF Data Cube ontologie);

huidige

Aan die begin van die jaar het LinkedIn die skrywer aktief gespam met vakatures van byna al die reuse van die finansiële bedryf, wat hy ken van die TV-reeks "Force Majeure": Goldman Sachs, JPMorgan Chase en/of Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Seker almal het iemand gesoek na wie hulle kon stuur Kennisgrafiekkonferensie. 'n Hele paar het daarin geslaag om te vind: finansiële organisasies het alles geneem oggend van die eerste dag.

Op HeadHunter het net Sberbank op iets interessants afgekom; dit het gegaan oor "EAV-berging met 'n RDF-agtige datamodel."

Waarskynlik is die verskil in die mate van liefde vir die ooreenstemmende tegnologieë van huishoudelike en Westerse finansiële instellings te wyte aan die transnasionale aard van laasgenoemde se aktiwiteite. Blykbaar vereis integrasie oor staatsgrense heen kwalitatief verskillende organisatoriese en tegniese oplossings.

  • vraag-antwoord stelsels met kommersiële toepassings (IBM Watson, Apple Siri, Google Knowledge Graph);

huidige

Terloops, die skepper van Siri, Thomas Gruber, is die outeur van die definisie van ontologie (in die IT-sin) as 'n "konseptualiseringspesifikasie." Na my mening verander die herrangskikking van die woorde in hierdie definisie nie die betekenis daarvan nie, wat dalk daarop dui dat dit nie daar is nie.

  • publikasie van gestruktureerde data (met groter regverdiging kan dit aan gekoppelde oop data toegeskryf word).

huidige

Groot aanhangers van gekoppelde data is die sogenaamde GLAM: galerye, biblioteke, argiewe en museums. Dit is genoeg om te sê dat die Library of Congress 'n plaasvervanger vir MARC21 bevorder BIBRAAMWatter bied 'n grondslag vir die toekoms van bibliografiese beskrywing en natuurlik gebaseer op RDF.

Wikidata word dikwels aangehaal as 'n voorbeeld van 'n suksesvolle projek op die gebied van Gekoppelde Oop Data - 'n soort masjienleesbare weergawe van Wikipedia, waarvan die inhoud, in teenstelling met DBPedia, nie gegenereer word deur invoer uit artikelinligtingkassies nie, maar min of meer met die hand geskep (en word vervolgens 'n bron van inligting vir dieselfde inligtingkassies).

Ons beveel ook aan dat u dit nagaan lys gebruikers van die Stardog RDF-berging op die Stardog-webwerf in die "Kliënte"-afdeling.

Hoe dit ook al sy, in Gartner Hype-siklus vir opkomende tegnologieë 2016 "Ondernemingstaksonomie en ontologiebestuur" word in die middel van 'n afdraande in die vallei van teleurstelling geplaas met die vooruitsig om 'n "produktiwiteitsplato" nie vroeër as oor 10 jaar te bereik nie.

Verbind ondernemingsdata

Voorspellings, voorspellings, voorspellings...

Uit historiese belangstelling het ek Gartner se voorspellings vir verskeie jare hieronder getabelleer oor die tegnologieë wat ons interesseer.

Jaar Технология verslag Posisie Jare tot plato
2001 Semantiese Web Opkomende tegnologieë Innovasie snellers 5-10
2006 Korporatiewe Semantiese Web Opkomende tegnologieë Piek van opgeblase verwagtinge 5-10
2012 Semantiese Web Big Data Piek van opgeblase verwagtinge > 10
2015 Gekoppelde data Gevorderde analise en datawetenskap Trog van ontnugtering 5-10
2016 Onderneming Ontologie Bestuur Opkomende tegnologieë Trog van ontnugtering > 10
2018 Kennisgrafieke Opkomende tegnologieë Innovasie snellers 5-10

Maar reeds in "Hype Cycle ..." 2018 nog 'n opwaartse neiging het verskyn - Kennisgrafieke. 'n Sekere reïnkarnasie het plaasgevind: grafiek-DBMS'e, waarna die aandag van gebruikers en die pogings van ontwikkelaars verander het, onder die invloed van die versoeke van eersgenoemde en die gewoontes van laasgenoemde, het die kontoere en posisionering begin aanneem. van hul voorganger mededingers.

Byna elke grafiek DBMS verklaar homself nou as 'n geskikte platform om 'n korporatiewe "kennisgrafiek" te bou ("gekoppelde data" word soms vervang deur "gekoppelde data"), maar hoe geregverdig is sulke aansprake?

Grafiekdatabasisse is steeds asemanties; die data in 'n grafiek-DBBS is steeds dieselfde datasilo. Stringidentifiseerders in plaas van URI's maak die taak om twee grafiek-DBMS'e te integreer steeds 'n integrasietaak, terwyl die integrasie van twee RDF-winkels dikwels daarop neerkom om bloot twee RDF-grafieke saam te voeg. Nog 'n aspek van asemantisiteit is die nie-refleksiwiteit van die LPG-grafiekmodel, wat dit moeilik maak om metadata met dieselfde platform te bestuur.

Laastens, grafiek-DBBS'e het nie afleidingsenjins of reëlenjins nie. Die resultate van sulke enjins kan weergegee word deur ingewikkelde navrae, maar dit is selfs in SQL moontlik.

Vooraanstaande RDF-bergingstelsels het egter geen probleme om die VPG-model te ondersteun nie. Die mees soliede benadering word beskou as die een wat op 'n tyd in Blazegraph voorgestel is: die RDF*-model, wat RDF en LPG kombineer.

meer

U kan meer lees oor RDF-bergingsondersteuning vir die LPG-model in die vorige artikel oor Habré: "Wat gebeur nou met RDF-berging". Ek hoop dat daar eendag 'n aparte artikel oor Kennisgrafieke en Datastof geskryf sal word. Die laaste gedeelte, soos dit maklik is om te verstaan, is inderhaas geskryf, maar selfs ses maande later is alles nie veel duideliker met hierdie konsepte nie.

Letterkunde

  1. Halpin, H., Monnin, A. (reds.) (2014). Filosofiese Ingenieurswese: Op pad na 'n Filosofie van die Web
  2. Allemang, D., Hendler, J. (2011) Semantiese web vir die werkende ontoloog (2de uitgawe)
  3. Staab, S., Studer, R. (reds.) (2009) Handbook on Ontologies (2de uitgawe)
  4. Wood, D. (red.). (2011) Koppel ondernemingsdata
  5. Keet, M. (2018) An Introduction to Ontology Engineering

Bron: will.com

Voeg 'n opmerking