Semantični splet in povezani podatki. Popravki in dodatki

Javnosti bi rad predstavil delček te nedavno izdane knjige:

Ontološko modeliranje podjetja: metode in tehnologije [Besedilo]: monografija / [S. V. Gorškov, S. S. Kralin, O. I. Mushtak in drugi; izvršni urednik S.V. Gorškov]. - Ekaterinburg: Ural University Publishing House, 2019. - 234 str.: ilustr., tabela; 20 cm - Avtor. označeno na zadnji tit. z. — Bibliografija na koncu pogl. — ISBN 978-5-7996-2580-1: 200 izvodov.

Namen objave tega fragmenta na Habréju je štirikratni:

  • Malo verjetno je, da bo kdo lahko držal to knjigo v rokah, če ni stranka cenjenega SergeIndex; Zagotovo ni naprodaj.
  • V besedilu so narejeni popravki (v nadaljevanju niso poudarjeni) in dodani dodatki, ki niso najbolj skladni s formatom tiskane monografije: tematski zapisi (pod spojlerji) in hiperpovezave.
  • hočem zbiranje vprašanj in komentarjev, da bi jih upoštevali pri vključitvi tega besedila v spremenjeni obliki v katero koli drugo publikacijo.
  • Mnogi privrženci semantičnega spleta in povezanih podatkov še vedno verjamejo, da je njihov krog tako ozek, predvsem zato, ker širši javnosti še ni bilo ustrezno pojasnjeno, kako dobro je biti privrženec semantičnega spleta in povezanih podatkov. Avtor fragmenta, čeprav pripada temu krogu, ni tega mnenja, vendar se kljub temu meni, da je dolžan narediti še en poskus.

Torej,

Semantični splet

Razvoj interneta je mogoče predstaviti na naslednji način (ali govoriti o njegovih segmentih, ki so se oblikovali v spodaj navedenem vrstnem redu):

  1. Dokumenti na internetu. Ključne tehnologije - Gopher, FTP itd.
    Internet je globalno omrežje za izmenjavo lokalnih virov.
  2. Internetni dokumenti. Ključni tehnologiji sta HTML in HTTP.
    Narava izpostavljenih virov upošteva značilnosti njihovega prenosnega medija.
  3. Internetni podatki. Ključne tehnologije - REST in SOAP API, XHR itd.
    V dobi internetnih aplikacij ne le ljudje postanejo potrošniki virov.
  4. Internetni podatki. Ključne tehnologije so tehnologije povezanih podatkov.
    Ta četrta stopnja, ki jo je napovedal Berners-Lee, ustvarjalec druge ključne tehnologije in direktor W3C, se imenuje semantični splet; Tehnologije povezanih podatkov so zasnovane tako, da podatke v spletu naredijo ne le strojno berljive, ampak tudi »strojno razumljive«.

Iz tega, kar sledi, bo bralec razumel ujemanje med ključnimi koncepti druge in četrte stopnje:

  • URL-ji so analogni URI-jem,
  • analog HTML-ja je RDF,
  • Hiperpovezave HTML so podobne pojavitvam URI v dokumentih RDF.

Semantični splet je bolj sistemska vizija prihodnosti interneta kot specifičen spontan ali lobiran trend, čeprav lahko upošteva slednje. Na primer, pomembna značilnost tega, kar se imenuje splet 2.0, je »vsebina, ki jo ustvarijo uporabniki«. Zlasti je priporočilo W3C pozvano, da ga upošteva "Ontologija spletnih opomb"in takšno podjetje, kot je Masivna.

Ali je semantični splet mrtev?

Če zavrneš nerealna pričakovanja, je situacija s semantičnim spletom približno enaka kot s komunizmom v času razvitega socializma (in ali je spoštovana zvestoba Iljičevim pogojnim zapovedim, naj se vsak odloči sam). Iskalniki precej uspešno prisilijo spletna mesta k uporabi RDFa in JSON-LD, sama pa uporabljajo tehnologije, povezane s spodaj opisanimi (Google Knowledge Graph, Bing Knowledge Graph).

Na splošno avtor ne more povedati, kaj preprečuje večje širjenje, lahko pa govori na podlagi osebnih izkušenj. Obstajajo problemi, ki bi jih bilo mogoče v razmerah JZ ofenzive rešiti "out of the box", čeprav niso zelo razširjeni. Posledično tisti, ki se soočajo s temi nalogami, nimajo sredstev prisile proti tistim, ki so sposobni ponuditi rešitev, medtem ko je neodvisno zagotavljanje rešitve slednjih v nasprotju z njihovimi poslovnimi modeli. Tako nadaljujemo z razčlenjevanjem HTML-ja in lepljenjem različnih API-jev, eden za drugim bolj usran.

Vendar so se tehnologije povezanih podatkov razširile onkraj običajnega spleta; Knjiga je pravzaprav posvečena tem aplikacijam. Trenutno skupnost povezanih podatkov pričakuje, da bodo te tehnologije postale še bolj razširjene zaradi Gartnerjevega beleženja (ali razglasitve, kakor želite) trendov, kot je npr. Grafi znanja и Podatkovna tkanina. Rad bi verjel, da ne bodo uspešne "kolesarske" implementacije teh konceptov, ampak tiste, povezane s standardi W3C, ki so obravnavani spodaj.

Povezani podatki

Berners-Lee je definiral povezane podatke kot semantični splet, ki je »pravilno narejen«: nabor pristopov in tehnologij, ki mu omogočajo doseganje končnih ciljev. Osnovna načela povezanih podatkov Berners-Lee poudarjeno naslednji.

Načelo 1. Uporaba URI-jev za poimenovanje entitet.

URI-ji so globalni identifikatorji entitet v nasprotju z lokalnimi identifikatorji nizov za vnose. Kasneje je bilo to načelo najbolje izraženo v sloganu Google Knowledge Graph »stvari, ne strune".

Načelo 2. Uporaba URI-jev v shemi HTTP, da jih je mogoče odstraniti.

S sklicevanjem na URI bi moralo biti mogoče pridobiti označeno za tem označevalcem (analogija z imenom operaterja " je tukaj jasna).*" v C); natančneje, da bi dobili neko predstavitev tega označenega - odvisno od vrednosti glave HTTP Accept:. Morda bo z nastopom AR/VR dobe možno pridobiti sam vir, vendar bo zaenkrat najverjetneje šlo za dokument RDF, ki je rezultat izvajanja poizvedbe SPARQL DESCRIBE.

Načelo 3. Uporaba standardov W3C - predvsem RDF(S) in SPARQL - zlasti pri dereferenciranju URI-jev.

Te posamezne »plasti« tehnološkega sklada povezanih podatkov, znanih tudi kot Semantični splet Layer Cake, bo opisano v nadaljevanju.

Načelo 4. Uporaba referenc na druge URI-je pri opisovanju entitet.

RDF vam omogoča, da se omejite na verbalni opis vira v naravnem jeziku, četrto načelo pa zahteva, da tega ne storite. Če se prvo načelo upošteva univerzalno, se pri opisovanju vira lahko sklicujete na druge, vključno s "tujimi", zato se podatki imenujejo povezani. Pravzaprav je uporaba URI-jev, imenovanih v besednjaku RDFS, skoraj neizogibna.

RDF

RDF (Resource Description Framework) je formalizem za opisovanje medsebojno povezanih entitet.

Izjave tipa »subjekt-predikat-objekt«, imenovane tripleti, so podane o entitetah in njihovih odnosih. V najpreprostejšem primeru so subjekt, predikat in objekt vsi URI-ji. Isti URI je lahko na različnih položajih v različnih trojčkih: biti subjekt, predikat in objekt; Tako tripleti tvorijo neke vrste graf, imenovan RDF graf.

Subjekti in objekti so lahko ne samo URI-ji, ampak tudi t.i prazna vozlišča, lahko pa so tudi predmeti literali. Literali so primerki primitivnih tipov, sestavljeni iz predstavitve niza in oznake tipa.

Primeri pisanja literalov (v sintaksi Turtle, več o tem spodaj): "5.0"^^xsd:float и "five"^^xsd:string. Literali s tipom rdf:langString lahko opremljen tudi z jezikovno oznako; v Turtle je zapisano takole: "five"@en и "пять"@ru.

Prazna vozlišča so "anonimni" viri brez globalnih identifikatorjev, o katerih pa je mogoče dati izjave; neke vrste eksistencialne spremenljivke.

Torej (to je pravzaprav bistvo RDF):

  • predmet je URI ali prazno vozlišče,
  • predikat je URI,
  • objekt je URI, prazno vozlišče ali literal.

Zakaj predikati ne morejo biti prazna vozlišča?

Verjeten razlog je želja po neformalnem razumevanju in prevodu tripleta v jezik predikatne logike prvega reda s p o kot nekaj podobnega Semantični splet in povezani podatki. Popravki in dodatkiČe Semantični splet in povezani podatki. Popravki in dodatki - predikat, Semantični splet in povezani podatki. Popravki in dodatki и Semantični splet in povezani podatki. Popravki in dodatki - konstante. Sledi tega razumevanja so v dokumentu "LBase: Semantika za jezike semantičnega spleta«, ki ima status opombe delovne skupine W3C. S tem razumevanjem trojček s p []Če [] - prazno vozlišče, bo prevedeno kot Semantični splet in povezani podatki. Popravki in dodatkiČe Semantični splet in povezani podatki. Popravki in dodatki - spremenljivka, ampak kako potem prevesti s [] o? Dokument s statusom priporočila W3C "Semantika RDF 1.1” ponuja drugo metodo prevajanja, vendar še vedno ne upošteva možnosti, da so predikati prazna vozlišča.

Vendar Manu Sporni dovoljeno.

RDF je abstrakten model. RDF je mogoče zapisati (serializirati) v različnih sintaksah: RDF/XML, želva (človeško najbolj berljivo), JSON-LD, HDT (binarni).

Isti RDF je mogoče serializirati v RDF/XML na različne načine, zato na primer ni smiselno preverjati dobljenega XML-ja z uporabo XSD ali poskušati izvleči podatkov z uporabo XPath. Prav tako je malo verjetno, da bo JSON-LD zadovoljil željo povprečnega razvijalca Javascripta, da bi delal z RDF z zapisom s piko in oglatim oklepajem v Javascriptu (čeprav se JSON-LD premika v to smer, saj ponuja mehanizem okvirjanje).

Večina sintaks ponuja načine za skrajšanje dolgih URI-jev. Na primer oglas @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> v Turtle vam bo nato omogočil pisanje namesto tega <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> samo rdf:type.

RDFS

RDFS (RDF shema) - osnovni besednjak za modeliranje, uvaja koncepte lastnosti in razreda ter lastnosti, kot je rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Z uporabo slovarja RDFS lahko na primer zapišete naslednje veljavne izraze:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS je besednjak za opis in modeliranje, ni pa jezik omejitev (čeprav uradna specifikacija in listi možnost take uporabe). Besede "shema" ne bi smeli razumeti v enakem pomenu kot izraz "shema XML". na primer :author rdfs:range foaf:Person pomeni, da rdf:type vse vrednosti nepremičnin :author - foaf:Person, vendar ne pomeni, da je treba to povedati vnaprej.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) - jezik za poizvedovanje po RDF podatkih. V preprostem primeru je poizvedba SPARQL nabor vzorcev, s katerimi se ujemajo trojčki grafa, po katerem se izvaja poizvedba. Vzorci lahko vsebujejo spremenljivke v položajih subjekta, predikata in objekta.

Poizvedba bo vrnila takšne vrednosti spremenljivk, ki lahko, ko jih nadomestimo v vzorce, povzročijo podgraf poizvedovanega grafa RDF (podmnožica njegovih trojčkov). Istoimenske spremenljivke v različnih vzorcih trojčkov morajo imeti enake vrednosti.

Glede na zgornji niz sedmih aksiomov RDFS se bo na primer vrnila naslednja poizvedba rdfs:domain и rdfs:range kot vrednote ?s и ?p oziroma:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Treba je omeniti, da je SPARQL deklarativen in ni jezik za opisovanje prečkanja grafa (vendar nekatera skladišča RDF ponujajo načine za prilagajanje načrta izvajanja poizvedbe). Zato nekaterih standardnih težav z grafom, na primer iskanje najkrajše poti, ni mogoče rešiti v SPARQL, vključno z uporabo lastninske poti (vendar posamezni repozitoriji RDF ponujajo posebne razširitve za reševanje teh težav).

SPARQL ne deli domneve odprtosti sveta in sledi pristopu »negacija kot neuspeh«, v katerem mogoče dizajni kot npr FILTER NOT EXISTS {…}. Distribucija podatkov se upošteva z uporabo mehanizma zvezne poizvedbe.

Dostopna točka SPARQL - shramba RDF, ki lahko obdeluje poizvedbe SPARQL - nima neposrednih analogov iz druge stopnje (glejte začetek tega odstavka). Lahko ga primerjamo z bazo podatkov, na podlagi katere vsebine so bile ustvarjene strani HTML, vendar dostopne od zunaj. Dostopna točka SPARQL je bolj analogna dostopni točki API iz tretje stopnje, vendar z dvema glavnima razlikama. Prvič, možno je združiti več »atomskih« poizvedb v eno (kar velja za ključno značilnost GraphQL), in drugič, takšen API je popolnoma samodokumentiran (kar je poskušal doseči HATEOAS).

Polemična pripomba

RDF je način za objavo podatkov v spletu, zato je treba shranjevanje RDF obravnavati kot DBMS dokumentov. Res je, ker je RDF graf in ne drevo, se je tudi izkazalo, da temeljijo na grafih. Neverjetno, da je sploh uspelo. Kdo bi si mislil, da se bodo našli pametni ljudje, ki bodo implementirali prazna vozlišča. Codd je tukaj ni šlo.

Obstajajo tudi manj popolni načini organiziranja dostopa do podatkov RDF, na primer Povezani fragmenti podatkov (LDF) in Povezana podatkovna platforma (LDP).

OWL

OWL (Web Ontology Language) - formalizem za predstavljanje znanja, sintaktična različica opisne logike Semantični splet in povezani podatki. Popravki in dodatki (povsod spodaj je pravilneje OWL 2, na kateri je temeljila prva različica OWL Semantični splet in povezani podatki. Popravki in dodatki).

Koncepti deskriptivne logike v OWL ustrezajo razredom, vloge ustrezajo lastnostim, posamezniki ohranijo svoje prejšnje ime. Aksiome imenujemo tudi aksiomi.

Na primer v t.i Manchester sintaksa za zapis OWL aksiom, ki ga že poznamo Semantični splet in povezani podatki. Popravki in dodatki bo zapisano takole:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Obstajajo še druge sintakse za pisanje OWL, kot npr funkcionalna sintaksa, ki se uporablja v uradni specifikaciji, in OWL/XML. Poleg tega je OWL mogoče serializirati za abstrahiranje sintakse RDF in nadalje - v kateri koli specifični sintaksi.

OWL ima dvojno razmerje z RDF. Po eni strani ga lahko obravnavamo kot nekakšen slovar, ki razširja RDFS. Po drugi strani pa gre za močnejši formalizem, za katerega je RDF le serializacijski format. Vseh elementarnih konstruktov OWL ni mogoče zapisati z uporabo enega trojčka RDF.

Glede na to, katero podmnožico konstruktov OWL je dovoljeno uporabljati, govorimo o t.i OWL profili. Standardizirani in najbolj znani so OWL EL, OWL RL in OWL QL. Izbira profila vpliva na računsko zahtevnost tipičnih problemov. Celoten niz konstruktov OWL, ki ustreza Semantični splet in povezani podatki. Popravki in dodatki, ki se imenuje OWL DL. Včasih govorijo tudi o OWL Full, v katerem je dovoljena uporaba konstruktov OWL s polno svobodo, ki je neločljivo povezana z RDF, brez semantičnih in računalniških omejitev. Semantični splet in povezani podatki. Popravki in dodatki. Nekaj ​​je lahko na primer hkrati razred in lastnost. OWL Full je neodločljiv.

Ključna načela za pripenjanje posledic v OWL so sprejetje predpostavke odprtega sveta. OWA) in zavrnitev domneve edinstvenih imen (predpostavka edinstvenega imena, ONE). Spodaj bomo videli, kam lahko vodijo ta načela, in predstavili nekaj konstruktov OWL.

Naj ontologija vsebuje naslednji fragment (v sintaksi Manchestra):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Ali bo iz povedanega sledilo, da ima Janez veliko otrok? Zavrnitev UNA bo prisilila mehanizem sklepanja, da na to vprašanje odgovori nikalno, saj sta Alice in Bob prav lahko ista oseba. Da se bo zgodilo naslednje, boste morali dodati naslednji aksiom:

DifferentIndividuals: Alice, Bob, Carol, John

Naj ima zdaj fragment ontologije naslednjo obliko (Janez je razglašen za veliko otrok, vendar ima samo dva otroka):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Ali bo ta ontologija nedosledna (kar si lahko razlagamo kot dokaz neveljavnih podatkov)? Če sprejmete OWA, se bo mehanizem sklepanja odzval negativno: "nekje" drugje (v drugi ontologiji) bi lahko rekli, da je tudi Carol Johnov otrok.

Da bi izključili možnost tega, dodamo novo dejstvo o Johnu:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Če želite izključiti pojav drugih otrok, recimo, da so vse vrednosti premoženja "imati otroka" ljudje, od katerih imamo samo štiri:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Zdaj bo ontologija postala protislovna, o čemer bo motor sklepanja poročal. Z zadnjim aksiomom smo v nekem smislu »zaprli« svet in opazite, kako je izključena možnost, da bi bil Janez sam svoj otrok.

Povezovanje podatkov podjetja

Nabor pristopov in tehnologij Linked Data je bil prvotno namenjen objavljanju podatkov na spletu. Njihova uporaba v internem korporativnem okolju se sooča s številnimi težavami.

Na primer, v zaprtem poslovnem okolju je deduktivna moč OWL, ki temelji na sprejetju OWA in zavračanju UNA, odločitev zaradi odprte in porazdeljene narave spleta, prešibka. In tukaj so možne naslednje rešitve.

  • Obdaritev OWL s semantiko, kar pomeni opustitev OWA in sprejetje UNA, izvajanje ustreznega izhodnega mehanizma. - Po tej poti gre Stardog RDF shranjevanje.
  • Opustitev deduktivnih zmožnosti OWL v ​​korist mehanizmov pravil. — Stardog podpira SWRL; Ponudba Jena in GraphDB lastno jezikov pravila
  • Zavrnitev deduktivnih zmožnosti OWL, uporaba ene ali druge podmnožice blizu RDFS za modeliranje. - Več o tem spodaj.

Druga težava je večja osredotočenost korporativnega sveta na vprašanja kakovosti podatkov in pomanjkanje orodij za preverjanje podatkov v skladu povezanih podatkov. Izhodi tukaj so naslednji.

  • Ponovno uporabite za validacijo konstruktov OWL s semantiko zaprtega sveta in edinstvenimi imeni, če je na voljo ustrezen mehanizem sklepanja.
  • Uporaba SHACL, standardiziran po tem, ko je bil popravljen seznam slojev Semantic Web Layer Cake (vendar se lahko uporablja tudi kot mehanizem pravil), ali ShEx.
  • Razumevanje, da se na koncu vse naredi s poizvedbami SPARQL, ustvarjanje lastnega preprostega mehanizma za preverjanje veljavnosti podatkov z njihovo uporabo.

Vendar pa tudi popolna zavrnitev deduktivnih zmožnosti in orodij za preverjanje veljavnosti pušča sklad povezanih podatkov izven konkurence pri nalogah, ki so v pokrajini podobne odprtemu in porazdeljenemu spletu – pri nalogah integracije podatkov.

Kaj pa običajni informacijski sistem podjetja?

To je mogoče, vendar se morate seveda zavedati, kakšne težave bodo morale reševati ustrezne tehnologije. Tukaj bom opisal tipično reakcijo udeležencev v razvoju, da pokažem, kako ta tehnološki sklad izgleda z vidika konvencionalne IT. Malo me spominja na prispodobo o slonu:

  • Poslovni analitik: RDF je nekaj podobnega neposredno shranjenemu logičnemu modelu.
  • Sistemski analitik: RDF je kot EAV razširitev, le s kupom indeksov in priročnim poizvedovalnim jezikom.
  • Developer: no, vse to je v duhu konceptov bogatega modela in nizke kode, preberite nedavno o tem.
  • Vodja projekta: ja, isto je zrušitev sklada!

Praksa kaže, da se sklad najpogosteje uporablja pri nalogah, povezanih z distribucijo in heterogenostjo podatkov, na primer pri gradnji sistemov razreda MDM (Master Data Management) ali DWH (Data Warehouse). Takšne težave obstajajo v kateri koli industriji.

Kar zadeva aplikacije, specifične za panoge, so tehnologije povezanih podatkov trenutno najbolj priljubljene v naslednjih panogah.

  • biomedicinske tehnologije (kjer se zdi, da je njihova priljubljenost povezana s kompleksnostjo področja);

trenutno

“Vrelišče” je nedavno gostilo konferenco, ki jo je organiziralo združenje “National Medical Knowledge Base” “Združevanje ontologij. Od teorije do praktične uporabe".

  • proizvodnja in obratovanje kompleksnih izdelkov (velika strojegradnja, proizvodnja nafte in plina; največkrat govorimo o standardnih ISO 15926);

trenutno

Tudi tukaj je razlog kompleksnost vsebine, ko na primer na stopnji pridobivanja, če govorimo o naftni in plinski industriji, preprosto računovodstvo zahteva nekaj CAD funkcij.

V letu 2008 je potekala reprezentativna postavitev v organizaciji Chevrona konferenca.

ISO 15926 se je na koncu zdel nekoliko težak za naftno in plinsko industrijo (in našel morda večjo uporabo v strojništvu). Nanj se je dodobra navzel le Statoil (Equinor), na Norveškem cel ekosistem. Drugi poskušajo narediti svoje. Na primer, glede na govorice namerava domače ministrstvo za energijo ustvariti "konceptualni ontološki model kompleksa goriva in energije", ki je očitno podoben ustvarjen za elektroindustrijo.

  • finančne organizacije (tudi XBRL lahko štejemo za nekakšen hibrid SDMX in ontologije RDF Data Cube);

trenutno

V začetku leta je LinkedIn avtorja aktivno spamal s prostimi delovnimi mesti skoraj vseh velikanov finančne industrije, ki jih pozna iz televizijske serije “Višja sila”: Goldman Sachs, JPMorgan Chase in/ali Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank ... Verjetno je vsak iskal nekoga, ki bi mu lahko poslal Konferenca Grafika znanja. Kar nekaj jih je uspelo najti: finančne organizacije so vzele vse zjutraj prvega dne.

Na HeadHunterju je samo Sberbank naletela na nekaj zanimivega, šlo je za »EAV shranjevanje s podatkovnim modelom, podobnim RDF«.

Verjetno je razlika v stopnji ljubezni do ustreznih tehnologij domačih in zahodnih finančnih institucij posledica transnacionalne narave dejavnosti slednjih. Očitno povezovanje prek državnih meja zahteva kakovostno drugačne organizacijske in tehnične rešitve.

  • sistemi vprašanj in odgovorov s komercialnimi aplikacijami (IBM Watson, Apple Siri, Google Knowledge Graph);

trenutno

Mimogrede, ustvarjalec Siri, Thomas Gruber, je avtor same definicije ontologije (v IT-smislu) kot »konceptualizacijske specifikacije«. Po mojem mnenju preurejanje besed v tej definiciji ne spremeni njenega pomena, kar morda nakazuje, da je ni.

  • objava strukturiranih podatkov (to lahko z večjo upravičenostjo pripišemo povezanim odprtim podatkom).

trenutno

Veliki ljubitelji povezanih podatkov so tako imenovani GLAM: galerije, knjižnice, arhivi in ​​muzeji. Dovolj je reči, da Kongresna knjižnica promovira zamenjavo za MARC21 BIBFRAMEKateri predstavlja osnovo za prihodnost bibliografskega opisa in seveda temelji na RDF.

Wikidata pogosto navajajo kot primer uspešnega projekta na področju povezanih odprtih podatkov – nekakšne strojno berljive različice Wikipedije, katere vsebina se v nasprotju z DBPedio ne generira z uvozom iz infopolj člankov, ampak se ustvarjen bolj ali manj ročno (in nato postane vir informacij za ista infopolja).

Priporočamo tudi, da si ga ogledate Seznam uporabniki shrambe Stardog RDF na spletni strani Stardog v razdelku »Stranke«.

Kakor koli že, v Gartnerju Hype Cycle for Emerging Technologies 2016 »Enterprise Taxonomy and Ontology Management« je postavljen sredi spusta v dolino razočaranja z možnostjo doseganja »produktivnega platoja« ne prej kot v 10 letih.

Povezovanje podatkov podjetja

Napovedi, napovedi, napovedi...

Zaradi zgodovinskega pomena sem spodaj navedel Gartnerjeve napovedi za različna leta o tehnologijah, ki nas zanimajo.

Leto Технология Poročilo Položaj Leta do planote
2001 Semantični splet Nastajajoče tehnologije Sprožilec inovacij 5-10
2006 Korporacijski semantični splet Nastajajoče tehnologije Vrh napihnjenih pričakovanj 5-10
2012 Semantični splet Big Podatki Vrh napihnjenih pričakovanj > 10
2015 Povezani podatki Napredna analitika in podatkovna znanost Korito razočaranja 5-10
2016 Upravljanje ontologije podjetja Nastajajoče tehnologije Korito razočaranja > 10
2018 Grafi znanja Nastajajoče tehnologije Sprožilec inovacij 5-10

Vendar že v "Hype Cycle ..." 2018 pojavil se je še en naraščajoči trend - Grafi znanja. Zgodila se je določena reinkarnacija: grafični DBMS-ji, na katere se je izkazalo, da so bili preusmerjeni pozornost uporabnikov in prizadevanja razvijalcev, so pod vplivom zahtev prvih in navad slednjih začeli prevzemati obrise in pozicioniranje. njihovih predhodnih konkurentov.

Skoraj vsak grafični DBMS se zdaj razglaša za primerno platformo za izgradnjo korporativnega "grafa znanja" ("povezani podatki" se včasih nadomestijo s "povezanimi podatki"), toda kako upravičene so takšne trditve?

Podatkovne baze grafov so še vedno asemantične; podatki v grafičnem DBMS so še vedno isti silos podatkov. Zaradi identifikatorjev nizov namesto URI-jev je naloga integracije dveh grafov DBMS še vedno naloga integracije, medtem ko se integracija dveh shramb RDF pogosto zmanjša na preprosto združitev dveh grafov RDF. Drugi vidik asemantičnosti je nerefleksivnost modela grafa LPG, zaradi česar je težko upravljati metapodatke z uporabo iste platforme.

Nazadnje, grafični DBMS-ji nimajo mehanizmov sklepanja ali mehanizmov pravil. Rezultate takšnih motorjev je mogoče reproducirati s kompliciranjem poizvedb, vendar je to mogoče celo v SQL.

Vendar vodilni sistemi za shranjevanje RDF brez težav podpirajo model LPG. Najtrdnejši pristop velja za tistega, ki je bil nekoč predlagan v Blazegraphu: model RDF*, ki združuje RDF in LPG.

več

Več o podpori za shranjevanje RDF za model LPG lahko preberete v prejšnjem članku na Habréju: "Kaj se zdaj dogaja s shranjevanjem RDF". Upam, da bo nekega dne o grafih znanja in podatkovni strukturi napisan ločen članek. Zadnji del, kot je lahko razumeti, je bil napisan v naglici, vendar tudi šest mesecev kasneje s temi koncepti ni vse veliko bolj jasno.

Literatura

  1. Halpin, H., Monnin, A. (ur.) (2014). Filozofski inženiring: K filozofiji spleta
  2. Allemang, D., Hendler, J. (2011) Semantični splet za delujočega ontologa (2. izdaja)
  3. Staab, S., Studer, R. (ur.) (2009) Priročnik o ontologijah (2. izdaja)
  4. Wood, D. (ur.). (2011) Povezovanje podatkov podjetja
  5. Keet, M. (2018) Uvod v ontološko inženirstvo

Vir: www.habr.com

Dodaj komentar