Semantički web i povezani podaci. Ispravci i dopune
Predstavljam javnosti dio ove nedavno objavljene knjige:
Ontološko modeliranje poduzeća: metode i tehnologije [Tekst]: monografija / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak i drugi; izvršni urednik S.V. Gorškov]. - Ekaterinburg: Izdavačka kuća Ural University, 2019. - 234 str.: ilustr., tablica; 20 cm - Autor. naznačeno na stražnjoj sisi. S. — Bibliografija na kraju pogl. — ISBN 978-5-7996-2580-1: 200 primjeraka.
Svrha postavljanja ovog fragmenta na Habré je četverostruka:
Malo je vjerojatno da će itko moći držati ovu knjigu u rukama ako nije klijent cijenjenog SergeIndex; Definitivno nije na akciji.
U tekstu su napravljeni ispravci (nisu istaknuti u nastavku) i dodaci koji nisu baš kompatibilni s formatom tiskane monografije: tematske bilješke (ispod spojlera) i hiperveze.
želim prikupljati pitanja i komentare, kako bismo ih uzeli u obzir prilikom uključivanja ovog teksta u revidiranom obliku u bilo koju drugu publikaciju.
Mnogi pristaše semantičkog weba i povezanih podataka još uvijek vjeruju da je njihov krug tako uzak, uglavnom zato što široj javnosti još nije valjano objašnjeno koliko je sjajno biti pristaša semantičkog weba i povezanih podataka. Autor ulomka, iako pripada tom krugu, nije tog mišljenja, ali se ipak smatra obaveznim učiniti još jedan pokušaj.
Dakle,
Semantički web
Evolucija Interneta može se prikazati na sljedeći način (ili govoriti o njegovim segmentima koji su formirani dolje navedenim redoslijedom):
Dokumenti na internetu. Ključne tehnologije - Gopher, FTP itd.
Internet je globalna mreža za razmjenu lokalnih resursa.
Internetski dokumenti. Ključne tehnologije su HTML i HTTP.
Priroda izloženih resursa uzima u obzir karakteristike njihovog prijenosnog medija.
internetski podaci. Ključne tehnologije - REST i SOAP API, XHR itd.
Era internetskih aplikacija, ne samo da ljudi postaju potrošači resursa.
internetski podaci. Ključne tehnologije su tehnologije povezanih podataka.
Ova četvrta faza, koju je predvidio Berners-Lee, tvorac druge temeljne tehnologije i direktor W3C-a, naziva se semantičkim webom; Tehnologije povezanih podataka osmišljene su kako bi podatke na webu učinile ne samo strojno čitljivima, već i "strojno razumljivima".
Iz onoga što slijedi čitatelj će razumjeti korespondenciju između ključnih pojmova druge i četvrte faze:
URL-ovi su analogni URI-jima,
analog HTML-a je RDF,
HTML hiperveze slične su URI pojavljivanjima u RDF dokumentima.
Semantički web više je sustavna vizija budućnosti interneta nego određeni spontani ili lobirani trend, iako može uzeti u obzir ove posljednje. Na primjer, važnom karakteristikom onoga što se naziva Web 2.0 smatra se "sadržaj koji generiraju korisnici". Konkretno, preporuka W3C-a je pozvana da je uzme u obzir "Ontologija web anotacija"i takav pothvat kao Solidan.
Je li semantički web mrtav?
Ako odbijete nerealna očekivanja, situacija sa semantičkim webom otprilike je ista kao i s komunizmom u doba razvijenog socijalizma (a poštuje li se odanost Iljičevim uvjetnim zapovijedima, neka svatko odluči za sebe). Tražilice prilično uspješno prisiljavaju web stranice da koriste RDFa i JSON-LD i same koriste tehnologije povezane s dolje opisanim (Google Knowledge Graph, Bing Knowledge Graph).
Općenito, autor ne može reći što sprječava veće širenje, ali može govoriti na temelju osobnog iskustva. Postoje problemi koji bi se mogli riješiti “out of the box” u uvjetima JZ ofenzive, iako nisu previše rašireni. Kao rezultat toga, oni koji su suočeni s tim zadacima nemaju sredstva prisile protiv onih koji su u stanju pružiti rješenje, dok je neovisno pružanje rješenja od strane potonjih u suprotnosti s njihovim poslovnim modelima. Tako da nastavljamo analizirati HTML i spajati razne API-je, jedan za drugim još sraniji.
Međutim, tehnologije povezanih podataka proširile su se izvan mainstream weba; Knjiga je, zapravo, posvećena tim primjenama. Trenutno zajednica povezanih podataka očekuje da će ove tehnologije postati još raširenije zahvaljujući Gartnerovom bilježenju (ili proglašenju, kako želite) trendova kao što su Grafovi znanja и Data Fabric. Želio bih vjerovati da neće biti uspješne "biciklističke" implementacije ovih koncepata, već one povezane s W3C standardima o kojima se raspravlja u nastavku.
Povezani podaci
Berners-Lee definirao je povezane podatke kao semantički web "urađen kako treba": skup pristupa i tehnologija koji mu omogućuju postizanje krajnjih ciljeva. Osnovna načela povezanih podataka Berners-Lee istaknuto sljedeće.
Načelo 1. Korištenje URI-ja za imenovanje entiteta.
URI-ji su globalni identifikatori entiteta za razliku od lokalnih identifikatora nizova za unose. Kasnije je ovo načelo najbolje izraženo u sloganu Google Knowledge Grapha “stvari, a ne žice".
Načelo 2. Upotreba URI-ja u HTTP shemi kako bi se mogli dereferencirati.
Upućivanjem na URI, trebalo bi biti moguće dobiti označeno iza tog označitelja (analogija s nazivom operatora " ovdje je jasna).*" u C); točnije, da dobijemo neki prikaz ovog označenog - ovisno o vrijednosti HTTP zaglavlja Accept:. Možda će s dolaskom AR/VR ere biti moguće dobiti i sam resurs, ali za sada će najvjerojatnije to biti RDF dokument, koji je rezultat izvršavanja SPARQL upita DESCRIBE.
Načelo 3. Korištenje W3C standarda - primarno RDF(S) i SPARQL - posebno pri dereferenciranju URI-ja.
Ovi pojedinačni "slojevi" skupa tehnologije povezanih podataka, također poznati kao Slojeviti kolač semantičkog weba, bit će opisano u nastavku.
Načelo 4. Korištenje referenci na druge URI-je pri opisivanju entiteta.
RDF vam omogućuje da se ograničite na verbalni opis izvora na prirodnom jeziku, a četvrti princip poziva da se to ne čini. Ako se prvo načelo univerzalno poštuje, pri opisivanju izvora postaje moguće upućivati na druge, uključujući "strane", zbog čega se podaci nazivaju povezanim. Zapravo, gotovo je neizbježno koristiti URI-je imenovane u RDFS rječniku.
RDF
RDF (Resource Description Framework) je formalizam za opisivanje međusobno povezanih entiteta.
Izjave tipa "subjekt-predikat-objekt", koje se nazivaju tripleti, daju se o entitetima i njihovim odnosima. U najjednostavnijem slučaju, subjekt, predikat i objekt su svi URI-ji. Isti URI može biti na različitim pozicijama u različitim tripletima: biti subjekt, predikat i objekt; Dakle, tripleti tvore neku vrstu grafa koji se naziva RDF graf.
Subjekti i objekti mogu biti ne samo URI-ji, već i tzv prazni čvorovi, a mogu biti i objekti literali. Literali su instance primitivnih tipova koji se sastoje od reprezentacije niza i indikacije tipa.
Primjeri pisanja literala (u Turtle sintaksi, više o tome u nastavku): "5.0"^^xsd:float и "five"^^xsd:string. Literali s tipom rdf:langString također može biti opremljen jezičnom oznakom; u Turtleu je napisano ovako: "five"@en и "пять"@ru.
Prazni čvorovi su "anonimni" resursi bez globalnih identifikatora, o kojima se, međutim, mogu dati izjave; vrsta egzistencijalnih varijabli.
Dakle (ovo je zapravo cijela poanta RDF-a):
subjekt je URI ili prazan čvor,
predikat je URI,
objekt je URI, prazan čvor ili literal.
Zašto predikati ne mogu biti prazni čvorovi?
Vjerojatni razlog je želja da se neformalno razumije i prevede triplet na jezik predikatske logike prvog reda s p o kao nešto slično Gdje - predikat, и - konstante. Tragovi ovog razumijevanja nalaze se u dokumentu “LBase: Semantika za jezike semantičkog weba“, koja ima status bilješke W3C radne grupe. S ovim shvaćanjem trojke s p []Gdje [] - prazan čvor, bit će preveden kao Gdje - varijabla, ali kako onda prevesti s [] o? Dokument sa statusom W3C preporuke "RDF 1.1 Semantika” nudi drugu metodu prevođenja, ali još uvijek ne razmatra mogućnost da su predikati prazni čvorovi.
RDF je apstraktni model. RDF se može napisati (serializirati) u različitim sintaksama: RDF/XML, Kornjača (ljudski najčitljivije), JSON-LD, HDT (binarni).
Isti RDF može se serijalizirati u RDF/XML na različite načine, tako da, na primjer, nema smisla provjeravati valjanost rezultirajućeg XML-a pomoću XSD-a ili pokušavati izdvojiti podatke pomoću XPath-a. Isto tako, malo je vjerojatno da će JSON-LD zadovoljiti želju prosječnog Javascript programera da radi s RDF-om koristeći Javascriptovu notaciju s točkama i uglatim zagradama (iako se JSON-LD kreće u tom smjeru nudeći mehanizam kadriranje).
Većina sintaksi nudi načine skraćivanja dugih URI-ja. Na primjer, oglas @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> u Turtle će vam tada omogućiti pisanje umjesto njega <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> samo rdf:type.
RDFS
RDFS (RDF shema) - osnovni vokabular modeliranja, uvodi koncepte svojstva i klase i svojstva kao što su rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Korištenjem RDFS rječnika, na primjer, mogu se napisati sljedeći valjani izrazi:
RDFS je rječnik opisa i modeliranja, ali nije jezik ograničenja (iako službena specifikacija i lišće mogućnost takve upotrebe). Riječ "shema" ne treba shvatiti u istom smislu kao izraz "XML shema". Na primjer, :author rdfs:range foaf:Person znači da rdf:type sve vrijednosti imovine :author - foaf:Person, ali ne znači da to treba reći unaprijed.
SPARQL
SPARQL (SPARQL Protocol and RDF Query Language) - jezik za upite RDF podataka. U jednostavnom slučaju, SPARQL upit je skup uzoraka prema kojima se podudaraju trojke grafa koji se ispituje. Obrasci mogu sadržavati varijable u pozicijama subjekta, predikata i objekta.
Upit će vratiti takve vrijednosti varijable koje, kada se zamijene u uzorke, mogu rezultirati podgrafom upitanog RDF grafa (podskup njegovih tripleta). Varijable istog naziva u različitim uzorcima tripleta moraju imati iste vrijednosti.
Na primjer, s obzirom na gornji skup od sedam RDFS aksioma, sljedeći će se upit vratiti rdfs:domain и rdfs:range kao vrijednosti ?s и ?p odnosno:
Vrijedno je napomenuti da je SPARQL deklarativan i nije jezik za opisivanje obilaska grafa (međutim, neki RDF repozitoriji nude načine za prilagodbu plana izvršenja upita). Stoga se neki standardni problemi s grafovima, na primjer, pronalaženje najkraćeg puta, ne mogu riješiti u SPARQL-u, uključujući korištenje imovinske staze (ali, opet, pojedinačna RDF spremišta nude posebna proširenja za rješavanje ovih problema).
SPARQL ne dijeli pretpostavku otvorenosti svijeta i slijedi pristup "negacija kao neuspjeh", u kojem moguće dizajne kao što su FILTER NOT EXISTS {…}. Distribucija podataka se uzima u obzir pomoću mehanizma federalni upiti.
SPARQL pristupna točka - RDF pohrana koja može obraditi SPARQL upite - nema izravnih analoga iz druge faze (pogledajte početak ovog odlomka). Može se usporediti s bazom podataka na temelju čijeg su sadržaja generirane HTML stranice, ali dostupne izvana. SPARQL pristupna točka više je analogna API pristupnoj točki iz treće faze, ali s dvije glavne razlike. Prvo, moguće je kombinirati nekoliko “atomskih” upita u jedan (što se smatra ključnom karakteristikom GraphQL-a), a drugo, takav API je potpuno samodokumentirajući (što je HATEOAS pokušao postići).
Polemična primjedba
RDF je način objavljivanja podataka na webu, tako da bi RDF pohranu trebalo smatrati DBMS-om dokumenata. Istina, budući da je RDF graf, a ne stablo, pokazalo se da se i oni temelje na grafu. Nevjerojatno je da je uopće uspjelo. Tko bi rekao da će biti pametnih ljudi koji će implementirati prazne čvorove. Codd je ovdje nije išlo.
SOVA (Web Ontology Language) - formalizam za predstavljanje znanja, sintaktička verzija logike opisa (svugdje ispod ispravnije je OWL 2, na kojem se temeljila prva verzija OWL-a ).
Koncepti deskriptivne logike u OWL-u odgovaraju klasama, uloge odgovaraju svojstvima, pojedinci zadržavaju svoje prethodno ime. Aksiomi se nazivaju i aksiomi.
Primjerice, u tzv Manchesterska sintaksa za OWL notaciju nama već poznati aksiom bit će napisano ovako:
Class: Human
Class: Parent
EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent
Postoje i druge sintakse za pisanje OWL-a, kao što je funkcionalna sintaksa, koji se koristi u službenoj specifikaciji, i OWL/XML. Dodatno, OWL se može serijalizirati apstrahirati RDF sintaksu i dalje - u bilo kojoj od specifičnih sintaksi.
OWL ima dvostruki odnos s RDF-om. S jedne strane, može se smatrati nekom vrstom rječnika koji proširuje RDFS. S druge strane, to je snažniji formalizam za koji je RDF samo format za serijalizaciju. Ne mogu se svi elementarni OWL konstrukti napisati pomoću jednog RDF tripleta.
Ovisno o tome koji je podskup OWL konstrukata dopušteno koristiti, govore o tzv OWL profili. Standardizirani i najpoznatiji su OWL EL, OWL RL i OWL QL. Izbor profila utječe na računsku složenost tipičnih problema. Kompletan skup OWL konstrukcija koje odgovaraju , pod nazivom OWL DL. Ponekad se također govori o OWL Full, u kojem je OWL konstrukcijama dopušteno koristiti uz punu slobodu svojstvenu RDF-u, bez semantičkih i računalnih ograničenja . Na primjer, nešto može biti i klasa i svojstvo. OWL Full je neodlučan.
Ključna načela za pridavanje posljedica u OWL-u su usvajanje pretpostavke otvorenog svijeta. OWA) i odbacivanje pretpostavke jedinstvenih imena (pretpostavka jedinstvenog imena, A). U nastavku ćemo vidjeti gdje ova načela mogu dovesti i predstaviti neke OWL konstrukte.
Neka ontologija sadrži sljedeći fragment (u sintaksi Manchester):
Class: manyChildren
EquivalentTo: Human that hasChild min 3
Individual: John
Types: Human
Facts: hasChild Alice, hasChild Bob, hasChild Carol
Hoće li iz rečenog proizaći da Ivan ima mnogo djece? Odbacivanje UNA-e prisilit će mehanizam za zaključivanje da na ovo pitanje odgovori negativno, jer Alice i Bob mogu biti ista osoba. Da bi se dogodilo sljedeće, potrebno je dodati sljedeći aksiom:
DifferentIndividuals: Alice, Bob, Carol, John
Neka sada ontološki fragment ima sljedeći oblik (John je proglašen da ima mnogo djece, ali on ima samo dvoje djece):
Class: manyChildren
EquivalentTo: Human that hasChild min 3
Individual: John
Types: Human, manyChildren
Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John
Hoće li ova ontologija biti nedosljedna (što se može protumačiti kao dokaz nevažećih podataka)? Prihvaćanje OWA uzrokovat će negativan odgovor mehanizma za zaključivanje: "negdje" drugdje (u drugoj ontologiji) može se reći da je Carol također Johnovo dijete.
Kako bismo isključili mogućnost ovoga, dodajmo novu činjenicu o Johnu:
Individual: John
Facts: hasChild Alice, hasChild Bob, not hasChild Carol
Da isključimo pojavu druge djece, recimo da su sve vrijednosti imovine "imati dijete" ljudi, kojih imamo samo četiri:
ObjectProperty: hasChild
Domain: Human
Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }
Sada će ontologija postati kontradiktorna, što neće propustiti izvijestiti mehanizam za zaključivanje. Posljednjim od aksioma smo, u neku ruku, “zatvorili” svijet, i primijetite kako je isključena mogućnost da Ivan bude svoje dijete.
Povezivanje podataka poduzeća
Linked Data set pristupa i tehnologija izvorno je bio namijenjen objavljivanju podataka na webu. Njihova uporaba u internom poslovnom okruženju suočava se s brojnim poteškoćama.
Na primjer, u zatvorenom poslovnom okruženju, deduktivna moć OWL-a koja se temelji na prihvaćanju OWA i odbijanju UNA, odluka zbog otvorene i distribuirane prirode Weba, je preslaba. I tu su moguća sljedeća rješenja.
Obdarivanje OWL-a semantikom, implicirajući napuštanje OWA i usvajanje UNA, implementaciju odgovarajućeg izlaznog motora. -Ovim putem ide Stardog RDF pohrana.
Napuštanje OWL-ovih deduktivnih sposobnosti u korist mehanizama pravila. — Stardog podržava SWRL; Ponuda Jena i GraphDB vlastitijezici pravila
Odbijanje deduktivnih mogućnosti OWL-a, korištenje jednog ili drugog podskupa bliskog RDFS-u za modeliranje. - Više o tome pogledajte u nastavku.
Drugi problem je veći fokus koji korporativni svijet može imati na pitanja kvalitete podataka i nedostatak alata za provjeru valjanosti podataka u skupu povezanih podataka. Izlazi ovdje su sljedeći.
Opet, koristite za provjeru valjanosti OWL konstrukata sa semantikom zatvorenog svijeta i jedinstvenim imenima ako je dostupan odgovarajući mehanizam za zaključivanje.
Koristiti SHACL, standardiziran nakon što je popravljen popis slojeva Semantic Web Layer Cake (međutim, može se koristiti i kao mehanizam za pravila), ili ShEx.
Razumijevanje da se sve u konačnici radi pomoću SPARQL upita, stvaranje vlastitog jednostavnog mehanizma za provjeru valjanosti podataka pomoću njih.
Međutim, čak i potpuno odbacivanje deduktivnih mogućnosti i alata za provjeru valjanosti ostavlja hrpu povezanih podataka izvan konkurencije u zadacima koji su u pejzažu slični otvorenom i distribuiranom webu – u zadacima integracije podataka.
Što je s uobičajenim informacijskim sustavom poduzeća?
To je moguće, ali morate, naravno, biti svjesni koje će točno probleme morati riješiti odgovarajuće tehnologije. Ovdje ću opisati tipičnu reakciju sudionika razvoja kako bih pokazao kako ovaj tehnološki skup izgleda sa stajališta konvencionalnog IT-a. Malo me podsjeća na parabolu o slonu:
Poslovni analitičar: RDF je nešto poput izravno pohranjenog logičkog modela.
Analitičar sustava: RDF je kao EAV proširenje, samo s hrpom indeksa i prikladnim jezikom upita.
Programer: dobro, ovo je sve u duhu koncepata bogatog modela i niskog koda, je čitao nedavno o ovome.
Praksa pokazuje da se stog najčešće koristi u zadacima vezanim uz distribuciju i heterogenost podataka, na primjer, pri izgradnji sustava klase MDM (Master Data Management) ili DWH (Data Warehouse). Takvi problemi postoje u svakoj industriji.
Što se tiče aplikacija specifičnih za industriju, tehnologije povezanih podataka trenutno su najpopularnije u sljedećim industrijama.
biomedicinske tehnologije (gdje se čini da je njihova popularnost povezana sa složenošću domene);
proizvodnja i rad složenih proizvoda (veliko strojarstvo, proizvodnja nafte i plina; najčešće je riječ o standardnim ISO 15926);
Trenutno
I ovdje je razlog složenost predmetnog područja, kada, primjerice, u fazi upstreama, ako govorimo o industriji nafte i plina, jednostavno računovodstvo zahtijeva neke CAD funkcije.
U 2008. godini održana je reprezentativna montaža u organizaciji Chevrona konferencija.
ISO 15926 se, na kraju, činio malo teškim za naftnu i plinsku industriju (i našao je možda veću primjenu u strojarstvu). Samo se Statoil (Equinor) temeljito navukao na njega; u Norveškoj cijeli ekosustav. Drugi pokušavaju učiniti svoje. Na primjer, prema glasinama, domaće Ministarstvo energetike namjerava stvoriti "konceptualni ontološki model kompleksa goriva i energije", sličan, očito, stvoren za elektroprivredu.
financijske organizacije (čak se i XBRL može smatrati svojevrsnim hibridom SDMX i ontologije RDF Data Cube);
Trenutno
Početkom godine LinkedIn je aktivno spamao autora slobodnim radnim mjestima gotovo svih divova financijske industrije, koje poznaje iz TV serije “Viša sila”: Goldman Sachs, JPMorgan Chase i/ili Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Vjerojatno su svi tražili nekoga kome mogu poslati Konferencija Grafa znanja. Nekoliko ih je uspjelo pronaći: financijske su organizacije uzele sve jutro prvog dana.
Na HeadHunteru je jedino Sberbank naišao na nešto zanimljivo; radilo se o “EAV pohrani s podatkovnim modelom nalik RDF-u”.
Vjerojatno je razlika u stupnju ljubavi prema odgovarajućim tehnologijama domaćih i zapadnih financijskih institucija posljedica transnacionalne prirode aktivnosti potonjih. Očito prekogranična integracija zahtijeva kvalitativno drugačija organizacijska i tehnička rješenja.
sustavi pitanja i odgovora s komercijalnim aplikacijama (IBM Watson, Apple Siri, Google Knowledge Graph);
Trenutno
Inače, tvorac Sirija, Thomas Gruber, autor je same definicije ontologije (u informatičkom smislu) kao “konceptualizacijske specifikacije”. Po mom mišljenju, preslagivanje riječi u ovoj definiciji ne mijenja njezino značenje, što možda ukazuje da je nema.
objavljivanje strukturiranih podataka (to se s većim opravdanjem može pripisati povezanim otvorenim podacima).
Trenutno
Veliki ljubitelji povezanih podataka su takozvani GLAM: galerije, knjižnice, arhivi i muzeji. Dovoljno je reći da Kongresna knjižnica promiče zamjenu za MARC21 PODRUČNI OKVIRKoji pruža temelj za budućnost bibliografskog opisa i, naravno, na temelju RDF-a.
Wikidata se često navodi kao primjer uspješnog projekta u području Linked Open Data - svojevrsne strojno čitljive verzije Wikipedije, čiji se sadržaj, za razliku od DBPedije, ne generira uvozom iz infokutija članaka, već se stvoren više-manje ručno (i naknadno postaje izvor informacija za iste infokutije).
Također preporučujemo da ga provjerite список korisnici Stardog RDF pohrane na web stranici Stardog u odjeljku “Kupci”.
Bilo kako bilo, u Gartneru Hype ciklus za nove tehnologije 2016 "Enterprise Taxonomy and Ontology Management" smješten je usred nizbrdice u dolinu razočaranja s izgledima da se "plato produktivnosti" dostigne tek za 10 godina.
Povezivanje podataka poduzeća
Prognoze, prognoze, prognoze...
Zbog povijesnog interesa, u nastavku sam tablično prikazao Gartnerova predviđanja za različite godine o tehnologijama koje nas zanimaju.
Godina
Технология
Prijavi
Položaj
Godine do platoa
2001
Semantički web
Nove tehnologije
Okidač inovacije
5-10
2006
Korporativni semantički web
Nove tehnologije
Vrhunac prenapuhanih očekivanja
5-10
2012
Semantički web
Big Podaci
Vrhunac prenapuhanih očekivanja
> 10
2015
Povezani podaci
Napredna analitika i znanost o podacima
Korito razočaranja
5-10
2016
Upravljanje ontologijom poduzeća
Nove tehnologije
Korito razočaranja
> 10
2018
Grafovi znanja
Nove tehnologije
Okidač inovacije
5-10
Međutim, već u "Hype Cycle..." 2018 pojavio se još jedan uzlazni trend - Grafikoni znanja. Dogodila se određena reinkarnacija: grafički DBMS-ovi, na koje se pokazalo da su skrenuti pozornost korisnika i napori programera, pod utjecajem zahtjeva prvih i navika drugih, počeli su poprimati konture i pozicionirati se njihovih prethodnika konkurenata.
Gotovo svaki grafički DBMS sada se deklarira kao prikladna platforma za izgradnju korporativnog "grafa znanja" ("povezani podaci" ponekad se zamjenjuju s "povezani podaci"), ali koliko su takve tvrdnje opravdane?
Baze podataka s grafovima i dalje su asemantične; podaci u DBMS-u s grafovima i dalje su isti silos podataka. Identifikatori nizova umjesto URI-ja čine zadatak integracije dvaju DBMS-ova s grafovima i dalje integracijskim zadatkom, dok se integracija dvaju RDF pohrana često svodi na jednostavno spajanje dvaju RDF grafova. Drugi aspekt asemantičnosti je nerefleksivnost modela LPG grafa, što otežava upravljanje metapodacima korištenjem iste platforme.
Konačno, grafički DBMS-ovi nemaju mehanizme za zaključivanje ili mašine za pravila. Rezultati takvih strojeva mogu se reproducirati kompliciranim upitima, ali to je moguće čak iu SQL-u.
Međutim, vodeći RDF sustavi za pohranu nemaju problema s podrškom za LPG model. Najčvrstijim pristupom smatra se onaj koji je svojedobno predložen u Blazegraphu: RDF* model, koji kombinira RDF i LPG.
Više
Više o podršci za RDF pohranu za LPG model možete pročitati u prethodnom članku na Habréu: "Što se sada događa s RDF pohranom". Nadam se da će jednog dana biti napisan poseban članak o Grafikonima znanja i Data Fabric-u. Završni dio, kao što je lako razumjeti, napisan je na brzinu, no ni šest mjeseci kasnije s tim pojmovima nije sve puno jasnije.
Književnost
Halpin, H., Monnin, A. (ur.) (2014.). Filozofsko inženjerstvo: prema filozofiji weba
Allemang, D., Hendler, J. (2011.) Semantic Web for the Working Ontologist (2. izdanje)
Staab, S., Studer, R. (ur.) (2009.) Priručnik o ontologijama (2. izdanje)
Wood, D. (ur.). (2011.) Povezivanje podataka poduzeća