Semantički web i povezani podaci. Ispravci i dopune

Predstavljam javnosti dio ove nedavno objavljene knjige:

Ontološko modeliranje poduzeća: metode i tehnologije [Tekst]: monografija / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak i drugi; izvršni urednik S.V. Gorškov]. - Ekaterinburg: Izdavačka kuća Ural University, 2019. - 234 str.: ilustr., tablica; 20 cm - Autor. naznačeno na stražnjoj sisi. S. — Bibliografija na kraju pogl. — ISBN 978-5-7996-2580-1: 200 primjeraka.

Svrha postavljanja ovog fragmenta na Habré je četverostruka:

  • Malo je vjerojatno da će itko moći držati ovu knjigu u rukama ako nije klijent cijenjenog SergeIndex; Definitivno nije na akciji.
  • U tekstu su napravljeni ispravci (nisu istaknuti u nastavku) i dodaci koji nisu baš kompatibilni s formatom tiskane monografije: tematske bilješke (ispod spojlera) i hiperveze.
  • želim prikupljati pitanja i komentare, kako bismo ih uzeli u obzir prilikom uključivanja ovog teksta u revidiranom obliku u bilo koju drugu publikaciju.
  • Mnogi pristaše semantičkog weba i povezanih podataka još uvijek vjeruju da je njihov krug tako uzak, uglavnom zato što široj javnosti još nije valjano objašnjeno koliko je sjajno biti pristaša semantičkog weba i povezanih podataka. Autor ulomka, iako pripada tom krugu, nije tog mišljenja, ali se ipak smatra obaveznim učiniti još jedan pokušaj.

Dakle,

Semantički web

Evolucija Interneta može se prikazati na sljedeći način (ili govoriti o njegovim segmentima koji su formirani dolje navedenim redoslijedom):

  1. Dokumenti na internetu. Ključne tehnologije - Gopher, FTP itd.
    Internet je globalna mreža za razmjenu lokalnih resursa.
  2. Internetski dokumenti. Ključne tehnologije su HTML i HTTP.
    Priroda izloženih resursa uzima u obzir karakteristike njihovog prijenosnog medija.
  3. internetski podaci. Ključne tehnologije - REST i SOAP API, XHR itd.
    Era internetskih aplikacija, ne samo da ljudi postaju potrošači resursa.
  4. internetski podaci. Ključne tehnologije su tehnologije povezanih podataka.
    Ova četvrta faza, koju je predvidio Berners-Lee, tvorac druge temeljne tehnologije i direktor W3C-a, naziva se semantičkim webom; Tehnologije povezanih podataka osmišljene su kako bi podatke na webu učinile ne samo strojno čitljivima, već i "strojno razumljivima".

Iz onoga što slijedi čitatelj će razumjeti korespondenciju između ključnih pojmova druge i četvrte faze:

  • URL-ovi su analogni URI-jima,
  • analog HTML-a je RDF,
  • HTML hiperveze slične su URI pojavljivanjima u RDF dokumentima.

Semantički web više je sustavna vizija budućnosti interneta nego određeni spontani ili lobirani trend, iako može uzeti u obzir ove posljednje. Na primjer, važnom karakteristikom onoga što se naziva Web 2.0 smatra se "sadržaj koji generiraju korisnici". Konkretno, preporuka W3C-a je pozvana da je uzme u obzir "Ontologija web anotacija"i takav pothvat kao Solidan.

Je li semantički web mrtav?

Ako odbijete nerealna očekivanja, situacija sa semantičkim webom otprilike je ista kao i s komunizmom u doba razvijenog socijalizma (a poštuje li se odanost Iljičevim uvjetnim zapovijedima, neka svatko odluči za sebe). Tražilice prilično uspješno prisiljavaju web stranice da koriste RDFa i JSON-LD i same koriste tehnologije povezane s dolje opisanim (Google Knowledge Graph, Bing Knowledge Graph).

Općenito, autor ne može reći što sprječava veće širenje, ali može govoriti na temelju osobnog iskustva. Postoje problemi koji bi se mogli riješiti “out of the box” u uvjetima JZ ofenzive, iako nisu previše rašireni. Kao rezultat toga, oni koji su suočeni s tim zadacima nemaju sredstva prisile protiv onih koji su u stanju pružiti rješenje, dok je neovisno pružanje rješenja od strane potonjih u suprotnosti s njihovim poslovnim modelima. Tako da nastavljamo analizirati HTML i spajati razne API-je, jedan za drugim još sraniji.

Međutim, tehnologije povezanih podataka proširile su se izvan mainstream weba; Knjiga je, zapravo, posvećena tim primjenama. Trenutno zajednica povezanih podataka očekuje da će ove tehnologije postati još raširenije zahvaljujući Gartnerovom bilježenju (ili proglašenju, kako želite) trendova kao što su Grafovi znanja и Data Fabric. Želio bih vjerovati da neće biti uspješne "biciklističke" implementacije ovih koncepata, već one povezane s W3C standardima o kojima se raspravlja u nastavku.

Povezani podaci

Berners-Lee definirao je povezane podatke kao semantički web "urađen kako treba": skup pristupa i tehnologija koji mu omogućuju postizanje krajnjih ciljeva. Osnovna načela povezanih podataka Berners-Lee istaknuto sljedeće.

Načelo 1. Korištenje URI-ja za imenovanje entiteta.

URI-ji su globalni identifikatori entiteta za razliku od lokalnih identifikatora nizova za unose. Kasnije je ovo načelo najbolje izraženo u sloganu Google Knowledge Grapha “stvari, a ne žice".

Načelo 2. Upotreba URI-ja u HTTP shemi kako bi se mogli dereferencirati.

Upućivanjem na URI, trebalo bi biti moguće dobiti označeno iza tog označitelja (analogija s nazivom operatora " ovdje je jasna).*" u C); točnije, da dobijemo neki prikaz ovog označenog - ovisno o vrijednosti HTTP zaglavlja Accept:. Možda će s dolaskom AR/VR ere biti moguće dobiti i sam resurs, ali za sada će najvjerojatnije to biti RDF dokument, koji je rezultat izvršavanja SPARQL upita DESCRIBE.

Načelo 3. Korištenje W3C standarda - primarno RDF(S) i SPARQL - posebno pri dereferenciranju URI-ja.

Ovi pojedinačni "slojevi" skupa tehnologije povezanih podataka, također poznati kao Slojeviti kolač semantičkog weba, bit će opisano u nastavku.

Načelo 4. Korištenje referenci na druge URI-je pri opisivanju entiteta.

RDF vam omogućuje da se ograničite na verbalni opis izvora na prirodnom jeziku, a četvrti princip poziva da se to ne čini. Ako se prvo načelo univerzalno poštuje, pri opisivanju izvora postaje moguće upućivati ​​na druge, uključujući "strane", zbog čega se podaci nazivaju povezanim. Zapravo, gotovo je neizbježno koristiti URI-je imenovane u RDFS rječniku.

RDF

RDF (Resource Description Framework) je formalizam za opisivanje međusobno povezanih entiteta.

Izjave tipa "subjekt-predikat-objekt", koje se nazivaju tripleti, daju se o entitetima i njihovim odnosima. U najjednostavnijem slučaju, subjekt, predikat i objekt su svi URI-ji. Isti URI može biti na različitim pozicijama u različitim tripletima: biti subjekt, predikat i objekt; Dakle, tripleti tvore neku vrstu grafa koji se naziva RDF graf.

Subjekti i objekti mogu biti ne samo URI-ji, već i tzv prazni čvorovi, a mogu biti i objekti literali. Literali su instance primitivnih tipova koji se sastoje od reprezentacije niza i indikacije tipa.

Primjeri pisanja literala (u Turtle sintaksi, više o tome u nastavku): "5.0"^^xsd:float и "five"^^xsd:string. Literali s tipom rdf:langString također može biti opremljen jezičnom oznakom; u Turtleu je napisano ovako: "five"@en и "пять"@ru.

Prazni čvorovi su "anonimni" resursi bez globalnih identifikatora, o kojima se, međutim, mogu dati izjave; vrsta egzistencijalnih varijabli.

Dakle (ovo je zapravo cijela poanta RDF-a):

  • subjekt je URI ili prazan čvor,
  • predikat je URI,
  • objekt je URI, prazan čvor ili literal.

Zašto predikati ne mogu biti prazni čvorovi?

Vjerojatni razlog je želja da se neformalno razumije i prevede triplet na jezik predikatske logike prvog reda s p o kao nešto slično Semantički web i povezani podaci. Ispravci i dopuneGdje Semantički web i povezani podaci. Ispravci i dopune - predikat, Semantički web i povezani podaci. Ispravci i dopune и Semantički web i povezani podaci. Ispravci i dopune - konstante. Tragovi ovog razumijevanja nalaze se u dokumentu “LBase: Semantika za jezike semantičkog weba“, koja ima status bilješke W3C radne grupe. S ovim shvaćanjem trojke s p []Gdje [] - prazan čvor, bit će preveden kao Semantički web i povezani podaci. Ispravci i dopuneGdje Semantički web i povezani podaci. Ispravci i dopune - varijabla, ali kako onda prevesti s [] o? Dokument sa statusom W3C preporuke "RDF 1.1 Semantika” nudi drugu metodu prevođenja, ali još uvijek ne razmatra mogućnost da su predikati prazni čvorovi.

Međutim, Manu Sporni dopušteno.

RDF je apstraktni model. RDF se može napisati (serializirati) u različitim sintaksama: RDF/XML, Kornjača (ljudski najčitljivije), JSON-LD, HDT (binarni).

Isti RDF može se serijalizirati u RDF/XML na različite načine, tako da, na primjer, nema smisla provjeravati valjanost rezultirajućeg XML-a pomoću XSD-a ili pokušavati izdvojiti podatke pomoću XPath-a. Isto tako, malo je vjerojatno da će JSON-LD zadovoljiti želju prosječnog Javascript programera da radi s RDF-om koristeći Javascriptovu notaciju s točkama i uglatim zagradama (iako se JSON-LD kreće u tom smjeru nudeći mehanizam kadriranje).

Većina sintaksi nudi načine skraćivanja dugih URI-ja. Na primjer, oglas @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> u Turtle će vam tada omogućiti pisanje umjesto njega <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> samo rdf:type.

RDFS

RDFS (RDF shema) - osnovni vokabular modeliranja, uvodi koncepte svojstva i klase i svojstva kao što su rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Korištenjem RDFS rječnika, na primjer, mogu se napisati sljedeći valjani izrazi:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS je rječnik opisa i modeliranja, ali nije jezik ograničenja (iako službena specifikacija i lišće mogućnost takve upotrebe). Riječ "shema" ne treba shvatiti u istom smislu kao izraz "XML shema". Na primjer, :author rdfs:range foaf:Person znači da rdf:type sve vrijednosti imovine :author - foaf:Person, ali ne znači da to treba reći unaprijed.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) - jezik za upite RDF podataka. U jednostavnom slučaju, SPARQL upit je skup uzoraka prema kojima se podudaraju trojke grafa koji se ispituje. Obrasci mogu sadržavati varijable u pozicijama subjekta, predikata i objekta.

Upit će vratiti takve vrijednosti varijable koje, kada se zamijene u uzorke, mogu rezultirati podgrafom upitanog RDF grafa (podskup njegovih tripleta). Varijable istog naziva u različitim uzorcima tripleta moraju imati iste vrijednosti.

Na primjer, s obzirom na gornji skup od sedam RDFS aksioma, sljedeći će se upit vratiti rdfs:domain и rdfs:range kao vrijednosti ?s и ?p odnosno:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Vrijedno je napomenuti da je SPARQL deklarativan i nije jezik za opisivanje obilaska grafa (međutim, neki RDF repozitoriji nude načine za prilagodbu plana izvršenja upita). Stoga se neki standardni problemi s grafovima, na primjer, pronalaženje najkraćeg puta, ne mogu riješiti u SPARQL-u, uključujući korištenje imovinske staze (ali, opet, pojedinačna RDF spremišta nude posebna proširenja za rješavanje ovih problema).

SPARQL ne dijeli pretpostavku otvorenosti svijeta i slijedi pristup "negacija kao neuspjeh", u kojem moguće dizajne kao što su FILTER NOT EXISTS {…}. Distribucija podataka se uzima u obzir pomoću mehanizma federalni upiti.

SPARQL pristupna točka - RDF pohrana koja može obraditi SPARQL upite - nema izravnih analoga iz druge faze (pogledajte početak ovog odlomka). Može se usporediti s bazom podataka na temelju čijeg su sadržaja generirane HTML stranice, ali dostupne izvana. SPARQL pristupna točka više je analogna API pristupnoj točki iz treće faze, ali s dvije glavne razlike. Prvo, moguće je kombinirati nekoliko “atomskih” upita u jedan (što se smatra ključnom karakteristikom GraphQL-a), a drugo, takav API je potpuno samodokumentirajući (što je HATEOAS pokušao postići).

Polemična primjedba

RDF je način objavljivanja podataka na webu, tako da bi RDF pohranu trebalo smatrati DBMS-om dokumenata. Istina, budući da je RDF graf, a ne stablo, pokazalo se da se i oni temelje na grafu. Nevjerojatno je da je uopće uspjelo. Tko bi rekao da će biti pametnih ljudi koji će implementirati prazne čvorove. Codd je ovdje nije išlo.

Postoje i manje funkcionalni načini organiziranja pristupa RDF podacima, na primjer, Povezani fragmenti podataka (LDF) i Povezana podatkovna platforma (LDP).

SOVA

SOVA (Web Ontology Language) - formalizam za predstavljanje znanja, sintaktička verzija logike opisa Semantički web i povezani podaci. Ispravci i dopune (svugdje ispod ispravnije je OWL 2, na kojem se temeljila prva verzija OWL-a Semantički web i povezani podaci. Ispravci i dopune).

Koncepti deskriptivne logike u OWL-u odgovaraju klasama, uloge odgovaraju svojstvima, pojedinci zadržavaju svoje prethodno ime. Aksiomi se nazivaju i aksiomi.

Primjerice, u tzv Manchesterska sintaksa za OWL notaciju nama već poznati aksiom Semantički web i povezani podaci. Ispravci i dopune bit će napisano ovako:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Postoje i druge sintakse za pisanje OWL-a, kao što je funkcionalna sintaksa, koji se koristi u službenoj specifikaciji, i OWL/XML. Dodatno, OWL se može serijalizirati apstrahirati RDF sintaksu i dalje - u bilo kojoj od specifičnih sintaksi.

OWL ima dvostruki odnos s RDF-om. S jedne strane, može se smatrati nekom vrstom rječnika koji proširuje RDFS. S druge strane, to je snažniji formalizam za koji je RDF samo format za serijalizaciju. Ne mogu se svi elementarni OWL konstrukti napisati pomoću jednog RDF tripleta.

Ovisno o tome koji je podskup OWL konstrukata dopušteno koristiti, govore o tzv OWL profili. Standardizirani i najpoznatiji su OWL EL, OWL RL i OWL QL. Izbor profila utječe na računsku složenost tipičnih problema. Kompletan skup OWL konstrukcija koje odgovaraju Semantički web i povezani podaci. Ispravci i dopune, pod nazivom OWL DL. Ponekad se također govori o OWL Full, u kojem je OWL konstrukcijama dopušteno koristiti uz punu slobodu svojstvenu RDF-u, bez semantičkih i računalnih ograničenja Semantički web i povezani podaci. Ispravci i dopune. Na primjer, nešto može biti i klasa i svojstvo. OWL Full je neodlučan.

Ključna načela za pridavanje posljedica u OWL-u su usvajanje pretpostavke otvorenog svijeta. OWA) i odbacivanje pretpostavke jedinstvenih imena (pretpostavka jedinstvenog imena, A). U nastavku ćemo vidjeti gdje ova načela mogu dovesti i predstaviti neke OWL konstrukte.

Neka ontologija sadrži sljedeći fragment (u sintaksi Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Hoće li iz rečenog proizaći da Ivan ima mnogo djece? Odbacivanje UNA-e prisilit će mehanizam za zaključivanje da na ovo pitanje odgovori negativno, jer Alice i Bob mogu biti ista osoba. Da bi se dogodilo sljedeće, potrebno je dodati sljedeći aksiom:

DifferentIndividuals: Alice, Bob, Carol, John

Neka sada ontološki fragment ima sljedeći oblik (John je proglašen da ima mnogo djece, ali on ima samo dvoje djece):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Hoće li ova ontologija biti nedosljedna (što se može protumačiti kao dokaz nevažećih podataka)? Prihvaćanje OWA uzrokovat će negativan odgovor mehanizma za zaključivanje: "negdje" drugdje (u drugoj ontologiji) može se reći da je Carol također Johnovo dijete.

Kako bismo isključili mogućnost ovoga, dodajmo novu činjenicu o Johnu:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Da isključimo pojavu druge djece, recimo da su sve vrijednosti imovine "imati dijete" ljudi, kojih imamo samo četiri:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Sada će ontologija postati kontradiktorna, što neće propustiti izvijestiti mehanizam za zaključivanje. Posljednjim od aksioma smo, u neku ruku, “zatvorili” svijet, i primijetite kako je isključena mogućnost da Ivan bude svoje dijete.

Povezivanje podataka poduzeća

Linked Data set pristupa i tehnologija izvorno je bio namijenjen objavljivanju podataka na webu. Njihova uporaba u internom poslovnom okruženju suočava se s brojnim poteškoćama.

Na primjer, u zatvorenom poslovnom okruženju, deduktivna moć OWL-a koja se temelji na prihvaćanju OWA i odbijanju UNA, odluka zbog otvorene i distribuirane prirode Weba, je preslaba. I tu su moguća sljedeća rješenja.

  • Obdarivanje OWL-a semantikom, implicirajući napuštanje OWA i usvajanje UNA, implementaciju odgovarajućeg izlaznog motora. -Ovim putem ide Stardog RDF pohrana.
  • Napuštanje OWL-ovih deduktivnih sposobnosti u korist mehanizama pravila. — Stardog podržava SWRL; Ponuda Jena i GraphDB vlastiti jezici pravila
  • Odbijanje deduktivnih mogućnosti OWL-a, korištenje jednog ili drugog podskupa bliskog RDFS-u za modeliranje. - Više o tome pogledajte u nastavku.

Drugi problem je veći fokus koji korporativni svijet može imati na pitanja kvalitete podataka i nedostatak alata za provjeru valjanosti podataka u skupu povezanih podataka. Izlazi ovdje su sljedeći.

  • Opet, koristite za provjeru valjanosti OWL konstrukata sa semantikom zatvorenog svijeta i jedinstvenim imenima ako je dostupan odgovarajući mehanizam za zaključivanje.
  • Koristiti SHACL, standardiziran nakon što je popravljen popis slojeva Semantic Web Layer Cake (međutim, može se koristiti i kao mehanizam za pravila), ili ShEx.
  • Razumijevanje da se sve u konačnici radi pomoću SPARQL upita, stvaranje vlastitog jednostavnog mehanizma za provjeru valjanosti podataka pomoću njih.

Međutim, čak i potpuno odbacivanje deduktivnih mogućnosti i alata za provjeru valjanosti ostavlja hrpu povezanih podataka izvan konkurencije u zadacima koji su u pejzažu slični otvorenom i distribuiranom webu – u zadacima integracije podataka.

Što je s uobičajenim informacijskim sustavom poduzeća?

To je moguće, ali morate, naravno, biti svjesni koje će točno probleme morati riješiti odgovarajuće tehnologije. Ovdje ću opisati tipičnu reakciju sudionika razvoja kako bih pokazao kako ovaj tehnološki skup izgleda sa stajališta konvencionalnog IT-a. Malo me podsjeća na parabolu o slonu:

  • Poslovni analitičar: RDF je nešto poput izravno pohranjenog logičkog modela.
  • Analitičar sustava: RDF je kao EAV proširenje, samo s hrpom indeksa i prikladnim jezikom upita.
  • Programer: dobro, ovo je sve u duhu koncepata bogatog modela i niskog koda, je čitao nedavno o ovome.
  • Voditelj projekta: da, isto je urušavanje hrpe!

Praksa pokazuje da se stog najčešće koristi u zadacima vezanim uz distribuciju i heterogenost podataka, na primjer, pri izgradnji sustava klase MDM (Master Data Management) ili DWH (Data Warehouse). Takvi problemi postoje u svakoj industriji.

Što se tiče aplikacija specifičnih za industriju, tehnologije povezanih podataka trenutno su najpopularnije u sljedećim industrijama.

  • biomedicinske tehnologije (gdje se čini da je njihova popularnost povezana sa složenošću domene);

Trenutno

“Točka ključanja” nedavno je bila domaćin konferencije koju je organizirala udruga “National Medical Knowledge Base”Kombiniranje ontologija. Od teorije do praktične primjene".

  • proizvodnja i rad složenih proizvoda (veliko strojarstvo, proizvodnja nafte i plina; najčešće je riječ o standardnim ISO 15926);

Trenutno

I ovdje je razlog složenost predmetnog područja, kada, primjerice, u fazi upstreama, ako govorimo o industriji nafte i plina, jednostavno računovodstvo zahtijeva neke CAD funkcije.

U 2008. godini održana je reprezentativna montaža u organizaciji Chevrona konferencija.

ISO 15926 se, na kraju, činio malo teškim za naftnu i plinsku industriju (i našao je možda veću primjenu u strojarstvu). Samo se Statoil (Equinor) temeljito navukao na njega; u Norveškoj cijeli ekosustav. Drugi pokušavaju učiniti svoje. Na primjer, prema glasinama, domaće Ministarstvo energetike namjerava stvoriti "konceptualni ontološki model kompleksa goriva i energije", sličan, očito, stvoren za elektroprivredu.

  • financijske organizacije (čak se i XBRL može smatrati svojevrsnim hibridom SDMX i ontologije RDF Data Cube);

Trenutno

Početkom godine LinkedIn je aktivno spamao autora slobodnim radnim mjestima gotovo svih divova financijske industrije, koje poznaje iz TV serije “Viša sila”: Goldman Sachs, JPMorgan Chase i/ili Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Vjerojatno su svi tražili nekoga kome mogu poslati Konferencija Grafa znanja. Nekoliko ih je uspjelo pronaći: financijske su organizacije uzele sve jutro prvog dana.

Na HeadHunteru je jedino Sberbank naišao na nešto zanimljivo; radilo se o “EAV pohrani s podatkovnim modelom nalik RDF-u”.

Vjerojatno je razlika u stupnju ljubavi prema odgovarajućim tehnologijama domaćih i zapadnih financijskih institucija posljedica transnacionalne prirode aktivnosti potonjih. Očito prekogranična integracija zahtijeva kvalitativno drugačija organizacijska i tehnička rješenja.

  • sustavi pitanja i odgovora s komercijalnim aplikacijama (IBM Watson, Apple Siri, Google Knowledge Graph);

Trenutno

Inače, tvorac Sirija, Thomas Gruber, autor je same definicije ontologije (u informatičkom smislu) kao “konceptualizacijske specifikacije”. Po mom mišljenju, preslagivanje riječi u ovoj definiciji ne mijenja njezino značenje, što možda ukazuje da je nema.

  • objavljivanje strukturiranih podataka (to se s većim opravdanjem može pripisati povezanim otvorenim podacima).

Trenutno

Veliki ljubitelji povezanih podataka su takozvani GLAM: galerije, knjižnice, arhivi i muzeji. Dovoljno je reći da Kongresna knjižnica promiče zamjenu za MARC21 PODRUČNI OKVIRKoji pruža temelj za budućnost bibliografskog opisa i, naravno, na temelju RDF-a.

Wikidata se često navodi kao primjer uspješnog projekta u području Linked Open Data - svojevrsne strojno čitljive verzije Wikipedije, čiji se sadržaj, za razliku od DBPedije, ne generira uvozom iz infokutija članaka, već se stvoren više-manje ručno (i naknadno postaje izvor informacija za iste infokutije).

Također preporučujemo da ga provjerite список korisnici Stardog RDF pohrane na web stranici Stardog u odjeljku “Kupci”.

Bilo kako bilo, u Gartneru Hype ciklus za nove tehnologije 2016 "Enterprise Taxonomy and Ontology Management" smješten je usred nizbrdice u dolinu razočaranja s izgledima da se "plato produktivnosti" dostigne tek za 10 godina.

Povezivanje podataka poduzeća

Prognoze, prognoze, prognoze...

Zbog povijesnog interesa, u nastavku sam tablično prikazao Gartnerova predviđanja za različite godine o tehnologijama koje nas zanimaju.

Godina Технология Prijavi Položaj Godine do platoa
2001 Semantički web Nove tehnologije Okidač inovacije 5-10
2006 Korporativni semantički web Nove tehnologije Vrhunac prenapuhanih očekivanja 5-10
2012 Semantički web Big Podaci Vrhunac prenapuhanih očekivanja > 10
2015 Povezani podaci Napredna analitika i znanost o podacima Korito razočaranja 5-10
2016 Upravljanje ontologijom poduzeća Nove tehnologije Korito razočaranja > 10
2018 Grafovi znanja Nove tehnologije Okidač inovacije 5-10

Međutim, već u "Hype Cycle..." 2018 pojavio se još jedan uzlazni trend - Grafikoni znanja. Dogodila se određena reinkarnacija: grafički DBMS-ovi, na koje se pokazalo da su skrenuti pozornost korisnika i napori programera, pod utjecajem zahtjeva prvih i navika drugih, počeli su poprimati konture i pozicionirati se njihovih prethodnika konkurenata.

Gotovo svaki grafički DBMS sada se deklarira kao prikladna platforma za izgradnju korporativnog "grafa znanja" ("povezani podaci" ponekad se zamjenjuju s "povezani podaci"), ali koliko su takve tvrdnje opravdane?

Baze podataka s grafovima i dalje su asemantične; podaci u DBMS-u s grafovima i dalje su isti silos podataka. Identifikatori nizova umjesto URI-ja čine zadatak integracije dvaju DBMS-ova s ​​grafovima i dalje integracijskim zadatkom, dok se integracija dvaju RDF pohrana često svodi na jednostavno spajanje dvaju RDF grafova. Drugi aspekt asemantičnosti je nerefleksivnost modela LPG grafa, što otežava upravljanje metapodacima korištenjem iste platforme.

Konačno, grafički DBMS-ovi nemaju mehanizme za zaključivanje ili mašine za pravila. Rezultati takvih strojeva mogu se reproducirati kompliciranim upitima, ali to je moguće čak iu SQL-u.

Međutim, vodeći RDF sustavi za pohranu nemaju problema s podrškom za LPG model. Najčvrstijim pristupom smatra se onaj koji je svojedobno predložen u Blazegraphu: RDF* model, koji kombinira RDF i LPG.

Više

Više o podršci za RDF pohranu za LPG model možete pročitati u prethodnom članku na Habréu: "Što se sada događa s RDF pohranom". Nadam se da će jednog dana biti napisan poseban članak o Grafikonima znanja i Data Fabric-u. Završni dio, kao što je lako razumjeti, napisan je na brzinu, no ni šest mjeseci kasnije s tim pojmovima nije sve puno jasnije.

Književnost

  1. Halpin, H., Monnin, A. (ur.) (2014.). Filozofsko inženjerstvo: prema filozofiji weba
  2. Allemang, D., Hendler, J. (2011.) Semantic Web for the Working Ontologist (2. izdanje)
  3. Staab, S., Studer, R. (ur.) (2009.) Priručnik o ontologijama (2. izdanje)
  4. Wood, D. (ur.). (2011.) Povezivanje podataka poduzeća
  5. Keet, M. (2018.) Uvod u ontološko inženjerstvo

Izvor: www.habr.com

Dodajte komentar