Semantička mreža i povezani podaci. Ispravke i dopune

Želio bih javnosti predstaviti fragment ove nedavno objavljene knjige:

Ontološko modeliranje preduzeća: metode i tehnologije [Tekst]: monografija / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak i drugi; izvršni urednik S.V. Gorshkov]. - Ekaterinburg: Izdavačka kuća Uralskog univerziteta, 2019. - 234 str.: ilustr., tabela; 20 cm - Autor. naznačeno na zadnjoj sisi. With. — Bibliografija na kraju gl. — ISBN 978-5-7996-2580-1: 200 primjeraka.

Svrha postavljanja ovog fragmenta na Habré je četverostruka:

  • Teško da će neko moći da drži ovu knjigu u rukama ako nije klijent uvaženog SergeIndex; Definitivno nije u prodaji.
  • Izvršene su ispravke u tekstu (nisu istaknute u nastavku) i dodaci koji nisu baš kompatibilni sa formatom štampane monografije: tematske napomene (ispod spojlera) i hiperlinkovi.
  • Hoću prikuplja pitanja i komentare, kako bismo ih uzeli u obzir prilikom uključivanja ovog teksta u revidiranom obliku u bilo koje druge publikacije.
  • Mnogi pristalice semantičkog weba i povezanih podataka još uvijek vjeruju da je njihov krug tako uzak, uglavnom zato što široj javnosti još nije na pravi način objašnjeno koliko je sjajno biti pristalica semantičkog weba i povezanih podataka. Autor fragmenta, iako pripada ovom krugu, nije takvog mišljenja, ali se, ipak, smatra obaveznim da učini još jedan pokušaj.

Tako

Semantički web

Evolucija Interneta može se predstaviti na sljedeći način (ili govoriti o njegovim segmentima koji su se formirali dolje navedenim redoslijedom):

  1. Dokumenti na Internetu. Ključne tehnologije - Gopher, FTP, itd.
    Internet je globalna mreža za razmjenu lokalnih resursa.
  2. Internet dokumenti. Ključne tehnologije su HTML i HTTP.
    Priroda izloženih resursa uzima u obzir karakteristike njihovog prijenosnog medija.
  3. Internet podaci. Ključne tehnologije - REST i SOAP API, XHR, itd.
    U eri internetskih aplikacija, ne samo da ljudi postaju potrošači resursa.
  4. Internet podaci. Ključne tehnologije su tehnologije povezanih podataka.
    Ova četvrta faza, koju je predvideo Berners-Lee, tvorac druge jezgre tehnologije i direktor W3C-a, naziva se semantičkom mrežom; Tehnologije povezanih podataka dizajnirane su da podatke na webu učine ne samo mašinski čitljivim, već i „mašinski razumljivim“.

Iz onoga što slijedi, čitatelj će razumjeti korespondenciju između ključnih koncepata druge i četvrte faze:

  • URL-ovi su analogni URI-ovima,
  • analog HTML-a je RDF,
  • HTML hiperveze su slične URI pojavljivanju u RDF dokumentima.

Semantička mreža je više sistemska vizija budućnosti interneta nego specifičan spontani ili lobirani trend, iako ovo posljednje može uzeti u obzir. Na primjer, važnom karakteristikom onoga što se naziva Web 2.0 smatra se „sadržaj koji generiraju korisnici“. Konkretno, preporuka W3C je pozvana da to uzme u obzir “Ontologija web anotacija“i takav poduhvat kao solidan.

Je li semantički web mrtav?

Ako odbijete nerealna očekivanja, situacija sa semantičkom mrežom je približno ista kao i sa komunizmom u doba razvijenog socijalizma (a da li se poštuje lojalnost Iljičevim uslovnim zeljama, neka svako odluči sam). Pretraživači prilično uspješno prisiljavaju web stranice da koriste RDFa i JSON-LD i same koriste tehnologije koje se odnose na one koje su opisane u nastavku (Google Graf znanja, Bing Graf znanja).

Uopšteno govoreći, autor ne može reći šta sprečava širenje, ali može govoriti na osnovu ličnog iskustva. Postoje problemi koji bi se mogli riješiti “iz kutije” u uslovima SW ofanzive, iako nisu previše rasprostranjeni. Kao rezultat toga, oni koji su suočeni s ovim zadacima nemaju sredstva prisile prema onima koji su u stanju da pruže rješenje, dok je njihovo samostalno pružanje rješenja u suprotnosti sa njihovim poslovnim modelima. Tako da nastavljamo da raščlanjamo HTML i spajamo razne API-je, jedni druge usranije.

Međutim, tehnologije povezanih podataka proširile su se izvan glavnog toka Weba; Knjiga je, zapravo, posvećena ovim aplikacijama. Trenutno, zajednica povezanih podataka očekuje da će ove tehnologije postati još raširenije zahvaljujući Gartnerovom snimanju (ili proglašenju, kako želite) trendova kao što su Grafovi znanja и Data Fabric. Želio bih vjerovati da neće biti uspješne implementacije ovih koncepata na „biciklu“, već one koje se odnose na standarde W3C o kojima se govori u nastavku.

Povezani podaci

Berners-Lee je definirao povezane podatke kao semantički web „urađen kako treba”: skup pristupa i tehnologija koji mu omogućavaju da postigne svoje krajnje ciljeve. Osnovni principi povezanih podataka Berners-Lee istaknuto prateći.

Princip 1. Korištenje URI-ja za imenovanje entiteta.

URI su globalni identifikatori entiteta za razliku od lokalnih identifikatora niza za unose. Nakon toga, ovaj princip je najbolje izražen u sloganu Google Knowledge Graph “stvari, ne žice".

Princip 2. Korištenje URI-ja u HTTP šemi tako da se mogu dereferencirati.

Pozivanjem na URI, trebalo bi biti moguće dobiti označeno iza tog označitelja (analogija s imenom operatora " je jasna ovdje).*" u C); tačnije, da dobijemo neku reprezentaciju ovog označenog - ovisno o vrijednosti HTTP zaglavlja Accept:. Možda će s dolaskom AR/VR ere biti moguće doći do samog resursa, ali za sada će najvjerovatnije to biti RDF dokument, koji je rezultat izvršavanja SPARQL upita DESCRIBE.

Princip 3. Upotreba W3C standarda - prvenstveno RDF(S) i SPARQL - posebno kod dereferenciranja URI-ja.

Ovi pojedinačni „slojevi“ steka tehnologije povezanih podataka, takođe poznati kao Semantic Web Layer Cake, biće opisano u nastavku.

Princip 4. Upotreba referenci na druge URI-je pri opisivanju entiteta.

RDF vam omogućava da se ograničite na verbalni opis izvora na prirodnom jeziku, a četvrti princip poziva da to ne radite. Ako se prvi princip univerzalno poštuje, postaje moguće prilikom opisivanja izvora upućivati ​​na druge, uključujući i „strane“, zbog čega se podaci nazivaju povezanim. U stvari, gotovo je neizbježno koristiti URI-je imenovane u RDFS vokabularu.

RDF

RDF (Okvir opisa resursa) je formalizam za opisivanje međusobno povezanih entiteta.

Izjave tipa “subjekt-predikat-objekat”, nazvane trojke, daju se o entitetima i njihovim odnosima. U najjednostavnijem slučaju, subjekt, predikat i objekat su svi URI-ji. Isti URI može biti na različitim pozicijama u različitim tripletima: biti subjekt, predikat i objekat; Dakle, trojke formiraju neku vrstu grafa koji se naziva RDF graf.

Subjekti i objekti mogu biti ne samo URI, već i tzv prazni čvorovi, a objekti također mogu biti literals. Literali su primjeri primitivnih tipova koji se sastoje od string reprezentacije i indikacije tipa.

Primjeri pisanja literala (u sintaksi Turtle, više o tome u nastavku): "5.0"^^xsd:float и "five"^^xsd:string. Literali sa tipom rdf:langString može biti opremljen i jezičkom oznakom; u Turtle je napisano ovako: "five"@en и "пять"@ru.

Prazni čvorovi su „anonimni“ resursi bez globalnih identifikatora, o kojima se, međutim, mogu dati izjave; vrsta egzistencijalnih varijabli.

Dakle (ovo je, u stvari, cela poenta RDF-a):

  • subjekt je URI ili prazan čvor,
  • predikat je URI,
  • objekat je URI, prazan čvor ili literal.

Zašto predikati ne mogu biti prazni čvorovi?

Vjerovatni razlog je želja da se neformalno razumije i prevede triplet na jezik predikatske logike prvog reda. s p o kao nešto slično Semantička mreža i povezani podaci. Ispravke i dopunegde Semantička mreža i povezani podaci. Ispravke i dopune - predikat, Semantička mreža i povezani podaci. Ispravke i dopune и Semantička mreža i povezani podaci. Ispravke i dopune - konstante. Tragovi ovog shvatanja nalaze se u dokumentu “LBase: Semantika za jezike semantičkog weba“, koji ima status bilješke radne grupe W3C. Sa ovim razumijevanjem, trojka s p []gde [] - prazan čvor, biće preveden kao Semantička mreža i povezani podaci. Ispravke i dopunegde Semantička mreža i povezani podaci. Ispravke i dopune - promenljiva, ali kako onda prevesti s [] o? Dokument sa statusom W3C preporuke "RDF 1.1 Semantika” nudi drugu metodu prevođenja, ali još uvijek ne razmatra mogućnost da predikati budu prazni čvorovi.

Međutim, Manu Sporni dozvoljeno.

RDF je apstraktni model. RDF se može napisati (serijalizirati) u različitim sintaksama: RDF/XML, kornjača (ljudski najčitljiviji), JSON-LD, HDT (binarni).

Isti RDF se može serijalizirati u RDF/XML na različite načine, tako da, na primjer, nema smisla validirati rezultirajući XML koristeći XSD ili pokušavati izdvojiti podatke koristeći XPath. Isto tako, malo je vjerovatno da će JSON-LD zadovoljiti želju prosječnog Javascript programera da radi sa RDF-om koristeći Javascript notaciju tačaka i uglastih zagrada (iako se JSON-LD kreće u tom smjeru nudeći mehanizam kadriranje).

Većina sintakse nudi načine za skraćivanje dugih URI-ja. Na primjer, oglas @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> u Turtle će vam tada omogućiti da pišete umjesto toga <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> samo rdf:type.

RDFS

RDFS (RDF shema) - osnovni rečnik modeliranja, uvodi koncepte svojstva i klase i svojstva kao što su rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Koristeći RDFS rječnik, na primjer, mogu se napisati sljedeći važeći izrazi:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS je vokabular opisa i modeliranja, ali nije jezik ograničenja (iako zvanična specifikacija i listovi mogućnost takve upotrebe). Riječ "Šema" ne treba shvatiti u istom smislu kao u izrazu "XML Schema". Na primjer, :author rdfs:range foaf:Person znači da rdf:type sve vrijednosti imovine :author - foaf:Person, ali ne znači da to treba unaprijed reći.

SPARQL

SPARQL (SPARQL Protocol i RDF Query Language) - jezik za upite RDF podataka. U jednostavnom slučaju, SPARQL upit je skup uzoraka prema kojima se uparuju tripleti grafa koji se ispituje. Uzorci mogu sadržavati varijable na pozicijama subjekta, predikata i objekta.

Upit će vratiti takve vrijednosti varijable koje, kada se zamijene u uzorke, mogu rezultirati podgrafom upitanog RDF grafa (podskup njegovih trojki). Varijable istog imena u različitim uzorcima trojki moraju imati iste vrijednosti.

Na primjer, s obzirom na gornji skup od sedam RDFS aksioma, vratit će se sljedeći upit rdfs:domain и rdfs:range kao vrednosti ?s и ?p respektivno:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Vrijedi napomenuti da je SPARQL deklarativni i nije jezik za opisivanje obilaska grafova (međutim, neka RDF spremišta nude načine za prilagođavanje plana izvršavanja upita). Stoga se neki standardni problemi grafa, na primjer, pronalaženje najkraće staze, ne mogu riješiti u SPARQL-u, uključujući korištenje staze imovine (ali, opet, pojedinačna RDF spremišta nude posebna proširenja za rješavanje ovih problema).

SPARQL ne dijeli pretpostavku otvorenosti svijeta i slijedi pristup „negacija kao neuspjeh“, u kojem moguće dizajni kao npr FILTER NOT EXISTS {…}. Distribucija podataka se uzima u obzir korištenjem mehanizma federalni upiti.

SPARQL pristupna tačka - RDF skladište sposobno za obradu SPARQL upita - nema direktnih analoga iz druge faze (pogledajte početak ovog pasusa). Može se uporediti sa bazom podataka, na osnovu čijeg sadržaja su generisane HTML stranice, ali je dostupna spolja. SPARQL pristupna tačka je analognija API pristupnoj tački iz treće faze, ali sa dve glavne razlike. Prvo, moguće je kombinovati nekoliko „atomskih“ upita u jedan (što se smatra ključnom karakteristikom GraphQL-a), a drugo, takav API je potpuno samodokumentovan (što je HATEOAS pokušao da postigne).

Polemična primjedba

RDF je način objavljivanja podataka na webu, tako da se RDF skladište treba smatrati DBMS dokumentom. Istina, pošto je RDF graf, a ne stablo, pokazalo se da su i oni zasnovani na grafu. Nevjerovatno je da je uopće uspjelo. Ko bi rekao da će biti pametnih ljudi koji će implementirati prazne čvorove. Codd je ovdje nije išlo.

Postoje i manje potpuni načini za organiziranje pristupa RDF podacima, na primjer, Povezani fragmenti podataka (LDF) i Povezana platforma podataka (LDP).

OWL

OWL (Web Ontology Language) - formalizam za predstavljanje znanja, sintaktička verzija logike opisa Semantička mreža i povezani podaci. Ispravke i dopune (svugdje ispod ispravnije je reći OWL 2, na kojoj je bazirana prva verzija OWL-a Semantička mreža i povezani podaci. Ispravke i dopune).

Koncepti deskriptivne logike u OWL odgovaraju klasama, uloge odgovaraju svojstvima, pojedinci zadržavaju svoje prethodno ime. Aksiomi se takođe nazivaju aksiomima.

Na primjer, u tzv Manchester sintaksa za OWL notaciju nam je već poznat aksiom Semantička mreža i povezani podaci. Ispravke i dopune biće napisano ovako:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Postoje i druge sintakse za pisanje OWL-a, kao npr funkcionalna sintaksa, koji se koristi u službenoj specifikaciji, i OWL/XML. Dodatno, OWL se može serijalizirati za apstraktnu RDF sintaksu i dalje - u bilo kojoj od specifičnih sintaksa.

OWL ima dvostruki odnos sa RDF-om. S jedne strane, može se smatrati nekom vrstom rječnika koji proširuje RDFS. S druge strane, to je moćniji formalizam za koji je RDF samo serijalizacijski format. Ne mogu se sve elementarne OWL konstrukcije napisati koristeći jedan RDF triplet.

U zavisnosti od toga koji podskup OWL konstrukcija je dozvoljeno koristiti, oni govore o tzv OWL profili. Standardizovane i najpoznatije su OWL EL, OWL RL i OWL QL. Izbor profila utiče na složenost proračuna tipičnih problema. Kompletan skup OWL konstrukcija koji odgovaraju Semantička mreža i povezani podaci. Ispravke i dopune, pod nazivom OWL DL. Ponekad se govori i o OWL Full, u kojem se OWL konstrukcije mogu koristiti s punom slobodom svojstvenom RDF-u, bez semantičkih i računskih ograničenja Semantička mreža i povezani podaci. Ispravke i dopune. Na primjer, nešto može biti i klasa i svojstvo. OWL Full je neodlučivo.

Ključni principi za pripisivanje posljedica u OWL su usvajanje pretpostavke otvorenog svijeta. O.W.A.) i odbacivanje pretpostavke jedinstvenih imena (pretpostavka jedinstvenog imena, ONE). U nastavku ćemo vidjeti gdje ovi principi mogu dovesti i uvesti neke OWL konstrukcije.

Neka ontologija sadrži sljedeći fragment (u mančesterskoj sintaksi):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Hoće li iz rečenog proizaći da John ima mnogo djece? Odbijanje UNA-e će prisiliti mehanizam zaključivanja da negativno odgovori na ovo pitanje, budući da Alice i Bob mogu biti ista osoba. Da bi se dogodilo sljedeće, potrebno je dodati sljedeći aksiom:

DifferentIndividuals: Alice, Bob, Carol, John

Neka sada ontološki fragment ima sljedeći oblik (John je deklarirano da ima mnogo djece, ali ima samo dvoje djece):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Hoće li ova ontologija biti nedosljedna (što se može protumačiti kao dokaz nevažećih podataka)? Prihvatanje OWA će uzrokovati da mehanizam zaključivanja odgovori negativno: "negdje" drugdje (u drugoj ontologiji) može se reći da je Carol također Johnovo dijete.

Da bismo isključili mogućnost ovoga, dodajmo novu činjenicu o Johnu:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Da bismo isključili pojavu druge djece, recimo da su sve vrijednosti imovine "imati dijete" ljudi, kojih imamo samo četvero:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Sada će ontologija postati kontradiktorna, što mehanizam zaključivanja neće propustiti izvesti. Posljednjim od aksioma smo, na neki način, „zatvorili“ svijet i primjećujemo kako je isključena mogućnost da John bude njegovo dijete.

Povezivanje podataka preduzeća

Skup pristupa i tehnologija povezanih podataka prvobitno je bio namijenjen za objavljivanje podataka na webu. Njihova upotreba u internom korporativnom okruženju suočava se sa brojnim poteškoćama.

Na primjer, u zatvorenom korporativnom okruženju, deduktivna moć OWL-a zasnovana na usvajanju OWA i odbijanju UNA, odluka zbog otvorene i distribuirane prirode Weba, je preslaba. I ovdje su moguća sljedeća rješenja.

  • Dodavanje OWL semantikom, što podrazumijeva napuštanje OWA i usvajanje UNA, implementaciju odgovarajućeg izlaznog motora. - Na ovoj stazi ide Stardog RDF skladište.
  • Napuštanje OWL-ovih deduktivnih sposobnosti u korist mehanizama pravila. — Stardog podržava SWRL; Jena i GraphDB ponuda sopstveni jezicima pravila
  • Odbijanje deduktivnih mogućnosti OWL-a, korištenje jednog ili drugog podskupa bliskog RDFS-u za modeliranje. - Vidite više o ovome u nastavku.

Drugi problem je veći fokus koji korporativni svijet može imati na probleme kvaliteta podataka i nedostatak alata za provjeru valjanosti podataka u steku povezanih podataka. Ovdje su rezultati sljedeći.

  • Opet, koristite za validaciju OWL konstrukcija sa semantikom zatvorenog svijeta i jedinstvenim imenima ako je dostupan odgovarajući mehanizam zaključivanja.
  • Koristite SHACL, standardiziran nakon što je lista slojeva Semantic Web Layer Cake popravljena (međutim, može se koristiti i kao mehanizam pravila), ili ShEx.
  • Razumijevanje da se sve u konačnici radi sa SPARQL upitima, kreirajući vlastiti jednostavan mehanizam za provjeru valjanosti podataka koristeći ih.

Međutim, čak i potpuno odbacivanje deduktivnih mogućnosti i alata za validaciju ostavlja skup povezanih podataka izvan konkurencije u zadacima koji su u pejzažu slični otvorenom i distribuiranom webu - u zadacima integracije podataka.

Šta je sa redovnim informacionim sistemom preduzeća?

To je moguće, ali morate, naravno, biti svjesni tačno koje probleme će odgovarajuće tehnologije morati riješiti. Ovdje ću opisati tipičnu reakciju učesnika u razvoju da pokažu kako izgleda ovaj tehnološki stog sa stanovišta konvencionalnog IT-a. Malo me podsjeća na parabolu o slonu:

  • Poslovni analitičar: RDF je nešto poput direktno pohranjenog logičkog modela.
  • Sistemski analitičar: RDF je kao EAV, samo sa gomilom indeksa i pogodnim jezikom upita.
  • Programer: pa, ovo je sve u duhu koncepata bogatog modela i niskog koda, je čitao nedavno o ovome.
  • Voditelj projekta: da isto je urušavanje hrpe!

Praksa pokazuje da se stek najčešće koristi u zadacima vezanim za distribuciju i heterogenost podataka, na primjer, pri izgradnji MDM (Master Data Management) ili DWH (Data Warehouse) sistema klasa. Takvi problemi postoje u bilo kojoj industriji.

Što se tiče aplikacija specifičnih za industriju, tehnologije povezanih podataka trenutno su najpopularnije u sljedećim industrijama.

  • biomedicinske tehnologije (gde se čini da je njihova popularnost povezana sa složenošću domena);

aktualno

„Tačka ključanja“ nedavno je bila domaćin konferencije koju je organizovalo udruženje „Nacionalna baza medicinskog znanja“Kombinovanje ontologija. Od teorije do praktične primjene".

  • proizvodnja i rad složenih proizvoda (veliko mašinstvo, proizvodnja nafte i gasa; najčešće je reč o standardu ISO 15926);

aktualno

I ovdje je razlog složenost predmetne oblasti, kada je, na primjer, u uzvodnoj fazi, ako govorimo o industriji nafte i plina, jednostavno računovodstvo zahtijeva neke CAD funkcije.

2008. godine održan je reprezentativni događaj instalacije u organizaciji Chevrona konferencija.

ISO 15926, na kraju, djelovao je pomalo težak za industriju nafte i plina (i našao je možda veću primjenu u mašinstvu). Samo se Statoil (Equinor) u potpunosti navukao na njega; u Norveškoj je cijeli ekosistem. Drugi pokušavaju da rade svoje. Na primjer, prema glasinama, domaće Ministarstvo energetike namjerava da stvori "konceptualni ontološki model kompleksa goriva i energije", sličan, očigledno, stvorena za elektroprivredu.

  • finansijske organizacije (čak se i XBRL može smatrati nekom vrstom hibrida SDMX i RDF Data Cube ontologije);

aktualno

LinkedIn je početkom godine autoru aktivno slao slobodna radna mjesta iz gotovo svih giganata finansijske industrije, koje poznaje iz TV serije “Force Majeure”: Goldman Sachs, JPMorgan Chase i/ili Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Vjerovatno su svi tražili nekoga kome bi mogli poslati Konferencija o Grafovima znanja. Dosta ih je uspjelo pronaći: finansijske organizacije su uzele sve ujutro prvog dana.

Na HeadHunter-u je samo Sberbank naišla na nešto zanimljivo; radilo se o „EAV skladištu sa modelom podataka nalik RDF-u“.

Vjerovatno je razlika u stepenu ljubavi prema odgovarajućim tehnologijama domaćih i zapadnih finansijskih institucija posljedica transnacionalne prirode aktivnosti ovih potonjih. Očigledno, integracija preko državnih granica zahtijeva kvalitativno drugačija organizaciona i tehnička rješenja.

  • sistemi pitanja-odgovori sa komercijalnim aplikacijama (IBM Watson, Apple Siri, Google Knowledge Graph);

aktualno

Inače, tvorac Siri-a, Thomas Gruber, autor je same definicije ontologije (u IT smislu) kao „specifikacije konceptualizacije“. Po mom mišljenju, preuređivanje riječi u ovoj definiciji ne mijenja njeno značenje, što možda ukazuje da ga nema.

  • objavljivanje strukturiranih podataka (sa većim opravdanjem to se može pripisati povezanim otvorenim podacima).

aktualno

Veliki obožavatelji povezanih podataka su takozvani GLAM: galerije, biblioteke, arhivi i muzeji. Dovoljno je reći da Kongresna biblioteka promoviše zamjenu za MARC21 BIBFRAME, što je pruža temelj za budućnost bibliografskog opisa i, naravno, zasnovan na RDF-u.

Wikidata se često navodi kao primjer uspješnog projekta u oblasti povezanih otvorenih podataka – svojevrsne mašinski čitljive verzije Wikipedije, čiji sadržaj, za razliku od DBPedia, nije generiran uvozom iz infokutija članaka, već je kreiran manje-više ručno (i naknadno postaje izvor informacija za iste infokutije).

Preporučujemo i da ga pogledate lista korisnici Stardog RDF skladišta na Stardog web stranici u odjeljku "Kupci".

Bilo kako bilo, u Gartneru Hype Cycle for Emerging Technologies 2016 „Upravljanje taksonomijom i ontologijom preduzeća“ postavljeno je usred spuštanja u dolinu razočaranja sa perspektivom da dostigne „plato produktivnosti“ ne ranije nego za 10 godina.

Povezivanje podataka preduzeća

Prognoze, prognoze, prognoze...

Iz istorijskog interesa, ispod sam prikazao Gartnerova predviđanja za različite godine o tehnologijama koje nas zanimaju.

Godina tehnologija Izveštaj Pozicija Godine do platoa
2001 Semantički web Emerging Technologies Innovation Trigger 5-10
2006 Corporate Semantic Web Emerging Technologies Vrhunac napuhanih očekivanja 5-10
2012 Semantički web Veliki podaci Vrhunac napuhanih očekivanja > 10
2015 Povezani podaci Napredna analitika i nauka o podacima Korito razočaranja 5-10
2016 Upravljanje ontologijom preduzeća Emerging Technologies Korito razočaranja > 10
2018 Grafovi znanja Emerging Technologies Innovation Trigger 5-10

Međutim, već u "Hype Cycle..." 2018 pojavio se još jedan uzlazni trend - Grafovi znanja. Dogodila se određena reinkarnacija: grafički DBMS-i, na koje se ispostavilo da su se prebacili pažnja korisnika i napori programera, pod utjecajem zahtjeva prvih i navika drugih, počeli su poprimati konture i pozicioniranje od svojih prethodnika konkurenata.

Gotovo svaki grafički DBMS sada se proglašava kao pogodna platforma za izgradnju korporativnog „grafa znanja“ („povezani podaci“ se ponekad zamjenjuju „povezanim podacima“), ali koliko su takve tvrdnje opravdane?

Grafičke baze podataka su i dalje asemantične; podaci u grafičkom DBMS-u su i dalje isti silos podataka. Identifikatori niza umjesto URI-ja čine zadatak integracije dva DBMS-a grafa i dalje zadatkom integracije, dok se integracija dva RDF skladišta često svodi na jednostavno spajanje dva RDF grafa. Drugi aspekt asemantičnosti je nerefleksivnost modela LPG grafa, što otežava upravljanje metapodacima koristeći istu platformu.

Konačno, grafički DBMS-ovi nemaju mehanizme zaključivanja ili pravila. Rezultati takvih mehanizama mogu se reproducirati kompliciranim upitima, ali to je moguće čak iu SQL-u.

Međutim, vodeći RDF sistemi za skladištenje nemaju poteškoća da podrže LPG model. Najčvršćim pristupom se smatra onaj koji je svojevremeno predložen u Blazegraphu: RDF* model, koji kombinuje RDF i LPG.

Pročitajte više

Možete pročitati više o RDF podršci za skladištenje za LPG model u prethodnom članku na Habréu: "Šta se sada dešava sa RDF skladištem". Nadam se da će jednog dana biti napisan poseban članak o grafovima znanja i tkanju podataka. Završni dio, kao što je lako razumjeti, napisan je na brzinu, međutim, ni šest mjeseci kasnije, s ovim konceptima nije sve mnogo jasnije.

Literatura

  1. Halpin, H., Monnin, A. (ur.) (2014). Filozofski inženjering: ka filozofiji weba
  2. Allemang, D., Hendler, J. (2011) Semantička mreža za radnog ontologa (2. izdanje)
  3. Staab, S., Studer, R. (ur.) (2009.) Priručnik o ontologijama (2. izdanje)
  4. Wood, D. (ur.). (2011) Povezivanje podataka preduzeća
  5. Keet, M. (2018) Uvod u ontološko inženjerstvo

izvor: www.habr.com

Dodajte komentar