Sémantický web a prepojené údaje. Opravy a doplnky

Rád by som verejnosti predstavil fragment tejto nedávno vydanej knihy:

Ontologické modelovanie podniku: metódy a technológie [Text]: monografia / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak a ďalší; výkonný redaktor S.V. Gorshkov]. - Jekaterinburg: Vydavateľstvo Uralskej univerzity, 2019. - 234 s.: obr., tabuľka; 20 cm.- Autor. uvedené na zadnej sýkorke. s. - Bibliografia na konci ch. — ISBN 978-5-7996-2580-1: 200 výtlačkov.

Účel uverejnenia tohto fragmentu na Habré je štvornásobný:

  • Je nepravdepodobné, že niekto bude môcť držať túto knihu v rukách, ak nie je klientom rešpektovaného SergeIndex; Určite nie je v predaji.
  • V texte boli urobené opravy (nie sú zvýraznené nižšie) a boli urobené doplnky, ktoré nie sú veľmi kompatibilné s formátom tlačenej monografie: aktuálne poznámky (pod spojlermi) a hypertextové odkazy.
  • chcem zbierať otázky a komentáre, aby sa zohľadnili pri zaraďovaní tohto textu v revidovanej podobe do akýchkoľvek iných publikácií.
  • Mnohí prívrženci sémantického webu a prepojených dát stále veria, že ich okruh je taký úzky, najmä preto, že širokej verejnosti ešte nebolo poriadne vysvetlené, aké skvelé je byť prívržencom sémantického webu a prepojených dát. Autor fragmentu, hoci patrí do tohto okruhu, tento názor nezastáva, no napriek tomu sa považuje za povinný urobiť ďalší pokus.

Takže,

Sémantický web

Vývoj internetu možno znázorniť takto (alebo hovoriť o jeho segmentoch, ktoré sa vytvorili v poradí uvedenom nižšie):

  1. Dokumenty na internete. Kľúčové technológie – Gopher, FTP atď.
    Internet je globálna sieť na výmenu miestnych zdrojov.
  2. Internetové dokumenty. Kľúčovými technológiami sú HTML a HTTP.
    Charakter exponovaných zdrojov zohľadňuje vlastnosti ich prenosového média.
  3. Internetové údaje. Kľúčové technológie – REST a SOAP API, XHR atď.
    V ére internetových aplikácií sa nielen ľudia stávajú spotrebiteľmi zdrojov.
  4. Internetové údaje. Kľúčovými technológiami sú technológie Linked Data.
    Táto štvrtá etapa, ktorú predpovedal Berners-Lee, tvorca kľúčových technológií druhej a riaditeľ W3C, sa nazýva sémantický web; Technológie Linked Data sú navrhnuté tak, aby boli údaje na webe nielen strojovo čitateľné, ale aj „strojovo pochopiteľné“.

Z toho, čo nasleduje, čitateľ pochopí súlad medzi kľúčovými pojmami druhej a štvrtej etapy:

  • Adresy URL sú analogické s URI,
  • analógom HTML je RDF,
  • Hypertextové odkazy HTML sú podobné výskytom URI v dokumentoch RDF.

Sémantický web je skôr systémovou víziou budúcnosti internetu ako špecifickým spontánnym alebo lobovaným trendom, hoci aj tieto posledné môže brať do úvahy. Napríklad dôležitá charakteristika toho, čo sa nazýva Web 2.0, sa považuje za „obsah vytvorený používateľmi“. Najmä odporúčanie W3C sa vyzýva, aby to vzalo do úvahy „Ontológia webových anotácií„a taký záväzok ako Solídny.

Je sémantický web mŕtvy?

Ak odmietnete nereálne očakávania, je situácia so sémantickým webom približne rovnaká ako s komunizmom v časoch rozvinutého socializmu (a či je dodržaná lojalita k Iľjičovým podmieneným príkazom, nech sa každý rozhodne sám). Vyhľadávače celkom úspešne prinútiť webové stránky, aby používali RDFa a JSON-LD a sami používali technológie súvisiace s tými, ktoré sú opísané nižšie (Google Knowledge Graph, Bing Knowledge Graph).

Vo všeobecnosti autor nevie povedať, čo bráni väčšiemu šíreniu, ale môže hovoriť na základe vlastnej skúsenosti. Existujú problémy, ktoré by sa dali vyriešiť „out of the box“ v podmienkach SW ofenzívy, hoci nie sú veľmi rozšírené. Výsledkom je, že tí, ktorí čelia týmto úlohám, nemajú žiadne prostriedky nátlaku voči tým, ktorí sú schopní poskytnúť riešenie, zatiaľ čo ich nezávislé poskytnutie riešenia je v rozpore s ich obchodnými modelmi. Takže pokračujeme v analyzovaní HTML a lepení rôznych API, navzájom na hovno.

Technológie prepojených dát sa však rozšírili aj mimo bežného webu; Kniha je v skutočnosti venovaná týmto aplikáciám. V súčasnosti komunita Linked Data očakáva, že sa tieto technológie ešte viac rozšíria vďaka Gartneru zaznamenávaniu (alebo hlásaniu, ako chcete) trendov ako napr. Grafy znalostí и Data Fabric. Chcel by som veriť, že úspešné nebudú „bicyklové“ implementácie týchto konceptov, ale tie, ktoré súvisia so štandardmi W3C, o ktorých sa hovorí nižšie.

Prepojené údaje

Berners-Lee definoval Linked Data ako sémantický web „správne vykonaný“: súbor prístupov a technológií, ktoré mu umožňujú dosiahnuť jeho konečné ciele. Základné princípy Linked Data Berners-Lee zvýraznené nasledujúci.

Princíp 1. Použitie URI na pomenovanie entít.

URI sú globálne identifikátory entity na rozdiel od lokálnych reťazcov identifikátorov pre položky. Následne bol tento princíp najlepšie vyjadrený v slogane Google Knowledge Graph „veci, nie struny".

Princíp 2. Použitie URI v schéme HTTP, aby bolo možné z nich odstrániť odkazy.

Odkazovaním na URI by malo byť možné získať označované za týmto signifikantom (analógia s názvom operátora je tu jasná).*"v C); presnejšie, aby sme získali nejakú reprezentáciu tohto označenia - v závislosti od hodnoty hlavičky HTTP Accept:. Možno s príchodom éry AR/VR bude možné získať samotný zdroj, ale zatiaľ s najväčšou pravdepodobnosťou pôjde o dokument RDF, ktorý je výsledkom vykonania dotazu SPARQL DESCRIBE.

Princíp 3. Použitie štandardov W3C – predovšetkým RDF(S) a SPARQL – najmä pri dereferencovaní URI.

Tieto jednotlivé „vrstvy“ zásobníka technológie Linked Data, známeho aj ako Vrstva sémantického webu, bude popísané nižšie.

Princíp 4. Použitie odkazov na iné URI pri popise entít.

RDF vám umožňuje obmedziť sa na verbálny popis zdroja v prirodzenom jazyku a štvrtý princíp vyzýva, aby ste to nerobili. Ak je prvý princíp všeobecne dodržiavaný, je možné pri popise zdroja odkazovať na iné, vrátane „zahraničných“, a preto sa údaje nazývajú prepojené. V skutočnosti je takmer nevyhnutné používať URI pomenované v slovníku RDFS.

RDF

RDF (Resource Description Framework) je formalizmus na popis vzájomne súvisiacich entít.

O entitách a ich vzťahoch sa robia výroky typu „subjekt-predikát-objekt“, nazývané triplety. V najjednoduchšom prípade sú subjekt, predikát a objekt všetky URI. Rovnaký URI môže byť na rôznych pozíciách v rôznych trojiciach: byť subjektom, predikátom a objektom; Trojice teda tvoria určitý druh grafu nazývaného RDF graf.

Subjekty a objekty môžu byť nielen URI, ale aj tzv prázdne uzly, a objekty môžu byť tiež literály. Literály sú príklady primitívnych typov, ktoré pozostávajú z reťazcovej reprezentácie a označenia typu.

Príklady písania literálov (v syntaxi korytnačky, viac o tom nižšie): "5.0"^^xsd:float и "five"^^xsd:string. Literály s typom rdf:langString môže byť vybavený aj jazykovou značkou; v korytnačke sa píše takto: "five"@en и "пять"@ru.

Prázdne uzly sú „anonymné“ zdroje bez globálnych identifikátorov, o ktorých však možno robiť vyhlásenia; druh existenčných premenných.

Takže (toto je v skutočnosti celý zmysel RDF):

  • subjekt je URI alebo prázdny uzol,
  • predikátom je URI,
  • objekt je URI, prázdny uzol alebo literál.

Prečo predikáty nemôžu byť prázdne uzly?

Pravdepodobným dôvodom je túžba neformálne pochopiť a preložiť triplet do jazyka predikátovej logiky prvého rádu s p o ako niečo podobné Sémantický web a prepojené údaje. Opravy a doplnkyKde Sémantický web a prepojené údaje. Opravy a doplnky - predikát, Sémantický web a prepojené údaje. Opravy a doplnky и Sémantický web a prepojené údaje. Opravy a doplnky - konštanty. Stopy tohto chápania sú v dokumente „LBase: Sémantika pre jazyky sémantického webu“, ktorý má štatút poznámky pracovnej skupiny W3C. S týmto porozumením trojica s p []Kde [] - prázdny uzol, bude preložený ako Sémantický web a prepojené údaje. Opravy a doplnkyKde Sémantický web a prepojené údaje. Opravy a doplnky - premenlivý, ale ako potom preložiť s [] o? Dokument so stavom odporúčania W3C "Sémantika RDF 1.1” ponúka inú metódu prekladu, ale stále nezohľadňuje možnosť, že predikáty sú prázdnymi uzlami.

Avšak Manu Sporni povolený.

RDF je abstraktný model. RDF je možné zapísať (serializovať) v rôznych syntaxách: RDF/XML, korytnačka (ľudsky najčitateľnejšie), JSON-LD, HDT (binárne).

Rovnaký RDF môže byť serializovaný do RDF/XML rôznymi spôsobmi, takže napríklad nemá zmysel overovať výsledný XML pomocou XSD alebo sa pokúšať extrahovať údaje pomocou XPath. Podobne je nepravdepodobné, že by JSON-LD uspokojil túžbu priemerného vývojára Javascriptu pracovať s RDF pomocou zápisu bodiek a hranatých zátvoriek Javascriptu (hoci JSON-LD sa pohybuje týmto smerom tým, že ponúka mechanizmus rámovanie).

Väčšina syntaxí ponúka spôsoby, ako skrátiť dlhé URI. Napríklad reklama @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> v Turtle vám potom umožní namiesto toho písať <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> proste rdf:type.

RDFS

RDFS (RDF Schema) - základný modelovací slovník, uvádza pojmy vlastnosť a trieda a vlastnosti ako napr. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Pomocou slovníka RDFS je možné napríklad zapísať nasledujúce platné výrazy:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS je popisný a modelovací slovník, ale nie je to obmedzujúci jazyk (hoci oficiálna špecifikácia a listy možnosť takéhoto použitia). Slovo „Schéma“ by sa nemalo chápať v rovnakom zmysle ako výraz „Schéma XML“. Napríklad, :author rdfs:range foaf:Person znamená to rdf:type všetky hodnoty majetku :author - foaf:Person, ale to neznamená, že to treba povedať vopred.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) – jazyk na dopytovanie dát RDF. V jednoduchom prípade je dotaz SPARQL množinou vzoriek, s ktorými sa porovnávajú triplety dopytovaného grafu. Vzory môžu obsahovať premenné v pozíciách subjektu, predikátu a objektu.

Dopyt vráti také hodnoty premenných, ktoré po dosadení do vzoriek môžu viesť k podgrafu dopytovaného grafu RDF (podmnožina jeho trojíc). Premenné s rovnakým názvom v rôznych vzorkách trojíc musia mať rovnaké hodnoty.

Napríklad vzhľadom na vyššie uvedený súbor siedmich axióm RDFS sa vráti nasledujúci dotaz rdfs:domain и rdfs:range ako hodnoty ?s и ?p v tomto poradí:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Stojí za zmienku, že SPARQL je deklaratívny a nie je to jazyk na popis prechodu grafom (niektoré úložiská RDF však ponúkajú spôsoby, ako upraviť plán vykonávania dotazov). Preto niektoré štandardné problémy s grafom, napríklad nájdenie najkratšej cesty, nemožno vyriešiť v SPARQL, vrátane použitia majetkové cesty (ale opäť jednotlivé repozitáre RDF ponúkajú špeciálne rozšírenia na vyriešenie týchto problémov).

SPARQL nezdieľa prezumpciu otvorenosti sveta a riadi sa prístupom „negácia ako zlyhanie“, v ktorom možné dizajny ako napr FILTER NOT EXISTS {…}. Distribúcia údajov sa zohľadňuje pomocou mechanizmu združené dopyty.

Prístupový bod SPARQL – úložisko RDF schopné spracovávať dopyty SPARQL – nemá žiadne priame analógy z druhej fázy (pozri začiatok tohto odseku). Dá sa to prirovnať k databáze, na základe obsahu ktorej boli generované HTML stránky, ale prístupné zvonku. Prístupový bod SPARQL je viac analogický s prístupovým bodom API z tretej fázy, ale s dvoma hlavnými rozdielmi. Po prvé, je možné spojiť niekoľko „atómových“ dopytov do jedného (čo sa považuje za kľúčovú charakteristiku GraphQL) a po druhé, takéto API je úplne samodokumentačné (o čo sa snažil HATEOAS).

Polemická poznámka

RDF je spôsob, ako publikovať údaje na webe, takže úložisko RDF by sa malo považovať za DBMS dokumentov. Je pravda, že keďže RDF je graf a nie strom, ukázalo sa, že sú tiež založené na grafe. Je úžasné, že to vôbec vyšlo. Kto by to bol povedal, že sa nájdu šikovní ľudia, ktorí budú implementovať prázdne uzly. Codd je tu nevyšlo to.

Existujú aj menej plnohodnotné spôsoby organizácie prístupu k údajom RDF, napr. Prepojené dátové fragmenty (LDF) a Platforma prepojených údajov (LDP).

OWL

OWL (Web Ontology Language) - formalizmus na reprezentáciu vedomostí, syntaktická verzia popisnej logiky Sémantický web a prepojené údaje. Opravy a doplnky (všade nižšie je správnejšie povedať OWL 2, na ktorej bola založená prvá verzia OWL Sémantický web a prepojené údaje. Opravy a doplnky).

Koncepty deskriptívnej logiky v OWL zodpovedajú triedam, role zodpovedajú vlastnostiam, jednotlivci si zachovávajú svoje predchádzajúce meno. Axiómy sa tiež nazývajú axiómy.

Napríklad v tzv Manchesterská syntax pre notáciu OWL nám už známa axióma Sémantický web a prepojené údaje. Opravy a doplnky bude napísané takto:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Existujú aj iné syntaxe na písanie OWL, ako napr funkčná syntax, používané v oficiálnej špecifikácii, a OWL/XML. Okrem toho možno OWL serializovať na abstraktnú RDF syntax a ďalej - v ktorejkoľvek zo špecifických syntaxí.

OWL má dvojitý vzťah s RDF. Na jednej strane ho možno považovať za druh slovníka, ktorý rozširuje RDFS. Na druhej strane je to silnejší formalizmus, pre ktorý je RDF len serializačným formátom. Nie všetky elementárne konštrukcie OWL môžu byť napísané pomocou jedného RDF tripletu.

V závislosti od toho, ktorú podskupinu konštruktov OWL je dovolené použiť, hovoria o tzv OWL profily. Štandardizované a najznámejšie sú OWL EL, OWL RL a OWL QL. Voľba profilu ovplyvňuje výpočtovú zložitosť typických problémov. Kompletná sada konštruktov OWL zodpovedajúcich Sémantický web a prepojené údaje. Opravy a doplnky, s názvom OWL DL. Niekedy sa hovorí aj o OWL Full, v ktorom je dovolené používať konštrukty OWL s plnou slobodou, ktorá je vlastná RDF, bez sémantických a výpočtových obmedzení. Sémantický web a prepojené údaje. Opravy a doplnky. Niečo môže byť napríklad trieda aj vlastnosť. OWL Full je nerozhodnuteľný.

Kľúčovými princípmi pripisovania dôsledkov v OWL je prijatie predpokladu otvoreného sveta. OWA) a odmietnutie predpokladu jedinečných mien (predpoklad jedinečných mien, A). Nižšie uvidíme, kam môžu tieto princípy viesť, a predstavíme niektoré konštrukcie OWL.

Nech ontológia obsahuje nasledujúci fragment (v manchesterskej syntaxi):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Bude z toho, čo bolo povedané, vyplývať, že Ján má veľa detí? Odmietnutie UNA prinúti inferenčný mechanizmus odpovedať na túto otázku záporne, pretože Alice a Bob môžu byť tá istá osoba. Aby sa to stalo, je potrebné pridať nasledujúcu axiómu:

DifferentIndividuals: Alice, Bob, Carol, John

Nech má teraz fragment ontológie nasledujúcu formu (John je vyhlásený za veľa detí, ale má len dve deti):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Bude táto ontológia nekonzistentná (čo možno interpretovať ako dôkaz neplatných údajov)? Prijatie OWA spôsobí, že inferenčný mechanizmus bude reagovať negatívne: „niekde“ inde (v inej ontológii) možno povedať, že Carol je tiež Johnovo dieťa.

Aby sme túto možnosť vylúčili, pridajme nový fakt o Johnovi:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Aby sme vylúčili vzhľad iných detí, povedzme, že všetky hodnoty vlastnosti „mať dieťa“ sú ľudia, z ktorých máme iba štyri:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Teraz sa ontológia stane protirečivou, o čom inferenčný mechanizmus nezabudne hlásiť. S poslednou z axióm sme v istom zmysle „uzavreli“ svet a všimneme si, ako je vylúčená možnosť, že by bol John jeho vlastným dieťaťom.

Prepojenie podnikových údajov

Súbor prístupov a technológií Linked Data bol pôvodne určený na publikovanie údajov na webe. Ich využitie v internom podnikovom prostredí naráža na množstvo ťažkostí.

Napríklad v uzavretom podnikovom prostredí je deduktívna sila OWL na základe prijatia OWA a odmietnutia UNA, rozhodnutí v dôsledku otvoreného a distribuovaného charakteru webu, príliš slabá. A tu sú možné nasledujúce riešenia.

  • Vybavenie OWL sémantikou, čo znamená opustenie OWA a prijatie UNA, implementácia zodpovedajúceho výstupného motora. - Po tejto ceste sa deje Úložisko Stardog RDF.
  • Opustenie deduktívnych schopností OWL v ​​prospech pravidiel. — Stardog podporuje SWRL; Ponuka Jena a GraphDB vlastný jazyky pravidlá
  • Odmietnutie deduktívnych schopností OWL, použitie jednej alebo druhej podmnožiny blízkej RDFS na modelovanie. - Viac o tom nájdete nižšie.

Ďalším problémom je väčší dôraz, ktorý môže mať podnikový svet na problémy s kvalitou údajov a nedostatok nástrojov na overenie údajov v zásobníku prepojených údajov. Výstupy sú tu nasledovné.

  • Opäť použite na overenie konštrukcií OWL so sémantikou uzavretého sveta a jedinečnými názvami, ak je k dispozícii vhodný nástroj na odvodenie.
  • Použitie SHACL, štandardizovaný po opravení zoznamu vrstiev Semantic Web Layer Cake (dá sa však použiť aj ako engine pravidiel), príp. SheEx.
  • Pochopenie, že všetko sa v konečnom dôsledku robí pomocou dotazov SPARQL, a pomocou nich vytvoríte svoj vlastný jednoduchý mechanizmus overovania údajov.

Avšak aj úplné odmietnutie deduktívnych schopností a validačných nástrojov ponecháva zásobník prepojených údajov mimo konkurencie v úlohách, ktoré sú na šírku podobné otvorenému a distribuovanému webu – v úlohách integrácie údajov.

A čo bežný podnikový informačný systém?

Je to možné, ale mali by ste si samozrejme uvedomiť, aké problémy budú musieť príslušné technológie vyriešiť. Popíšem tu typickú reakciu účastníkov vývoja, aby som ukázal, ako tento technologický stack vyzerá z pohľadu konvenčného IT. Trochu mi to pripomína podobenstvo o slonovi:

  • Obchodný analytik: RDF je niečo ako priamo uložený logický model.
  • Analytik systémov: RDF je ako EAV rozšírenie, len s množstvom indexov a pohodlným jazykom dotazov.
  • vývojka: no, toto všetko je v duchu konceptov bohatého modelu a nízkeho kódu, čítal nedávno o tomto.
  • Projektový manažér: áno je to to isté zrútenie stohu!

Prax ukazuje, že zásobník sa najčastejšie používa v úlohách súvisiacich s distribúciou a heterogenitou dát, napríklad pri budovaní systémov triedy MDM (Master Data Management) alebo DWH (Data Warehouse). Takéto problémy existujú v každom odvetví.

Pokiaľ ide o aplikácie špecifické pre dané odvetvie, technológie Linked Data sú v súčasnosti najpopulárnejšie v nasledujúcich odvetviach.

  • biomedicínske technológie (kde sa zdá, že ich popularita súvisí so zložitosťou domény);

prúd

V „Boiling Point“ sa nedávno konala konferencia organizovaná asociáciou „National Medical Knowledge Base“Kombinovanie ontológií. Od teórie k praktickej aplikácii".

  • výroba a prevádzka zložitých výrobkov (veľké strojárstvo, ťažba ropy a plynu; najčastejšie hovoríme o štandard ISO 15926);

prúd

Aj tu je dôvodom zložitosť predmetnej oblasti, keď napríklad v upstream fáze, ak hovoríme o ropnom a plynárenskom priemysle, jednoduché účtovníctvo vyžaduje niektoré CAD funkcie.

V roku 2008 sa uskutočnila reprezentatívna inštalačná akcia organizovaná spoločnosťou Chevron konferencia.

ISO 15926 sa nakoniec ropnému a plynárenskému priemyslu zdala trochu ťažká (a možno väčšie uplatnenie našla v strojárstve). Iba Statoil (Equinor) sa na to dôkladne uchytil, v Nórsku celý ekosystém. Iní sa snažia robiť svoje veci. Napríklad podľa povestí má domáce ministerstvo energetiky v úmysle vytvoriť „koncepčný ontologický model palivového a energetického komplexu“, ktorý je zrejme podobný vytvorené pre elektroenergetiku.

  • finančné organizácie (aj XBRL možno považovať za akýsi hybrid SDMX a ontológie RDF Data Cube);

prúd

Začiatkom roka LinkedIn aktívne spamoval autora voľnými miestami od takmer všetkých gigantov finančného priemyslu, ktorých pozná z televízneho seriálu „Vyššia moc“: Goldman Sachs, JPMorgan Chase a/alebo Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Asi každý hľadal niekoho, komu by mohol poslať Konferencia o grafe znalostí. Pomerne málo sa podarilo nájsť: finančné organizácie vzali všetko ráno prvého dňa.

Na HeadHunter len Sberbank narazila na niečo zaujímavé; išlo o „úložisko EAV s dátovým modelom podobným RDF“.

Rozdiel v miere lásky k príslušným technológiám domácich a západných finančných inštitúcií je pravdepodobne spôsobený nadnárodnou povahou ich aktivít. Integrácia cez štátne hranice si zrejme vyžaduje kvalitatívne odlišné organizačné a technické riešenia.

  • systémy otázok a odpovedí s komerčnými aplikáciami (IBM Watson, Apple Siri, Google Knowledge Graph);

prúd

Mimochodom, tvorca Siri, Thomas Gruber, je autorom samotnej definície ontológie (v zmysle IT) ako „konceptualizačnej špecifikácie“. Podľa môjho názoru preskupenie slov v tejto definícii nemení jej význam, čo možno naznačuje, že tam nie je.

  • zverejňovanie štruktúrovaných dát (s väčším opodstatnením to možno pripísať Linked Open Data).

prúd

Veľkými fanúšikmi Linked Data sú takzvané GLAM: Galleries, Libraries, Archives, and Museums. Stačí povedať, že Kongresová knižnica propaguje náhradu za MARC21 BIBFRAMEže poskytuje základ pre budúcnosť bibliografického opisu a samozrejme na základe RDF.

Wikidáta sú často uvádzané ako príklad úspešného projektu v oblasti Linked Open Data - akejsi strojovo čitateľnej verzie Wikipédie, ktorej obsah sa na rozdiel od DBPedie negeneruje importom z infoboxov článkov, ale je vytvorený viac-menej ručne (a následne sa stáva zdrojom informácií pre rovnaké infoboxy).

Odporúčame vám to tiež skontrolovať список používatelia úložiska Stardog RDF na webovej stránke Stardog v sekcii „Zákazníci“.

Nech je to ako chce, v Gartner Hype cyklus pre vznikajúce technológie 2016 "Enterprise Taxonomy and Ontology Management" je umiestnený uprostred zostupu do údolia sklamania s vyhliadkou dosiahnuť "plochu produktivity" najskôr o 10 rokov.

Pripojenie podnikových údajov

Predpovede, predpovede, predpovede...

Z historického záujmu som nižšie uviedol predpovede spoločnosti Gartner na rôzne roky o technológiách, ktoré nás zaujímajú.

Rok Технология správa Pozícia Roky na náhornú plošinu
2001 Sémantický web Nové technológie Spúšťač inovácií 5-10
2006 Firemný sémantický web Nové technológie Vrchol nafúknutých očakávaní 5-10
2012 Sémantický web Big dát Vrchol nafúknutých očakávaní > 10
2015 Prepojené údaje Pokročilá analytika a veda o údajoch Koryto dezilúzie 5-10
2016 Správa podnikovej ontológie Nové technológie Koryto dezilúzie > 10
2018 Grafy znalostí Nové technológie Spúšťač inovácií 5-10

Avšak už v "Hype cyklus..." 2018 objavil sa ďalší vzostupný trend – Knowledge Graphs. Uskutočnila sa určitá reinkarnácia: grafové DBMS, na ktoré sa pozornosť používateľov a úsilie vývojárov obrátili, pod vplyvom požiadaviek prvých a zvykov druhých, začali naberať kontúry a umiestnenie. ich predchodcov konkurentov.

Takmer každý graf DBMS sa teraz deklaruje ako vhodná platforma na vytvorenie firemného „grafu znalostí“ („prepojené údaje“ sa niekedy nahrádzajú „prepojené údaje“), ale nakoľko sú takéto tvrdenia opodstatnené?

Grafové databázy sú stále asémantické, dáta v grafovej DBMS sú stále tým istým dátovým silo. Reťazcové identifikátory namiesto URI robia z úlohy integrácie dvoch grafových DBMS stále integračnú úlohu, zatiaľ čo integrácia dvoch RDF obchodov často vedie k jednoduchému spojeniu dvoch RDF grafov. Ďalším aspektom asemantičnosti je nereflexívnosť modelu grafu LPG, čo sťažuje správu metadát pomocou rovnakej platformy.

Nakoniec, grafové DBMS nemajú inferenčné motory ani moduly pravidiel. Výsledky takýchto motorov možno reprodukovať komplikovanými dotazmi, ale to je možné aj v SQL.

Popredné skladovacie systémy RDF však nemajú problém s podporou modelu LPG. Za najspoľahlivejší prístup sa považuje ten, ktorý bol naraz navrhnutý v Blazegraph: model RDF*, ktorý kombinuje RDF a LPG.

viac

Viac o podpore RDF úložiska pre model LPG si môžete prečítať v predchádzajúcom článku o Habré: „Čo sa teraz deje s ukladaním RDF“. Dúfam, že jedného dňa bude napísaný samostatný článok o Knowledge Graphs a Data Fabric. Záverečná časť, ako je ľahko pochopiteľné, bola napísaná v zhone, ale ani o šesť mesiacov neskôr nie je s týmito pojmami všetko oveľa jasnejšie.

Literatúra

  1. Halpin, H., Monnin, A. (eds.) (2014). Filozofické inžinierstvo: Smerom k filozofii webu
  2. Allemang, D., Hendler, J. (2011) Sémantický web pre pracujúceho ontológa (2. vydanie)
  3. Staab, S., Studer, R. (eds.) (2009) Príručka ontológií (2. vydanie)
  4. Wood, D. (ed.). (2011) Prepojenie podnikových údajov
  5. Keet, M. (2018) Úvod do ontologického inžinierstva

Zdroj: hab.com

Pridať komentár