Sémantický web a propojená data. Opravy a doplnění

Rád bych veřejnosti představil fragment této nedávno vydané knihy:

Ontologické modelování podniku: metody a technologie [Text]: monografie / [S. V. Gorshkov, S. S. Králin, O. I. Mushtak a další; výkonný redaktor S.V. Gorshkov]. - Jekatěrinburg: Nakladatelství Uralské univerzity, 2019. - 234 s.: il., tabulka; 20 cm.- Autor. uvedeno na zadní kozy. S. — Bibliografie na konci ch. — ISBN 978-5-7996-2580-1: 200 výtisků.

Účel zveřejnění tohoto fragmentu na Habré je čtyřnásobný:

  • Je nepravděpodobné, že někdo bude moci držet tuto knihu v ruce, pokud není klientem respektovaného SergeIndex; Určitě není v prodeji.
  • V textu byly provedeny opravy (nejsou níže zvýrazněny) a doplněny, které nejsou příliš kompatibilní s formátem tištěné monografie: aktuální poznámky (pod spoilery) a hypertextové odkazy.
  • Chci sbírat dotazy a komentáře, aby bylo možné je zohlednit při zařazování tohoto textu v revidované podobě do jakýchkoli jiných publikací.
  • Mnoho přívrženců sémantického webu a propojených dat stále věří, že jejich okruh je tak úzký, a to především proto, že široké veřejnosti dosud nebylo řádně vysvětleno, jak skvělé je být přívržencem sémantického webu a propojených dat. Autor fragmentu, ač patří do tohoto okruhu, tento názor nezastává, nicméně považuje se za povinen učinit další pokus.

To znamená,

Sémantický web

Vývoj internetu lze znázornit následovně (nebo mluvit o jeho segmentech, které byly vytvořeny v níže uvedeném pořadí):

  1. Dokumenty na internetu. Klíčové technologie – Gopher, FTP atd.
    Internet je globální síť pro výměnu místních zdrojů.
  2. Internetové dokumenty. Klíčovými technologiemi jsou HTML a HTTP.
    Charakter exponovaných zdrojů zohledňuje vlastnosti jejich přenosového média.
  3. internetová data. Klíčové technologie - REST a SOAP API, XHR atd.
    V éře internetových aplikací se nejen lidé stávají spotřebiteli zdrojů.
  4. internetová data. Klíčovými technologiemi jsou technologie Linked Data.
    Tato čtvrtá fáze, kterou předpověděl Berners-Lee, tvůrce druhých klíčových technologií a ředitel W3C, se nazývá sémantický web; Technologie Linked Data jsou navrženy tak, aby data na webu byla nejen strojově čitelná, ale také „strojově srozumitelná“.

Z toho, co následuje, čtenář pochopí shodu mezi klíčovými pojmy druhé a čtvrté etapy:

  • URL jsou analogické s URI,
  • analogem HTML je RDF,
  • Hypertextové odkazy HTML jsou podobné výskytům URI v dokumentech RDF.

Sémantický web je spíše systémovou vizí budoucnosti internetu než konkrétním spontánním nebo lobbovaným trendem, i když může vzít v úvahu i ty druhé. Například důležitá charakteristika toho, co se nazývá Web 2.0, je považována za „obsah vytvářený uživateli“. Zejména je třeba doporučení W3C vzít v úvahu „Ontologie webových anotací"a takový závazek jako Solidní.

Je sémantický web mrtvý?

Pokud odmítnete nerealistická očekávání, je situace se sémantickým webem přibližně stejná jako u komunismu v dobách rozvinutého socialismu (a zda je dodržována loajalita k Iljičovým podmíněným příkazům, ať si každý rozhodne sám). Vyhledávače docela úspěšný nutit weby, aby používaly RDFa a JSON-LD a samy používat technologie související s níže popsanými (Google Knowledge Graph, Bing Knowledge Graph).

V obecné rovině autor nemůže říci, co brání většímu šíření, ale může hovořit na základě vlastní zkušenosti. Existují problémy, které by se daly v podmínkách SW ofenzívy vyřešit „out of the box“, i když nejsou příliš rozšířené. Výsledkem je, že ti, kteří jsou postaveni před tyto úkoly, nemají žádné prostředky k nátlaku vůči těm, kteří jsou schopni poskytnout řešení, zatímco jejich nezávislé poskytování řešení je v rozporu s jejich obchodními modely. Takže pokračujeme v analyzování HTML a lepení různých API, navzájem zasranějších.

Technologie Linked Data se však rozšířily i mimo hlavní proud webu; Kniha je ve skutečnosti věnována těmto aplikacím. V současné době komunita Linked Data očekává, že se tyto technologie ještě více rozšíří díky Gartneru zaznamenávání (či proklamaci, jak chcete) trendů, jako je např. Grafy znalostí и Data Fabric. Rád bych věřil, že úspěšné nebudou „cyklistické“ implementace těchto konceptů, ale ty, které souvisí se standardy W3C, o nichž se pojednává níže.

Propojená data

Berners-Lee definoval Linked Data jako sémantický web „udělaný správně“: soubor přístupů a technologií, které mu umožňují dosáhnout jeho konečných cílů. Základní principy Linked Data Berners-Lee zvýrazněno následující.

Princip 1. Použití URI k pojmenování entit.

Identifikátory URI jsou globální identifikátory entity na rozdíl od lokálních řetězcových identifikátorů pro záznamy. Následně byl tento princip nejlépe vyjádřen ve sloganu Google Knowledge Graph „věci, ne struny".

Princip 2. Použití URI ve schématu HTTP, aby bylo možné na ně odkázat.

Odkazem na URI by mělo být možné získat označované za tímto označujícím (analogie se jménem operátoru " je zde jasná).*"v C); přesněji, abychom získali nějakou reprezentaci tohoto označovaného - v závislosti na hodnotě HTTP hlavičky Accept:. Snad s příchodem éry AR/VR bude možné získat samotný zdroj, ale zatím se nejspíše bude jednat o RDF dokument, který je výsledkem provedení dotazu SPARQL DESCRIBE.

Princip 3. Použití standardů W3C - především RDF(S) a SPARQL - zejména při dereferencování URI.

Tyto jednotlivé „vrstvy“ technologického zásobníku Linked Data, známého také jako Vrstva sémantického webu dort, bude popsáno níže.

Princip 4. Použití odkazů na jiné URI při popisu entit.

RDF vám umožňuje omezit se na slovní popis zdroje v přirozeném jazyce a čtvrtý princip vyzývá, abyste to nedělali. Pokud je první princip všeobecně dodržován, je možné při popisu zdroje odkazovat na jiné, včetně „cizí“, proto se data nazývají propojená. Ve skutečnosti je téměř nevyhnutelné používat URI pojmenované ve slovníku RDFS.

RDF

RDF (Resource Description Framework) je formalismus pro popis vzájemně souvisejících entit.

Výroky typu „subjekt-predikát-objekt“, nazývané triplety, se provádějí o entitách a jejich vztazích. V nejjednodušším případě jsou subjekt, predikát a objekt všechny URI. Stejné URI může být na různých pozicích v různých trojicích: být subjektem, predikátem a objektem; Trojice tedy tvoří jakýsi graf zvaný RDF graf.

Subjekty a objekty mohou být nejen URI, ale také tzv prázdné uzly, a objekty mohou být také literály. Literály jsou instancemi primitivních typů sestávajících z řetězcové reprezentace a indikace typu.

Příklady psaní literálů (v syntaxi Turtle, více o tom níže): "5.0"^^xsd:float и "five"^^xsd:string. Literály s typem rdf:langString lze také vybavit jazykovou značkou; v Turtle se to píše takto: "five"@en и "пять"@ru.

Prázdné uzly jsou „anonymní“ zdroje bez globálních identifikátorů, o kterých však lze učinit prohlášení; druh existenčních proměnných.

Takže (toto je ve skutečnosti celý smysl RDF):

  • předmět je URI nebo prázdný uzel,
  • predikát je URI,
  • objekt je URI, prázdný uzel nebo literál.

Proč predikáty nemohou být prázdné uzly?

Pravděpodobným důvodem je touha neformálně porozumět a přeložit triplet do jazyka predikátové logiky prvního řádu s p o jako něco jako Sémantický web a propojená data. Opravy a doplněníKde Sémantický web a propojená data. Opravy a doplnění - predikát, Sémantický web a propojená data. Opravy a doplnění и Sémantický web a propojená data. Opravy a doplnění - konstanty. Stopy tohoto porozumění jsou v dokumentu „LBase: Sémantika pro jazyky sémantického webu“, který má status poznámky pracovní skupiny W3C. S tímto pochopením, trojka s p []Kde [] - prázdný uzel, bude přeložen jako Sémantický web a propojená data. Opravy a doplněníKde Sémantický web a propojená data. Opravy a doplnění - proměnná, ale jak potom přeložit s [] o? Dokument se stavem doporučení W3C "Sémantika RDF 1.1” nabízí jinou metodu překladu, ale stále nebere v úvahu možnost, že by predikáty byly prázdné uzly.

Nicméně Manu Sporni povoleno.

RDF je abstraktní model. RDF lze zapsat (serializovat) v různých syntaxích: RDF/XML, Želva (lidsky nejčitelnější), JSON-LD, HDT (binární).

Stejné RDF lze serializovat do RDF/XML různými způsoby, takže například nemá smysl ověřovat výsledné XML pomocí XSD nebo zkoušet extrahovat data pomocí XPath. Podobně je nepravděpodobné, že by JSON-LD uspokojil touhu průměrného vývojáře Javascriptu pracovat s RDF pomocí zápisu teček a hranatých závorek Javascriptu (ačkoli JSON-LD jde tímto směrem tím, že nabízí mechanismus rámování).

Většina syntaxí nabízí způsoby, jak zkrátit dlouhé URI. Například reklama @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> v Turtle vám pak umožní místo toho psát <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> jenom rdf:type.

RDFS

RDFS (RDF Schema) - základní modelovací slovník, seznamuje s pojmy vlastnost a třída a vlastnosti jako např. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Pomocí slovníku RDFS lze například zapsat následující platné výrazy:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS je popisný a modelovací slovník, ale není to omezující jazyk (ačkoli oficiální specifikace a listy možnost takového použití). Slovo "Schéma" by nemělo být chápáno ve stejném smyslu jako ve výrazu "Schéma XML". Například, :author rdfs:range foaf:Person znamená, že rdf:type všechny majetkové hodnoty :author - foaf:Person, ale to neznamená, že by to mělo být řečeno předem.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) – jazyk pro dotazování RDF dat. V jednoduchém případě je dotaz SPARQL sadou vzorků, se kterými se porovnávají triplety dotazovaného grafu. Vzory mohou obsahovat proměnné v pozicích předmětu, predikátu a objektu.

Dotaz vrátí takové hodnoty proměnných, které po dosazení do vzorků mohou vést k podgrafu dotazovaného grafu RDF (podmnožina jeho trojic). Proměnné stejného jména v různých vzorcích trojic musí mít stejné hodnoty.

Například vzhledem k výše uvedené sadě sedmi axiomů RDFS se vrátí následující dotaz rdfs:domain и rdfs:range jako hodnoty ?s и ?p odpovídajícím způsobem:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Stojí za zmínku, že SPARQL je deklarativní a není to jazyk pro popis procházení grafů (některá úložiště RDF však nabízejí způsoby, jak upravit plán provádění dotazů). Proto některé standardní problémy s grafy, například hledání nejkratší cesty, nelze v SPARQL vyřešit, včetně použití majetkové cesty (ale opět jednotlivá úložiště RDF nabízejí speciální rozšíření pro řešení těchto problémů).

SPARQL nesdílí předpoklad otevřenosti světa a řídí se přístupem „negace jako selhání“, ve kterém možný designy jako např FILTER NOT EXISTS {…}. Distribuce dat je zohledněna pomocí mechanismu federované dotazy.

Přístupový bod SPARQL – úložiště RDF schopné zpracovávat dotazy SPARQL – nemá žádné přímé analogy z druhé fáze (viz začátek tohoto odstavce). Lze to přirovnat k databázi, na jejímž základě byly generovány HTML stránky, ale přístupné zvenčí. Přístupový bod SPARQL je více analogický s přístupovým bodem API ze třetí fáze, ale se dvěma hlavními rozdíly. Za prvé je možné sloučit několik „atomických“ dotazů do jednoho (což je považováno za klíčovou charakteristiku GraphQL) a za druhé je takové API zcela samodokumentační (což se snažil HATEOAS dosáhnout).

Polemická poznámka

RDF je způsob, jak publikovat data na webu, takže úložiště RDF by mělo být považováno za DBMS dokumentů. Pravda, protože RDF je graf a ne strom, ukázalo se, že jsou také založeny na grafech. Je úžasné, že to vůbec vyšlo. Kdo by to byl řekl, že se najdou chytří lidé, kteří budou implementovat prázdné uzly. Codd je tady nevyšlo.

Existují také méně plnohodnotné způsoby, jak organizovat přístup k datům RDF, např. Propojené datové fragmenty (LDF) a Platforma propojených dat (LDP).

OWL

OWL (Web Ontology Language) - formalismus pro reprezentaci znalostí, syntaktická verze popisné logiky Sémantický web a propojená data. Opravy a doplnění (všude níže je správnější říci OWL 2, na které byla založena první verze OWL Sémantický web a propojená data. Opravy a doplnění).

Koncepty deskriptivní logiky v OWL odpovídají třídám, role odpovídají vlastnostem, jednotlivci si zachovávají své předchozí jméno. Axiomy se také nazývají axiomy.

Například v tzv Manchester syntaxe pro notaci OWL nám již známý axiom Sémantický web a propojená data. Opravy a doplnění bude napsáno takto:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Pro zápis OWL existují další syntaxe, jako např funkční syntaxe, použitý v oficiální specifikaci, a OWL/XML. Navíc lze OWL serializovat na abstraktní syntaxi RDF a dále - v jakékoli konkrétní syntaxi.

OWL má dvojí vztah s RDF. Na jednu stranu jej lze považovat za jakýsi slovník, který rozšiřuje RDFS. Na druhou stranu jde o silnější formalismus, pro který je RDF jen serializačním formátem. Ne všechny elementární konstrukce OWL lze zapsat pomocí jediného tripletu RDF.

V závislosti na tom, jakou podmnožinu konstruktů OWL je dovoleno použít, hovoří o tzv OWL profily. Standardizované a nejznámější jsou OWL EL, OWL RL a OWL QL. Volba profilu ovlivňuje výpočetní náročnost typických problémů. Kompletní sada konstruktů OWL odpovídajících Sémantický web a propojená data. Opravy a doplnění, s názvem OWL DL. Někdy se také mluví o OWL Full, ve kterém je povoleno používat OWL konstrukty s plnou svobodou vlastní RDF, bez sémantických a výpočetních omezení. Sémantický web a propojená data. Opravy a doplnění. Něco může být například třída i vlastnost. OWL Full je nerozhodnutelný.

Klíčovými principy pro připisování důsledků v OWL je přijetí předpokladu otevřeného světa. OWA) a odmítnutí předpokladu jedinečných jmen (předpoklad jedinečných jmen, ONE). Níže uvidíme, kam mohou tyto principy vést, a představíme některé konstrukce OWL.

Nechť ontologie obsahuje následující fragment (v syntaxi Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Vyplývá z toho, co bylo řečeno, že John má mnoho dětí? Odmítnutí UNA přinutí inferenční stroj odpovědět na tuto otázku záporně, protože Alice a Bob mohou být stejná osoba. Aby k tomu došlo, je nutné přidat následující axiom:

DifferentIndividuals: Alice, Bob, Carol, John

Nechť má nyní ontologický fragment následující tvar (John je prohlášen za mnoho dětí, ale má pouze dvě děti):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Bude tato ontologie nekonzistentní (což lze interpretovat jako důkaz neplatných dat)? Přijetí OWA způsobí, že inferenční engine odpoví záporně: „někde“ jinde (v jiné ontologii) lze klidně říci, že Carol je také Johnovo dítě.

Abychom tuto možnost vyloučili, dodejme nový fakt o Johnovi:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Abychom vyloučili vzhled jiných dětí, řekněme, že všechny hodnoty vlastnosti „mít dítě“ jsou lidé, z nichž máme pouze čtyři:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Nyní se ontologie stane rozporuplnou, což inferenční stroj neopomene hlásit. Posledním z axiomů jsme v jistém smyslu „uzavřeli“ svět a všimněte si, jak je vyloučena možnost, že by byl John jeho vlastním dítětem.

Propojení podnikových dat

Sada přístupů a technologií Linked Data byla původně určena pro publikování dat na webu. Jejich použití v interním podnikovém prostředí naráží na řadu úskalí.

Například v uzavřeném podnikovém prostředí je deduktivní síla OWL založená na přijetí OWA a odmítnutí UNA, rozhodnutí kvůli otevřené a distribuované povaze webu, příliš slabá. A zde jsou možná následující řešení.

  • Vybavit OWL sémantikou, což znamená opuštění OWA a přijetí UNA, implementace odpovídajícího výstupního motoru. - Po této cestě jde Stardog RDF úložiště.
  • Opuštění deduktivních schopností OWL ve prospěch enginů pravidel. — Stardog podporuje SWRL; Nabídka Jena a GraphDB vlastní jazyky pravidla
  • Odmítnutí deduktivních schopností OWL, použití té či oné podmnožiny blízké RDFS pro modelování. - Více o tom viz níže.

Dalším problémem je větší zaměření firemního světa na problémy s kvalitou dat a nedostatek nástrojů pro ověřování dat v zásobníku Linked Data. Zde jsou výstupy následující.

  • Opět použijte pro validaci konstrukcí OWL se sémantikou uzavřeného světa a jedinečnými názvy, pokud je k dispozici vhodný inferenční stroj.
  • Použití SHACL, standardizované poté, co byl opraven seznam vrstev Semantic Web Layer Cake (lze však použít i jako engine pravidel), popř. SheEx.
  • Pochopení, že vše se nakonec provádí pomocí dotazů SPARQL, a pomocí nich vytvoříte svůj vlastní jednoduchý mechanismus ověřování dat.

Avšak i úplné odmítnutí deduktivních schopností a ověřovacích nástrojů ponechává zásobník Linked Data mimo konkurenci v úkolech, které jsou na šířku podobné otevřenému a distribuovanému webu – v úkolech integrace dat.

A co běžný podnikový informační systém?

To je možné, ale měli byste si být samozřejmě vědomi toho, jaké problémy budou muset odpovídající technologie řešit. Popíšu zde typickou reakci účastníků vývoje, abych ukázal, jak tento technologický stack vypadá z pohledu konvenčního IT. Trochu mi to připomíná podobenství o slonovi:

  • Obchodní analytik: RDF je něco jako přímo uložený logický model.
  • Systémový analytik: RDF je jako Eav, pouze s hromadou indexů a pohodlným dotazovacím jazykem.
  • Vývojka: no, to vše je v duchu konceptů bohatého modelu a nízkého kódu, číst nedávno o tom.
  • Projektový manažer: ano je to stejné skládání stohu!

Praxe ukazuje, že zásobník se nejčastěji používá v úlohách souvisejících s distribucí a heterogenitou dat, například při budování systémů třídy MDM (Master Data Management) nebo DWH (Data Warehouse). Takové problémy existují v každém odvětví.

Pokud jde o aplikace specifické pro dané odvětví, technologie Linked Data jsou v současnosti nejoblíbenější v následujících odvětvích.

  • biomedicínské technologie (kde se zdá, že jejich popularita souvisí se složitostí domény);

aktuální

„Boiling Point“ nedávno hostil konferenci organizovanou sdružením „National Medical Knowledge Base“Kombinování ontologií. Od teorie k praktické aplikaci".

  • výroba a provoz komplexních výrobků (velké strojírenství, těžba ropy a plynu; nejčastěji mluvíme o standardních ISO 15926);

aktuální

I zde je důvodem složitost předmětné oblasti, kdy například v upstreamové fázi, mluvíme-li o ropném a plynárenském průmyslu, jednoduché účetnictví vyžaduje některé CAD funkce.

V roce 2008 se uskutečnila reprezentativní instalační akce pořádaná společností Chevron konference.

ISO 15926 se nakonec ropnému a plynárenskému průmyslu zdála trochu těžká (a možná větší uplatnění našla ve strojírenství). Pouze Statoil (Equinor) se do toho důkladně zapletl, v Norsku celý ekosystém. Ostatní se snaží dělat své vlastní věci. Například podle pověstí hodlá tuzemské ministerstvo energetiky vytvořit „konceptuální ontologický model palivového a energetického komplexu“, který se zřejmě podobá vytvořené pro elektroenergetiku.

  • finanční organizace (i XBRL lze považovat za jakýsi hybrid SDMX a ontologie RDF Data Cube);

aktuální

Začátkem roku LinkedIn aktivně spamoval autora volnými místy od téměř všech gigantů finančního průmyslu, které zná z televizního seriálu „Vyšší moc“: Goldman Sachs, JPMorgan Chase a/nebo Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Asi každý hledal někoho, komu by mohl poslat Konference Diagram znalostí. Poměrně málo se jich podařilo najít: finanční organizace vzaly všechno ráno prvního dne.

Na HeadHunteru na něco zajímavého narazila pouze Sberbank; jednalo se o „úložiště EAV s datovým modelem podobným RDF“.

Rozdíl v míře lásky k odpovídajícím technologiím domácích a západních finančních institucí je pravděpodobně způsoben nadnárodní povahou jejich aktivit. Integrace přes státní hranice zřejmě vyžaduje kvalitativně odlišná organizační a technická řešení.

  • systémy otázka-odpověď s komerčními aplikacemi (IBM Watson, Apple Siri, Google Knowledge Graph);

aktuální

Mimochodem, tvůrce Siri, Thomas Gruber, je autorem samotné definice ontologie (ve smyslu IT) jako „konceptuální specifikace“. Podle mého názoru přeskupení slov v této definici nemění její význam, což možná naznačuje, že tam není.

  • zveřejňování strukturovaných dat (s větším opodstatněním to lze připsat Linked Open Data).

aktuální

Velkými fanoušky Linked Data jsou tzv. GLAM: galerie, knihovny, archivy a muzea. Stačí říci, že Knihovna Kongresu propaguje náhradu za MARC21 BIBFRAMEKterý poskytuje základ pro budoucnost bibliografického popisu a samozřejmě na základě RDF.

Wikidata jsou často uváděna jako příklad úspěšného projektu v oblasti Linked Open Data - jakési strojově čitelné verze Wikipedie, jejíž obsah na rozdíl od DBPedie není generován importem z infoboxů článků, ale je vytvořený víceméně ručně (a následně se stává zdrojem informací pro stejné infoboxy).

Doporučujeme také zkontrolovat seznam uživatelé úložiště Stardog RDF na webu Stardog v sekci „Zákazníci“.

Ať je to jak chce, v Gartneru Hype Cycle pro vznikající technologie 2016 „Enterprise Taxonomy and Ontology Management“ je umístěn uprostřed sestupu do údolí zklamání s vyhlídkou dosažení „náhorní plošiny produktivity“ nejdříve za 10 let.

Připojení podnikových dat

Předpovědi, předpovědi, předpovědi...

Z historického zájmu jsem níže sestavil předpovědi společnosti Gartner na různé roky týkající se technologií, které nás zajímají.

Rok Технология Zpráva Pozice Roky na plošinu
2001 Sémantický web Nové technologie Spouštěč inovací 5-10
2006 Firemní sémantický web Nové technologie Vrchol nafouknutých očekávání 5-10
2012 Sémantický web Big dat Vrchol nafouknutých očekávání > 10
2015 Propojená data Pokročilá analytika a datová věda Koryto deziluze 5-10
2016 Správa podnikové ontologie Nové technologie Koryto deziluze > 10
2018 Grafy znalostí Nové technologie Spouštěč inovací 5-10

Nicméně již v "Hype cyklus..." 2018 objevil se další vzestupný trend - Knowledge Graphs. Došlo k určité reinkarnaci: grafové DBMS, na které se ukázalo, že se pozornost uživatelů a úsilí vývojářů přeorientovaly, pod vlivem požadavků prvních a zvyků těch druhých, začaly nabírat obrysy a umístění jejich předchůdců konkurentů.

Téměř každý graf DBMS se nyní deklaruje jako vhodná platforma pro vytvoření firemního „grafu znalostí“ („propojená data“ jsou někdy nahrazena „propojenými daty“), ale jak oprávněná jsou taková tvrzení?

Grafové databáze jsou stále asemantické, data v grafové DBMS jsou stále stejné datové silo. Řetězcové identifikátory namísto URI činí z integrace dvou grafových DBMS stále integrační úkol, zatímco integrace dvou RDF úložišť často vede k pouhému sloučení dvou RDF grafů. Dalším aspektem asemantičnosti je nereflexivita modelu grafu LPG, která ztěžuje správu metadat pomocí stejné platformy.

A konečně, grafové DBMS nemají inferenční motory ani moduly pravidel. Výsledky takových enginů lze reprodukovat komplikovanými dotazy, ale to je možné i v SQL.

Přední skladovací systémy RDF však nemají problém s podporou modelu LPG. Za nejspolehlivější přístup je považován ten, který byl najednou navržen v Blazegraph: model RDF* kombinující RDF a LPG.

více

Více o podpoře úložiště RDF pro model LPG si můžete přečíst v předchozím článku o Habré: "Co se nyní děje s úložištěm RDF". Doufám, že jednoho dne bude napsán samostatný článek o Knowledge Graphs a Data Fabric. Závěrečná část, jak je snadno pochopitelná, byla napsána ve spěchu, ale ani o šest měsíců později není s těmito pojmy vše mnohem jasnější.

Literatura

  1. Halpin, H., Monnin, A. (eds.) (2014). Filosofické inženýrství: Směrem k filozofii webu
  2. Allemang, D., Hendler, J. (2011) Sémantický web pro pracujícího ontologa (2. vydání)
  3. Staab, S., Studer, R. (eds.) (2009) Handbook on Ontologies (2. ed.)
  4. Wood, D. (ed.). (2011) Propojení podnikových dat
  5. Keet, M. (2018) Úvod do ontologického inženýrství

Zdroj: www.habr.com

Přidat komentář