Szemantikus web és linkelt adatok. Javítások és kiegészítések

Ennek a nemrég megjelent könyvnek egy részletét szeretném a nyilvánosság elé tárni:

Egy vállalkozás ontológiai modellezése: módszerek és technológiák [Szöveg]: monográfia / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak és mások; ügyvezető szerkesztő S. V. Gorshkov]. - Jekatyerinburg: Ural University Publishing House, 2019. - 234 p.: ill., táblázat; 20 cm – Szerző. jelzi a hátsó cinege. Val vel. — Bibliográfia ch végén. — ISBN 978-5-7996-2580-1: 200 példány.

Ennek a töredéknek a Habrén való közzétételének négy célja van:

  • Nem valószínű, hogy bárki is a kezében tudja tartani ezt a könyvet, ha nem egy köztiszteletben álló ügyfele SergeIndex; Biztosan nem eladó.
  • A szövegben javítások történtek (nem emeltük ki alább), illetve a nyomtatott monográfia formátumával nemigen kompatibilis kiegészítések: aktuális megjegyzések (spoilerek alatt) és hiperhivatkozások.
  • akarok kérdéseket és megjegyzéseket gyűjteni, annak érdekében, hogy ezeket figyelembe vegyék, amikor ezt a szöveget átdolgozott formában bármilyen más kiadványba belefoglalják.
  • Sok szemantikus web és linkelt adat híve még mindig úgy gondolja, hogy körük ilyen szűk, főleg azért, mert a nagyközönségnek még nem magyarázták el megfelelően, milyen nagyszerű a szemantikus web és a linkelt adatok hívének lenni. A töredék szerzője, bár ebbe a körbe tartozik, nem vallja ezt a véleményt, mégis kötelesnek tartja magát egy újabb kísérlet megtételére.

Így

Szemantikus web

Az internet fejlődése a következőképpen ábrázolható (vagy beszéljünk szegmenseiről, amelyek az alábbiakban jelzett sorrendben alakultak ki):

  1. Dokumentumok az interneten. Kulcstechnológiák - Gopher, FTP stb.
    Az Internet egy globális hálózat a helyi erőforrások cseréjére.
  2. Internetes dokumentumok. A kulcsfontosságú technológiák a HTML és a HTTP.
    A kitett erőforrások jellege figyelembe veszi átviteli közegük jellemzőit.
  3. Internetes adatok. Kulcsfontosságú technológiák - REST és SOAP API, XHR stb.
    Az internetes alkalmazások korszaka, nem csak az emberek válnak az erőforrások fogyasztóivá.
  4. Internetes adatok. A kulcsfontosságú technológiák a Linked Data technológiák.
    Ezt a negyedik szakaszt, amelyet Berners-Lee, a második alaptechnológia megalkotója és a W3C igazgatója jósolt, Szemantikus Webnek nevezik; A linked Data technológiák célja, hogy a weben lévő adatokat ne csak gépileg olvashatóvá, hanem „gépileg érthetővé” is tegyék.

A következőkből az olvasó megérti a második és a negyedik szakasz kulcsfogalmai közötti megfelelést:

  • Az URL-ek hasonlóak az URI-khoz,
  • a HTML analógja az RDF,
  • A HTML hiperhivatkozások hasonlóak az RDF dokumentumokban található URI előfordulásokhoz.

A szemantikus web inkább az internet jövőjének rendszerszintű víziója, mintsem egy konkrét spontán vagy lobbizott trend, bár ez utóbbiakat is figyelembe tudja venni. Például a Web 2.0 egyik fontos jellemzője a „felhasználó által generált tartalom”. A W3C-ajánlás különösen arra szólít fel, hogy vegye figyelembe „Webes annotációs ontológia"és egy olyan vállalkozás, mint Szilárd.

A szemantikus web halott?

Ha megtagadja irreális elvárások, a szemantikai hálóval nagyjából ugyanaz a helyzet, mint a fejlett szocializmus idején a kommunizmussal (és hogy az Iljics feltételes parancsaihoz való hűséget betartják-e, döntse el mindenki maga). Kereső motorok elég sikeres a webhelyeket az RDFa és a JSON-LD használatára kényszerítik, és maguk is az alábbiakban leírtakhoz kapcsolódó technológiákat (Google Knowledge Graph, Bing Knowledge Graph) használnak.

Általánosságban elmondható, hogy a szerző nem tudja megmondani, mi akadályozza meg a nagyobb terjedést, de személyes tapasztalatok alapján beszélhet. Vannak olyan problémák, amelyeket az SW offenzíva körülményei között „dobozból” meg lehetne oldani, bár ezek nem túl elterjedtek. Ebből kifolyólag azoknak, akik ezekkel a feladatokkal szembesülnek, nincs kényszerítő eszközük azokkal szemben, akik képesek megoldást nyújtani, míg az utóbbiak önálló megoldása ellentmond üzleti modelljüknek. Így folytatjuk a HTML elemzését, és összeragasztjuk a különféle API-kat, és egyre szarabbak.

A Linked Data technológiák azonban túlterjedtek a mainstream weben; A könyvet valójában ezeknek az alkalmazásoknak szentelték. Jelenleg a Linked Data közösség arra számít, hogy ezek a technológiák még szélesebb körben elterjednek, köszönhetően annak, hogy a Gartner olyan trendeket rögzít (vagy hirdet, ahogy tetszik), mint pl. Tudásgrafikonok и Data Fabric. Szeretném hinni, hogy nem ezeknek a koncepcióknak a „kerékpáros” megvalósításai lesznek sikeresek, hanem az alábbiakban tárgyalt W3C szabványokhoz kapcsolódóak.

Kapcsolt adatok

Berners-Lee úgy határozta meg a Linked Datat, mint a „helyesen megcsinált” szemantikus webet: olyan megközelítések és technológiák összességét, amelyek lehetővé teszik végső céljai elérését. A Linked Data alapelvei Berners-Lee kiemelt a következő.

1. alapelv. URI-k használata entitások elnevezésére.

Az URI-k globális entitásazonosítók, nem pedig a bejegyzések helyi karakterlánc-azonosítói. Ezt az elvet később a Google Knowledge Graph szlogenje fejezte ki legjobban „dolgok, nem húrok".

2. alapelv. URI-k használata a HTTP-sémában a hivatkozások megszüntetése érdekében.

Egy URI elérésével lehetővé kell tenni, hogy a jelölőt a jelölő mögé kapjuk (az operátor nevével való analógia itt egyértelmű).*" C-ben); pontosabban, hogy ennek valamilyen reprezentációját megkapjuk - a HTTP-fejléc értékétől függően Accept:. Talán az AR/VR korszak eljövetelével sikerül megszerezni magát az erőforrást, de egyelőre valószínűleg egy RDF dokumentum lesz, ami egy SPARQL lekérdezés végrehajtásának eredménye DESCRIBE.

3. alapelv. W3C szabványok – elsősorban RDF(S) és SPARQL – használata, különösen az URI-k hivatkozásának megszüntetésekor.

A Linked Data technológiai verem ezen egyes „rétegei”, más néven Szemantikus webréteg torta, az alábbiakban ismertetjük.

4. alapelv. Más URI-kra való hivatkozások használata entitások leírásánál.

Az RDF lehetővé teszi, hogy egy forrás szóbeli leírására korlátozódjon természetes nyelven, és a negyedik alapelv arra szólít fel, hogy ezt ne tegyük. Ha az első elvet univerzálisan betartjuk, akkor az erőforrás leírásakor lehetőség nyílik másokra hivatkozni, beleértve az „idegen” forrásokat is, ezért az adatokat linkeltnek nevezzük. Valójában szinte elkerülhetetlen az RDFS szókincsben elnevezett URI-k használata.

RDF

RDF (Resource Description Framework) az egymással összefüggő entitások leírásának formalizmusa.

Az entitásokról és kapcsolataikról a „alany-predikátum-objektum” típusú, úgynevezett triplett állítások készülnek. A legegyszerűbb esetben az alany, az állítmány és az objektum mind URI-k. Ugyanaz az URI különböző pozíciókban lehet különböző hármasokban: lehet alany, predikátum és objektum; Így a tripletek egyfajta gráfot alkotnak, amelyet RDF gráfnak neveznek.

Az alanyok és objektumok nemcsak URI-k lehetnek, hanem ún üres csomópontok, és tárgyak is lehetnek szó szerintiek. A literálok primitív típusok példányai, amelyek egy karakterlánc reprezentációból és egy típusjelzésből állnak.

Példák literálok írására (Turtle szintaxisban, bővebben alább): "5.0"^^xsd:float и "five"^^xsd:string. Szó szerinti betűk típussal rdf:langString nyelvi címkével is felszerelhető; Turtle-ban ez így van írva: "five"@en и "пять"@ru.

Az üres csomópontok globális azonosítók nélküli „anonim” erőforrások, amelyekről azonban állítások tehetők; fajta egzisztenciális változók.

Tehát (valójában ez az RDF lényege):

  • a tárgy egy URI vagy egy üres csomópont,
  • az állítmány egy URI,
  • Az objektum egy URI, egy üres csomópont vagy egy literál.

Miért nem lehetnek a predikátumok üres csomópontok?

Ennek valószínű oka az a vágy, hogy informálisan megértsék és lefordítsák a tripletet az elsőrendű predikátumlogika nyelvére. s p o mint valami hasonló Szemantikus web és linkelt adatok. Javítások és kiegészítésekAhol Szemantikus web és linkelt adatok. Javítások és kiegészítések - állítmány, Szemantikus web és linkelt adatok. Javítások és kiegészítések и Szemantikus web és linkelt adatok. Javítások és kiegészítések - állandók. Ennek a megértésnek a nyomai a dokumentumbanLBase: Szemantika a szemantikus web nyelveihez", amely W3C munkacsoport feljegyzés státuszával rendelkezik. Ezzel a megértéssel a hármas s p []Ahol [] - üres csomópont, így lesz lefordítva Szemantikus web és linkelt adatok. Javítások és kiegészítésekAhol Szemantikus web és linkelt adatok. Javítások és kiegészítések - változó, de hogyan kell fordítani s [] o? W3C ajánlás állapotú dokumentum "RDF 1.1 szemantika” egy másik fordítási módszert kínál, de még mindig nem veszi figyelembe annak lehetőségét, hogy az predikátumok üres csomópontok legyenek.

Manu Sporni azonban megengedett.

Az RDF egy absztrakt modell. Az RDF különféle szintaxisokban írható (szerializálható): RDF/XML, Teknősbéka (ember számára leginkább olvasható), JSON-LD, HDT (bináris).

Ugyanaz az RDF többféleképpen sorosítható RDF/XML-be, így például nincs értelme az eredményül kapott XML-t XSD-vel érvényesíteni, vagy XPath segítségével adatokat kinyerni. Hasonlóképpen, a JSON-LD valószínűleg nem fogja kielégíteni az átlagos Javascript-fejlesztők azon vágyát, hogy a Javascript pont- és szögletes zárójeles jelölését használva RDF-fel dolgozzanak (bár a JSON-LD ebbe az irányba halad, mivel egy mechanizmust kínál keretezés).

A legtöbb szintaxis lehetőséget kínál a hosszú URI-k lerövidítésére. Például egy hirdetés @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> a Turtle-ben ezután lehetővé teszi az írást <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> éppen rdf:type.

RDFS

RDFS (RDF Schema) - egy alapvető modellező szókincs, bemutatja a tulajdonság és az osztály fogalmát, valamint olyan tulajdonságokat, mint pl. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Az RDFS szótár használatával például a következő érvényes kifejezések írhatók:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

Az RDFS egy leíró és modellező szókincs, de nem kényszernyelv (bár a hivatalos specifikáció ill. levelek ilyen felhasználás lehetősége). A „séma” szót nem szabad ugyanabban az értelemben érteni, mint az „XML-séma” kifejezést. Például, :author rdfs:range foaf:Person azt jelenti, hogy rdf:type minden ingatlan értékét :author - foaf:Person, de nem jelenti azt, hogy ezt előre meg kell mondani.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) – RDF adatok lekérdezésének nyelve. Egyszerű esetben a SPARQL-lekérdezés olyan minták halmaza, amelyekhez a lekérdezett gráf tripletjeit egyeztetjük. A minták alany-, állítmány- és tárgypozíciójú változókat tartalmazhatnak.

A lekérdezés olyan változóértékeket ad vissza, amelyek a mintákba behelyettesítve a lekérdezett RDF gráf részgráfját eredményezhetik (a tripleteinek egy részhalmazát). A tripletek különböző mintáiban szereplő azonos nevű változóknak azonos értékekkel kell rendelkezniük.

Például a fenti hét RDFS axiómából álló halmaz alapján a következő lekérdezés fog visszatérni rdfs:domain и rdfs:range mint értékek ?s и ?p illetőleg:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Érdemes megjegyezni, hogy a SPARQL deklaratív, és nem a gráf bejárásának leírására szolgáló nyelv (egyes RDF-tárolók azonban lehetőséget kínálnak a lekérdezés végrehajtási tervének módosítására). Ezért néhány szabványos gráfprobléma, például a legrövidebb út megtalálása, nem oldható meg a SPARQL-ban, beleértve a ingatlan utak (de ismét az egyes RDF-tárolók speciális kiterjesztéseket kínálnak ezeknek a problémáknak a megoldására).

A SPARQL nem osztja a világ nyitottságának vélelmét, és a „negáció mint kudarc” megközelítést követi, amelyben lehetséges tervezések, mint pl FILTER NOT EXISTS {…}. Az adatelosztást a mechanizmus figyelembe veszi egyesített lekérdezések.

A SPARQL hozzáférési pontnak - egy SPARQL lekérdezések feldolgozására alkalmas RDF tárolónak - nincs közvetlen analógja a második szakaszból (lásd a bekezdés elejét). Egy adatbázishoz hasonlítható, melynek tartalma alapján HTML oldalak keletkeztek, de kívülről elérhetőek. A SPARQL hozzáférési pont jobban hasonlít a harmadik szakasz API hozzáférési pontjához, de két fő különbséggel. Egyrészt lehetőség van több „atomi” lekérdezés egybe kombinálására (amit a GraphQL kulcsjellemzőjének tartanak), másrészt egy ilyen API teljesen öndokumentáló (ezt próbálta elérni a HATEOAS).

Polémikus megjegyzés

Az RDF az adatok internetes közzétételének egyik módja, ezért az RDF-tárolást dokumentum-DBMS-nek kell tekinteni. Igaz, mivel az RDF egy gráf és nem egy fa, ezekről is kiderült, hogy gráf alapúak. Elképesztő, hogy ez egyáltalán sikerült. Ki gondolta volna, hogy lesznek okos emberek, akik üres csomópontokat valósítanak meg. Codd itt van nem sikerült.

Vannak kevésbé teljes értékű módok is az RDF adatokhoz való hozzáférés megszervezésére, például Kapcsolt adattöredékek (LDF) és Kapcsolt adatplatform (LDP).

BAGOLY

BAGOLY (Web Ontology Language) - a tudás megjelenítésének formalizmusa, a leírási logika szintaktikai változata Szemantikus web és linkelt adatok. Javítások és kiegészítések (lent mindenhol helyesebb az OWL 2-t mondani, az OWL első verziója ezen alapult Szemantikus web és linkelt adatok. Javítások és kiegészítések).

A leíró logika fogalmai az OWL-ben osztályoknak, a szerepek tulajdonságoknak felelnek meg, az egyének megtartják korábbi nevüket. Az axiómákat axiómáknak is nevezik.

Például az ún Manchester szintaxis az OWL jelöléshez egy általunk már ismert axióma Szemantikus web és linkelt adatok. Javítások és kiegészítések így lesz írva:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Vannak más szintaxisok az OWL írására, mint pl funkcionális szintaxis, a hivatalos specifikációban használt, és OWL/XML. Ezenkívül az OWL szerializálható az absztrakt RDF szintaxishoz és tovább - bármely meghatározott szintaxisban.

Az OWL kettős kapcsolatban áll az RDF-fel. Egyrészt egyfajta szótárnak tekinthető, amely kiterjeszti az RDFS-t. Másrészt ez egy erősebb formalizmus, amelyhez az RDF csak egy szerializációs formátum. Nem minden elemi OWL konstrukció írható meg egyetlen RDF triplet használatával.

Attól függően, hogy az OWL konstrukciók melyik részhalmazát szabad használni, beszélnek ún OWL profilok. A szabványosított és leghíresebb az OWL EL, OWL RL és az OWL QL. A profil kiválasztása befolyásolja a tipikus problémák számítási összetettségét. Az OWL konstrukciók teljes készlete, amely megfelel a Szemantikus web és linkelt adatok. Javítások és kiegészítésekOWL DL néven. Néha beszélnek az OWL Full-ról is, amelyben az OWL konstrukciók az RDF-ben rejlő teljes szabadsággal használhatók, szemantikai és számítási korlátozások nélkül. Szemantikus web és linkelt adatok. Javítások és kiegészítések. Például valami lehet osztály és tulajdonság is. Az OWL Full eldönthetetlen.

Az OWL-ben a következmények hozzáfűzésének kulcsfontosságú elvei a nyitott világ feltételezésének elfogadása. OWA) és az egyedi nevek vélelmének elutasítása (egyedi név feltételezése, A). Az alábbiakban meglátjuk, hová vezethetnek ezek az elvek, és bemutatunk néhány OWL-konstrukciót.

Az ontológia tartalmazza a következő töredéket (manchesteri szintaxisban):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Következik-e az elmondottakból, hogy Jánosnak sok gyermeke van? Az UNA elutasítása arra kényszeríti a következtetési motort, hogy erre a kérdésre nemleges választ adjon, mivel Alice és Bob valószínűleg ugyanaz a személy. Ahhoz, hogy a következők megtörténjenek, a következő axiómát kell hozzáadni:

DifferentIndividuals: Alice, Bob, Carol, John

Legyen most az ontológia töredéke a következő formában (Jánosnak sok gyermeke van, de csak két gyermeke van):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Ez az ontológia inkonzisztens lesz (ami érvénytelen adatok bizonyítékaként értelmezhető)? Az OWA elfogadásával a következtetési motor nemleges választ fog adni: "valahol" (egy másik ontológiában) könnyen kijelenthető, hogy Carol is John gyermeke.

Ennek kizárása érdekében tegyünk hozzá egy új tényt Johnról:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Hogy kizárjuk a többi gyermek megjelenését, tegyük fel, hogy a „gyerekes” ingatlan minden értéke ember, közülük csak négy van:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Most az ontológia ellentmondásossá válik, amit a következtetési motor nem mulaszt el jelenteni. Az utolsó axiómával bizonyos értelemben „bezártuk” a világot, és észrevesszük, mennyire kizárt annak lehetősége, hogy János a saját gyermeke legyen.

Vállalati adatok összekapcsolása

A Linked Data megközelítések és technológiák készletét eredetileg az adatok weben való közzétételére szánták. Használatuk belső vállalati környezetben számos nehézséggel szembesül.

Például egy zárt vállalati környezetben túl gyenge az OWL deduktív ereje az OWA elfogadásán és az UNA elutasításán, a Web nyitott és elosztott jellegéből adódóan. És itt a következő megoldások lehetségesek.

  • Az OWL szemantikával való felruházása, ami az OWA elhagyását és az UNA elfogadását, a megfelelő kimeneti motor megvalósítását jelenti. - Ezen az úton megy Stardog RDF tároló.
  • Az OWL deduktív képességeinek feladása a szabálymotorok javára. — Stardog támogatja SWRL; Jena és GraphDB ajánlat saját nyelvek szabályokat
  • Az OWL deduktív képességeinek megtagadása, az RDFS-hez közeli egyik vagy másik részhalmaz használata modellezéshez. - Erről lásd alább.

Egy másik probléma az, hogy a vállalati világ nagyobb hangsúlyt fektet az adatminőséggel kapcsolatos problémákra, valamint az adatellenőrző eszközök hiánya a Linked Data veremben. A kimenetek itt a következők.

  • Ismételten használja zárt világú szemantikával és egyedi nevekkel rendelkező OWL-konstrukciók érvényesítésére, ha rendelkezésre áll megfelelő következtetési motor.
  • Használat SHACL, szabványosítva, miután a szemantikus webréteg tortarétegek listája kijavításra került (de szabálymotorként is használható), ill. ShEx.
  • Annak megértése, hogy végső soron minden SPARQL-lekérdezésekkel történik, és ezek segítségével létrehozhatja saját egyszerű adatellenőrzési mechanizmusát.

Azonban még a deduktív képességek és az érvényesítési eszközök teljes elutasítása is kihagyja a csatolt adatok veremét a versenyből azokban a feladatokban, amelyek tájképükben hasonlóak a nyílt és elosztott webhez – az adatintegrációs feladatokban.

Mi a helyzet egy normál vállalati információs rendszerrel?

Ez lehetséges, de természetesen tisztában kell lennie azzal, hogy a megfelelő technológiáknak pontosan milyen problémákat kell megoldaniuk. Itt leírom a fejlesztésben résztvevők tipikus reakcióját, hogy megmutassam, hogyan is néz ki ez a technológiai halom a hagyományos IT szemszögéből. Kicsit eszembe jut az elefánt példázata:

  • Üzleti elemző: Az RDF olyan, mint egy közvetlenül tárolt logikai modell.
  • Rendszerelemző: Az RDF olyan EAV, csak egy csomó indexszel és egy kényelmes lekérdezési nyelvvel.
  • Fejlesztő: nos, ez mind a gazdag modell és az alacsony kód koncepciójának szellemében, olvasott nemrég erről.
  • Projektvezető: igen, ez ugyanaz összeomlik a verem!

A gyakorlat azt mutatja, hogy a verem leggyakrabban az adatok elosztásával és heterogenitásával kapcsolatos feladatokban használatos, például MDM (Master Data Management) vagy DWH (Data Warehouse) osztályú rendszerek felépítésekor. Ilyen problémák minden iparágban előfordulnak.

Az iparág-specifikus alkalmazások tekintetében a Linked Data technológiák jelenleg a legnépszerűbbek a következő iparágakban.

  • orvosbiológiai technológiák (ahol népszerűségük a terület összetettségével függ össze);

jelenlegi

A „Forráspont” a közelmúltban adott otthont az „Országos Orvosi Tudásbázis” Egyesület által szervezett konferenciának.Ontológiák kombinálása. Az elmélettől a gyakorlati alkalmazásig".

  • komplex termékek gyártása és üzemeltetése (nagy gépészet, olaj- és gáztermelés; leggyakrabban szabványról beszélünk ISO 15926);

jelenlegi

Itt is a témakör összetettsége az oka, amikor például az upstream szakaszban, ha az olaj- és gáziparról beszélünk, az egyszerű könyveléshez szükség van néhány CAD-funkcióra.

2008-ban a Chevron által szervezett reprezentatív installációs rendezvényre került sor a konferencia.

Az ISO 15926 végül kissé nehéznek tűnt az olaj- és gázipar számára (és talán nagyobb alkalmazásra is talált a gépészetben). Egyedül a Statoil (Equinor) ragadt rá alaposan, Norvégiában az egész ökoszisztéma. Mások a maguk dolgait próbálják tenni. Például a pletykák szerint a hazai Energiaügyi Minisztérium „az üzemanyag- és energiakomplexum fogalmi ontológiai modelljét” kívánja megalkotni, amely látszólag hasonló a villamosenergia-ipar számára készült.

  • pénzügyi szervezetek (még az XBRL is az SDMX és az RDF Data Cube ontológia egyfajta hibridjének tekinthető);

jelenlegi

Az év elején a LinkedIn aktívan spammemelte a szerzőt a pénzügyi szektor szinte valamennyi óriásánál, akiket a „Force Majeure” sorozatból ismer: Goldman Sachs, JPMorgan Chase és/vagy Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Valószínűleg mindenki keresett valakit, akinek küldhet Tudásgráf konferencia. Jó néhánynak sikerült megtalálnia: a pénzügyi szervezetek mindent vittek az első nap reggele.

A HeadHunteren csak a Sberbank találkozott valami érdekességgel; ez az „EAV-tárolás RDF-szerű adatmodellel” volt.

Valószínűleg a hazai és a nyugati pénzintézetek megfelelő technológiái iránti szeretetbeli különbség az utóbbiak tevékenységének transznacionális jellegéből adódik. Az államhatárokon átnyúló integráció láthatóan minőségileg eltérő szervezeti és technikai megoldásokat igényel.

  • kérdés-válasz rendszerek kereskedelmi alkalmazásokkal (IBM Watson, Apple Siri, Google Knowledge Graph);

jelenlegi

Egyébként a Siri megalkotója, Thomas Gruber az ontológia (az informatikai értelemben vett) „konceptualizációs specifikáció” meghatározásának a szerzője. Véleményem szerint a szavak átrendezése ebben a meghatározásban nem változtat a jelentésén, ami talán azt jelzi, hogy nincs benne.

  • strukturált adatok közzététele (nagyobb indoklással ez a Linked Open Data-nak tudható be).

jelenlegi

A Linked Data nagy rajongói az úgynevezett GLAM: galériák, könyvtárak, archívumok és múzeumok. Elég, ha azt mondjuk, hogy a Kongresszusi Könyvtár a MARC21 helyettesítését hirdeti BIBKEREThogy megalapozza a bibliográfiai leírás jövőjét és természetesen RDF alapú.

A Wikidatát gyakran emlegetik egy sikeres projekt példájaként a Linked Open Data területén – a Wikipédia egyfajta géppel olvasható változata, amelynek tartalma a DBPediával ellentétben nem a cikk-infoboxokból történő importálással jön létre, hanem többé-kevésbé manuálisan létrehozott (és ezt követően ugyanazon infoboxok információforrásává válik).

Azt is javasoljuk, hogy nézze meg lista a Stardog RDF tároló felhasználói a Stardog webhely „Ügyfelek” részében.

Bárhogy is legyen, a Gartnerben Hype ciklus a feltörekvő technológiákhoz 2016 A "Vállalati taxonómia és ontológia menedzsment" a csalódás völgyébe való leereszkedés közepén helyezkedik el, azzal a kilátással, hogy legkorábban 10 év múlva éri el a "termelékenységi fennsíkot".

Vállalati adatok összekapcsolása

Előrejelzések, előrejelzések, előrejelzések...

Történelmi érdeklődésből az alábbiakban táblázatba foglaltam a Gartner különböző évekre vonatkozó előrejelzéseit a minket érdeklő technológiákról.

Év Технология Jelentés Pozíció Évek a fennsíkig
2001 Szemantikus web Fejlődő technológiák Innovációs indító 5-10
2006 Vállalati szemantikus web Fejlődő technológiák Felfújt várakozások csúcsa 5-10
2012 Szemantikus web Big adatok Felfújt várakozások csúcsa > 10
2015 Kapcsolt adatok Haladó elemzés és adattudomány A kiábrándultság vályúja 5-10
2016 Vállalati ontológia menedzsment Fejlődő technológiák A kiábrándultság vályúja > 10
2018 Tudásgrafikonok Fejlődő technológiák Innovációs indító 5-10

Azonban már bent "Hype Cycle..." 2018 újabb felfelé ívelő tendencia jelent meg - a Tudásgráfok. Megtörtént egy bizonyos reinkarnáció: a grafikonos DBMS-ek, amelyekre a felhasználók figyelme és a fejlesztők erőfeszítései átirányultak, az előbbiek kérései és az utóbbiak szokásai hatására elkezdték felvenni a kontúrokat és a pozicionálást. előd versenytársaik közül.

Ma már szinte minden gráf DBMS megfelelő platformnak nyilvánítja magát egy vállalati „tudásgráf” felépítésére (a „linked data”-t időnként „kapcsolt adatok” váltják fel), de mennyire indokoltak ezek az állítások?

A gráf adatbázisok továbbra is asemantikusak; a gráf DBMS-ben lévő adatok továbbra is ugyanaz az adatsilló. Az URI-k helyett karakterlánc-azonosítók a két gráf DBMS integrációját továbbra is integrációs feladattá teszik, míg két RDF-tároló integrálása gyakran két RDF-gráf egyszerű egyesítése. A asemanticitás másik aspektusa az LPG gráfmodell nem-reflexivitása, ami megnehezíti a metaadatok kezelését ugyanazon a platformon.

Végül a gráf DBMS-eknek nincs következtetési motorja vagy szabálymotorja. Az ilyen motorok eredményei a lekérdezések bonyolításával reprodukálhatók, de ez még SQL-ben is lehetséges.

A vezető RDF tárolórendszereknek azonban nem okoz nehézséget az LPG modell támogatása. A legszilárdabb megközelítésnek a Blazegraphban egy időben javasolt megközelítést tartják: az RDF* modellt, amely kombinálja az RDF-et és az LPG-t.

Több

Az LPG modell RDF tárolási támogatásáról a Habré korábbi cikkében olvashat: "Mi történik most az RDF-tárolóval?". Remélem, egyszer külön cikk fog születni a Tudásgráfokról és a Data Fabricról. Az utolsó rész, ahogy az érthető is, sietve készült, de még hat hónappal később sem minden tisztább ezekkel a fogalmakkal.

Irodalom

  1. Halpin, H., Monnin, A. (szerk.) (2014). Filozófiai tervezés: A web filozófiája felé
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2. kiadás)
  3. Staab, S., Studer, R. (szerk.) (2009) Handbook on ontologies (2. kiadás)
  4. Wood, D. (szerk.). (2011) Vállalati adatok összekapcsolása
  5. Keet, M. (2018) Bevezetés az ontológiamérnökségbe

Forrás: will.com

Hozzászólás