Semantinis žiniatinklis ir susieti duomenys. Pataisymai ir papildymai

Noriu visuomenės dėmesiui pristatyti šios neseniai išleistos knygos fragmentą:

Ontologinis įmonės modeliavimas: metodai ir technologijos [Tekstas]: monografija / [S. V. Gorškovas, S. S. Kralinas, O. I. Muštakas ir kiti; vykdomasis redaktorius S. V. Gorškovas]. - Jekaterinburgas: Uralo universiteto leidykla, 2019. - 234 p.: iliustr., tab.; 20 cm – Aut. nurodyta ant zylės nugaros. Su. – bibliografas. pabaigoje sk. - ISBN 978-5-7996-2580-1: 200 egz.

Šio fragmento išdėstymo ant Habré tikslas yra keturis kartus:

  • Vargu ar kas nors galės šią knygą laikyti rankose, jei jis nebus gerbiamo klientas SergeIndex; Jis tikrai neparduodamas.
  • Atlikti teksto pataisymai (žemiau jie neryškinami) ir papildymai, nelabai derantys su spausdintos monografijos formatu: aktualijos (po spoileriais) ir hipersaitai.
  • aš noriu rinkti klausimus ir komentarusį juos atsižvelgti, kai šis tekstas pataisyta forma bet kuriuose kituose leidimuose.
  • Daugelis semantinio žiniatinklio ir susietųjų duomenų šalininkų vis dar mano, kad jų ratas yra toks siauras, daugiausia todėl, kad plačiajai visuomenei dar nebuvo tinkamai paaiškinta, kaip puiku būti semantinio žiniatinklio ir susietųjų duomenų šalininku. Fragmento autorius, nors ir priklauso šiam ratui, tokios nuomonės nesilaiko, tačiau vis dėlto mano esantis įpareigotas dar kartą pabandyti.

tokiu būdu,

Semantinis internetas

Interneto evoliuciją galima pavaizduoti taip (arba kalbėti apie jo segmentus, suformuotus tokia tvarka):

  1. Dokumentai internete. Pagrindinės technologijos – Gopher, FTP ir kt.
    Internetas yra pasaulinis tinklas, skirtas keistis vietiniais ištekliais.
  2. Interneto dokumentai. Pagrindinės technologijos yra HTML ir HTTP.
    Atskleidžiamų išteklių pobūdis atsižvelgia į jų perdavimo terpės ypatybes.
  3. Interneto duomenys. Pagrindinės technologijos yra REST ir SOAP API, XHR ir kt.
    Interneto programų eros ne tik žmonės tampa išteklių vartotojais.
  4. interneto duomenis. Pagrindinės technologijos yra susietųjų duomenų technologijos.
    Šis ketvirtasis etapas, kurį numatė Berners-Lee, pagrindinių antrojo technologijų kūrėjas ir W3C direktorius, vadinamas semantiniu tinklu; Susietųjų duomenų technologijos sukurtos tam, kad žiniatinklyje esantys duomenys būtų ne tik mašininiu būdu nuskaitomi, bet ir „mašinai suprantami“.

Iš to, kas išdėstyta toliau, skaitytojui taps aišku, kad pagrindinės antrojo ir ketvirtojo etapų sąvokos atitinka:

  • URL analogai yra URI,
  • HTML yra analogiškas RDF,
  • HTML hipersaitai yra panašūs į URI įrašus RDF dokumentuose.

Semantinis internetas yra labiau sisteminė interneto ateities vizija, o ne konkreti spontaniška ar lobistinė tendencija, nors gali atsižvelgti ir į pastarąsias. Pavyzdžiui, svarbi vadinamojo Web 2.0 ypatybė yra laikoma „vartotojo sukurtu turiniu“. Ji raginama ypač atsižvelgti į W3C rekomendaciją.Žiniatinklio anotacijų ontologija"ir toks įsipareigojimas kaip Kietas.

Ar semantinis internetas miręs?

Jei atsisakote nerealūs lūkesčiai, situacija su semantiniu tinklu yra maždaug tokia pati kaip su komunizmu išsivysčiusio socializmo laikais (ir tegul kiekvienas pats sprendžia, ar laikomasi lojalumo sąlyginiams Iljičiaus įsakymams). Paieškos sistemos gana sėkmingas priversti svetaines naudoti RDFa ir JSON-LD ir pačios naudoti technologijas, susijusias su toliau aprašytomis („Google“ žinių diagrama, „Bing“ žinių diagrama).

Apibendrintai kalbant, autorius negali pasakyti, kas trukdo didesnei sklaidai, tačiau jis gali kalbėti remdamasis asmenine patirtimi. Yra užduočių, kurios būtų išspręstos „iš dėžės“ SW puolimo sąlygomis, nors ir ne itin masiškai. Dėl to tie, kurie turi šias užduotis, neturi prievartos priemonių prieš tuos, kurie gali pasiūlyti sprendimą, o pastarieji patys teikia pastarųjų sprendimą prieštarauja jų verslo modeliams. Taigi mes toliau analizuojame HTML ir klijuojame įvairias API, vieną po kitos šlykštesnes.

Tačiau susietųjų duomenų technologijos išplito už masinio žiniatinklio ribų; Iš tikrųjų knyga skirta jų pritaikymui. Šiuo metu susietų duomenų bendruomenė tikisi, kad šios technologijos taps dar plačiau išplitusios Gartner fiksuojant (arba paskelbus, kas jums patinka) tendencijas, pvz. Žinių grafikai и Duomenų audinys. Norėčiau tikėti, kad sėkmingas bus ne „dviratis“ šių koncepcijų įgyvendinimas, o tie, kurie susiję su W3C standartais, aptariamais toliau.

Susieti duomenys

Berners-Lee susietus duomenis apibrėžė kaip teisingai atliktą semantinį internetą: metodų ir technologijų rinkinį, skirtą galutiniams tikslams pasiekti. Pagrindiniai susietų duomenų principai Berners-Lee išskirtas sekantis.

1 principas. URI naudojimas objektams pavadinti.

URI yra pasauliniai objekto identifikatoriai, o ne vietiniai įrašų eilutės identifikatoriai. Vėliau šis principas geriausiai išreiškiamas Google žinių schemos šūkiu „daiktai, o ne stygos".

2 principas. URI naudojimas HTTP schemoje, kad būtų galima panaikinti nuorodas.

Nurodant URI, turėtų būti įmanoma gauti žymeklį už šio žymeno (analogija su operatoriaus pavadinimu*» C); tiksliau, norint gauti tam tikrą šios reikšmės atvaizdą - priklausomai nuo HTTP antraštės reikšmės Accept:. Galbūt, atėjus AR / VR erai, bus galima gauti patį šaltinį, tačiau kol kas tai greičiausiai bus RDF dokumentas, kuris yra SPARQL užklausos rezultatas. DESCRIBE.

3 principas. W3C standartų – visų pirma RDF(S) ir SPARQL – naudojimas, ypač panaikinant nuorodas į URI.

Šie atskiri susietųjų duomenų technologijos „sluoksniai“, dar žinomi kaip Semantinis žiniatinklio sluoksnio pyragas, bus aprašyta toliau.

4 principas. Nuorodų į kitus URI naudojimas aprašant objektus.

RDF leidžia apsiriboti žodiniu šaltinio aprašymu natūralia kalba, o ketvirtasis principas ragina to nedaryti. Visuotiškai laikantis pirmojo principo, aprašant išteklius tampa įmanoma remtis kitais, įskaitant „svetimus“, todėl duomenys vadinami susietais. Tiesą sakant, beveik neišvengiama naudoti URI, pavadintus RDFS žodyne.

RDF

RDF (Resource Description Framework) – formalizmas, apibūdinantis tarpusavyje susijusius subjektus.

Apie esybes ir jų ryšius daromi „subjektas-predikatas-objektas“ formos teiginiai, vadinami tripletais. Paprasčiausiu atveju subjektas, predikatas ir objektas yra abu URI. Tas pats URI gali būti skirtinguose trynukuose skirtingose ​​padėtyse: būti subjektu, predikatu ir objektu; taip trynukai sudaro tam tikrą grafiką, vadinamą RDF grafiku.

Subjektai ir objektai gali būti ne tik URI, bet ir vadinamieji tušti mazgai, o objektai taip pat gali būti pažodiniai žodžiai. Literalai yra primityvių tipų atvejai, susidedantys iš eilutės vaizdavimo ir tipo specifikacijos.

Literalų rašymo pavyzdžiai (Turtle sintaksėje, daugiau apie tai žemiau): "5.0"^^xsd:float и "five"^^xsd:string. Literalai su šriftu rdf:langString taip pat gali būti pateiktas su kalbos žyma, vėžlys parašyta taip: "five"@en и "пять"@ru.

Tušti mazgai yra „anoniminiai“ ištekliai be visuotinių identifikatorių, tačiau tai galima teigti; tam tikri egzistenciniai kintamieji.

Taigi (iš tikrųjų tai yra visa RDF esmė):

  • objektas yra URI arba tuščias mazgas,
  • predikatas yra URI,
  • objektas yra URI, tuščias mazgas arba literalas.

Kodėl predikatai negali būti tušti mazgai?

Tikėtina priežastis – noras neoficialiai suprasti ir išversti tripletą į pirmosios eilės predikatinės logikos kalbą. s p o kaip kažkas panašaus Semantinis žiniatinklis ir susieti duomenys. Pataisymai ir papildymaiKur Semantinis žiniatinklis ir susieti duomenys. Pataisymai ir papildymai - predikatas, Semantinis žiniatinklis ir susieti duomenys. Pataisymai ir papildymai и Semantinis žiniatinklis ir susieti duomenys. Pataisymai ir papildymai - konstantos. Dokumente yra tokio supratimo pėdsakų “LBase: semantinio žiniatinklio kalbų semantika“, kuris turi W3C darbo grupės užrašo statusą. Su šiuo supratimu trynukas s p []Kur [] - tuščias mazgas, bus išverstas kaip Semantinis žiniatinklis ir susieti duomenys. Pataisymai ir papildymaiKur Semantinis žiniatinklis ir susieti duomenys. Pataisymai ir papildymai - kintamasis, bet kaip tada išversti s [] o? W3C rekomendacinis dokumentas "RDF 1.1 semantika“ siūlo kitą vertimo būdą, bet vis tiek nesvarsto galimybės, kad predikatai yra tušti mazgai.

Tačiau Manu Sporny leidžiama.

RDF yra abstraktus modelis. RDF gali būti parašytas (serializuotas) įvairiomis sintaksėmis: RDF/XML, Vėžlys (labiausiai skaitoma žmonėms) JSON LD, HDT (dvejetainis).

Tas pats RDF gali būti serijinis į RDF/XML įvairiais būdais, todėl nėra prasmės, pavyzdžiui, patvirtinti gautą XML naudojant XSD arba bandyti išgauti duomenis naudojant XPath. Taip pat mažai tikėtina, kad JSON-LD patenkins vidutinio „Javascript“ kūrėjo norą dirbti su RDF naudojant „Javascript“ taškų ir laužtinių skliaustų žymėjimą (nors JSON-LD juda ta kryptimi, siūlydamas mechanizmą kadravimas).

Dauguma sintaksių siūlo būdus sutrumpinti ilgus URI. Pavyzdžiui, skelbimas @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> Turtle leis jums rašyti vietoj to <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> tiesiog rdf:type.

RDFS

RDFS (RDF schema) – pagrindinis modeliavimo žodynas, supažindinantis su nuosavybės ir klasės sąvokomis bei savybėmis, pvz. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Pavyzdžiui, naudojant RDFS žodyną, galima parašyti šias galiojančias išraiškas:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS yra aprašymo ir modeliavimo žodynas, bet nėra suvaržymo kalba (nors oficiali specifikacija ir lapai tokio naudojimo galimybę). Žodis „schema“ neturėtų būti suprantamas ta pačia prasme kaip posakis „XML schema“. Pavyzdžiui, :author rdfs:range foaf:Person reiškia kad rdf:type visos turto vertės :author - foaf:Person, bet nereiškia, kad tai reikia pasakyti iš anksto.

SPARQL

SPARQL (SPARQL protokolas ir RDF užklausų kalba) yra RDF duomenų užklausos kalba. Paprastu atveju SPARQL užklausa yra pavyzdžių rinkinys, pagal kurį sutampa užklausos grafiko tripletai. Kintamieji gali būti dedami į subjektų, predikatų ir objektų pozicijas šablonuose.

Užklausa grąžins tokias kintamųjų reikšmes, kurias pakeitus į pavyzdžius, gali būti užklausiamas RDF grafiko pografas (jo trijulių poaibis). To paties pavadinimo kintamieji skirtinguose trynukų pavyzdžiuose turi turėti tas pačias reikšmes.

Pavyzdžiui, pirmiau pateiktame septynių RDFS aksiomų rinkinyje bus pateikta tokia užklausa rdfs:domain и rdfs:range kaip vertybes ?s и ?p atitinkamai:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Verta paminėti, kad SPARQL yra deklaratyvus ir nėra grafiko perėjimo kalba (tačiau kai kurios RDF saugyklos siūlo būdus koreguoti užklausos vykdymo planą). Todėl kai kurios standartinės grafiko problemos, pvz., trumpiausio kelio radimas, negali būti išspręstos naudojant SPARQL, įskaitant mechanizmo naudojimą. nuosavybės takai (bet vėlgi, atskiros RDF saugyklos siūlo specialius šių užduočių plėtinius).

SPARQL nepritaria pasaulio atvirumo prielaidai ir laikosi „neigimo kaip nesėkmės“ požiūrio, pagal kurį galima tokios struktūros kaip FILTER NOT EXISTS {…}. Naudojant mechanizmą atsižvelgiama į duomenų paskirstymą susietos užklausos.

SPARQL prieigos taškas, RDF saugykla, galinti apdoroti SPARQL užklausas, neturi tiesioginių analogų iš antrojo etapo (žr. šios pastraipos pradžią). Ją galima prilyginti duomenų bazei, pagal kurios turinį buvo sugeneruoti HTML puslapiai, bet prieinami išorei. SPARQL prieigos taškas yra labiau panašus į API prieigos tašką iš trečiojo etapo, tačiau turi du pagrindinius skirtumus. Pirma, galima sujungti kelias „atomines“ užklausas į vieną (tai laikoma pagrindine GraphQL charakteristika), antra, tokia API yra visiškai savaime dokumentuota (ką HATEOAS bandė pasiekti).

Poleminė pastaba

RDF yra duomenų publikavimo internete būdas, todėl RDF saugyklos turėtų būti laikomos dokumentų DBVS. Tiesa, kadangi RDF yra grafikas, o ne medis, jie kartu pasirodė ir grafikai. Nuostabu, kad tai iš viso pavyko. Kas galėjo pagalvoti, kad atsiras protingų žmonių, kurie įgyvendina tuščius mazgus. Čia yra Codd nepasiteisino.

Taip pat yra ne tokių visapusiškų būdų, kaip organizuoti prieigą prie RDF duomenų, pavyzdžiui, Susieti duomenų fragmentai (LDF) ir Susietų duomenų platforma (LDP).

OWL

OWL (Web Ontology Language) – žinių vaizdavimo formalizmas, sintaksinė aprašomosios logikos versija Semantinis žiniatinklis ir susieti duomenys. Pataisymai ir papildymai (visur žemiau teisingiau sakyti OWL 2, pirmoji OWL versija buvo pagrįsta Semantinis žiniatinklis ir susieti duomenys. Pataisymai ir papildymai).

Aprašymo logikos sąvokos OWL atitinka klases, vaidmenis – savybes, individai išlaiko savo buvusį vardą. Aksiomos dar vadinamos aksiomomis.

Pavyzdžiui, vadinamojoje Mančesterio sintaksė OWL žymėjimui – aksioma, kurią jau žinome Semantinis žiniatinklis ir susieti duomenys. Pataisymai ir papildymai bus parašyta taip:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Yra ir kitų OWL rašymo sintaksių, pvz funkcinė sintaksė, naudojamas oficialioje specifikacijoje, ir OWL/XML. Be to, OWL gali būti serijinis į abstrakčią RDF sintaksę o ateityje – bet kuria iš konkrečių sintaksių.

OWL yra dvejopas RDF atžvilgiu. Viena vertus, į jį galima žiūrėti kaip į savotišką žodyną, praplečiantį RDFS. Kita vertus, tai yra galingesnis formalizmas, kuriam RDF yra tik serializacijos formatas. Ne visas elementarias OWL konstrukcijas galima parašyti vienu RDF tripletu.

Priklausomai nuo to, kurį OWL konstrukcijų pogrupį leidžiama naudoti, kalbama apie vadinamąjį OWL profiliai. Standartizuoti ir geriausiai žinomi yra OWL EL, OWL RL ir OWL QL. Profilio pasirinkimas turi įtakos tipinių problemų skaičiavimo sudėtingumui. Visas tinkamas OWL dizaino rinkinys Semantinis žiniatinklis ir susieti duomenys. Pataisymai ir papildymai, vadinamas OWL DL. Kartais kalbama ir apie OWL Full, kuriame OWL konstrukcijas leidžiama naudoti su visa RDF būdinga laisve, be semantinių ir skaičiavimo apribojimų. Semantinis žiniatinklis ir susieti duomenys. Pataisymai ir papildymai. Pavyzdžiui, kažkas gali būti ir klasė, ir nuosavybė. OWL Full yra neišsprendžiamas.

Pagrindiniai pasekmių priskyrimo principai OWL yra atviro pasaulio prielaidos (atviro pasaulio prielaidos, OWA) ir unikalaus pavadinimo prielaidos atmetimas, ONE). Žemiau pamatysime, ką šie principai gali paskatinti, ir pristatysime kai kurias OWL konstrukcijas.

Tegul ontologijoje yra šis fragmentas (Mančesterio sintaksėje):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Ar iš to, kas pasakyta, paaiškės, kad Jonas turi daug vaikų? Atmetus UNA, išvadų variklis į šį klausimą atsakytų neigiamai, nes Alisa ir Bobas gali būti tas pats asmuo. Kad įvyktų šie dalykai, turime pridėti šią aksiomą:

DifferentIndividuals: Alice, Bob, Carol, John

Tegul ontologijos fragmentas turi tokią formą (skelbiama, kad Jonas turi daug vaikų, bet jis turi tik du vaikus):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Ar ši ontologija bus nenuosekli (kuri gali būti interpretuojama kaip neteisingų duomenų įrodymas)? Priėmus OWA, išvadų variklis atsakys neigiamai: „kažkur kitur“ (kita ontologija) galima sakyti, kad Carol taip pat yra Džono vaikas.

Norėdami pašalinti šią galimybę, pridėkime naują faktą apie Joną:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Norėdami neįtraukti kitų vaikų atsiradimo, tarkime, kad visos turto vertės „turi vaiką“ yra žmonės, iš kurių turime tik keturis:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Dabar ontologija taps nenuosekli, apie kurią išvadų variklis nepraneš. Su paskutine aksioma mes tarsi „uždarėme“ pasaulį ir pastebime, kaip atmetama galimybė, kad Jonas yra jo paties vaikas.

Įmonės duomenų susiejimas

Metodų ir technologijų rinkinys Susieti duomenys iš pradžių buvo skirti duomenims skelbti internete. Naudojant juos įmonės viduje, susiduriama su daugybe sunkumų.

Pavyzdžiui, uždaroje verslo aplinkoje OWL dedukcinė galia, pagrįsta OWA priėmimu ir UNA atmetimu, sprendimai, kuriuos lemia atviras ir paskirstytas interneto pobūdis, yra per silpni. Ir čia galimi šie išėjimai.

  • OWL suteikimas semantika, reiškiantis OWA atmetimą ir UNA priėmimą, atitinkamo išvadų variklio įgyvendinimą. – šiuo keliu ateina Stardog RDF saugykla.
  • Atsisakyti dedukcinės OWL galios taisyklių variklių naudai. - Stardog palaiko SWRL; Jena ir GraphDB pasiūlymas savo kalbomis taisykles.
  • Dedukcinių OWL galimybių atmetimas, vieno ar kito pogrupio, artimo RDFS, panaudojimas modeliavimui. - Daugiau apie tai skaitykite žemiau.

Kita problema yra didesnis dėmesys, kurį verslo pasaulis gali skirti duomenų kokybės problemoms, ir duomenų patvirtinimo įrankių trūkumas susietų duomenų krūvoje. Išėjimai yra tokie.

  • Vėlgi, naudojant OWL konstrukcijas su uždarojo pasaulio semantika ir pavadinimų unikalumu, siekiant patvirtinti, ar yra tinkamas išvadų variklis.
  • Naudoti SHACL, standartizuotas po to, kai buvo pataisytas semantinio žiniatinklio sluoksnio pyrago sluoksnių sąrašas (tačiau jis taip pat gali būti naudojamas kaip taisyklių variklis), arba ShEx.
  • Suprasdami, kad viską galiausiai daro SPARQL užklausos, sukurdami savo paprastą duomenų patvirtinimo mechanizmą naudodami jas.

Tačiau net ir visiškai atmetus dedukcines galimybes ir patvirtinimo įrankius, susietųjų duomenų krūva nekonkuruoja atliekant užduotis, kurios yra panašios į atvirą ir paskirstytą žiniatinklį – atliekant duomenų integravimo užduotis.

O kaip įprasta įmonės informacinė sistema?

Tai įmanoma, tačiau, žinoma, reikia tiksliai žinoti, kokias problemas turės išspręsti atitinkamos technologijos. Čia aprašysiu tipišką kūrimo dalyvių reakciją norint parodyti, kaip šis technologijų krūvas atrodo įprastos IT požiūriu. Man šiek tiek primena palyginimą apie dramblį:

  • Verslo analitikas: RDF yra kažkas panašaus į tiesiogiai saugomą loginį modelį.
  • Sistemų analitikas: RDF yra kaip EAV plėtinys, tik su daugybe indeksų ir patogia užklausų kalba.
  • Programuotojas: na, visa tai turtingo modelio ir žemo kodo koncepcijų dvasia, skaitė apie tai neseniai.
  • Projekto vadovas: taip tai yra griūdamas krūvą!

Praktika rodo, kad kaminas dažniausiai naudojamas atliekant užduotis, susijusias su duomenų paskirstymu ir nevienalytiškumu, pavyzdžiui, kuriant MDM (Master Data Management) arba DWH (Data Warehouse) klasės sistemas. Tokios problemos egzistuoja bet kurioje pramonės šakoje.

Kalbant apie specifines pramonės programas, susietųjų duomenų technologijos šiuo metu yra populiariausios šiose pramonės šakose.

  • biomedicinos technologijos (kai jų populiarumas, atrodo, susijęs su dalykinės srities sudėtingumu);

aktualūs

Kitą dieną „Virimo taške“ vyko asociacijos „Nacionalinė medicinos žinių bazė“ organizuota konferencija „Ontologijų suvienodinimas. Nuo teorijos iki praktinio pritaikymo".

  • sudėtingų gaminių gamyba ir eksploatavimas (didelė inžinerija, naftos ir dujų gavyba; dažniausiai tai yra standartas ISO 15926);

aktualūs

Čia taip pat priežastis yra dalykinės srities sudėtingumas, kai, pavyzdžiui, pradiniame etape, jei kalbame apie naftos ir dujų pramonę, paprasta apskaita turi turėti tam tikras CAD funkcijas.

2008 m. Chevron surengė reprezentacinę instaliaciją konferencija.

ISO 15926 galiausiai atrodė šiek tiek sunkus naftos ir dujų pramonei (ir buvo beveik daugiau naudojamas mechaninėje inžinerijoje). Tik „Statoil“ („Equinor“) nuo jo įklimpo, Norvegijoje visa ekosistema. Kiti bando daryti savo reikalus. Pavyzdžiui, pagal gandus šalies Energetikos ministerija ketina sukurti „koncepcinį ontologinį kuro ir energijos komplekso modelį“, panašų, matyt, į sukurta elektros energijos pramonei.

  • finansų institucijos (net XBRL gali būti vertinamas kaip SDMX ir RDF Data Cube ontologijos hibridas);

aktualūs

„LinkedIn“ metų pradžioje aktyviai šlamšto autoriui skelbė laisvas darbo vietas beveik visuose finansų industrijos gigantuose, kuriuos jis pažįsta iš televizijos serialų „Suits“: Goldman Sachs, JPMorgan Chase ir/arba Morgan Stanley, Wells Fargo, SWIFT/Visa/ „Mastercard“, „Bank of America“, „Citigroup“, „Fed“, „Deutsche Bank“… Tikriausiai visi ieškojo, kam nusiųsti Žinių grafiko konferencija. Nemažai pavyko rasti: finansų institucijos užėmė viską pirmos dienos rytas.

„HeadHunter“ kažkas įdomaus pasirodė tik iš „Sberbank“, tai buvo „EAV saugykla su RDF tipo duomenų modeliu“.

Tikėtina, kad šalies ir Vakarų finansų institucijų meilės atitinkamoms technologijoms laipsnis skiriasi dėl pastarųjų veiklos transnacionalinio pobūdžio. Matyt, integracija per valstybės sienas reikalauja kokybiškai skirtingų organizacinių ir techninių sprendimų.

  • klausimų-atsakymų sistemos, turinčios komercines programas (IBM Watson, Apple Siri, Google Knowledge Graph);

aktualūs

Beje, Siri kūrėjas Thomas Gruberis yra paties ontologijos (IT prasme) kaip „konceptualizacijos specifikacijos“ apibrėžimo autorius. Mano nuomone, žodžių pertvarkymas šiame apibrėžime nekeičia jo reikšmės, o tai, ko gero, rodo, kad jo nėra.

  • struktūrizuotų duomenų paskelbimas (dėl rimtos priežasties tai jau galima priskirti susietiems atviriems duomenims).

aktualūs

Dideli susietųjų duomenų gerbėjai yra vadinamieji GLAM: galerijos, bibliotekos, archyvai ir muziejai. Čia pakanka pasakyti, kad pakeisti MARC21, Kongreso biblioteka skatina BIBFRAMEKuris suteikia pagrindą bibliografinio aprašo ateičiai ir, žinoma, remiantis RDF.

„Wikidata“ dažnai minima kaip sėkmingo projekto „Linked Open Data“ srityje pavyzdys – savotiška mašininiu būdu skaitoma Vikipedijos versija, kurios turinys, priešingai nei „DBPedia“, nėra generuojamas importuojant straipsnius iš infodėžių, o yra sukurta daugiau ar mažiau rankiniu būdu (ir vėliau tampa informacijos šaltiniu toms pačioms infodėžėms).

Taip pat rekomenduojama peržiūrėti sąrašas Stardog RDF saugyklos naudotojai Stardog svetainėje, skiltyje „Klientai“.

Kad ir kaip būtų, „Gartner“. „Hype ciklas naujoms technologijoms“ 2016 m „Įmonių taksonomijos ir ontologijos valdymas“ yra nusileidimo į nusivylimo slėnį viduryje, nes tikimasi pasiekti „produktyvumo plynaukštę“ ne anksčiau kaip po 10 metų.

Įmonės duomenų prijungimas

Spėjimai, prognozės, prognozės…

Dėl istorinio susidomėjimo žemiau esančioje lentelėje apibendrinau įvairių metų „Gartner“ prognozes apie mus dominančias technologijas.

Metai Технология Ataskaita Pozicija Metai iki plynaukštės
2001 Semantinis internetas Naujos technologijos Inovacijų trigeris 5-10
2006 Įmonės semantinis tinklas Naujos technologijos Išpūstų lūkesčių pikas 5-10
2012 Semantinis internetas Dideliu duomenų kiekiu Išpūstų lūkesčių pikas > 10
2015 Susieti duomenys Išplėstinė analizė ir duomenų mokslas Nusivylimo dugnas 5-10
2016 Įmonės ontologijos valdymas Naujos technologijos Nusivylimo dugnas > 10
2018 Žinių grafikai Naujos technologijos Inovacijų trigeris 5-10

Tačiau jau į „Hype ciklas...“ 2018 m atsirado dar viena pakilimo tendencija – Žinių grafikai. Įvyko tam tikras reinkarnacija: grafinė DBVS, į kurią, kaip paaiškėjo, buvo nukreiptas vartotojų dėmesys ir kūrėjų jėgos, veikiama pirmųjų prašymų ir pastarųjų įpročių, pradėjo įgyti kontūrus ir padėties. jų konkurentų pirmtakai.

Beveik kiekvienas grafikas DBVS dabar teigia esanti tinkama platforma kurti įmonės „žinių grafiką“ („susieti duomenys“ kartais pakeičiami „sujungti duomenys“), tačiau kiek tokie teiginiai yra pagrįsti?

Grafų duomenų bazės vis dar yra asemantinės, grafiko DBVS duomenys vis dar yra tas pats duomenų kaupiklis. Stygos identifikatoriai vietoj URI daro dviejų grafikų DBVS integravimo užduotį ta pačia integravimo užduotimi, o dviejų RDF saugyklų integravimas dažnai yra tik dviejų RDF grafikų sujungimo reikalas. Kitas asemantiiškumo aspektas yra LPG grafiko modelio nerefleksyvumas, dėl kurio sunku valdyti metaduomenis naudojant tą pačią platformą.

Galiausiai, grafikų DBVS neturi išvadų variklių ar taisyklių variklių. Tokių variklių rezultatus galima atkurti sudėtingomis užklausomis, tačiau tai įmanoma net SQL.

Tačiau pirmaujančios RDF saugyklos neturi problemų palaikydamos LPG modelį. Pats tvirtiausias yra kažkada Blazegraph pasiūlytas metodas: RDF* modelis, apjungiantis RDF ir LPG.

Daugiau

Daugiau apie LPG modelio palaikymą RDF saugyklose galite perskaityti ankstesniame straipsnyje apie Habré: „Kas dabar vyksta su RDF saugyklomis“. Tikiuosi, kad vieną dieną bus parašytas atskiras straipsnis apie žinių grafikus ir duomenų audinį. Paskutinė dalis, kaip nesunku suprasti, buvo parašyta paskubomis, tačiau net po šešių mėnesių šios sąvokos nėra daug aiškesnės.

Literatūra

  1. Halpin, H., Monnin, A. (red.) (2014). Filosofinė inžinerija: žiniatinklio filosofijos link
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2 leidimas)
  3. Staab, S., Studer, R. (red.) (2009) Ontologijų vadovas (2-asis leidimas)
  4. Wood, D. (red.). (2011) Įmonės duomenų susiejimas
  5. Keet, M. (2018) Įvadas į ontologijos inžineriją

Šaltinis: www.habr.com

Добавить комментарий