Semantiline veeb ja lingitud andmed. Parandused ja täiendused

Tahaksin esitleda avalikkusele fragmenti sellest hiljuti ilmunud raamatust:

Ettevõtte ontoloogiline modelleerimine: meetodid ja tehnoloogiad [Tekst]: monograafia / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak jt; tegevtoimetaja S.V. Gorshkov]. - Jekaterinburg: Uurali ülikooli kirjastus, 2019. - 234 lk.: ill., tabel; 20 cm – autor. märgitud tagatihasele. Koos. — Bibliograafia ptk lõpus. — ISBN 978-5-7996-2580-1: 200 eksemplari.

Selle fragmendi Habré postitamisel on neli eesmärki:

  • On ebatõenäoline, et keegi suudab seda raamatut käes hoida, kui ta pole lugupeetud klient SergeIndex; See pole kindlasti müügil.
  • Tekstis on tehtud parandusi (allpool ei ole neid esile tõstetud) ja lisatud on trükimonograafia formaadiga mitte eriti ühilduvaid täiendusi: aktuaalsed märkmed (spoilerite all) ja hüperlingid.
  • ma tahan küsimusi ja kommentaare koguda, et võtta neid arvesse selle teksti muudetud kujul lisamisel muudesse väljaannetesse.
  • Paljud semantilise veebi ja lingitud andmete järgijad usuvad endiselt, et nende ring on nii kitsas, peamiselt seetõttu, et avalikkusele pole veel korralikult selgitatud, kui hea on olla semantilise veebi ja lingitud andmete järgija. Fragmendi autor, kuigi ta kuulub sellesse ringkonda, ei ole sellel arvamusel, kuid peab end siiski kohustatud tegema veel ühe katse.

Niisiis,

Semantiline veeb

Interneti arengut saab kujutada järgmiselt (või rääkida selle segmentidest, mis moodustati allpool näidatud järjekorras):

  1. Dokumendid Internetis. Põhitehnoloogiad - Gopher, FTP jne.
    Internet on ülemaailmne võrgustik kohalike ressursside vahetamiseks.
  2. Interneti dokumendid. Peamised tehnoloogiad on HTML ja HTTP.
    Avatud ressursside olemus võtab arvesse nende edastuskandja omadusi.
  3. Interneti andmed. Võtmetehnoloogiad – REST ja SOAP API, XHR jne.
    Interneti-rakenduste ajastul ei muutu mitte ainult inimesed ressursside tarbijateks.
  4. Interneti andmed. Võtmetehnoloogiad on lingitud andmete tehnoloogiad.
    Seda neljandat etappi, mille ennustas Berners-Lee, teise põhitehnoloogia looja ja W3C direktor, nimetatakse semantiliseks veebiks; Lingitud andmetehnoloogiad on loodud selleks, et muuta veebis olevad andmed mitte ainult masinloetavaks, vaid ka "masinlikult arusaadavaks".

Järgnevalt mõistab lugeja teise ja neljanda etapi põhimõistete vastavust:

  • URL-id on analoogsed URI-dega,
  • HTML-i analoog on RDF,
  • HTML-hüperlingid on sarnased RDF-dokumentides esinevatele URI-le.

Semantiline veeb on pigem süsteemne nägemus Interneti tulevikust kui konkreetne spontaanne või lobitöö, kuigi see võib neid viimaseid arvesse võtta. Näiteks peetakse veebi 2.0 oluliseks omaduseks kasutaja loodud sisu. Eelkõige kutsutakse W3C soovitust arvesse võtma "Veebimärkuste ontoloogia"ja selline ettevõtmine nagu Tahke.

Kas semantiline veeb on surnud?

Kui keeldute ebarealistlikud ootusedSemantilise veebiga on olukord ligikaudu sama, mis arenenud sotsialismi ajal kommunismiga (ja kas lojaalsust Iljitši tinglikele korraldustele järgitakse, otsustagu igaüks ise). Otsingumootorid päris edukalt sundida veebisaite kasutama RDFa ja JSON-LD ning ise kasutama tehnoloogiaid, mis on seotud allpool kirjeldatud tehnoloogiatega (Google Knowledge Graph, Bing Knowledge Graph).

Üldjoontes ei oska autor öelda, mis suuremat levikut takistab, küll aga saab rääkida isikliku kogemuse põhjal. On probleeme, mida saaks SW pealetungi tingimustes "kastist väljas" lahendada, kuigi need pole kuigi laialt levinud. Seetõttu ei ole nende ülesannetega silmitsi seisjatel mingeid sundimise vahendeid nende vastu, kes suudavad lahenduse pakkuda, samas kui viimaste iseseisev lahenduse pakkumine läheb vastuollu nende ärimudelitega. Seega jätkame HTML-i sõelumist ja erinevate API-de liimimist, mis on üksteisega jaburamad.

Linked Data tehnoloogiad on aga levinud tavaveebist väljapoole; Raamat on tegelikult nendele rakendustele pühendatud. Praegu loodab lingitud andmete kogukond, et need tehnoloogiad muutuvad veelgi laialdasemaks tänu Gartneri poolt selliste suundumuste salvestamisele (või väljakuulutamisele, nagu soovite) Teadmusgraafikud и Andmekangas. Tahaks uskuda, et edukaks ei osutu mitte nende kontseptsioonide „jalgrataste” teostused, vaid need, mis on seotud allpool käsitletud W3C standarditega.

Lingitud andmed

Berners-Lee määratles lingitud andmed kui semantilist veebi, mis on "õigesti tehtud": lähenemisviiside ja tehnoloogiate kogum, mis võimaldab sellel oma lõppeesmärke saavutada. Linked Data Berners-Lee põhiprintsiibid esile tõstetud järgnev.

1. põhimõte. URI-de kasutamine üksuste nimetamiseks.

URI-d on globaalsed olemiidentifikaatorid, mitte kirjete lokaalsed stringiidentifikaatorid. Hiljem väljendus see põhimõte kõige paremini Google'i teadmiste graafiku loosungis "asjad, mitte stringid'.

2. põhimõte. URI-de kasutamine HTTP-skeemis, et neile viiteid eemaldada.

URI-le viidates peaks olema võimalik saada tähistatav selle tähistaja taha (analoogia operaatori nimega " on siin selge).*" in C); täpsemalt, et saada selle tähistatud esitus – olenevalt HTTP päise väärtusest Accept:. Võib-olla on AR/VR ajastu tulekuga võimalik ressurss ise hankida, kuid praegu on see tõenäoliselt RDF-dokument, mis on SPARQL-i päringu käivitamise tulemus. DESCRIBE.

3. põhimõte. W3C standardite – eeskätt RDF(S) ja SPARQL – kasutamine, eriti URI-de viitamise tühistamisel.

Need üksikud lingitud andmete tehnoloogiavirna "kihid", mida tuntakse ka kui Semantiline veebikihi kook, kirjeldatakse allpool.

4. põhimõte. Viidete kasutamine teistele URI-dele üksuste kirjeldamisel.

RDF võimaldab teil piirduda ressursi sõnalise kirjeldusega loomulikus keeles ja neljas põhimõte kutsub üles seda mitte tegema. Kui esimest põhimõtet järgitakse üldiselt, on ressursi kirjeldamisel võimalik viidata teistele, sealhulgas "võõratele", mistõttu nimetatakse andmeid lingitud. Tegelikult on RDFS-i sõnavaras nimetatud URI-de kasutamine peaaegu vältimatu.

RDF

RDF (Resource Description Framework) on formalism omavahel seotud olemite kirjeldamiseks.

Olemite ja nende suhete kohta tehakse "subjekt-predikaat-objekt" tüüpi väiteid, mida nimetatakse kolmikuteks. Kõige lihtsamal juhul on subjekt, predikaat ja objekt kõik URI-d. Sama URI võib olla erinevates positsioonides erinevates kolmikutes: olla subjekt, predikaat ja objekt; Seega moodustavad kolmikud omamoodi graafiku, mida nimetatakse RDF-graafikuks.

Subjektid ja objektid võivad olla mitte ainult URI-d, vaid ka nö tühjad sõlmed, ja objektid võivad samuti olla sõnasõnalised. Literaalid on primitiivsete tüüpide eksemplarid, mis koosnevad stringi esitusest ja tüübinäitest.

Literaalide kirjutamise näited (kilpkonna süntaksis, selle kohta lähemalt allpool): "5.0"^^xsd:float и "five"^^xsd:string. Literaalid koos tüübiga rdf:langString võib olla varustatud ka keelesildiga; Kilpkonnas on see kirjutatud järgmiselt: "five"@en и "пять"@ru.

Tühjad sõlmed on "anonüümsed" ilma globaalsete identifikaatoriteta ressursid, mille kohta saab siiski väita; omamoodi eksistentsiaalsed muutujad.

Niisiis (see on tegelikult kogu RDF-i mõte):

  • subjekt on URI või tühi sõlm,
  • predikaat on URI,
  • objekt on URI, tühi sõlm või literaal.

Miks ei võiks predikaadid olla tühjad sõlmed?

Tõenäoline põhjus on soov mitteametlikult mõista ja tõlkida triplet esimest järku predikaatloogika keelde s p o nagu midagi taolist Semantiline veeb ja lingitud andmed. Parandused ja täiendusedKus Semantiline veeb ja lingitud andmed. Parandused ja täiendused - predikaat, Semantiline veeb ja lingitud andmed. Parandused ja täiendused и Semantiline veeb ja lingitud andmed. Parandused ja täiendused - konstandid. Selle arusaamise jäljed on dokumendis "LBase: semantilise veebi keelte semantika", millel on W3C töörühma märkuse staatus. Selle arusaamaga kolmik s p []Kus [] - tühi sõlm, tõlgitakse kui Semantiline veeb ja lingitud andmed. Parandused ja täiendusedKus Semantiline veeb ja lingitud andmed. Parandused ja täiendused - muutuv, aga kuidas siis tõlkida s [] o? W3C soovituse olekuga dokument "RDF 1.1 semantika” pakub teist tõlkemeetodit, kuid ei arvesta siiski võimalusega, et predikaadid oleksid tühjad sõlmed.

Küll aga Manu Sporni lubatud.

RDF on abstraktne mudel. RDF-i saab kirjutada (serialiseerida) erinevates süntaksites: RDF/XML, Kilpkonn (inimloetavaim), JSON-LD, HDT (binaarne).

Sama RDF-i saab RDF-i/XML-i serialiseerida erinevatel viisidel, mistõttu pole näiteks mõtet saadud XML-i XSD-ga valideerida või XPathi abil andmeid välja tõmmata. Samuti ei rahulda JSON-LD tõenäoliselt keskmise Javascripti arendaja soovi töötada RDF-iga, kasutades Javascripti punkti- ja nurksulgusid (kuigi JSON-LD liigub selles suunas, pakkudes mehhanismi raamimine).

Enamik süntakse pakub viise pikkade URI-de lühendamiseks. Näiteks kuulutus @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> In Turtle võimaldab siis selle asemel kirjutada <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> lihtsalt rdf:type.

RDFS

RDFS (RDF Schema) – modelleerimise põhisõnavara, tutvustab omaduse ja klassi mõisteid ning omadusi nagu rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Näiteks RDFS-sõnastikku kasutades saab kirjutada järgmised kehtivad avaldised:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS on kirjeldav ja modelleeriv sõnavara, kuid ei ole piirangukeel (kuigi ametlik spetsifikatsioon ja lehed sellise kasutamise võimalus). Sõna "skeem" ei tohiks mõista samas tähenduses kui väljendis "XML-skeem". Näiteks, :author rdfs:range foaf:Person tähendab seda rdf:type kõik kinnisvara väärtused :author - foaf:Person, kuid see ei tähenda, et seda tuleks ette öelda.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) – keel RDF andmete päringute tegemiseks. Lihtsamal juhul on SPARQL-päring proovide kogum, mille suhtes päritava graafiku kolmikud vastendatakse. Mustrid võivad sisaldada muutujaid subjekti, predikaadi ja objekti positsioonides.

Päring tagastab sellised muutujaväärtused, mis näidistesse asendamisel võivad anda tulemuseks küsitava RDF-i graafiku alamgraafiku (selle kolmikute alamhulga). Samanimelistel muutujatel kolmikute erinevates valimites peavad olema samad väärtused.

Näiteks, võttes arvesse ülaltoodud seitsme RDFS-aksioomi komplekti, tagastatakse järgmine päring rdfs:domain и rdfs:range väärtustena ?s и ?p vastavalt:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Väärib märkimist, et SPARQL on deklaratiivne ega ole graafiku läbimise kirjeldamise keel (mõned RDF-i hoidlad pakuvad aga võimalusi päringu täitmisplaani kohandamiseks). Seetõttu ei saa SPARQL-is lahendada mõningaid standardseid graafikuülesandeid, näiteks lühima tee leidmist, sealhulgas kinnisvarateed (aga jällegi pakuvad üksikud RDF-i hoidlad nende probleemide lahendamiseks spetsiaalseid laiendusi).

SPARQL ei jaga maailma avatuse eeldust ja järgib "eitamine kui ebaõnnestumine" lähenemisviisi, milles võimalik kujundused nagu FILTER NOT EXISTS {…}. Andmete levitamist võetakse arvesse mehhanismi abil liitpäringud.

SPARQL-i pääsupunktil – RDF-mäluseadmel, mis suudab töödelda SPARQL-i päringuid – pole teisest etapist otseseid analooge (vt selle lõigu algust). Seda saab võrrelda andmebaasiga, mille sisu põhjal loodi HTML-lehed, kuid need on väljastpoolt ligipääsetavad. SPARQL-i pöörduspunkt on analoogsem kolmanda etapi API-pääsupunktiga, kuid sellel on kaks peamist erinevust. Esiteks on võimalik ühendada mitu “aatomi” päringut üheks (mida peetakse GraphQL-i võtmeomaduseks) ja teiseks on selline API täielikult isedokumenteeruv (mida püüdis HATEOAS saavutada).

Poleemiline märkus

RDF on viis andmete avaldamiseks veebis, seega tuleks RDF-i salvestamist pidada dokumendi DBMS-iks. Tõsi, kuna RDF on graafik, mitte puu, osutusid needki graafikupõhiseks. Hämmastav, et see üldse õnnestus. Kes oleks võinud arvata, et leidub nutikaid inimesi, kes tühjad sõlmed rakendavad. Codd on siin see ei õnnestunud.

RDF-i andmetele juurdepääsu korraldamiseks on ka vähem täisfunktsionaalseid viise, näiteks Lingitud andmefragmendid (LDF) ja Lingitud andmeplatvorm (LDP).

ÖÖKULL

ÖÖKULL (Web Ontology Language) - formalism teadmiste esitamiseks, kirjeldusloogika süntaktiline versioon Semantiline veeb ja lingitud andmed. Parandused ja täiendused (kõikjal allpool on õigem öelda OWL 2, OWL esimene versioon põhines Semantiline veeb ja lingitud andmed. Parandused ja täiendused).

Kirjeldava loogika mõisted OWL-is vastavad klassidele, rollid vastavad omadustele, indiviidid säilitavad oma varasema nime. Aksioome nimetatakse ka aksioomideks.

Näiteks nn Manchesteri süntaks OWL-i märgistuse jaoks meile juba tuntud aksioom Semantiline veeb ja lingitud andmed. Parandused ja täiendused kirjutatakse nii:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

OWL-i kirjutamiseks on ka teisi süntakse, nt funktsionaalne süntaks, mida kasutatakse ametlikus spetsifikatsioonis ja OWL/XML. Lisaks saab OWL-i järjestada abstraktseks RDF-i süntaksiks ja edasi - mis tahes konkreetses süntaksis.

OWL-il on RDF-iga kahekordne suhe. Ühest küljest võib seda pidada omamoodi sõnaraamatuks, mis laiendab RDFS-i. Teisest küljest on see võimsam formalism, mille jaoks RDF on lihtsalt serialiseerimisvorming. Kõiki elementaarseid OWL-i konstruktsioone ei saa kirjutada ühe RDF-kolmiku abil.

Olenevalt sellest, millist OWL-i konstruktsioonide alamhulka on lubatud kasutada, räägitakse nn OWL profiilid. Standardiseeritud ja kuulsaimad on OWL EL, OWL RL ja OWL QL. Profiili valik mõjutab tüüpiliste probleemide arvutuslikku keerukust. OWL-i konstruktsioonide täielik komplekt, mis vastab Semantiline veeb ja lingitud andmed. Parandused ja täiendused, nimega OWL DL. Mõnikord räägitakse ka OWL Fullist, milles OWL-i konstruktsioone on lubatud kasutada RDF-ile omase täieliku vabadusega, ilma semantiliste ja arvutuslike piiranguteta. Semantiline veeb ja lingitud andmed. Parandused ja täiendused. Näiteks võib miski olla nii klass kui ka omadus. OWL Full on otsustamatu.

OWL-i tagajärgede seostamise põhiprintsiibid on avatud maailma eelduse omaksvõtt. OWA) ja unikaalsete nimede eelduse tagasilükkamine (unikaalse nime oletus, ONE). Allpool näeme, kuhu need põhimõtted võivad viia, ja tutvustame mõningaid OWL-i konstruktsioone.

Olgu ontoloogial järgmine fragment (Manchesteri süntaksis):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Kas öeldust järeldub, et Johnil on palju lapsi? UNA tagasilükkamine sunnib järeldusmootorit sellele küsimusele eitavalt vastama, kuna Alice ja Bob võivad olla sama isik. Selleks, et toimuks järgmine, on vaja lisada järgmine aksioom:

DifferentIndividuals: Alice, Bob, Carol, John

Olgu nüüd ontoloogiafragmendil järgmine kuju (Johannesel on palju lapsi, kuid tal on ainult kaks last):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Kas see ontoloogia on vastuoluline (mida võib tõlgendada kui tõendit kehtetute andmete kohta)? OWA aktsepteerimine paneb järeldusmootori reageerima eitavalt: "kusagil mujal" (teises ontoloogias) võib vabalt öelda, et Carol on ka Johni laps.

Selle võimaluse välistamiseks lisame Johni kohta uue fakti:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Teiste laste ilmumise välistamiseks oletame, et kõik vara väärtused "lapse sünniks" on inimesed, keda meil on ainult neli:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Nüüd muutub ontoloogia vastuoluliseks, mida järeldusmootor ei jäta teatamata. Viimase aksioomiga oleme teatud mõttes maailma “sulgenud” ja märkame, kuidas on välistatud võimalus, et John on tema enda laps.

Ettevõtteandmete linkimine

Lingitud andmete kogum lähenemisviise ja tehnoloogiaid oli algselt mõeldud andmete avaldamiseks veebis. Nende kasutamine ettevõttesiseses keskkonnas seisab silmitsi mitmete raskustega.

Näiteks suletud ettevõttekeskkonnas on OWA omaksvõtmisel ja UNA tagasilükkamisel põhineva OWL-i deduktiivne jõud, mis on tingitud veebi avatud ja hajutatud olemusest, liiga nõrk. Ja siin on võimalikud järgmised lahendused.

  • OWL-i varustamine semantikaga, mis tähendab OWA-st loobumist ja UNA kasutuselevõttu, vastava väljundmootori rakendamist. - Seda teed mööda on tulemas Stardog RDF-i salvestusruum.
  • OWL-i deduktiivsetest võimalustest loobumine reeglimootorite kasuks. — Stardog toetab SWRL; Jena ja GraphDB pakkumine oma keeled reeglid
  • OWL-i deduktiivsetest võimalustest keeldumine, ühe või teise RDFS-i lähedase alamhulga kasutamine modelleerimiseks. - Vaadake selle kohta rohkem allpool.

Teine probleem on suurem tähelepanu, mis ettevõtete maailmas võib olla andmekvaliteedi probleemidele ja andmete valideerimise tööriistade puudumine lingitud andmete virnas. Väljundid on siin järgmised.

  • Jällegi kasutage suletud maailma semantika ja kordumatute nimedega OWL-i konstruktsioonide valideerimiseks, kui sobiv järeldusmootor on saadaval.
  • Kasutama SHACL, standardiseeritud pärast semantilise veebikihi koogi kihtide loendi parandamist (samas saab seda kasutada ka reeglimootorina) või ShEx.
  • Mõistes, et kõik tehakse lõpuks SPARQL-i päringutega, luues nende abil oma lihtsa andmete valideerimismehhanismi.

Kuid isegi deduktiivsete võimaluste ja valideerimistööriistade täielik tagasilükkamine jätab lingitud andmete virna konkurentsist välja ülesannete puhul, mis on maastikult sarnased avatud ja hajutatud veebiga – andmete integreerimise ülesannete puhul.

Kuidas on lood tavalise ettevõtte infosüsteemiga?

See on võimalik, kuid loomulikult peaksite teadma, milliseid probleeme vastavad tehnoloogiad peavad lahendama. Kirjeldan siin arenduses osalejate tüüpilist reaktsiooni, et näidata, milline see tehnoloogiapakk välja näeb tavapärase IT vaatevinklist. Meenutab mulle veidi tähendamissõna elevandist:

  • Ärianalüütik: RDF on midagi otse salvestatud loogilise mudeli sarnast.
  • Süsteemianalüütik: RDF on nagu EAV, ainult hunniku indekseid ja mugava päringukeelega.
  • Разработчик: noh, see kõik on rikkaliku mudeli ja madala koodi kontseptsioonide vaimus, luges hiljuti selle kohta.
  • Projektijuht: jah, see on sama virna kokku varisemine!

Praktika näitab, et pinu kasutatakse kõige sagedamini andmete jaotamise ja heterogeensusega seotud ülesannetes, näiteks MDM (Master Data Management) või DWH (Data Warehouse) klassi süsteemide ehitamisel. Selliseid probleeme esineb igas tööstusharus.

Valdkonnaspetsiifiliste rakenduste osas on lingitud andmete tehnoloogiad praegu kõige populaarsemad järgmistes tööstusharudes.

  • biomeditsiinilised tehnoloogiad (kus nende populaarsus näib olevat seotud valdkonna keerukusega);

praegune

"Keemispunktis" toimus hiljuti "Riikliku meditsiiniteadmiste baasi" ühingu korraldatud konverents "Ontoloogiate kombineerimine. Teooriast praktilise rakenduseni'.

  • keerukate toodete tootmine ja käitamine (suur masinaehitus, nafta- ja gaasitootmine; enamasti räägime standardsest ISO 15926);

praegune

Ka siin on põhjuseks ainevaldkonna keerukus, kui näiteks ülesvoolu etapis, kui räägime nafta- ja gaasitööstusest, nõuab lihtne raamatupidamine mõningaid CAD-funktsioone.

2008. aastal toimus Chevroni korraldatud esinduslik paigaldusüritus konverents.

Lõpuks tundus ISO 15926 nafta- ja gaasitööstusele pisut raske (ja leidis võib-olla suuremat rakendust masinaehituses). Ainult Statoil (Equinor) sattus selle peale põhjalikult, Norras tervenisti ökosüsteem. Teised üritavad oma asja ajada. Näiteks kavatseb kodumaine energeetikaministeerium kuulujuttude kohaselt luua "kütuse- ja energiakompleksi kontseptuaalse ontoloogilise mudeli", mis on ilmselt sarnane loodud elektrienergiatööstuse jaoks.

  • finantsorganisatsioonid (isegi XBRL-i võib pidada omamoodi SDMX-i ja RDF Data Cube ontoloogia hübriidiks);

praegune

Aasta alguses saatis LinkedIn autorile aktiivselt spämmi vabade töökohtadega peaaegu kõigist finantstööstuse hiiglastest, keda ta tunneb telesarjast “Force Majeure”: Goldman Sachs, JPMorgan Chase ja/või Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Ilmselt otsisid kõik kedagi, kellele saaks saata Teadmiste graafiku konverents. Päris paljudel õnnestus leida: finantsorganisatsioonid võtsid kõik esimese päeva hommikul.

HeadHunteris avastas ainult Sberbank midagi huvitavat; see oli "EAV-salvestus koos RDF-i sarnase andmemudeliga".

Tõenäoliselt on kodumaiste ja lääne finantsasutuste armastuse erinevus vastavate tehnoloogiate vastu tingitud viimaste tegevuse rahvusvahelisest iseloomust. Ilmselt nõuab riigipiirideülene lõimumine kvalitatiivselt erinevaid organisatsioonilisi ja tehnilisi lahendusi.

  • küsimuste-vastuste süsteemid kommertsrakendustega (IBM Watson, Apple Siri, Google Knowledge Graph);

praegune

Muide, Siri looja Thomas Gruber on ontoloogia (IT-mõistes) kui "kontseptualiseerimisspetsifikatsiooni" definitsiooni autor. Minu arvates ei muuda selles määratluses sõnade ümberpaigutamine selle tähendust, mis võib-olla viitab sellele, et seda pole.

  • struktureeritud andmete avaldamine (suurema põhjendusega võib selle seostada lingitud avaandmetega).

praegune

Lingitud andmete suured fännid on nn GLAM: galeriid, raamatukogud, arhiivid ja muuseumid. Piisab, kui öelda, et Kongressi raamatukogu propageerib MARC21 asendamist BIBRAAMMis annab aluse bibliograafilise kirjelduse tulevikule ja loomulikult RDF-i baasil.

Tihti tuuakse Wikidatat kui näidet edukast projektist lingitud avaandmete valdkonnas – omamoodi masinloetav Vikipeedia versioon, mille sisu, erinevalt DBPediast, ei genereerita artiklite infokastidest importimise teel, vaid on loodud enam-vähem käsitsi (ja saab hiljem samade infokastide teabeallikaks).

Samuti soovitame teil seda kontrollida nimekiri Stardogi RDF-salvestusruumi kasutajad Stardogi veebisaidil jaotises „Kliendid”.

Olgu kuidas on, Gartneris Hüpe tsükkel arenevatele tehnoloogiatele 2016 "Ettevõtete taksonoomia ja ontoloogia juhtimine" asetatakse keset laskumist pettumuse orgu väljavaatega jõuda "tootlikkuse platoole" mitte varem kui 10 aasta pärast.

Ettevõtteandmete ühendamine

Prognoosid, prognoosid, prognoosid...

Ajaloolisest huvist lähtudes olen allpool koostanud Gartneri prognoosid erinevate aastate kohta meile huvipakkuvate tehnoloogiate kohta.

Aasta Технология Aruanne Asukoht Aastaid platoole
2001 Semantiline veeb Arenevad tehnoloogiad Innovatsiooni käivitaja 5-10
2006 Ettevõtte semantiline veeb Arenevad tehnoloogiad Ülepuhutud ootuste tipp 5-10
2012 Semantiline veeb Big andmed Ülepuhutud ootuste tipp > 10
2015 Lingitud andmed Täiustatud analüütika ja andmeteadus Pettumuse küna 5-10
2016 Ettevõtte ontoloogia juhtimine Arenevad tehnoloogiad Pettumuse küna > 10
2018 Teadmusgraafikud Arenevad tehnoloogiad Innovatsiooni käivitaja 5-10

Siiski juba sisse "Hype Cycle..." 2018 on ilmnenud veel üks tõusutrend – teadmiste graafikud. Toimus teatav reinkarnatsioon: graafilised DBMS-id, millele osutusid kasutajate tähelepanu ja arendajate jõupingutused, esimeste taotluste ja viimaste harjumuste mõjul, hakkasid kontuure ja positsioneerimist võtma. eelkäija konkurentidest.

Peaaegu iga graafik DBMS kuulutab end nüüd sobivaks platvormiks ettevõtte "teadmiste graafiku" koostamiseks ("lingitud andmed" asendatakse mõnikord "ühendatud andmetega"), kuid kui õigustatud on sellised väited?

Graafikuandmebaasid on endiselt asemantilised; graafilise DBMS-i andmed on endiselt samad. Stringi identifikaatorid URI-de asemel muudavad kahe graafilise DBMS-i integreerimise endiselt integreerimisülesandeks, samas kui kahe RDF-salve integreerimine taandub sageli lihtsalt kahe RDF-graafiku ühendamisele. Teiseks asemantilisuse aspektiks on LPG graafikumudeli mitterefleksiivsus, mis muudab metaandmete haldamise sama platvormi abil keeruliseks.

Lõpuks ei ole graafiku DBMS-idel järeldusmootoreid ega reeglimootoreid. Selliste mootorite tulemusi saab taasesitada päringute keerukamaks muutmisega, kuid see on võimalik isegi SQL-is.

Kuid juhtivatel RDF-salvestussüsteemidel pole LPG-mudeli toetamisega raskusi. Kõige kindlamaks lähenemisviisiks peetakse seda, mida Blazegraphis korraga välja pakuti: RDF* mudelit, mis ühendab RDF-i ja LPG-d.

Rohkem

Lisateavet LPG-mudeli RDF-salvestustoe kohta saate lugeda eelmisest Habré artiklist: "Mis toimub praegu RDF-i salvestusega". Loodan, et ühel päeval kirjutatakse teadmusgraafikute ja andmekandjate kohta eraldi artikkel. Viimane osa, nagu on arusaadav, kirjutati kiirustades, kuid isegi kuus kuud hiljem pole nende mõistetega kõik palju selgem.

Kirjandus

  1. Halpin, H., Monnin, A. (toim.) (2014). Filosoofiline tehnika: veebifilosoofia poole
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2. väljaanne)
  3. Staab, S., Studer, R. (toim.) (2009) Ontoloogiate käsiraamat (2. väljaanne)
  4. Wood, D. (toim.). (2011) Ettevõtteandmete linkimine
  5. Keet, M. (2018) Sissejuhatus ontoloogiatehnikasse

Allikas: www.habr.com

Lisa kommentaar