Semanttinen verkko ja linkitetyt tiedot. Korjauksia ja lisäyksiä

Haluaisin esitellä yleisölle katkelman tästä äskettäin julkaistusta kirjasta:

Yrityksen ontologinen mallinnus: menetelmät ja tekniikat [Teksti]: monografia / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak ja muut; päätoimittaja S.V. Gorshkov]. - Jekaterinburg: Ural University Publishing House, 2019. - 234 s.: ill., taulukko; 20 cm - Kirjoittaja. merkitty takatisaan. Kanssa. — Bibliografia ch:n lopussa. — ISBN 978-5-7996-2580-1: 200 kopiota.

Tämän fragmentin lähettämisellä Habreen on neljä tarkoitusta:

  • On epätodennäköistä, että kukaan voi pitää tätä kirjaa käsissään, ellei hän ole arvostetun asiakas SergeIndex; Ei todellakaan ole myynnissä.
  • Tekstiin on tehty korjauksia (ei korostettu alla) ja lisäyksiä, jotka eivät ole kovin yhteensopivia painetun monografian muotoon: ajankohtaisia ​​huomautuksia (spoilerien alla) ja hyperlinkkejä.
  • Haluan kerätä kysymyksiä ja kommentteja, jotta ne voidaan ottaa huomioon sisällytettäessä tämä teksti tarkistetussa muodossa muihin julkaisuihin.
  • Monet semanttisen webin ja linkitetyn datan kannattajat uskovat edelleen, että heidän piirinsä on niin kapea, lähinnä siksi, että suurelle yleisölle ei ole vielä kunnolla selitetty, kuinka hienoa on olla semanttisen Webin ja linkitetyn datan kannattaja. Fragmentin kirjoittaja, vaikka hän kuuluu tähän piiriin, ei ole tätä mieltä, mutta katsoo kuitenkin olevansa velvollinen tekemään uuden yrityksen.

Niin,

Semanttinen verkko

Internetin kehitys voidaan esittää seuraavasti (tai puhua sen segmenteistä, jotka muodostuivat alla esitetyssä järjestyksessä):

  1. Asiakirjat Internetissä. Tärkeimmät tekniikat - Gopher, FTP jne.
    Internet on globaali verkosto paikallisten resurssien vaihtoon.
  2. Internet-asiakirjat. Keskeisiä teknologioita ovat HTML ja HTTP.
    Altistuvien resurssien luonne ottaa huomioon niiden siirtovälineen ominaisuudet.
  3. Internet-tiedot. Avainteknologiat - REST ja SOAP API, XHR jne.
    Internet-sovellusten aikakaudella ei vain ihmisistä tule resurssien kuluttajia.
  4. Internet-tiedot. Tärkeimmät teknologiat ovat linkitetty data -teknologiaa.
    Tämä neljäs vaihe, jonka Berners-Lee, toisen ydinteknologian luoja ja W3C:n johtaja, ennusti, on nimeltään Semantic Web; Linked Data -tekniikat on suunniteltu tekemään verkossa olevista tiedoista paitsi koneellisesti luettavaa, myös "koneisesti ymmärrettävää".

Seuraavasta lukija ymmärtää toisen ja neljännen vaiheen avainkäsitteiden vastaavuuden:

  • URL-osoitteet ovat analogisia URI:iden kanssa,
  • HTML:n analogi on RDF,
  • HTML-hyperlinkit ovat samanlaisia ​​kuin RDF-dokumenttien URI-esiintymät.

Semanttinen verkko on pikemminkin systeeminen visio Internetin tulevaisuudesta kuin spontaani tai lobbattu trendi, vaikka se voi ottaa nämäkin huomioon. Esimerkiksi Web 2.0:n tärkeänä ominaisuutena pidetään "käyttäjien luomaa sisältöä". Erityisesti W3C:n suositusta kehotetaan ottamaan huomioon "Web Annotation Ontology"ja sellainen yritys kuin Vankka.

Onko semanttinen verkko kuollut?

Jos kieltäydyt epärealistisia odotuksiaTilanne semanttisen verkon kanssa on suunnilleen sama kuin kommunismissa kehittyneen sosialismin aikoina (ja noudatetaanko uskollisuutta Iljitšin ehdollisille käskyille, päättäköön jokainen itse). Hakukoneet aika onnistunut pakottaa verkkosivustot käyttämään RDFa:ta ja JSON-LD:tä ja itse käyttämään alla kuvattuihin teknologioihin liittyviä tekniikoita (Google Knowledge Graph, Bing Knowledge Graph).

Yleisesti ottaen kirjoittaja ei voi sanoa, mikä estää laajemman leviämisen, mutta hän voi puhua oman kokemuksensa perusteella. SW-hyökkäyksen olosuhteissa on ongelmia, jotka voitaisiin ratkaista "pakkauksesta", vaikka ne eivät olekaan kovin yleisiä. Tämän seurauksena näiden tehtävien edessä olevilla ei ole keinoja pakottaa niitä vastaan, jotka pystyvät tarjoamaan ratkaisun, kun taas jälkimmäisten itsenäinen ratkaisun tarjoaminen on ristiriidassa heidän liiketoimintamalliensa kanssa. Jatkamme siis HTML:n jäsentämistä ja erilaisten API:iden liimaamista yhteen, toisiamme paskaisemmiksi.

Linked Data -teknologiat ovat kuitenkin levinneet valtavirran Webin ulkopuolelle; Kirja on itse asiassa omistettu näille sovelluksille. Tällä hetkellä Linked Data -yhteisö odottaa näiden tekniikoiden leviävän entisestään Gartnerin tallentamisen (tai julistuksen, kuten haluat) ansiosta trendeistä, kuten esim. Tietokaaviot и Tietokangas. Haluaisin uskoa, että näiden konseptien "polkupyörä"-toteutukset eivät tule menestymään, vaan ne, jotka liittyvät alla käsiteltyihin W3C-standardeihin.

Linkitetyt tiedot

Berners-Lee määritteli linkitetyn datan semanttiseksi webiksi "oikein tehtyksi": joukoksi lähestymistapoja ja teknologioita, joiden avulla se voi saavuttaa lopulliset tavoitteensa. Linked Datan perusperiaatteet Berners-Lee korostettu seuraavat.

Periaate 1. URI:iden käyttäminen kokonaisuuksien nimeämiseen.

URI:t ovat globaaleja entiteettitunnisteita toisin kuin merkintöjen paikalliset merkkijonotunnisteet. Myöhemmin tämä periaate ilmaantui parhaiten Google Knowledge Graphin iskulauseessa "asioita, ei merkkijonoja'.

Periaate 2. URI:iden käyttäminen HTTP-mallissa, jotta niistä voidaan poistaa viittaukset.

URI:hen viittaamalla pitäisi olla mahdollista saada merkitsi tuon merkitsijän taakse (analogia operaattorin nimeen " on tässä selvä).*" C:ssä); tarkemmin, saadakseen jonkinlaisen esityksen tästä merkityksestä - riippuen HTTP-otsikon arvosta Accept:. Ehkä AR/VR-aikakauden myötä itse resurssi on mahdollista hankkia, mutta toistaiseksi se on todennäköisesti RDF-dokumentti, joka on tulosta SPARQL-kyselyn suorittamisesta DESCRIBE.

Periaate 3. W3C-standardien - ensisijaisesti RDF(S) ja SPARQL - käyttö erityisesti URI-viittausten poistamisessa.

Nämä linkitetyn datan teknologiapinon yksittäiset "kerrokset", jotka tunnetaan myös nimellä Semanttinen verkkokerroskakku, kuvataan alla.

Periaate 4. Viittausten käyttäminen muihin URI:ihin kokonaisuuksia kuvattaessa.

RDF antaa sinun rajoittua resurssin sanalliseen kuvaukseen luonnollisella kielellä, ja neljäs periaate kehottaa olemaan tekemättä tätä. Jos ensimmäistä periaatetta noudatetaan yleisesti, resurssia kuvattaessa on mahdollista viitata muihin, myös "vieraisiin", minkä vuoksi dataa kutsutaan linkitetyksi. Itse asiassa on lähes väistämätöntä käyttää RDFS-sanastossa nimettyjä URI:ita.

RDF

RDF (Resource Description Framework) on formalismi toisiinsa liittyvien entiteettien kuvaamiseen.

"Subjekti-predikaatti-objekti" -tyyppisiä lauseita, joita kutsutaan tripleteiksi, tehdään entiteeteistä ja niiden suhteista. Yksinkertaisimmassa tapauksessa subjekti, predikaatti ja objekti ovat kaikki URI:ita. Sama URI voi olla eri paikoissa eri tripleteissä: olla subjekti, predikaatti ja objekti; Siten tripletit muodostavat eräänlaisen graafin, jota kutsutaan RDF-graafiksi.

Aiheet ja objektit voivat olla paitsi URI:ita, myös ns tyhjiä solmuja, ja esineet voivat myös olla kirjaimellisia. Literaalit ovat esimerkkejä primitiivisistä tyypeistä, jotka koostuvat merkkijonoesityksestä ja tyyppiosoituksesta.

Esimerkkejä literaalien kirjoittamisesta (Turtle-syntaksissa, lisää siitä alla): "5.0"^^xsd:float и "five"^^xsd:string. Literaalit tyypin kanssa rdf:langString voidaan varustaa myös kielitunnisteella; Turtlessa se kirjoitetaan näin: "five"@en и "пять"@ru.

Tyhjät solmut ovat "anonyymejä" resursseja ilman globaaleja tunnisteita, joista voidaan kuitenkin antaa lausuntoja; eräänlaisia ​​eksistentiaalisia muuttujia.

Joten (tämä on itse asiassa koko RDF:n pointti):

  • aihe on URI tai tyhjä solmu,
  • predikaatti on URI,
  • objekti on URI, tyhjä solmu tai literaali.

Miksi predikaatit eivät voi olla tyhjiä solmuja?

Todennäköinen syy on halu epämuodollisesti ymmärtää ja kääntää tripletti ensimmäisen asteen predikaattilogiikan kielelle s p o kuin jotain sellaista Semanttinen verkko ja linkitetyt tiedot. Korjauksia ja lisäyksiäMissä Semanttinen verkko ja linkitetyt tiedot. Korjauksia ja lisäyksiä - predikaatti, Semanttinen verkko ja linkitetyt tiedot. Korjauksia ja lisäyksiä и Semanttinen verkko ja linkitetyt tiedot. Korjauksia ja lisäyksiä - vakiot. Tämän ymmärryksen jälkiä on asiakirjassa "LBase: Semantics for Languages ​​of the Semantic Web", jolla on W3C-työryhmän muistiinpanon tila. Tällä ymmärryksellä kolmos s p []Missä [] - tyhjä solmu, käännetään nimellä Semanttinen verkko ja linkitetyt tiedot. Korjauksia ja lisäyksiäMissä Semanttinen verkko ja linkitetyt tiedot. Korjauksia ja lisäyksiä - muuttuja, mutta miten sitten käännetään s [] o? Asiakirja W3C-suosituksen tilassa "RDF 1.1 Semantiikka” tarjoaa toisen käännösmenetelmän, mutta ei silti ota huomioon mahdollisuutta, että predikaatit ovat tyhjiä solmuja.

Kuitenkin Manu Sporni sallittu.

RDF on abstrakti malli. RDF voidaan kirjoittaa (serialisoida) eri syntakseilla: RDF/XML, Kilpikonna (ihmisen luettavissa), JSON-LD-, HDT (binääri).

Sama RDF voidaan serialisoida RDF/XML:ksi eri tavoilla, joten esimerkiksi tuloksena olevaa XML:ää ei ole järkevää validoida XSD:llä tai yrittää poimia tietoja XPathilla. Samoin JSON-LD ei todennäköisesti tyydytä keskimääräisen Javascript-kehittäjän halua työskennellä RDF:n kanssa Javascriptin piste- ja hakasulkemerkintöjen avulla (vaikka JSON-LD liikkuu tähän suuntaan tarjoamalla mekanismin kehystys).

Useimmat syntaksit tarjoavat tapoja lyhentää pitkiä URI:ita. Esimerkiksi mainos @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> Turtle antaa sinun sitten kirjoittaa sen sijaan <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> vain rdf:type.

RDFS

RDFS (RDF Schema) - perusmallinnussanasto, joka esittelee ominaisuuden ja luokan käsitteet sekä ominaisuudet, kuten rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. RDFS-sanakirjaa käyttämällä voidaan kirjoittaa esimerkiksi seuraavat kelvolliset lausekkeet:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS on kuvaus- ja mallisanasto, mutta se ei ole rajoituskieli (vaikka virallinen määritys ja lähtee tällaisen käytön mahdollisuus). Sanaa "skeema" ei tule ymmärtää samassa merkityksessä kuin ilmaisua "XML Schema". Esimerkiksi, :author rdfs:range foaf:Person tarkoittaa että rdf:type kaikki omaisuuden arvot :author - foaf:Person, mutta se ei tarkoita, että tämä pitäisi sanoa etukäteen.

SPARQL

SPARQL (SPARQL-protokolla ja RDF-kyselykieli) - kieli RDF-tietojen kyselyyn. Yksinkertaisessa tapauksessa SPARQL-kysely on joukko näytteitä, joita vastaan ​​kyselyn kohteena olevan graafin tripletit täsmäytetään. Mallit voivat sisältää muuttujia subjektin, predikaatin ja objektin sijainnissa.

Kysely palauttaa sellaiset muuttujaarvot, jotka substituoituna näytteisiin voivat johtaa kyselyn kohteena olevan RDF-graafin (sen triplettien osajoukon) aligraafiin. Samannimisillä muuttujilla eri näytteissä triplettejä on oltava samat arvot.

Esimerkiksi, kun otetaan huomioon yllä oleva seitsemän RDFS-aksiooman joukko, seuraava kysely palauttaa rdfs:domain и rdfs:range arvoina ?s и ?p vastaavasti:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

On syytä huomata, että SPARQL on deklaratiivinen, eikä se ole kieli kuvaamaan graafin läpikulkua (jotkin RDF-varastot tarjoavat kuitenkin tapoja säätää kyselyn suoritussuunnitelmaa). Siksi joitain tavallisia kuvaajaongelmia, esimerkiksi lyhimmän polun löytämistä, ei voida ratkaista SPARQL:ssa, mukaan lukien omaisuuden polut (mutta jälleen kerran yksittäiset RDF-varastot tarjoavat erityisiä laajennuksia näiden ongelmien ratkaisemiseksi).

SPARQL ei jaa olettamaa maailman avoimuudesta ja noudattaa "negaation as error" -lähestymistapaa, jossa mahdollista malleja, kuten FILTER NOT EXISTS {…}. Tietojen jakelu otetaan huomioon mekanismin avulla liitetyt kyselyt.

SPARQL-tukipisteellä - RDF-tallennuslaitteella, joka pystyy käsittelemään SPARQL-kyselyitä - ei ole suoria analogeja toisesta vaiheesta (katso tämän kappaleen alku). Sitä voidaan verrata tietokantaan, jonka sisällön perusteella luotiin HTML-sivuja, mutta jotka ovat saatavilla ulkopuolelta. SPARQL-tukiasema on analogisempi kolmannen vaiheen API-tukipisteen kanssa, mutta kahdella pääerolla. Ensinnäkin on mahdollista yhdistää useita ”atomikyselyitä” yhdeksi (mitä pidetään GraphQL:n keskeisenä ominaisuutena), ja toiseksi tällainen API on täysin itsedokumentoiva (mitä HATEOAS yritti saavuttaa).

Poleeminen huomautus

RDF on tapa julkaista tietoa verkossa, joten RDF-tallennusta tulee pitää asiakirjan DBMS:nä. Totta, koska RDF on graafi eikä puu, ne osoittautuivat myös graafipohjaisiksi. On hämmästyttävää, että se onnistui ollenkaan. Kuka olisi uskonut, että löytyy älykkäitä ihmisiä, jotka toteuttaisivat tyhjiä solmuja. Codd on täällä ei onnistunut.

On myös vähemmän monipuolisia tapoja järjestää pääsy RDF-tietoihin, esimerkiksi Linkitetyt datafragmentit (LDF) ja Linkitetty tietoalusta (LDP).

OWL

OWL (Web Ontology Language) - formalismi tiedon esittämiseen, kuvauslogiikan syntaktinen versio Semanttinen verkko ja linkitetyt tiedot. Korjauksia ja lisäyksiä (kaikkialla alla on oikeampaa sanoa OWL 2, OWL:n ensimmäinen versio perustui Semanttinen verkko ja linkitetyt tiedot. Korjauksia ja lisäyksiä).

OWL:n kuvailevan logiikan käsitteet vastaavat luokkia, roolit vastaavat ominaisuuksia, yksilöt säilyttävät entisen nimensä. Aksioomia kutsutaan myös aksioomiksi.

Esimerkiksi ns Manchesterin syntaksi OWL-merkinnälle meille jo tuttu aksiooma Semanttinen verkko ja linkitetyt tiedot. Korjauksia ja lisäyksiä kirjoitetaan näin:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

OWL:n kirjoittamiseen on muitakin syntakseja, kuten toiminnallinen syntaksi, jota käytetään virallisessa eritelmässä, ja OWL/XML. Lisäksi OWL voidaan sarjottaa abstraktiin RDF-syntaksiin ja edelleen - missä tahansa tietyssä syntaksissa.

OWL:llä on kaksoissuhde RDF:ään. Toisaalta sitä voidaan pitää eräänlaisena RDFS:ää laajentavana sanakirjana. Toisaalta se on tehokkaampi formalismi, jolle RDF on vain serialisointimuoto. Kaikkia OWL-elementtejä ei voida kirjoittaa käyttämällä yhtä RDF-triplettiä.

Riippuen siitä, mitä OWL-konstruktien osajoukkoa saa käyttää, ne puhuvat ns OWL profiilit. Standardoidut ja tunnetuimmat ovat OWL EL, OWL RL ja OWL QL. Profiilin valinta vaikuttaa tyypillisten ongelmien laskennalliseen monimutkaisuuteen. Täydellinen joukko OWL-konstrukteja, jotka vastaavat Semanttinen verkko ja linkitetyt tiedot. Korjauksia ja lisäyksiä, nimeltään OWL DL. Joskus puhutaan myös OWL Full:sta, jossa OWL-konstruktioita saa käyttää RDF:lle ominaisella täydellä vapaudella ilman semanttisia ja laskennallisia rajoituksia. Semanttinen verkko ja linkitetyt tiedot. Korjauksia ja lisäyksiä. Esimerkiksi jokin voi olla sekä luokka että ominaisuus. OWL Full on ratkaisematon.

Keskeiset periaatteet seurausten liittämiseksi OWL:ssä ovat avoimen maailman oletuksen omaksuminen. OWA) ja ainutlaatuisia nimiä koskevan olettaman hylkääminen (yksilöllisen nimen oletus, A). Alla näemme mihin nämä periaatteet voivat johtaa ja esittelemme joitain OWL-rakenteita.

Olkoon ontologian sisällä seuraava fragmentti (Manchester-syntaksissa):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Seuraako sanotusta, että Johnilla on monia lapsia? UNA:n kieltäytyminen pakottaa päättelymoottorin vastaamaan tähän kysymykseen kieltävästi, koska Alice ja Bob voivat hyvinkin olla sama henkilö. Jotta seuraava tapahtuisi, on tarpeen lisätä seuraava aksiooma:

DifferentIndividuals: Alice, Bob, Carol, John

Olkoon nyt ontologiafragmentilla seuraava muoto (Johanneksen julistetaan olevan monta lasta, mutta hänellä on vain kaksi lasta):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Onko tämä ontologia epäjohdonmukainen (joka voidaan tulkita todisteeksi virheellisestä tiedosta)? OWA:n hyväksyminen saa päättelymoottorin reagoimaan kielteisesti: "jossain" muualla (toisessa ontologiassa) voidaan hyvin sanoa, että Carol on myös Johnin lapsi.

Tämän mahdollisuuden poissulkemiseksi lisätään uusi tosiasia Johnista:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Muiden lasten ulkonäön poissulkemiseksi sanotaan, että kaikki "lapsen saamisen" omaisuuden arvot ovat ihmisiä, joista meillä on vain neljä:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Nyt ontologiasta tulee ristiriitaista, jota päättelykone ei jää raportoimatta. Viimeisellä aksioomalla olemme tavallaan "sulkeneet" maailman ja huomaamme, kuinka mahdollisuus, että John on hänen oma lapsensa, suljetaan pois.

Yritystietojen yhdistäminen

Linked Data -joukko lähestymistapoja ja teknologioita oli alun perin tarkoitettu tietojen julkaisemiseen verkossa. Niiden käyttö yrityksen sisäisessä ympäristössä kohtaa useita vaikeuksia.

Esimerkiksi suljetussa yritysympäristössä OWL:n deduktiivinen voima, joka perustuu OWA:n omaksumiseen ja UNA:n hylkäämiseen, päätökset, jotka johtuvat verkon avoimesta ja hajautetusta luonteesta, on liian heikko. Ja tässä seuraavat ratkaisut ovat mahdollisia.

  • OWL:n varustaminen semantiikkalla, mikä tarkoittaa OWA:n hylkäämistä ja UNA:n käyttöönottoa, vastaavan lähtömoottorin toteuttamista. - Tällä tiellä on tulossa Stardog RDF-säilytys.
  • Luopuminen OWL:n deduktiivisista ominaisuuksista sääntömoottoreiden hyväksi. - Stardog tukee SWRL; Jena ja GraphDB tarjoavat oma Kieli (kielet säännöt
  • Kieltäytyminen OWL:n deduktiivisista ominaisuuksista, yhden tai toisen RDFS:n lähellä olevan osajoukon käyttö mallintamiseen. - Katso tästä lisää alta.

Toinen ongelma on se, että yritysmaailma voi keskittyä enemmän tiedon laatuongelmiin ja tietojen validointityökalujen puute linkitetyssä datapinossa. Tulokset tässä ovat seuraavat.

  • Käytä jälleen OWL-rakenteiden validointiin suljetun maailman semantiikkalla ja yksilöllisillä nimillä, jos sopiva päättelykone on saatavilla.
  • Käyttää SHACL, standardoitu sen jälkeen, kun Semantic Web Layer Cake -tasojen luettelo on korjattu (sitä voidaan kuitenkin käyttää myös sääntömoottorina), tai ShEx.
  • Ymmärrät, että kaikki tehdään viime kädessä SPARQL-kyselyillä, ja luot oman yksinkertaisen tietojen validointimekanismin niiden avulla.

Kuitenkin jopa deduktiivisten ominaisuuksien ja validointityökalujen täydellinen hylkääminen jättää linkitetyn datan pinon kilpailun ulkopuolelle tehtävissä, jotka ovat maisemaltaan samanlaisia ​​kuin avoin ja hajautettu verkko - tietojen integrointitehtävissä.

Entä tavallinen yritystietojärjestelmä?

Tämä on mahdollista, mutta sinun tulee tietysti olla tietoinen siitä, mitä ongelmia vastaavien teknologioiden on ratkaistava. Kuvaan tässä kehitystyöntekijöiden tyypillistä reaktiota näyttääkseen miltä tämä teknologiapino näyttää perinteisen IT:n näkökulmasta. Tulee vähän mieleen vertaus norsusta:

  • Liiketoiminnan analyytikko: RDF on jotain suoraan tallennettua loogista mallia.
  • Järjestelmäanalyytikko: RDF on kuin EAV laajennus, vain joukko indeksejä ja kätevä kyselykieli.
  • Kehittäjä: no, tämä kaikki on rikkaan mallin ja matalan koodin käsitteiden hengessä, oli lukemassa äskettäin tästä.
  • Projektipäällikkö: kyllä ​​se on sama kasaamalla pinoa!

Käytäntö osoittaa, että pinoa käytetään useimmiten tiedon jakautumiseen ja heterogeenisyyteen liittyvissä tehtävissä, esimerkiksi rakennettaessa MDM (Master Data Management) tai DWH (Data Warehouse) luokkajärjestelmiä. Tällaisia ​​ongelmia on kaikilla toimialoilla.

Toimialakohtaisten sovellusten osalta Linked Data -tekniikat ovat tällä hetkellä suosituimpia seuraavilla toimialoilla.

  • biolääketieteen teknologiat (jos niiden suosio näyttää liittyvän alan monimutkaisuuteen);

nykyinen

"Keehumispiste" isännöi äskettäin "National Medical Knowledge Base" -yhdistyksen järjestämää konferenssia "Ontologioiden yhdistäminen. Teoriasta käytännön sovellukseen'.

  • monimutkaisten tuotteiden tuotanto ja käyttö (suuri koneenrakennus, öljyn ja kaasun tuotanto; useimmiten puhumme standardista ISO 15926);

nykyinen

Tässäkin syynä on aihealueen monimutkaisuus, kun esimerkiksi alkupään vaiheessa, jos puhutaan öljy- ja kaasuteollisuudesta, yksinkertainen kirjanpito vaatii joitain CAD-toimintoja.

Vuonna 2008 järjestettiin edustava Chevronin järjestämä asennustapahtuma konferenssi.

ISO 15926 vaikutti loppujen lopuksi hieman raskaalta öljy- ja kaasuteollisuudelle (ja löysi ehkä laajemman sovelluksen koneenrakennuksessa). Vain Statoil (Equinor) jäi siihen täysin koukkuun, Norjassa koko ekosysteemi. Muut yrittävät tehdä omia juttujaan. Esimerkiksi huhujen mukaan kotimainen energiaministeriö aikoo luoda "käsitteellisen ontologisen mallin polttoaine- ja energiakompleksista", joka on ilmeisesti samanlainen kuin luotu sähköteollisuudelle.

  • rahoitusorganisaatiot (jopa XBRL:ää voidaan pitää eräänlaisena SDMX:n ja RDF Data Cube -ontologian hybridinä);

nykyinen

Vuoden alussa LinkedIn lähetti aktiivisesti kirjoittajalle avoimia työpaikkoja lähes kaikilta finanssialan jättiläisiltä, ​​jotka hän tuntee TV-sarjasta Force Majeure: Goldman Sachs, JPMorgan Chase ja/tai Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Luultavasti kaikki etsivät henkilöä, jolle he voisivat lähettää Knowledge Graph -konferenssi. Melko moni onnistui löytämään: rahoitusorganisaatiot veivät kaiken ensimmäisen päivän aamuna.

HeadHunterissa vain Sberbank löysi jotain mielenkiintoista; se koski "EAV-tallennustilaa RDF:n kaltaisella tietomallilla".

Todennäköisesti ero rakkauden asteessa kotimaisten ja länsimaisten rahoituslaitosten vastaavia teknologioita kohtaan johtuu viimeksi mainittujen toiminnan ylikansallisuudesta. Ilmeisesti valtioiden rajat ylittävä integraatio vaatii laadullisesti erilaisia ​​organisatorisia ja teknisiä ratkaisuja.

  • kysymys-vastausjärjestelmät kaupallisilla sovelluksilla (IBM Watson, Apple Siri, Google Knowledge Graph);

nykyinen

Muuten, Sirin luoja Thomas Gruber on itse ontologian määritelmän (IT:n merkityksessä) kirjoittaja "käsitteellistämismäärittelynä". Mielestäni sanojen järjestäminen uudelleen tässä määritelmässä ei muuta sen merkitystä, mikä ehkä viittaa siihen, että sitä ei ole olemassa.

  • strukturoidun tiedon julkaiseminen (tämä voidaan perustellusti katsoa linkitetyn avoimen datan ansioksi).

nykyinen

Linked Datan suuria faneja ovat ns. GLAM: Galleriat, Libraries, Arkistot ja Museot. Riittää, kun sanotaan, että Kongressin kirjasto edistää MARC21:n korvaamista BIBFRAMEJoka tarjoaa perustan bibliografisen kuvauksen tulevaisuudelle ja tietysti RDF-pohjainen.

Wikidata mainitaan usein esimerkkinä onnistuneesta linkitetyn avoimen datan alan projektista - eräänlainen koneellisesti luettava versio Wikipediasta, jonka sisältö, toisin kuin DBPedia, ei synny tuomalla artikkelitietolaatikoista, vaan on luotu enemmän tai vähemmän manuaalisesti (ja siitä tulee myöhemmin tietolähde samoihin tietolaatikoihin).

Suosittelemme myös tarkistamaan sen lista Stardog RDF -tallennustilan käyttäjiä Stardogin verkkosivustolla "Asiakkaat" -osiossa.

Oli miten oli, Gartnerissa Hype Cycle for Emerging Technologies 2016 "Enterprise Taxonomy and Ontology Management" sijoitetaan keskelle laskua pettymysten laaksoon, jossa on mahdollisuus saavuttaa "tuottavuustasanne" aikaisintaan 10 vuoden kuluttua.

Yritystietojen yhdistäminen

Ennusteet, ennusteet, ennusteet...

Historiallisesta kiinnostuksesta olen taulukoinut alla Gartnerin ennusteet eri vuosille meitä kiinnostavista teknologioista.

Vuosi Технология Ilmoita Asema Vuosia tasangolle
2001 Semanttinen verkko Kehittyvät teknologiat Innovaatiolaukaisija 5-10
2006 Yrityksen semanttinen verkko Kehittyvät teknologiat Paisuneiden odotusten huippu 5-10
2012 Semanttinen verkko Big Data Paisuneiden odotusten huippu > 10
2015 Linkitetyt tiedot Advanced Analytics and Data Science Pettymyksen kaukalo 5-10
2016 Yrityksen ontologian hallinta Kehittyvät teknologiat Pettymyksen kaukalo > 10
2018 Tietokaaviot Kehittyvät teknologiat Innovaatiolaukaisija 5-10

Kuitenkin jo sisään "Hype Cycle..." 2018 toinen nouseva trendi on ilmaantunut - Knowledge Graphs. Tietty reinkarnaatio tapahtui: graafiset DBMS:t, joihin käyttäjien huomio ja kehittäjien ponnistelut kääntyivät, edellisen pyyntöjen ja jälkimmäisten tottumusten vaikutuksesta alkoivat ottaa ääriviivoja ja paikannusta. edeltäjäkilpailijoistaan.

Melkein jokainen graafinen DBMS ilmoittaa nyt olevansa sopiva alusta yrityksen "tietograafin" rakentamiseen ("linkitetty data" korvataan joskus "yhdistetyllä tiedolla"), mutta kuinka perusteltuja tällaiset väitteet ovat?

Graafitietokannat ovat edelleen asemantisia, graafisen DBMS:n data on edelleen sama tietosiilo. Merkkijonotunnisteet URI:iden sijasta tekevät kahden graafisen DBMS:n integroinnista edelleen integrointitehtävän, kun taas kahden RDF-säilön integrointi on usein yksinkertaisesti kahden RDF-graafin yhdistämistä. Toinen asemantiteetin näkökohta on LPG-graafimallin epäreflexiivisyys, mikä vaikeuttaa metatietojen hallintaa samalla alustalla.

Lopuksi graafisen DBMS:n ei ole päättelykoneita tai sääntömoottoreita. Tällaisten koneiden tulokset voidaan toistaa monimutkaisilla kyselyillä, mutta tämä on mahdollista jopa SQL:ssä.

Johtavilla RDF-tallennusjärjestelmillä ei kuitenkaan ole vaikeuksia tukea nestekaasumallia. Vakaimpana lähestymistapana pidetään sitä, jota Blazegraphissa ehdotettiin kerralla: RDF*-malli, jossa yhdistyvät RDF ja nestekaasu.

lisää

Voit lukea lisää LPG-mallin RDF-tallennustuesta edellisestä Habrén artikkelista: "Mitä RDF-tallennustilalle tapahtuu nyt". Toivon, että jonain päivänä kirjoitetaan erillinen artikkeli Knowledge Graphsista ja Data Fabricista. Viimeinen osa, kuten on helppo ymmärtää, kirjoitettiin kiireessä, mutta edes kuusi kuukautta myöhemmin kaikki ei ole paljon selkeämpää näillä käsitteillä.

Kirjallisuus

  1. Halpin, H., Monnin, A. (toim.) (2014). Filosofinen tekniikka: Kohti verkon filosofiaa
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2. painos)
  3. Staab, S., Studer, R. (toim.) (2009) Ontologioiden käsikirja (2. painos)
  4. Wood, D. (toim.). (2011) Yritystietojen linkittäminen
  5. Keet, M. (2018) Johdatus ontologiatekniikkaan

Lähde: will.com

Lisää kommentti