Semantika Reto kaj Ligitaj Datumoj. Korektoj kaj aldonoj

Mi ŝatus prezenti al la publiko fragmenton de ĉi tiu ĵus eldonita libro:

Ontologia modelado de entrepreno: metodoj kaj teknologioj [Teksto]: monografio / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak kaj aliaj; plenuma redaktoro S.V. Gorŝkov]. - Jekaterinburg: Urala Universitato Eldonejo, 2019. - 234 p.: ill., tablo; 20 cm - Aŭtoro. indikita sur la dorso paruo. Kun. - Bibliografio fine de ĉ. — ISBN 978-5-7996-2580-1: 200 ekzempleroj.

La celo de afiŝado de ĉi tiu fragmento sur Habré estas kvarobla:

  • Estas neverŝajne, ke iu ajn povos teni ĉi tiun libron en siaj manoj, se li ne estas kliento de respektata. SergeIndex; Ĝi certe ne estas vendota.
  • Oni faris korektojn al la teksto (ili ne estas reliefigitaj malsupre) kaj aldonoj ne tre kongruas kun la formato de presita monografio: topikaj notoj (sub spoilers) kaj hiperligiloj.
  • Mi volas kolekti demandojn kaj komentojn, por konsideri ilin kiam oni enmetas ĉi tiun tekston en reviziita formo en iuj aliaj publikaĵoj.
  • Multaj adeptoj de Semantika Reto kaj Ligitaj Datumoj ankoraŭ kredas, ke ilia rondo estas tiel malvasta, ĉefe ĉar la ĝenerala publiko ankoraŭ ne estis ĝuste klarigita kiom bonege estas esti adepto de la Semantika Reto kaj Ligitaj Datumoj. La aŭtoro de la fragmento, kvankam li apartenas al ĉi tiu rondo, ne tenas ĉi tiun opinion, sed, tamen, konsideras sin devigata fari alian provon.

Kaj tiel,

Semantika Reto

La evoluo de Interreto povas esti reprezentita jene (aŭ paroli pri ĝiaj segmentoj kiuj estis formitaj en la sinsekvo indikita sube):

  1. Dokumentoj en la Interreto. Ŝlosilteknologioj - Gopher, FTP, ktp.
    Interreto estas tutmonda reto por interŝanĝo de lokaj rimedoj.
  2. Interretaj dokumentoj. Ŝlosilaj teknologioj estas HTML kaj HTTP.
    La naturo de la eksponitaj resursoj enkalkulas la karakterizaĵojn de ilia dissenda medio.
  3. Interretaj datumoj. Ŝlosilteknologioj - REST kaj SOAP API, XHR, ktp.
    En la epoko de interretaj aplikoj, ne nur homoj fariĝas konsumantoj de rimedoj.
  4. Interretaj datumoj. Ŝlosilaj teknologioj estas Linked Data-teknologioj.
    Ĉi tiu kvara etapo, antaŭvidita de Berners-Lee, la kreinto de la duaj kernaj teknologioj kaj direktoro de la W3C, nomiĝas Semantika Reto; Ligitaj Datumoj-teknologioj estas dizajnitaj por igi datumojn en la reto ne nur maŝinlegeblaj, sed ankaŭ "maŝin-kompreneblaj".

El kio sekvas, la leganto komprenos la korespondadon inter la ŝlosilaj konceptoj de la dua kaj kvara stadioj:

  • URLoj estas analogaj al URIoj,
  • la analogo de HTML estas RDF,
  • HTML-hiperligiloj estas similaj al URI-okazoj en RDF-dokumentoj.

La Semantika Reto estas pli sistema vizio de la estonteco de la Interreto ol specifa spontanea aŭ lobiata tendenco, kvankam ĝi povas konsideri ĉi tiujn lastajn. Ekzemple, grava karakterizaĵo de tio, kion oni nomas Retejo 2.0, estas konsiderata kiel "enhavo generita de uzanto". Precipe, la rekomendo de W3C estas vokita konsideri ĝin "Reta Komentario Ontologio"kaj tia entrepreno kiel solida.

Ĉu la Semantika Reto Morta?

Se vi rifuzas nerealismaj atendoj, la situacio kun la semantika reto estas proksimume sama kiel ĉe komunismo dum la tempoj de evoluinta socialismo (kaj ĉu oni observas lojalecon al la kondiĉaj petoj de Iljiĉ, ĉiu mem decidu). Serĉiloj sufiĉe sukcese devigi retejojn uzi RDFa kaj JSON-LD kaj mem uzi teknologiojn rilatajn al tiuj priskribitaj sube (Google Knowledge Graph, Bing Knowledge Graph).

Ĝenerale, la aŭtoro ne povas diri kio malhelpas pli grandan disvastiĝon, sed li povas paroli surbaze de persona sperto. Estas problemoj, kiuj povus esti solvitaj "el la skatolo" en la kondiĉoj de la SW-ofensivo, kvankam ili ne estas tre disvastigitaj. Kiel rezulto, tiuj, kiuj alfrontas ĉi tiujn taskojn, havas neniun rimedon de devigo kontraŭ tiuj, kiuj kapablas liveri solvon, dum la sendependa provizo de solvo de ĉi-lasta kontraŭdiras siajn komercajn modelojn. Do ni daŭre analizas HTML-on kaj kungluas diversajn API-ojn, unu la alian pli aĉa.

Tamen, Linked Data teknologioj disvastiĝis preter la ĉefa Reto; La libro, fakte, estas dediĉita al ĉi tiuj aplikoj. Nuntempe, la komunumo de Linked Data atendas, ke ĉi tiuj teknologioj fariĝos eĉ pli disvastigitaj danke al la registrado de Gartner (aŭ proklamo, laŭplaĉe) de tendencoj kiel ekzemple Sciaj Grafikaĵoj и Datuma Ŝtofo. Mi ŝatus kredi, ke ne estos la "biciklo-" efektivigoj de ĉi tiuj konceptoj kiuj sukcesos, sed tiuj rilataj al la W3C-normoj diskutitaj sube.

Ligitaj Datumoj

Berners-Lee difinis Linked Data kiel la semantikan retejon "farita ĝuste": aro de aliroj kaj teknologioj kiuj permesas al ĝi atingi siajn finfinajn celojn. Bazaj principoj de Linked Data Berners-Lee reliefigita la sekvantan.

Principo 1. Uzante URIojn por nomi entojn.

URIoj estas tutmondaj unuidentigiloj kontraste al lokaj ĉenidentigiloj por enskriboj. Poste, ĉi tiu principo estis plej bone esprimita en la Google Knowledge Graph-slogano "aferoj, ne ŝnuroj".

Principo 2. Uzante URIojn en la HTTP-skemo por ke ili estu dereferencataj.

Alirante URI, devus esti eble ricevi la signifon malantaŭ tiu signifanto (la analogio kun la nomo de la operatoro estas klara ĉi tie).*"en C); pli precize, por ricevi iun reprezenton de ĉi tio signita - depende de la valoro de la HTTP-kapo Accept:. Eble, kun la alveno de la AR/VR-epoko, eblos akiri la rimedon mem, sed nuntempe, plej verŝajne, ĝi estos RDF-dokumento, kiu estas la rezulto de ekzekuto de SPARQL-demando. DESCRIBE.

Principo 3. Uzo de W3C-normoj - ĉefe RDF(S) kaj SPARQL - precipe kiam dereferencing URIoj.

Ĉi tiuj individuaj "tavoloj" de la Linked Data-teknologia stako, ankaŭ konata kiel Semantika Reta Tavola Kuko, estos priskribitaj malsupre.

Principo 4. Uzo de referencoj al aliaj URI-oj dum priskribado de estaĵoj.

RDF permesas vin limigi vin al parola priskribo de rimedo en natura lingvo, kaj la kvara principo vokas ne fari tion. Se la unua principo estas universale observita, iĝas eble, kiam oni priskribas rimedon, rilati al aliaj, inkluzive de "fremdaj", tial la datumoj nomiĝas ligitaj. Fakte, estas preskaŭ neeviteble uzi URI-ojn nomitajn en la vortprovizo de RDFS.

RDF

RDF (Resource Description Framework) estas formalismo por priskribi interrilatajn entojn.

Deklaroj de la tipo "subjekto-predikato-objekto", nomitaj triopoj, estas faritaj pri estaĵoj kaj iliaj rilatoj. En la plej simpla kazo, la subjekto, predikato kaj objekto estas ĉiuj URIoj. La sama URI povas esti en malsamaj pozicioj en malsamaj triopoj: estu subjekto, predikato kaj objekto; Tiel, la trinasktioj formas specon de grafeo nomita RDF-grafo.

Subjektoj kaj objektoj povas esti ne nur URIoj, sed ankaŭ tielnomitaj malplenaj nodoj, kaj objektoj ankaŭ povas esti laŭvortaj. Literaĵoj estas kazoj de primitivaj tipoj konsistantaj el korda prezento kaj tipindiko.

Ekzemploj de skribado de literaloj (en Turtle-sintakso, pli pri ĝi malsupre): "5.0"^^xsd:float и "five"^^xsd:string. Literoj kun tipo rdf:langString ankaŭ povas esti ekipita per lingva etikedo; en Testudo ĝi estas skribita jene: "five"@en и "пять"@ru.

Malplenaj nodoj estas "anonimaj" rimedoj sen tutmondaj identigiloj, pri kiuj deklaroj tamen povas esti faritaj; speco de ekzistecaj variabloj.

Do (ĉi tio estas, fakte, la tuta punkto de RDF):

  • subjekto estas URI aŭ malplena nodo,
  • la predikativo estas URI,
  • objekto estas URI, malplena nodo aŭ laŭvorta.

Kial predikatoj ne povas esti malplenaj nodoj?

La verŝajna kialo estas la deziro neformale kompreni kaj traduki triopon en la lingvon de unuaorda predikata logiko s p o kiel io simila Semantika Reto kaj Ligitaj Datumoj. Korektoj kaj aldonojkie Semantika Reto kaj Ligitaj Datumoj. Korektoj kaj aldonoj - predikativo, Semantika Reto kaj Ligitaj Datumoj. Korektoj kaj aldonoj и Semantika Reto kaj Ligitaj Datumoj. Korektoj kaj aldonoj - konstantoj. Spuroj de ĉi tiu kompreno estas en la dokumento "LBase: Semantiko por Lingvoj de la Semantika Reto", kiu havas la statuson de W3C laborgrupo-noto. Kun ĉi tiu kompreno, la triopo s p []kie [] - malplena nodo, estos tradukita kiel Semantika Reto kaj Ligitaj Datumoj. Korektoj kaj aldonojkie Semantika Reto kaj Ligitaj Datumoj. Korektoj kaj aldonoj - varia, sed kiel tiam traduki s [] o? Dokumento kun W3C Rekomenda statuso "RDF 1.1 Semantiko” proponas alian tradukmetodon, sed ankoraŭ ne konsideras la eblecon, ke predikatoj estu malplenaj nodoj.

Tamen, Manu Sporni permesite.

RDF estas abstrakta modelo. RDF povas esti skribita (seriigita) en diversaj sintaksoj: RDF/XML, Testudo (plej homa legebla), JSON-LD, HDT (binara).

La sama RDF povas esti seriigita en RDF/XML en malsamaj manieroj, do, ekzemple, ne havas sencon validigi la rezultan XML per XSD aŭ provi ĉerpi datumojn per XPath. Same, JSON-LD verŝajne ne kontentigos la deziron de averaĝa Javascript-programisto labori kun RDF uzante la punkton kaj kvadratkrampon de Javascript (kvankam JSON-LD moviĝas en tiu direkto proponante mekanismon enkadrigo).

Plej multaj sintaksoj ofertas manierojn mallongigi longajn URIojn. Ekzemple, anonco @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> en Testudo tiam permesos vin skribi anstataŭe <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> nur rdf:type.

RDFS

RDFS (RDF-Skemo) - baza modeliga vortprovizo, lanĉas la konceptojn de posedaĵo kaj klaso kaj trajtoj kiel ekz rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Uzante la RDFS-vortaron, ekzemple, la sekvaj validaj esprimoj povas esti skribitaj:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS estas priskribo kaj modeliga vortprovizo, sed ne estas limlingvo (kvankam la oficiala specifo kaj folioj ebleco de tia uzo). La vorto "Skemo" ne estu komprenata samsence kiel en la esprimo "XML Schema". Ekzemple, :author rdfs:range foaf:Person signifas tion rdf:type ĉiuj posedaĵvaloroj :author - foaf:Person, sed ne signifas, ke tion oni devas diri anticipe.

SPARQL

SPARQL (SPARQL Protocol kaj RDF Query Language) - lingvo por pridemandi RDF-datenojn. En simpla kazo, SPARQL-demando estas aro de provaĵoj kontraŭ kiuj triopoj de la pridemandita grafeo estas egalitaj. Ŝablonoj povas enhavi variablojn en subjekto, predikato, kaj objektopozicioj.

La demando resendos tiajn variajn valorojn, kiuj, kiam ili estas anstataŭigitaj en la specimenojn, povas rezultigi subgrafeon de la demandita RDF-grafo (subaro de ĝiaj triopoj). Variabloj de la sama nomo en malsamaj provaĵoj de triopoj devas havi la samajn valorojn.

Ekzemple, donita la supran aron de sep RDFS-aksiomoj, la sekva demando revenos rdfs:domain и rdfs:range kiel valoroj ?s и ?p respektive:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Indas noti, ke SPARQL estas deklara kaj ne estas lingvo por priskribi grafean trapasadon (tamen kelkaj RDF-deponejoj ofertas manierojn alĝustigi la demandan ekzekutplanon). Tial, kelkaj normaj grafeoproblemoj, ekzemple, trovante la plej mallongan vojon, ne povas esti solvitaj en SPARQL, inkluzive de uzado de la posedaĵvojoj (sed, denove, individuaj RDF-deponejoj ofertas specialajn etendaĵojn por solvi ĉi tiujn problemojn).

SPARQL ne dividas la supozon de malfermiteco de la mondo kaj sekvas la "negacion kiel fiasko" aliron, en kiu ebla dezajnoj kiel ekzemple FILTER NOT EXISTS {…}. Distribuado de datumoj estas enkalkulita uzante la mekanismon federaciaj demandoj.

La SPARQL-alirpunkto - RDF-stokado kapabla prilabori SPARQL-demandojn - ne havas rektajn analogojn de la dua etapo (vidu la komencon de ĉi tiu paragrafo). Ĝi povas esti komparita al datumbazo, bazita sur la enhavo de kiu HTML-paĝoj estis generitaj, sed alirebla al la ekstero. La alirpunkto SPARQL estas pli analoga al la API alirpunkto de la tria etapo, sed kun du ĉefaj diferencoj. Unue, eblas kombini plurajn "atomajn" demandojn en unu (kiu estas konsiderata ŝlosila karakterizaĵo de GraphQL), kaj due, tia API estas tute memdokumenta (kion HATEOAS provis atingi).

Polemika rimarko

RDF estas maniero publikigi datumojn en la reto, do RDF-stokado devus esti konsiderata dokumento DBMS. Vere, ĉar RDF estas grafeo kaj ne arbo, ili ankaŭ rezultis esti grafe-bazitaj. Estas mirinde, ke ĝi entute funkciis. Kiu estus pensinta, ke ekzistus inteligentaj homoj, kiuj efektivigus malplenajn nodojn. Codd estas ĉi tie ĝi ne funkciis.

Ekzistas ankaŭ malpli plentaŭgaj manieroj organizi aliron al RDF-datumoj, ekzemple, Ligitaj Datumaj Fragmentoj (LDF) kaj Ligita Datuma Platformo (LDP).

OWL

OWL (Web Ontology Language) - formalismo por reprezentado de scio, sintaksa versio de priskriba logiko Semantika Reto kaj Ligitaj Datumoj. Korektoj kaj aldonoj (ĉie malsupre estas pli ĝuste diri STRIGO 2, la unua versio de STRIGO estis bazita sur Semantika Reto kaj Ligitaj Datumoj. Korektoj kaj aldonoj).

Konceptoj de priskribaj logikoj en OWL respondas al klasoj, roloj respondas al propraĵoj, individuoj konservas sian antaŭan nomon. Aksiomoj ankaŭ estas nomitaj aksiomoj.

Ekzemple, en la tn Manĉestra sintakso por STRIGO-notacio aksiomo jam konata de ni Semantika Reto kaj Ligitaj Datumoj. Korektoj kaj aldonoj estos skribita tiel:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Estas aliaj sintaksoj por skribi OWL, kiel ekz funkcia sintakso, uzita en la oficiala specifo, kaj STRIGO/XML. Aldone, OWL povas esti seriigita al abstrakta RDF-sintakso kaj plu - en iu el la specifaj sintaksoj.

STRIGO havas duoblan rilaton kun RDF. Unuflanke, ĝi povas esti konsiderata kiel speco de vortaro, kiu etendas RDFS. Aliflanke, ĝi estas pli potenca formalismo por kiu RDF estas nur seriiga formato. Ne ĉiuj elementaj STRIGO-konstruaĵoj povas esti skribitaj uzante ununuran RDF-triopon.

Depende de kiu subaro de OWL-konstruaĵoj rajtas esti uzataj, ili parolas pri tn OWL-profiloj. La normigitaj kaj plej famaj estas OWL EL, OWL RL kaj OWL QL. La elekto de profilo influas la komputilan kompleksecon de tipaj problemoj. Kompleta aro de OWL-konstruaĵoj respondantaj al Semantika Reto kaj Ligitaj Datumoj. Korektoj kaj aldonoj, nomita STRIGO DL. Foje ili ankaŭ parolas pri OWL Full, en kiu OWL-konstruaĵoj rajtas esti uzataj kun la plena libereco eneca en RDF, sen semantikaj kaj komputilaj restriktoj. Semantika Reto kaj Ligitaj Datumoj. Korektoj kaj aldonoj. Ekzemple, io povas esti kaj klaso kaj posedaĵo. STRIGO Plena estas nedecidebla.

La ŝlosilaj principoj por alkroĉi sekvojn en OWL estas la adopto de la malferma mondo-supozo. O.W.A.) kaj malakcepto de la supozo de unikaj nomoj (unika nomo supozo, UNU). Malsupre ni vidos kien ĉi tiuj principoj povas konduki kaj enkonduki kelkajn OWL-konstruaĵojn.

Lasu la ontologion enhavi la sekvan fragmenton (en Manĉestra sintakso):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Ĉu el tio dirite sekvos, ke Johano havas multajn infanojn? Rifuzi UNA devigos la inferencmotoron respondi tiun demandon en la negativo, ĉar Alice kaj Bob povas bone esti la sama persono. Por ke la sekvanta okazu, necesas aldoni la sekvan aksiomon:

DifferentIndividuals: Alice, Bob, Carol, John

Nun la ontologia fragmento havu la sekvan formon (Johano estas deklarita havi multajn infanojn, sed li nur havas du infanojn):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Ĉu tiu ontologio estos malkonsekvenca (kiu povas esti interpretita kiel signoj de nevalidaj datumoj)? Akcepti OWA kaŭzos la inferencmotoron respondi en la negativo: "ie" alie (en alia ontologio) oni povas bone diri ke Carol ankaŭ estas la infano de Johano.

Por ekskludi la eblecon de tio, ni aldonu novan fakton pri Johano:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Por ekskludi la aspekton de aliaj infanoj, ni diru, ke ĉiuj valoroj de la posedaĵo "havi infanon" estas homoj, el kiuj ni havas nur kvar:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Nun la ontologio iĝos kontraŭdira, kiun la inferenca motoro ne malsukcesos raporti. Kun la lasta el la aksiomoj ni havas, iusence, "fermis" la mondon, kaj rimarkas kiel la ebleco de Johano esti sia propra infano estas ekskludita.

Ligado de Entreprenaj Datumoj

La Linked Data aro de aliroj kaj teknologioj estis origine destinita por publikigado de datumoj en la Reto. Ilia uzo en interna kompania medio alfrontas kelkajn malfacilaĵojn.

Ekzemple, en fermita kompania medio, la dedukta potenco de OWL bazita sur la adopto de OWA kaj la malakcepto de UNA, decidoj pro la malferma kaj distribuita naturo de la Reto, estas tro malforta. Kaj ĉi tie la sekvaj solvoj estas eblaj.

  • Dotante OWL per semantiko, implicante la forlason de OWA kaj la adopton de UNA, la efektivigon de la ekvivalenta produktaĵmotoro. - Laŭ ĉi tiu vojo iras Stardog RDF-stokado.
  • Forlasante la deduktajn kapablojn de OWL en favoro de regulmotoroj. — Stardog subtenas SWRL; Jena kaj GraphDB proponas propra lingvoj reguloj
  • Rifuzo de la deduktaj kapabloj de OWL, uzo de unu aŭ alia subaro proksima al RDFS por modeligado. - Vidu pli pri tio ĉi sube.

Alia afero estas la pli granda fokuso, kiun la kompania mondo povas havi pri datumkvalitaj problemoj kaj la manko de datumvalidigaj iloj en la Ligita Datuma stako. La eliroj ĉi tie estas kiel sekvas.

  • Denove, uzu por validumado de OWL-konstruaĵoj kun fermita monda semantiko kaj unikaj nomoj se taŭga inferencomotoro estas havebla.
  • Uzo ŜAKL, normigita post kiam la listo de Semantic Web Layer Cake-tavoloj estis fiksita (tamen ĝi ankaŭ povas esti uzata kiel regulmotoro), aŭ ŜEx.
  • Komprenante, ke ĉio estas finfine farita per SPARQL-demandoj, kreante vian propran simplan datumvalidigan mekanismon uzante ilin.

Tamen, eĉ kompleta malakcepto de deduktaj kapabloj kaj validumadaj iloj lasas la Ligitaj Datumoj-stakon ekster konkuro en taskoj, kiuj estas similaj en pejzaĝo al la malferma kaj distribuita retejo - en taskoj de integriĝo de datumoj.

Kio pri regula entreprena informsistemo?

Ĉi tio eblas, sed vi kompreneble devus konscii ĝuste kiajn problemojn la respondaj teknologioj devos solvi. Mi priskribos ĉi tie tipan reagon de evoluaj partoprenantoj por montri kiel aspektas ĉi tiu teknologia stako el la vidpunkto de konvencia IT. Memorigas min iomete la parabolon de la elefanto:

  • Komerca analizisto: RDF estas io kiel rekte konservita logika modelo.
  • Sistemo-Analizisto: RDF estas kiel EAV, nur kun amaso da indeksoj kaj oportuna demandlingvo.
  • ellaboranto: nu, ĉi tio estas en la spirito de la konceptoj de riĉa modelo kaj malalta kodo, legi lastatempe pri tio.
  • La ĉefo de la projekto: jes estas same kolapsante la stakon!

Praktiko montras, ke la stako estas plej ofte uzata en taskoj rilataj al la distribuo kaj heterogeneco de datumoj, ekzemple, kiam oni konstruas klasajn sistemojn MDM (Mastra Datuma Administrado) aŭ DWH (Data Warehouse). Tiaj problemoj ekzistas en iu ajn industrio.

Koncerne al industriospecifaj aplikoj, Linked Data-teknologioj estas nuntempe plej popularaj en la sekvaj industrioj.

  • biomedicinaj teknologioj (kie ilia populareco ŝajnas esti rilatita al la komplekseco de la domajno);

aktuala

La "Boiling Point" lastatempe gastigis konferencon organizitan de la asocio "National Medical Knowledge Base" "Kombinante ontologiojn. De teorio al praktika aplikado".

  • produktado kaj funkciado de kompleksaj produktoj (granda mekanika inĝenierado, produktado de petrolo kaj gaso; plej ofte ni parolas pri norma ISO 15926);

aktuala

Ĉi tie ankaŭ la kialo estas la komplekseco de la temo, kiam, ekzemple, ĉe la kontraŭflua stadio, se ni parolas pri la petrolo kaj gasa industrio, simpla kontado postulas iujn CAD-funkciojn.

En 2008, reprezenta instalaĵokazaĵo, organizita fare de Chevron, okazis la konferenco.

ISO 15926, finfine, ŝajnis iom peza al la petrolo kaj gasindustrio (kaj trovis eble pli grandan aplikon en mekanika inĝenierado). Nur Statoil (Equinor) iĝis plene hokita sur ĝi; en Norvegio, tutaĵo ekosistemo. Aliaj provas fari sian propran aferon. Ekzemple, laŭ onidiroj, la hejma Ministerio pri Energio intencas krei "koncipan ontologian modelon de la fuelo kaj energia komplekso", similan, ŝajne, al kreita por la elektra energio industrio.

  • financaj organizoj (eĉ XBRL povas esti konsiderita speco de hibrido de SDMX kaj la RDF Data Cube ontologio);

aktuala

Komence de la jaro, LinkedIn aktive spamis la verkinton kun vakantaĵoj de preskaŭ ĉiuj gigantoj de la financa industrio, kiujn li konas de la televidserio "Force Majeure": Goldman Sachs, JPMorgan Chase kaj/aŭ Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Verŝajne ĉiuj serĉis iun al kiu ili povus sendi Konferenco pri Scio-Grafiko. Nemultaj sukcesis trovi: financaj organizoj prenis ĉion mateno de la unua tago.

Ĉe HeadHunter, nur Sberbank trovis ion interesan; temis pri "EAV-stokado kun RDF-simila datummodelo."

Verŝajne, la diferenco en la grado de amo por la respondaj teknologioj de hejmaj kaj okcidentaj financaj institucioj ŝuldiĝas al la transnacia naturo de la lastaj agadoj. Ŝajne, integriĝo trans ŝtatlimoj postulas kvalite malsamajn organizajn kaj teknikajn solvojn.

  • demand-respondaj sistemoj kun komercaj aplikoj (IBM Watson, Apple Siri, Google Knowledge Graph);

aktuala

Cetere, la kreinto de Siri, Thomas Gruber, estas la aŭtoro de la difino mem de ontologio (en la IT-senco) kiel "konceptiga specifo". Miaopinie, reordigi la vortojn en tiu ĉi difino ne ŝanĝas ĝian signifon, kio eble indikas, ke ĝi ne estas tie.

  • publikigo de strukturitaj datumoj (kun pli granda pravigo tio povas esti atribuita al Linked Open Data).

aktuala

Grandaj ŝatantoj de Linked Data estas la tiel nomata GLAM: Galerioj, Bibliotekoj, Arkivoj kaj Muzeoj. Sufiĉas diri, ke la Biblioteko de Kongreso promocias anstataŭaĵon de MARC21 BIBKARO, kiu provizas fundamenton por la estonteco de bibliografia priskribo kaj, kompreneble, bazita sur RDF.

Vikidatumoj ofte estas cititaj kiel ekzemplo de sukcesa projekto en la kampo de Linked Open Data - speco de maŝinlegebla versio de Vikipedio, kies enhavo, kontraste al DBPedia, ne estas generita per importo el artikolaj informkestoj, sed estas kreita pli-malpli permane (kaj poste fariĝas informfonto por la samaj informkestoj).

Ni ankaŭ rekomendas, ke vi kontrolu ĝin listo uzantoj de la Stardog RDF-stokado en la retejo de Stardog en la sekcio "Klientoj".

Estu kiel ajn, en Gartner Hype-Ciklo por Emerĝantaj Teknologioj 2016 "Enterprise Taxonomy and Ontology Management" estas metita en la mezo de descendo en la valon de seniluziiĝo kun la perspektivo atingi "produktivebenaĵon" ne pli frue ol en 10 jaroj.

Konektante Entreprenajn Datumojn

Antaŭvidoj, antaŭvidoj, antaŭvidoj...

Pro historia intereso, mi entabligis ĉi-sube la antaŭvidojn de Gartner dum diversaj jaroj pri la teknologioj kiuj interesas nin.

Jaro Teknologio Raporto Pozicio Jaroj al altebenaĵo
2001 Semantika Reto Emerging Technologies Novigado Trigger 5-10
2006 Korporacia Semantika Reto Emerging Technologies Pinto de Ŝveligitaj Atendoj 5-10
2012 Semantika Reto granda Datumo Pinto de Ŝveligitaj Atendoj > 10
2015 Ligitaj Datumoj Altnivela Analizo kaj Datuma Scienco Trogo de Seniluziiĝo 5-10
2016 Enterprise Ontology Management Emerging Technologies Trogo de Seniluziiĝo > 10
2018 Sciaj Grafikaĵoj Emerging Technologies Novigado Trigger 5-10

Tamen, jam en "Hype-Ciklo..." 2018 aperis alia suprena tendenco - Knowledge Graphs. Okazis certa reenkarniĝo: grafikaj DBMS-oj, al kiuj la atento de uzantoj kaj la klopodoj de programistoj montriĝis ŝanĝitaj, sub la influo de la petoj de la unuaj kaj la kutimoj de la lastaj, komencis preni la konturojn kaj pozicion. de siaj antaŭaj konkurantoj.

Preskaŭ ĉiu grafeo DBMS nun deklaras sin taŭga platformo por konstrui kompanian "sciografeon" ("ligitaj datumoj" foje estas anstataŭigitaj per "koneksaj datumoj"), sed kiom pravigitaj estas tiaj asertoj?

Grafaj datumbazoj daŭre estas asemantikaj; la datenoj en grafeo DBMS daŭre estas la sama datumsilo. Stringidentigiloj anstataŭe de URIoj faras la taskon integri du grafeajn DBMS-ojn daŭre integrigan taskon, dum integri du RDF-butikojn ofte venas malsupren al simple kunfandado de du RDF-grafoj. Alia aspekto de asemanticeco estas la ne-refleksiveco de la LPG-grafikmodelo, kiu malfaciligas administri metadatenojn uzante la saman platformon.

Finfine, grafikaj DBMSoj ne havas inferencajn motorojn aŭ regulmotorojn. La rezultoj de tiaj motoroj povas esti reproduktitaj komplikante demandojn, sed tio eblas eĉ en SQL.

Tamen, gvidaj RDF stokadsistemoj havas neniun malfacilecon apogante la LPG-modelon. La plej solida aliro estas konsiderita kiel tiu proponita foje en Blazegraph: la RDF*-modelo, kombinanta RDF kaj LPG.

Legi pli

Vi povas legi pli pri RDF-stokado-subteno por la LPG-modelo en la antaŭa artikolo pri Habré: "Kio okazas kun RDF-stokado nun". Mi esperas, ke iam aparta artikolo estos skribita pri Knowledge Graphs kaj Data Fabric. La fina sekcio, kiel estas facile komprenebla, estis verkita haste, tamen eĉ ses monatojn poste, ĉio ne estas multe pli klara kun ĉi tiuj konceptoj.

Literaturo

  1. Halpin, H. , Monnin, A. (eds.) (2014). Filozofia Inĝenieristiko: Direkte al Filozofio de la Reto
  2. Allemang, D. , Hendler, J. (2011) Semantika Reto por la Labora Ontologisto (dua red.)
  3. Staab, S. , Studer, R. (eds.) (2009) Manlibro pri Ontologioj (dua red.)
  4. Wood, D. (red.). (2011) Linking Enterprise Data
  5. Keet, M. (2018) Enkonduko al Ontologio-Inĝenieristiko

fonto: www.habr.com

Aldoni komenton