Web semantic și date legate. Corecții și completări

Aș dori să prezint publicului un fragment din această carte recent publicată:

Modelarea ontologică a unei întreprinderi: metode și tehnologii [Text]: monografie / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak și alții; redactor executiv S.V. Gorshkov]. - Ekaterinburg: Editura Universității Ural, 2019. - 234 p.: fil., tabel; 20 cm. - Autor. indicat pe piţigoiul din spate. Cu. — Bibliografie la sfârşitul cap. — ISBN 978-5-7996-2580-1: 200 de exemplare.

Scopul postării acestui fragment pe Habré este patruplu:

  • Este puțin probabil ca cineva să poată ține această carte în mâinile lor dacă nu este clientul unei persoane respectate. SergeIndex; Cu siguranță nu este la vânzare.
  • Au fost făcute corecții la text (nu sunt evidențiate mai jos) și s-au făcut completări care nu sunt foarte compatibile cu formatul unei monografii tipărite: note de actualitate (sub spoilers) și hyperlink-uri.
  • vreau sa colectează întrebări și comentarii, pentru a le lua în considerare la includerea acestui text într-o formă revizuită în orice alte publicații.
  • Mulți adepți ai Webului Semantic și Datelor Linked încă mai cred că cercul lor este atât de restrâns, în principal pentru că publicului larg încă nu a fost explicat în mod corespunzător cât de grozav este să fii un adept al Webului Semantic și al Datelor Linked. Autorul fragmentului, deși aparține acestui cerc, nu are această opinie, dar, totuși, se consideră obligat să facă o altă încercare.

Astfel,

Web semantic

Evoluția Internetului poate fi reprezentată astfel (sau vorbim despre segmentele sale care s-au format în ordinea indicată mai jos):

  1. Documente pe internet. Tehnologii cheie - Gopher, FTP etc.
    Internetul este o rețea globală pentru schimbul de resurse locale.
  2. documente pe internet. Tehnologiile cheie sunt HTML și HTTP.
    Natura resurselor expuse ține cont de caracteristicile mediului lor de transmisie.
  3. Date de pe internet. Tehnologii cheie - REST și SOAP API, XHR etc.
    Era aplicațiilor Internet, nu numai oamenii devin consumatori de resurse.
  4. Date de pe internet. Tehnologiile cheie sunt tehnologiile Linked Data.
    Această a patra etapă, prezisă de Berners-Lee, creatorul celei de-a doua tehnologii de bază și directorul W3C, se numește Web Semantic; Tehnologiile Linked Data sunt concepute pentru a face datele de pe web nu numai citibile de mașină, ci și „înțelese de mașină”.

Din cele ce urmează, cititorul va înțelege corespondența dintre conceptele cheie ale etapei a doua și a patra:

  • URL-urile sunt analoge cu URI-urile,
  • analogul HTML este RDF,
  • Hiperlinkurile HTML sunt similare cu aparițiile URI din documentele RDF.

Web-ul semantic este mai mult o viziune sistemică asupra viitorului Internetului decât o anumită tendință spontană sau de lobby, deși poate ține cont de acestea din urmă. De exemplu, o caracteristică importantă a ceea ce se numește Web 2.0 este considerată a fi „conținutul generat de utilizatori”. În special, recomandarea W3C este chemată să o ia în considerare”Ontologie de adnotare web„și o astfel de întreprindere ca Solid.

Web-ul semantic este mort?

Daca refuzi asteptari nerealiste, situația cu rețeaua semantică este aproximativ aceeași ca și cu comunismul din vremurile socialismului dezvoltat (și dacă se respectă loialitatea față de poruncile condiționate ale lui Ilici, fiecare să decidă singur). Motoare de căutare destul de reușit forțează site-urile web să utilizeze RDFa și JSON-LD și folosesc ele însele tehnologii legate de cele descrise mai jos (Google Knowledge Graph, Bing Knowledge Graph).

În termeni generali, autorul nu poate spune ce împiedică o mai mare răspândire, dar poate vorbi pe baza experienței personale. Sunt probleme care ar putea fi rezolvate „din cutie” în condițiile ofensivei SV, deși nu sunt foarte răspândite. Drept urmare, cei care se confruntă cu aceste sarcini nu au mijloace de constrângere împotriva celor care sunt capabili să ofere o soluție, în timp ce furnizarea independentă a unei soluții de către aceștia din urmă contrazice modelele lor de afaceri. Așa că continuăm să analizăm HTML și să lipim diverse API-uri, unul pe altul mai de rahat.

Cu toate acestea, tehnologiile Linked Data s-au răspândit dincolo de web-ul principal; Cartea, de fapt, este dedicată acestor aplicații. În prezent, comunitatea Linked Data se așteaptă ca aceste tehnologii să devină și mai răspândite datorită înregistrării (sau proclamării, după cum doriți) de către Gartner a unor tendințe precum Grafice de cunoaștere и Fabric Fabric. Aș vrea să cred că nu implementările „bicicletei” ale acestor concepte vor avea succes, ci cele legate de standardele W3C discutate mai jos.

Date legate

Berners-Lee a definit Linked Data ca web-ul semantic „realizat corect”: un set de abordări și tehnologii care îi permit să-și atingă obiectivele finale. Principiile de bază ale Linked Data Berners-Lee evidențiat următoarele.

Principiul 1. Utilizarea URI-urilor pentru a denumi entități.

URI-urile sunt identificatori de entități globale, spre deosebire de identificatorii de șir locali pentru intrări. Ulterior, acest principiu a fost cel mai bine exprimat în sloganul Google Knowledge Graph „lucruri, nu șiruri".

Principiul 2. Utilizarea URI-urilor în schema HTTP, astfel încât acestea să poată fi dereferențiate.

Prin accesarea unui URI, ar trebui să fie posibil să obțineți semnificația din spatele acelui semnificant (analogia cu numele operatorului este clară aici).*"în C); mai precis, pentru a obține o reprezentare a acestui semnificat - în funcție de valoarea antetului HTTP Accept:. Poate că, odată cu apariția erei AR/VR, va fi posibil să obțineți resursa în sine, dar deocamdată, cel mai probabil, va fi un document RDF, care este rezultatul executării unei interogări SPARQL DESCRIBE.

Principiul 3. Utilizarea standardelor W3C - în primul rând RDF(S) și SPARQL - în special atunci când se dereferențează URI-uri.

Aceste „straturi” individuale ale stivei de tehnologie Linked Data, cunoscute și ca Semantic Web Layer Cake, vor fi descrise mai jos.

Principiul 4. Utilizarea referințelor la alte URI atunci când descrieți entități.

RDF vă permite să vă limitați la o descriere verbală a unei resurse în limbaj natural, iar al patrulea principiu cere să nu faceți acest lucru. Dacă primul principiu este respectat universal, atunci când descrii o resursă devine posibil să se facă referire la altele, inclusiv la cele „străine”, motiv pentru care datele se numesc legate. De fapt, este aproape inevitabil să folosiți URI-uri numite în vocabularul RDFS.

RDF

RDF (Resource Description Framework) este un formalism pentru descrierea entităților interconectate.

Enunțuri de tip „subiect-predicat-obiect”, numite tripleți, sunt făcute despre entități și relațiile lor. În cel mai simplu caz, subiectul, predicatul și obiectul sunt toate URI-uri. Același URI poate fi în poziții diferite în triplete diferite: să fie un subiect, un predicat și un obiect; Astfel, tripleții formează un fel de graf numit graf RDF.

Subiectele și obiectele pot fi nu numai URI-uri, ci și așa-numitele noduri goale, iar obiectele pot fi, de asemenea literali. Literalele sunt exemple de tipuri primitive constând dintr-o reprezentare șir și o indicație de tip.

Exemple de scriere a literalelor (în sintaxa Turtle, mai multe despre asta mai jos): "5.0"^^xsd:float и "five"^^xsd:string. Literale cu tip rdf:langString poate fi echipat și cu o etichetă de limbă; în Turtle este scris astfel: "five"@en и "пять"@ru.

Nodurile goale sunt resurse „anonime” fără identificatori globali, despre care se pot face totuși declarații; fel de variabile existențiale.

Deci (acesta este, de fapt, întregul scop al RDF):

  • subiectul este un URI sau un nod gol,
  • predicatul este un URI,
  • obiectul este un URI, un nod gol sau un literal.

De ce predicatele nu pot fi noduri goale?

Motivul probabil este dorința de a înțelege informal și de a traduce tripletul în limbajul logicii predicatelor de ordinul întâi. s p o ca ceva de genul Web semantic și date legate. Corecții și completăriUnde Web semantic și date legate. Corecții și completări - predicat, Web semantic și date legate. Corecții și completări и Web semantic și date legate. Corecții și completări - constante. Urmele acestei înțelegeri sunt în documentul „LBase: Semantică pentru limbaje ale Web-ului semantic„, care are statutul de notă a grupului de lucru W3C. Cu această înțelegere, tripletul s p []Unde [] - nod gol, va fi tradus ca Web semantic și date legate. Corecții și completăriUnde Web semantic și date legate. Corecții și completări - variabilă, dar cum se traduce atunci s [] o? Document cu starea de recomandare W3C "RDF 1.1 Semantică” oferă o altă metodă de traducere, dar tot nu ia în considerare posibilitatea ca predicatele să fie noduri goale.

Cu toate acestea, Manu Sporni permis.

RDF este un model abstract. RDF poate fi scris (serializat) în diverse sintaxe: RDF/XML, Turtle (cel mai ușor de citit de om), JSON-LD, HDT (binar).

Același RDF poate fi serializat în RDF/XML în moduri diferite, așa că, de exemplu, nu are sens să validezi XML rezultat folosind XSD sau să încerci să extragi date folosind XPath. De asemenea, este puțin probabil ca JSON-LD să satisfacă dorința dezvoltatorului Javascript obișnuit de a lucra cu RDF folosind notația cu puncte și paranteze pătrate din Javascript (deși JSON-LD se mișcă în această direcție oferind un mecanism încadrarea).

Majoritatea sintaxelor oferă modalități de a scurta URI-urile lungi. De exemplu, un anunț @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> în Turtle vă va permite să scrieți în schimb <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> doar rdf:type.

RDFS

RDFS (Schema RDF) - un vocabular de modelare de bază, introduce conceptele de proprietate și clasă și proprietăți precum rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Folosind dicționarul RDFS, de exemplu, se pot scrie următoarele expresii valide:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS este un vocabular de descriere și modelare, dar nu este un limbaj de constrângere (deși specificația oficială și frunze posibilitatea unei astfel de folosiri). Cuvântul „Schemă” nu trebuie înțeles în același sens ca în expresia „Schemă XML”. De exemplu, :author rdfs:range foaf:Person înseamnă că rdf:type toate valorile proprietății :author - foaf:Person, dar nu înseamnă că acest lucru ar trebui spus în avans.

SPARQL

SPARQL (SPARQL Protocol și RDF Query Language) - un limbaj pentru interogarea datelor RDF. Într-un caz simplu, o interogare SPARQL este un set de eșantioane față de care se potrivesc tripleți ale graficului interogat. Modelele pot conține variabile în pozițiile subiect, predicat și obiect.

Interogarea va returna astfel de valori variabile care, atunci când sunt substituite în eșantioane, pot avea ca rezultat un subgraf al graficului RDF interogat (un subset al tripleților acestuia). Variabilele cu același nume din eșantioane diferite de tripleți trebuie să aibă aceleași valori.

De exemplu, având în vedere setul de șapte axiome RDFS de mai sus, următoarea interogare va reveni rdfs:domain и rdfs:range ca valori ?s и ?p respectiv:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Este demn de remarcat faptul că SPARQL este declarativ și nu este un limbaj pentru descrierea traversării graficelor (cu toate acestea, unele depozite RDF oferă modalități de ajustare a planului de execuție a interogărilor). Prin urmare, unele probleme standard ale graficului, de exemplu, găsirea celei mai scurte căi, nu pot fi rezolvate în SPARQL, inclusiv folosind căi de proprietate (dar, din nou, depozitele RDF individuale oferă extensii speciale pentru a rezolva aceste probleme).

SPARQL nu împărtășește prezumția de deschidere a lumii și urmează abordarea „negației ca eșec”, în care posibil desene precum FILTER NOT EXISTS {…}. Distribuția datelor este luată în considerare folosind mecanismul interogări federate.

Punctul de acces SPARQL - o stocare RDF capabilă să proceseze interogări SPARQL - nu are analogi direcți din a doua etapă (vezi începutul acestui paragraf). Poate fi asemănată cu o bază de date, pe baza conținutului căreia au fost generate pagini HTML, dar accesibilă în exterior. Punctul de acces SPARQL este mai analog cu punctul de acces API din a treia etapă, dar cu două diferențe principale. În primul rând, este posibil să combinați mai multe interogări „atomice” într-una singură (care este considerată o caracteristică cheie a GraphQL), iar în al doilea rând, un astfel de API este complet auto-documentat (care este ceea ce HATEOAS a încercat să obțină).

Remarcă polemică

RDF este o modalitate de a publica date pe web, astfel încât stocarea RDF ar trebui să fie considerată un document SGBD. Adevărat, deoarece RDF este un grafic și nu un arbore, s-au dovedit a fi, de asemenea, bazate pe grafice. Este uimitor că a funcționat deloc. Cine ar fi crezut că vor exista oameni deștepți care ar implementa noduri goale. Codd e aici nu a ieșit.

Există, de asemenea, modalități mai puțin complete de a organiza accesul la datele RDF, de exemplu, Fragmente de date legate (LDF) și Platformă de date conectată (LDP).

BUFNIŢĂ

BUFNIŢĂ (Web Ontology Language) - un formalism pentru reprezentarea cunoștințelor, o versiune sintactică a logicii descrierii Web semantic și date legate. Corecții și completări (Peste tot mai jos este mai corect să spui OWL 2, prima versiune a OWL a fost bazată pe Web semantic și date legate. Corecții și completări).

Conceptele logicii descriptive din OWL corespund claselor, rolurilor corespund proprietăților, indivizii își păstrează numele anterior. Axiomele sunt numite și axiome.

De exemplu, în așa-numitul Sintaxa Manchester pentru notația OWL o axiomă deja cunoscută nouă Web semantic și date legate. Corecții și completări va fi scris astfel:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Există și alte sintaxe pentru scrierea OWL, cum ar fi sintaxa functionala, folosit în specificația oficială și OWL/XML. În plus, OWL poate fi serializat pentru a abstract sintaxa RDF și mai departe - în oricare dintre sintaxele specifice.

OWL are o relație dublă cu RDF. Pe de o parte, poate fi considerat ca un fel de dicționar care extinde RDFS. Pe de altă parte, este un formalism mai puternic pentru care RDF este doar un format de serializare. Nu toate constructele elementare OWL pot fi scrise folosind un singur triplet RDF.

În funcție de ce subset de constructe OWL este permis să fie utilizat, ele vorbesc despre așa-numitele profile OWL. Cele standardizate și cele mai cunoscute sunt OWL EL, OWL RL și OWL QL. Alegerea profilului afectează complexitatea de calcul a problemelor tipice. Un set complet de constructe OWL corespunzătoare Web semantic și date legate. Corecții și completări, numit OWL DL. Uneori se vorbește și despre OWL Full, în care constructele OWL pot fi utilizate cu libertatea deplină inerentă RDF, fără restricții semantice și de calcul Web semantic și date legate. Corecții și completări. De exemplu, ceva poate fi atât o clasă, cât și o proprietate. OWL Full este indecidabil.

Principiile cheie pentru atașarea consecințelor în OWL sunt adoptarea ipotezei lumii deschise. O.W.A.) și respingerea prezumției de nume unice (asumarea numelui unic, A). Mai jos vom vedea unde pot conduce aceste principii și vom introduce câteva constructe OWL.

Fie că ontologia conține următorul fragment (în sintaxa Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Va rezulta din cele spuse că Ioan are mulți copii? Refuzul UNA va forța motorul de inferență să răspundă la această întrebare în mod negativ, deoarece Alice și Bob ar putea fi aceeași persoană. Pentru ca următoarele să aibă loc, va trebui să adăugați următoarea axiomă:

DifferentIndividuals: Alice, Bob, Carol, John

Să fie acum fragmentul de ontologie să aibă următoarea formă (Ioan este declarat că are mulți copii, dar are doar doi copii):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Va fi această ontologie inconsecventă (care poate fi interpretată ca dovadă a unor date invalide)? Acceptarea OWA va face ca motorul de inferență să răspundă negativ: „undeva” în altă parte (în altă ontologie) se poate spune că Carol este și copilul lui John.

Pentru a exclude posibilitatea acestui lucru, să adăugăm un nou fapt despre John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Pentru a exclude apariția altor copii, să spunem că toate valorile proprietății „a avea un copil” sunt oameni, dintre care avem doar patru:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Acum ontologia va deveni contradictorie, pe care motorul de inferență nu va eșua să o raporteze. Cu ultima dintre axiome am „închis” lumea, într-un fel, și observăm cum este exclusă posibilitatea ca Ioan să fie propriul său copil.

Conectarea datelor întreprinderii

Setul de abordări și tehnologii Linked Data a fost inițial destinat publicării datelor pe Web. Utilizarea lor într-un mediu corporativ intern se confruntă cu o serie de dificultăți.

De exemplu, într-un mediu corporativ închis, puterea deductivă a OWL bazată pe adoptarea OWA și respingerea UNA, decizii din cauza naturii deschise și distribuite a Web-ului, este prea slabă. Și aici sunt posibile următoarele soluții.

  • Dotarea OWL cu semantică, implicând abandonarea OWA și adoptarea UNA, implementarea motorului de ieșire corespunzător. - Pe acest drum merge Stocare Stardog RDF.
  • Abandonarea capacităților deductive ale OWL în favoarea motoarelor de reguli. — Stardog sprijină SWRL; Oferta Jena și GraphDB propriu limbi reguli
  • Refuzul capacităților deductive ale OWL, utilizarea unuia sau altuia subset apropiat de RDFS pentru modelare. - Vezi mai multe despre asta mai jos.

O altă problemă este concentrarea mai mare pe care lumea corporativă o poate avea asupra problemelor de calitate a datelor și lipsa instrumentelor de validare a datelor în stiva de date conectate. Ieșirile de aici sunt după cum urmează.

  • Din nou, utilizați pentru validarea constructelor OWL cu semantică a lumii închise și nume unice dacă este disponibil un motor de inferență adecvat.
  • Folosi SHACL, standardizat după ce a fost remediată lista de straturi Semantic Web Layer Cake (cu toate acestea, poate fi folosit și ca motor de reguli) sau Shex.
  • Înțelegând că totul se face în cele din urmă cu interogări SPARQL, creându-vă propriul mecanism simplu de validare a datelor folosindu-le.

Cu toate acestea, chiar și o respingere completă a capabilităților deductive și a instrumentelor de validare lasă stiva de date conectate în afara concurenței în sarcini care sunt similare în peisaj cu web-ul deschis și distribuit - în sarcinile de integrare a datelor.

Dar un sistem informatic obișnuit al întreprinderii?

Acest lucru este posibil, dar ar trebui, desigur, să fiți conștienți de exact ce probleme vor trebui să rezolve tehnologiile corespunzătoare. Voi descrie aici o reacție tipică a participanților la dezvoltare pentru a arăta cum arată această stivă de tehnologie din punctul de vedere al IT-ului convențional. Îmi amintește puțin de pilda elefantului:

  • Analist de afaceri: RDF este ceva ca un model logic stocat direct.
  • Analist de sisteme: RDF este ca Extensie EAV, doar cu o grămadă de indecși și un limbaj de interogare convenabil.
  • Dezvoltator: ei bine, totul este în spiritul conceptelor de model bogat și cod redus, Citeam recent despre asta.
  • Director de proiect: da e la fel prăbușind stiva!

Practica arată că stiva este folosită cel mai adesea în sarcini legate de distribuția și eterogenitatea datelor, de exemplu, la construirea sistemelor de clasă MDM (Master Data Management) sau DWH (Data Warehouse). Astfel de probleme există în orice industrie.

În ceea ce privește aplicațiile specifice industriei, tehnologiile Linked Data sunt în prezent cele mai populare în următoarele industrii.

  • tehnologii biomedicale (unde popularitatea lor pare a fi legată de complexitatea domeniului);

actual

„Punctul de fierbere” a găzduit recent o conferință organizată de asociația „National Medical Knowledge Base” „Combinarea ontologiilor. De la teorie la aplicarea practică".

  • producția și exploatarea produselor complexe (ingineria mecanică mare, producția de petrol și gaze; cel mai adesea vorbim de standard ISO 15926);

actual

Și aici motivul este complexitatea materiei, când, de exemplu, la etapa din amonte, dacă vorbim de industria petrolului și gazelor, contabilitatea simplă necesită niște funcții CAD.

În 2008, a avut loc un eveniment reprezentativ de instalare, organizat de Chevron conferință.

ISO 15926, în cele din urmă, i s-a părut puțin greu pentru industria petrolului și gazelor (și a găsit probabil o mai mare aplicație în inginerie mecanică). Doar Statoil (Equinor) s-a prins cu totul de el; în Norvegia, un întreg ecosistem. Alții încearcă să-și facă singuri treaba. De exemplu, potrivit zvonurilor, Ministerul intern al Energiei intenționează să creeze un „model ontologic conceptual al complexului de combustibil și energie”, similar, aparent, cu creat pentru industria energiei electrice.

  • organizații financiare (chiar și XBRL poate fi considerat un fel de hibrid între SDMX și ontologia RDF Data Cube);

actual

La începutul anului, LinkedIn l-a trimis activ pe autor cu posturi vacante de la aproape toți giganții industriei financiare, pe care îi cunoaște din serialul TV „Force Majeure”: Goldman Sachs, JPMorgan Chase și/sau Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Probabil că toată lumea căuta pe cineva la care să poată trimite Conferința Knowledge Graph. Destul de mulți au reușit să găsească: organizațiile financiare au luat totul dimineata primei zile.

Pe HeadHunter, doar Sberbank a găsit ceva interesant; era vorba despre „stocare EAV cu un model de date asemănător RDF”.

Probabil, diferența în gradul de dragoste față de tehnologiile corespunzătoare ale instituțiilor financiare interne și occidentale se datorează naturii transnaționale a activităților acestora din urmă. Aparent, integrarea peste granițele de stat necesită soluții organizatorice și tehnice calitativ diferite.

  • sisteme întrebări-răspuns cu aplicații comerciale (IBM Watson, Apple Siri, Google Knowledge Graph);

actual

Apropo, creatorul lui Siri, Thomas Gruber, este autorul însăși definiției ontologiei (în sensul IT) ca „specificație de conceptualizare”. În opinia mea, rearanjarea cuvintelor din această definiție nu îi schimbă sensul, ceea ce poate indică faptul că nu există.

  • publicarea datelor structurate (cu o mai mare justificare, aceasta poate fi atribuită datelor deschise legate).

actual

Marii fani ai datelor conectate sunt așa-numitele GLAM: galerii, biblioteci, arhive și muzee. Este suficient să spunem că Biblioteca Congresului promovează un înlocuitor pentru MARC21 CADRUoferă o bază pentru viitorul descrierii bibliografice și, bineînțeles, pe baza RDF.

Wikidata este adesea citată ca exemplu de proiect de succes în domeniul Linked Open Data - un fel de versiune a Wikipedia care poate fi citită de mașină, al cărei conținut, spre deosebire de DBPedia, nu este generat prin import din infobox-uri de articole, ci este creat mai mult sau mai puțin manual (și ulterior devine o sursă de informații pentru aceleași infobox).

De asemenea, vă recomandăm să îl verificați listă utilizatorii stocării Stardog RDF pe site-ul Stardog în secțiunea „Clienți”.

Oricum ar fi, în Gartner Ciclul Hype pentru tehnologii emergente 2016 „Enterprise Taxonomy and Ontology Management” este plasat în mijlocul unei coborâri în valea dezamăgirii cu perspectiva atingerii unui „plato de productivitate” nu mai devreme de 10 ani.

Conectarea datelor întreprinderii

Prognoze, prognoze, prognoze...

Din interes istoric, am tabulat mai jos previziunile Gartner pentru diverși ani cu privire la tehnologiile care ne interesează.

An Технология raport Poziție Ani până la platou
2001 Web semantic Tehnologii emergente Declanșatoare de inovație 5-10
2006 Web semantic corporativ Tehnologii emergente Culmea așteptărilor inflaționate 5-10
2012 Web semantic Datele mari Culmea așteptărilor inflaționate > 10
2015 Date legate Analiză avansată și știință a datelor Descoperirea deziluziei 5-10
2016 Managementul ontologiei întreprinderii Tehnologii emergente Descoperirea deziluziei > 10
2018 Grafice de cunoaștere Tehnologii emergente Declanșatoare de inovație 5-10

Cu toate acestea, deja în „Hype Cycle...” 2018 a apărut o altă tendință ascendentă - Knowledge Graphs. A avut loc o anumită reîncarnare: SGBD-urile grafice, la care s-au dovedit a fi îndreptate atenția utilizatorilor și eforturile dezvoltatorilor, sub influența solicitărilor primilor și a obiceiurilor celor din urmă, au început să capete contururile și poziționarea dintre concurenții lor predecesori.

Aproape fiecare DBMS grafic se declară acum o platformă potrivită pentru construirea unui „graf de cunoștințe” corporativ („datele legate” sunt uneori înlocuite cu „date conectate”), dar cât de justificate sunt astfel de afirmații?

Bazele de date grafice sunt încă asemantice; datele dintr-un SGBD grafic sunt încă același siloz de date. Identificatorii de șiruri în loc de URI-uri fac ca sarcina de a integra două SGBD-uri grafice să fie încă o sarcină de integrare, în timp ce integrarea a două depozite RDF se rezumă adesea la pur și simplu fuzionarea a două grafice RDF. Un alt aspect al asemanticității este non-reflexivitatea modelului grafic GPL, ceea ce face dificilă gestionarea metadatelor folosind aceeași platformă.

În cele din urmă, SGBD-urile grafice nu au motoare de inferență sau motoare de reguli. Rezultatele unor astfel de motoare pot fi reproduse prin complicarea interogărilor, dar acest lucru este posibil chiar și în SQL.

Cu toate acestea, sistemele de stocare RDF de vârf nu au nicio dificultate să suporte modelul GPL. Cea mai solidă abordare este considerată a fi cea propusă la un moment dat în Blazegraph: modelul RDF*, care combină RDF și GPL.

Mai mult

Puteți citi mai multe despre suportul de stocare RDF pentru modelul GPL în articolul anterior despre Habré: „Ce se întâmplă acum cu stocarea RDF”. Sper că într-o zi se va scrie un articol separat despre Knowledge Graphs și Data Fabric. Secțiunea finală, așa cum este ușor de înțeles, a fost scrisă în grabă, însă, chiar și șase luni mai târziu, totul nu este mult mai clar cu aceste concepte.

Literatură

  1. Halpin, H., Monnin, A. (eds.) (2014). Inginerie filozofică: spre o filozofie a web-ului
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (ed. a 2-a)
  3. Staab, S., Studer, R. (eds.) (2009) Manual de ontologii (ed. a 2-a)
  4. Wood, D. (ed.). (2011) Linking Enterprise Data
  5. Keet, M. (2018) O introducere în ingineria ontologiei

Sursa: www.habr.com

Adauga un comentariu