Web semàntica i dades enllaçades. Correccions i addicions

M'agradaria presentar al públic un fragment d'aquest llibre publicat recentment:

Modelització ontològica d'una empresa: mètodes i tecnologies [Text]: monografia / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak i altres; editor executiu S.V. Gorshkov]. - Ekaterinburg: Ural University Publishing House, 2019. - 234 p.: ill., taula; 20 cm.- Autor. indicat a la titlla posterior. Amb. - Bibliografia al final del cap. — ISBN 978-5-7996-2580-1: 200 exemplars.

L'objectiu de publicar aquest fragment a Habré és quatre:

  • És poc probable que algú pugui tenir aquest llibre a les seves mans si no és client d'una persona respectada. SergeIndex; Definitivament no està a la venda.
  • S'han fet correccions al text (no es destaquen més avall) i s'han fet addicions poc compatibles amb el format d'una monografia impresa: notes d'actualitat (sota spoilers) i hiperenllaços.
  • vull recollir preguntes i comentaris, per tal de tenir-los en compte a l'hora d'incloure aquest text de forma revisada en qualsevol altra publicació.
  • Molts adherents a la web semàntica i a les dades enllaçades encara creuen que el seu cercle és tan estret, principalment perquè encara no s'ha explicat correctament al públic en general com és de fantàstic ser un adherent a la web semàntica i a les dades enllaçades. L'autor del fragment, tot i que pertany a aquest cercle, no té aquesta opinió, però, tanmateix, es considera obligat a fer un altre intent.

Per tant,

Web semàntica

L'evolució d'Internet es pot representar de la següent manera (o parlar dels seus segments que es van formar en l'ordre que s'indica a continuació):

  1. Documents a Internet. Tecnologies clau: Gopher, FTP, etc.
    Internet és una xarxa global per a l'intercanvi de recursos locals.
  2. Documents d'Internet. Les tecnologies clau són HTML i HTTP.
    La naturalesa dels recursos exposats té en compte les característiques del seu mitjà de transmissió.
  3. Dades d'Internet. Tecnologies clau: REST i SOAP API, XHR, etc.
    A l'era de les aplicacions d'Internet, no només les persones esdevenen consumidores de recursos.
  4. Dades d'Internet. Les tecnologies clau són les tecnologies de dades enllaçades.
    Aquesta quarta etapa, predita per Berners-Lee, el creador de les segones tecnologies bàsiques i director del W3C, s'anomena Web Semàntica; Les tecnologies de dades enllaçades estan dissenyades per fer que les dades del web no només siguin llegibles per la màquina, sinó que també siguin "comprensibles per la màquina".

A partir del que segueix, el lector entendrà la correspondència entre els conceptes clau de la segona i la quarta fase:

  • Els URL són anàlegs als URI,
  • l'anàleg d'HTML és RDF,
  • Els hiperenllaços HTML són similars a les ocurrències d'URI als documents RDF.

La web semàntica és més una visió sistèmica del futur d'Internet que una tendència específica espontània o pressionada, encara que pot tenir en compte aquestes últimes. Per exemple, una característica important del que s'anomena Web 2.0 es considera "contingut generat per l'usuari". En particular, es demana a la recomanació del W3C que ho tingui en compte "Ontologia d'anotacions web"i una empresa com Sòlid.

La web semàntica està morta?

Si et negues expectatives poc realistes, la situació amb la web semàntica és aproximadament la mateixa que amb el comunisme durant els temps del socialisme desenvolupat (i que cadascú decideixi per si mateix si s'observa la lleialtat a les ordres condicionals d'Ilitx). Els motors de cerca amb força èxit obliguen els llocs web a utilitzar RDFa i JSON-LD i ells mateixos utilitzen tecnologies relacionades amb les descrites a continuació (Google Knowledge Graph, Bing Knowledge Graph).

En termes generals, l'autor no pot dir què està impedint una major propagació, però pot parlar a partir de l'experiència personal. Hi ha problemes que es podrien resoldre “fora de la caixa” en les condicions de l'ofensiva del SW, tot i que no estan molt estesos. Com a resultat, els que s'enfronten a aquestes tasques no tenen cap mitjà de coacció contra els que són capaços de donar una solució, mentre que la solució independent d'aquests darrers contradiu els seus models de negoci. Així que seguim analitzant HTML i enganxant diverses API, les unes a les altres més merda.

No obstant això, les tecnologies de dades enllaçades s'han estès més enllà del web convencional; El llibre, de fet, està dedicat a aquestes aplicacions. Actualment, la comunitat de Linked Data espera que aquestes tecnologies s'estenguin encara més gràcies a l'enregistrament (o proclamació, com vulgueu, de Gartner) de tendències com ara Gràfics de coneixement и Data Fabric. M'agradaria creure que no seran les implementacions de "bicicletes" d'aquests conceptes les que tindran èxit, sinó les relacionades amb els estàndards del W3C que es comenten a continuació.

Dades enllaçades

Berners-Lee va definir Linked Data com la web semàntica "fet bé": un conjunt d'enfocaments i tecnologies que li permeten assolir els seus objectius finals. Principis bàsics de Linked Data Berners-Lee destacat el següent.

Principi 1. Ús d'URI per anomenar entitats.

Els URI són identificadors d'entitats globals a diferència dels identificadors de cadena locals per a les entrades. Posteriorment, aquest principi es va expressar millor a l'eslògan de Google Knowledge Graph "coses, no cordes».

Principi 2. Ús d'URI a l'esquema HTTP perquè es puguin desreferenciar.

En fer referència a una URI, hauria de ser possible obtenir el significat darrere d'aquest significant (l'analogia amb el nom de l'operador " és clara aquí).*"en C); més precisament, per obtenir alguna representació d'aquest significat, depenent del valor de la capçalera HTTP Accept:. Potser, amb l'arribada de l'era AR/VR, serà possible obtenir el mateix recurs, però de moment, molt probablement, serà un document RDF, que és el resultat d'executar una consulta SPARQL DESCRIBE.

Principi 3. Ús d'estàndards del W3C, principalment RDF(S) i SPARQL, en particular quan es desrefereixen els URI.

Aquestes "capes" individuals de la pila de tecnologia Linked Data, també coneguda com a Pastís de capes de web semàntica, es descriurà a continuació.

Principi 4. Ús de referències a altres URI quan es descriuen entitats.

RDF permet limitar-se a una descripció verbal d'un recurs en llenguatge natural, i el quart principi demana no fer-ho. Si el primer principi s'observa universalment, quan es descriu un recurs es fa possible fer referència a altres, inclosos els "estrangers", per això les dades s'anomenen vinculades. De fet, és gairebé inevitable utilitzar URIs anomenades al vocabulari RDFS.

RDF

RDF (Resource Description Framework) és un formalisme per descriure entitats interrelacionades.

Es fan enunciats del tipus "subjecte-predicat-objecte", anomenats triplets, sobre les entitats i les seves relacions. En el cas més simple, el subjecte, el predicat i l'objecte són tots URI. El mateix URI pot estar en diferents posicions en diferents triplets: ser un subjecte, un predicat i un objecte; Així, els triplets formen una mena de graf anomenat graf RDF.

Els subjectes i els objectes no només poden ser URI, sinó també els anomenats nodes buits, i els objectes també ho poden ser literals. Els literals són exemples de tipus primitius que consisteixen en una representació de cadena i una indicació de tipus.

Exemples d'escriptura de literals (a la sintaxi de Turtle, més informació sobre això a continuació): "5.0"^^xsd:float и "five"^^xsd:string. Literals amb tipus rdf:langString també es pot equipar amb una etiqueta d'idioma; a Turtle s'escriu així: "five"@en и "пять"@ru.

Els nodes buits són recursos "anònims" sense identificadors globals, sobre els quals es poden, però, fer declaracions; tipus de variables existencials.

Per tant (aquest és, de fet, tot el punt de RDF):

  • subjecte és un URI o un node buit,
  • el predicat és un URI,
  • L'objecte és un URI, un node buit o un literal.

Per què els predicats no poden ser nodes buits?

La raó probable és el desig d'entendre i traduir de manera informal el triplet al llenguatge de la lògica dels predicats de primer ordre. s p o com una cosa així Web semàntica i dades enllaçades. Correccions i addicionsOn Web semàntica i dades enllaçades. Correccions i addicions - predicat, Web semàntica i dades enllaçades. Correccions i addicions и Web semàntica i dades enllaçades. Correccions i addicions - constants. Els rastres d'aquesta comprensió es troben al document "LBase: Semàntica per a Llenguatges de la Web Semàntica", que té l'estatus d'una nota del grup de treball del W3C. Amb aquesta comprensió, el triplet s p []On [] - node buit, es traduirà com Web semàntica i dades enllaçades. Correccions i addicionsOn Web semàntica i dades enllaçades. Correccions i addicions - variable, però com després traduir s [] o? Document amb estat de recomanació del W3C "RDF 1.1 Semàntica” ofereix un altre mètode de traducció, però encara no considera la possibilitat que els predicats siguin nodes buits.

Tanmateix, Manu Sporni permès.

RDF és un model abstracte. RDF es pot escriure (serialitzar) en diverses sintaxis: RDF/XML, Tortuga (més llegible per l'home), JSON-LD, HDT (binari).

El mateix RDF es pot serialitzar a RDF/XML de diferents maneres, de manera que, per exemple, no té sentit validar l'XML resultant mitjançant XSD o intentar extreure dades amb XPath. De la mateixa manera, és poc probable que JSON-LD satisfà el desig mitjà del desenvolupador de Javascript de treballar amb RDF mitjançant la notació de punts i claudàtors de Javascript (tot i que JSON-LD es mou en aquesta direcció oferint un mecanisme). enquadrament).

La majoria de sintaxis ofereixen maneres d'escurçar els URI llargs. Per exemple, un anunci @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> a Turtle us permetrà escriure <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> només rdf:type.

RDFS

RDFS (Esquema RDF) - un vocabulari bàsic de modelització, introdueix els conceptes de propietat i classe i propietats com ara rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Utilitzant el diccionari RDFS, per exemple, es poden escriure les expressions vàlides següents:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS és un vocabulari de descripció i modelatge, però no és un llenguatge de restricció (tot i que l'especificació oficial i fulles possibilitat d'aquest ús). La paraula "Esquema" no s'ha d'entendre en el mateix sentit que en l'expressió "Esquema XML". Per exemple, :author rdfs:range foaf:Person significa això rdf:type tots els valors de la propietat :author - foaf:Person, però no vol dir que això s'hagi de dir amb antelació.

SPARQL

SPARQL (Protocol SPARQL i llenguatge de consulta RDF): un llenguatge per consultar dades RDF. En un cas senzill, una consulta SPARQL és un conjunt de mostres amb les quals es comparen els triplets del gràfic que s'està consultant. Els patrons poden contenir variables en posicions de subjecte, predicat i objecte.

La consulta retornarà aquests valors variables que, quan es substitueixen a les mostres, poden donar lloc a un subgraf del gràfic RDF consultat (un subconjunt dels seus triplets). Les variables del mateix nom en diferents mostres de triplets han de tenir els mateixos valors.

Per exemple, donat el conjunt anterior de set axiomes RDFS, tornarà la consulta següent rdfs:domain и rdfs:range com a valors ?s и ?p respectivament:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Val la pena assenyalar que SPARQL és declaratiu i no és un llenguatge per descriure el recorregut de gràfics (no obstant això, alguns dipòsits RDF ofereixen maneres d'ajustar el pla d'execució de la consulta). Per tant, alguns problemes de gràfics estàndard, per exemple, trobar el camí més curt, no es poden resoldre a SPARQL, inclòs l'ús del camins de propietat (però, de nou, els repositoris RDF individuals ofereixen extensions especials per resoldre aquests problemes).

SPARQL no comparteix la presumpció d'obertura del món i segueix l'enfocament de la "negació com a fracàs", en el qual possible dissenys com ara FILTER NOT EXISTS {…}. La distribució de dades es té en compte mitjançant el mecanisme consultes federades.

El punt d'accés SPARQL, un emmagatzematge RDF capaç de processar consultes SPARQL, no té anàlegs directes des de la segona etapa (vegeu l'inici d'aquest paràgraf). Es pot assimilar a una base de dades, basada en els continguts de les quals es van generar les pàgines HTML, però accessible a l'exterior. El punt d'accés SPARQL és més anàleg al punt d'accés API de la tercera etapa, però amb dues diferències principals. En primer lloc, és possible combinar diverses consultes "atòmiques" en una sola (que es considera una característica clau de GraphQL) i, en segon lloc, aquesta API és completament autodocumentada (que és el que HATEOAS va intentar aconseguir).

Comentari polèmic

RDF és una manera de publicar dades a la web, de manera que l'emmagatzematge RDF s'ha de considerar un SGBD de documents. És cert que com que RDF és un gràfic i no un arbre, també van resultar estar basats en gràfics. És increïble que hagi funcionat del tot. Qui hauria pensat que hi hauria gent intel·ligent que implementaria nodes en blanc. Codd és aquí no va funcionar.

També hi ha maneres menys completes d'organitzar l'accés a les dades RDF, per exemple, Fragments de dades enllaçats (LDF) i Plataforma de dades enllaçades (LDP).

OWL

OWL (Web Ontology Language): un formalisme per representar el coneixement, una versió sintàctica de la lògica de descripció Web semàntica i dades enllaçades. Correccions i addicions (a tot arreu és més correcte dir OWL 2, es va basar la primera versió de OWL Web semàntica i dades enllaçades. Correccions i addicions).

Els conceptes de lògica descriptiva a OWL corresponen a classes, els rols corresponen a propietats, els individus conserven el seu nom anterior. Els axiomes també s'anomenen axiomes.

Per exemple, en l'anomenat Sintaxi de Manchester per a la notació OWL un axioma ja conegut per nosaltres Web semàntica i dades enllaçades. Correccions i addicions s'escriurà així:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Hi ha altres sintaxis per escriure OWL, com ara sintaxi funcional, utilitzat en l'especificació oficial, i OWL/XML. A més, OWL es pot serialitzar per abstraure la sintaxi RDF i, a més, en qualsevol de les sintaxis específiques.

OWL té una doble relació amb RDF. D'una banda, es pot considerar com una mena de diccionari que amplia RDFS. D'altra banda, és un formalisme més potent per al qual RDF és només un format de serialització. No totes les construccions OWL elementals es poden escriure utilitzant un únic triplet RDF.

Depenent del subconjunt de construccions OWL que es permetin utilitzar, parlen dels anomenats Perfils OWL. Els estandarditzats i més famosos són OWL EL, OWL RL i OWL QL. L'elecció del perfil afecta la complexitat computacional dels problemes típics. Un conjunt complet de construccions OWL corresponents a Web semàntica i dades enllaçades. Correccions i addicions, anomenat OWL DL. De vegades també parlen d'OWL Full, en què les construccions OWL es permeten utilitzar amb tota la llibertat inherent a RDF, sense restriccions semàntiques i computacionals. Web semàntica i dades enllaçades. Correccions i addicions. Per exemple, alguna cosa pot ser alhora una classe i una propietat. OWL Full és indecidible.

Els principis clau per afegir conseqüències a OWL són l'adopció del supòsit del món obert. OWA) i el rebuig de la presumpció de noms únics (assumpció de nom únic, UNA). A continuació veurem on poden conduir aquests principis i introduirem algunes construccions OWL.

Sigui l'ontologia que contingui el fragment següent (a la sintaxi de Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Es deduirà del que s'ha dit que Joan té molts fills? Rebutjar UNA obligarà el motor d'inferència a respondre aquesta pregunta en negatiu, ja que l'Alice i el Bob poden ser la mateixa persona. Perquè tingui lloc el següent, cal afegir l'axioma següent:

DifferentIndividuals: Alice, Bob, Carol, John

Ara el fragment d'ontologia tingui la forma següent (es declara que John té molts fills, però només té dos fills):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Aquesta ontologia serà inconsistent (que es pot interpretar com una prova de dades no vàlides)? Acceptar OWA farà que el motor d'inferència respongui en negatiu: "en algun lloc" més (en una altra ontologia) es pot dir que Carol també és la filla de John.

Per descartar la possibilitat d'això, afegim un fet nou sobre John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Per excloure l'aparició d'altres fills, diguem que tots els valors de la propietat "tenir un fill" són persones, de les quals només tenim quatre:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Ara l'ontologia esdevindrà contradictòria, cosa que el motor d'inferència no deixarà d'informar. Amb l'últim dels axiomes hem, en cert sentit, "tancat" el món, i observem com s'exclou la possibilitat que John sigui el seu propi fill.

Enllaç de dades empresarials

El conjunt d'enfocaments i tecnologies de dades enllaçades estava pensat originalment per publicar dades al web. El seu ús en un entorn corporatiu intern s'enfronta a una sèrie de dificultats.

Per exemple, en un entorn corporatiu tancat, el poder deductiu d'OWL basat en l'adopció d'OWA i el rebuig d'UNA, decisions a causa de la naturalesa oberta i distribuïda de la Web, és massa feble. I aquí les solucions següents són possibles.

  • Dotar OWL de semàntica, implicant l'abandonament d'OWA i l'adopció d'UNA, la implementació del motor de sortida corresponent. - Per aquest camí està anant Emmagatzematge Stardog RDF.
  • Abandonar les capacitats deductives d'OWL en favor dels motors de regles. — Suports Stardog SWRL; Jena i GraphDB ofereixen propi idiomes regles
  • Rebuig de les capacitats deductives d'OWL, ús d'un o altre subconjunt proper a RDFS per al modelatge. - Vegeu més sobre això a continuació.

Un altre problema és el major focus que el món corporatiu pot tenir en els problemes de qualitat de les dades i la manca d'eines de validació de dades a la pila de dades enllaçades. Les sortides aquí són les següents.

  • De nou, utilitzeu-lo per validar construccions OWL amb semàntica de món tancat i noms únics si hi ha disponible un motor d'inferència adequat.
  • Utilitzar SHACL, estandarditzat després que s'hagi arreglat la llista de capes de pastís de capes de web semàntica (no obstant això, també es pot utilitzar com a motor de regles), o Shex.
  • Entenent que, finalment, tot es fa amb consultes SPARQL, creant el vostre propi mecanisme de validació de dades senzill utilitzant-les.

Tanmateix, fins i tot un rebuig total de les capacitats deductives i les eines de validació deixa la pila de dades enllaçades fora de competència en tasques que són similars en paisatge a la web oberta i distribuïda, en tasques d'integració de dades.

Què passa amb un sistema d'informació empresarial normal?

Això és possible, però, per descomptat, hauríeu de ser conscients exactament de quins problemes hauran de resoldre les tecnologies corresponents. Descriuré aquí una reacció típica dels participants del desenvolupament per mostrar com és aquesta pila de tecnologia des del punt de vista de la TI convencional. Em recorda una mica la paràbola de l'elefant:

  • Analista de negoci: RDF és una cosa així com un model lògic emmagatzemat directament.
  • Analista de sistemes: RDF és com EAV, només amb un munt d'índexs i un llenguatge de consulta convenient.
  • Creador: bé, tot això és en l'esperit dels conceptes de model ric i codi baix, estava llegint recentment sobre això.
  • Gestor de projectes: sí, és el mateix col·lapsant la pila!

La pràctica demostra que la pila s'utilitza més sovint en tasques relacionades amb la distribució i l'heterogeneïtat de les dades, per exemple, quan es construeixen sistemes de classe MDM (Master Data Management) o DWH (Data Warehouse). Aquests problemes existeixen en qualsevol indústria.

Pel que fa a les aplicacions específiques del sector, les tecnologies de dades enllaçades són actualment les més populars a les indústries següents.

  • tecnologies biomèdiques (on la seva popularitat sembla estar relacionada amb la complexitat del domini);

actual

El "Boiling Point" va acollir recentment una conferència organitzada per l'associació "National Medical Knowledge Base" "Combinació d'ontologies. De la teoria a l'aplicació pràctica».

  • producció i explotació de productes complexos (gran enginyeria mecànica, producció de petroli i gas; la majoria de vegades estem parlant d'estàndards). ISO 15926);

actual

També aquí el motiu és la complexitat de l'àrea temàtica, quan, per exemple, en l'etapa amunt, si parlem de la indústria del petroli i el gas, la comptabilitat simple requereix algunes funcions CAD.

L'any 2008, va tenir lloc un esdeveniment d'instal·lació representatiu, organitzat per Chevron la conferència.

La ISO 15926, al final, va semblar una mica pesada per a la indústria del petroli i el gas (i potser va trobar una aplicació més gran en l'enginyeria mecànica). Només Statoil (Equinor) s'hi va enganxar completament; a Noruega, un tot ecosistema. Altres intenten fer les seves coses. Per exemple, segons els rumors, el ministeri nacional d'Energia té la intenció de crear un "model ontològic conceptual del complex de combustible i energia", semblant, aparentment, a creat per a la indústria de l'energia elèctrica.

  • organitzacions financeres (fins i tot XBRL es pot considerar una mena d'híbrid de l'ontologia SDMX i RDF Data Cube);

actual

A principis d'any, LinkedIn va enviar activament a l'autor amb vacants de gairebé tots els gegants de la indústria financera, a qui coneix per la sèrie de televisió "Force Majeure": Goldman Sachs, JPMorgan Chase i/o Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Probablement tothom buscava algú a qui poder enviar Jornada de Knowledge Graph. Molts van aconseguir trobar-ho: les organitzacions financeres ho van prendre tot matí del primer dia.

A HeadHunter, només Sberbank va trobar alguna cosa interessant, es tractava d'"emmagatzematge EAV amb un model de dades semblant a RDF".

Probablement, la diferència en el grau d'amor per les tecnologies corresponents de les institucions financeres nacionals i occidentals es deu a la naturalesa transnacional de les activitats d'aquestes últimes. Aparentment, la integració a través de les fronteres estatals requereix solucions organitzatives i tècniques qualitativament diferents.

  • sistemes de preguntes-respostes amb aplicacions comercials (IBM Watson, Apple Siri, Google Knowledge Graph);

actual

Per cert, el creador de Siri, Thomas Gruber, és l'autor de la mateixa definició d'ontologia (en el sentit informàtic) com a "especificació de conceptualització". Al meu entendre, reordenar les paraules d'aquesta definició no canvia el seu significat, cosa que potser indica que no hi és.

  • publicació de dades estructurades (amb més justificació es pot atribuir a Linked Open Data).

actual

Els grans fans de les dades enllaçades són els anomenats GLAM: galeries, biblioteques, arxius i museus. Només cal dir que la Biblioteca del Congrés promou un reemplaçament del MARC21 BASTIDORQue proporciona una base per al futur de la descripció bibliogràfica i, per descomptat, basat en RDF.

Sovint es cita Wikidata com a exemple d'un projecte d'èxit en el camp de les dades obertes enllaçades, una mena de versió de Viquipèdia llegible per màquina, el contingut de la qual, a diferència de DBPedia, no es genera mitjançant la importació des de les infobox d'articles, sinó que és creat més o menys manualment (i posteriorment es converteix en una font d'informació per a les mateixes infobox).

També us recomanem que ho feu una ullada список usuaris de l'emmagatzematge Stardog RDF al lloc web de Stardog a la secció "Clients".

Sigui com sigui, a Gartner Cicle Hype per a tecnologies emergents 2016 "Enterprise Taxonomy and Ontology Management" se situa enmig d'un descens a la vall de la decepció amb la perspectiva d'arribar a un "altiplà de productivitat" no abans de 10 anys.

Connexió de dades empresarials

Previsions, previsions, previsions...

Per interès històric, he tabulat a continuació les previsions de Gartner durant diversos anys sobre les tecnologies que ens interessen.

Any Технология Informe Posició Anys a l'altiplà
2001 Web semàntica Tecnologies emergents Detonants de la innovació 5-10
2006 Web semàntica corporativa Tecnologies emergents Cim de les expectatives inflades 5-10
2012 Web semàntica Big Data Cim de les expectatives inflades > 10
2015 Dades enllaçades Analítica avançada i ciència de dades Abeurador de la Desil·lusió 5-10
2016 Gestió d'ontologia empresarial Tecnologies emergents Abeurador de la Desil·lusió > 10
2018 Gràfics de coneixement Tecnologies emergents Detonants de la innovació 5-10

Tanmateix, ja dins "Hype Cycle..." 2018 ha aparegut una altra tendència a l'alça: Knowledge Graphs. Es va produir una certa reencarnació: els SGBD gràfics, als quals es va canviar l'atenció dels usuaris i els esforços dels desenvolupadors, sota la influència de les peticions dels primers i els hàbits dels segons, van començar a agafar contorns i posicionament. dels seus antecessors competidors.

Gairebé tots els SGBD de gràfics es declaren ara una plataforma adequada per construir un "gràfic de coneixement" corporatiu ("les dades enllaçades" de vegades se substitueixen per "dades connectades"), però quina justificació estan aquestes afirmacions?

Les bases de dades de gràfics encara són asemàntiques; les dades d'un SGBD de gràfics segueixen sent la mateixa sitja de dades. Els identificadors de cadena en comptes d'URI fan que la tasca d'integrar dos SGBD de gràfics sigui una tasca d'integració, mentre que la integració de dos magatzems RDF sovint es limita a combinar dos gràfics RDF. Un altre aspecte de l'asemanticitat és la no reflexivitat del model de gràfics LPG, que dificulta la gestió de les metadades mitjançant la mateixa plataforma.

Finalment, els SGBD de gràfics no tenen motors d'inferència ni motors de regles. Els resultats d'aquests motors es poden reproduir complicant les consultes, però això és possible fins i tot en SQL.

Tanmateix, els principals sistemes d'emmagatzematge RDF no tenen cap dificultat per suportar el model de GLP. Es considera que l'enfocament més sòlid és el proposat alhora a Blazegraph: el model RDF*, que combina RDF i GLP.

més

Podeu llegir més sobre el suport d'emmagatzematge RDF per al model de GLP a l'article anterior sobre Habré: "Què està passant amb l'emmagatzematge RDF ara". Espero que algun dia s'escrigui un article a part sobre Knowledge Graphs i Data Fabric. L'apartat final, com és fàcil d'entendre, es va escriure amb pressa, però, fins i tot sis mesos després, amb aquests conceptes no tot queda molt més clar.

Literatura

  1. Halpin, H., Monnin, A. (eds.) (2014). Enginyeria filosòfica: cap a una filosofia de la xarxa
  2. Allemang, D., Hendler, J. (2011) Web semàntica per a l'ontòleg treballador (2a ed.)
  3. Staab, S., Studer, R. (eds.) (2009) Handbook on Ontologies (2a ed.)
  4. Wood, D. (ed.). (2011) Linking Enterprise Data
  5. Keet, M. (2018) An Introduction to Ontology Engineering

Font: www.habr.com

Afegeix comentari