Web semántica e datos vinculados. Correccións e engadidos

Gustaríame presentar ao público un fragmento deste libro recentemente publicado:

Modelado ontolóxico dunha empresa: métodos e tecnoloxías [Texto]: monografía / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak e outros; editor executivo S.V. Gorshkov]. - Ekaterimburgo: Ural University Publishing House, 2019. - 234 p.: il., táboa; 20 cm.- Autor. indicado na teta traseira. Con. - Bibliografía ao final do cap. — ISBN 978-5-7996-2580-1: 200 exemplares.

O propósito de publicar este fragmento en Habré é catro:

  • É improbable que alguén poida ter este libro nas súas mans se non é cliente dunha persoa respectada. SergeIndex; Definitivamente non está á venda.
  • Realizáronse correccións no texto (non se destacan a continuación) e introducíronse engadidos pouco compatibles co formato dunha monografía impresa: notas temáticas (baixo spoilers) e hipervínculos.
  • Quero recoller preguntas e comentarios, co fin de telos en conta á hora de incluír este texto de forma revisada en calquera outra publicación.
  • Moitos seguidores da web semántica e dos datos vinculados aínda cren que o seu círculo é tan estreito, principalmente porque aínda non se lle explicou debidamente ao público en xeral o xenial que é ser un adherente á web semántica e os datos vinculados. O autor do fragmento, aínda que pertence a este círculo, non sostén esta opinión, pero, con todo, considérase obrigado a facer outro intento.

Así,

Web semántica

A evolución de Internet pódese representar do seguinte xeito (ou falar dos seus segmentos que se formaron na orde que se indica a continuación):

  1. Documentos en Internet. Tecnoloxías clave: Gopher, FTP, etc.
    Internet é unha rede global para o intercambio de recursos locais.
  2. documentos de internet. As tecnoloxías clave son HTML e HTTP.
    A natureza dos recursos expostos ten en conta as características do seu medio de transmisión.
  3. Datos de Internet. Tecnoloxías clave: REST e SOAP API, XHR, etc.
    Na era das aplicacións de Internet, non só as persoas se fan consumidoras de recursos.
  4. Datos de Internet. As tecnoloxías clave son as tecnoloxías de datos vinculados.
    Esta cuarta etapa, prognosticada por Berners-Lee, o creador das segundas tecnoloxías núcleo e director do W3C, chámase Web Semántica; As tecnoloxías de datos vinculados están deseñadas para que os datos na web non só sexan lexibles pola máquina, senón que tamén sexan "comprensibles pola máquina".

A partir do que segue, o lector entenderá a correspondencia entre os conceptos clave da segunda e cuarta etapa:

  • Os URL son análogos aos URI,
  • o análogo de HTML é RDF,
  • As hiperligazóns HTML son similares ás ocorrencias de URI nos documentos RDF.

A Web Semántica é máis unha visión sistémica do futuro de Internet que unha tendencia específica espontánea ou de lobby, aínda que pode ter en conta estas últimas. Por exemplo, unha característica importante do que se chama Web 2.0 considérase "contido xerado polo usuario". En particular, a recomendación do W3C está chamada a telo en conta "Ontoloxía de anotacións web"e unha empresa como Sólido.

A web semántica está morta?

Se rexeitas expectativas pouco realistas, a situación coa web semántica é aproximadamente a mesma que co comunismo durante os tempos do socialismo desenvolvido (e se se observa a lealdade ás ordes condicionais de Ilich, que cada un decida por si mesmo). Buscadores con bastante éxito obrigar aos sitios web a utilizar RDFa e JSON-LD e utilizar eles mesmos tecnoloxías relacionadas coas descritas a continuación (Google Knowledge Graph, Bing Knowledge Graph).

En termos xerais, o autor non pode dicir o que está a impedir unha maior propagación, pero pode falar a partir da experiencia persoal. Hai problemas que se poderían solucionar “fóra da caixa” nas condicións da ofensiva do SW, aínda que non están moi estendidos. Como resultado, os que se enfrontan a estas tarefas non teñen ningún medio de coacción contra os que son capaces de proporcionar unha solución, mentres que a prestación independente dunha solución por parte deste contradí os seus modelos de negocio. Así que seguimos analizando HTML e pegando varias API, unhas a outras máis merda.

Non obstante, as tecnoloxías de datos vinculados estendéronse máis aló da web convencional; O libro, de feito, está dedicado a estas aplicacións. Actualmente, a comunidade de Linked Data espera que estas tecnoloxías estean aínda máis estendidas grazas á gravación de Gartner (ou proclamación, segundo queirades) de tendencias como Gráficos de coñecemento и Tecido de datos. Gustaríame crer que non serán as implementacións "en bicicleta" destes conceptos as que terán éxito, senón as relacionadas cos estándares do W3C que se comentan a continuación.

Datos vinculados

Berners-Lee definiu Linked Data como a web semántica "feita ben": un conxunto de enfoques e tecnoloxías que lle permiten acadar os seus obxectivos finais. Principios básicos de Linked Data Berners-Lee destacado O seguinte.

Principio 1. Usando URIs para nomear entidades.

Os URI son identificadores de entidades globais en oposición aos identificadores de cadeas locais para as entradas. Posteriormente, este principio foi mellor expresado no slogan de Google Knowledge Graph "cousas, non cordas».

Principio 2. Usando URIs no esquema HTTP para que se poidan desreferenciar.

Ao referirse a un URI, debería ser posible obter o significado detrás dese significante (aquí queda clara a analoxía co nome do operador ").*"en C); máis precisamente, para obter algunha representación deste significado, dependendo do valor da cabeceira HTTP Accept:. Quizais, coa chegada da era AR/VR, sexa posible obter o propio recurso, pero polo momento, moi probablemente, será un documento RDF, que é o resultado da execución dunha consulta SPARQL DESCRIBE.

Principio 3. Uso dos estándares W3C, principalmente RDF(S) e SPARQL, en particular cando se desreferencian os URI.

Estas "capas" individuais da pila de tecnoloxía Linked Data, tamén coñecidas como Bolo de capas da web semántica, describirase a continuación.

Principio 4. Uso de referencias a outros URI ao describir entidades.

RDF permítelle limitarse a unha descrición verbal dun recurso en linguaxe natural, e o cuarto principio chama a non facelo. Se o primeiro principio se observa universalmente, ao describir un recurso faise posible referirse a outros, incluídos os "estranxeiros", polo que os datos se chaman vinculados. De feito, é case inevitable usar URIs nomeados no vocabulario RDFS.

R.F.D.

R.F.D. (Resource Description Framework) é un formalismo para describir entidades interrelacionadas.

Os enunciados do tipo "suxeito-predicado-obxecto", chamados trillizos, fanse sobre as entidades e as súas relacións. No caso máis sinxelo, o suxeito, o predicado e o obxecto son todos URI. O mesmo URI pode estar en diferentes posicións en diferentes tripletes: ser un suxeito, un predicado e un obxecto; Así, os trillizos forman unha especie de gráfico chamado gráfico RDF.

Os suxeitos e obxectos poden ser non só URI, senón tamén os chamados nodos baleiros, e os obxectos tamén poden ser literais. Os literais son exemplos de tipos primitivos que consisten nunha representación de cadea e unha indicación de tipo.

Exemplos de escritura literais (na sintaxe de Turtle, máis sobre iso a continuación): "5.0"^^xsd:float и "five"^^xsd:string. Literais con tipo rdf:langString tamén se pode equipar cunha etiqueta de idioma; en Turtle escríbese así: "five"@en и "пять"@ru.

Os nós baleiros son recursos "anónimos" sen identificadores globais, sobre os cales se poden, non obstante, facer declaracións; tipo de variables existenciais.

Entón (este é, de feito, todo o punto de RDF):

  • o asunto é un URI ou un nodo baleiro,
  • o predicado é un URI,
  • o obxecto é un URI, un nodo baleiro ou un literal.

Por que os predicados non poden ser nós baleiros?

O motivo probable é o desexo de comprender e traducir de xeito informal o triplete á linguaxe da lóxica de predicados de primeira orde. s p o como algo así Web semántica e datos vinculados. Correccións e engadidosonde Web semántica e datos vinculados. Correccións e engadidos - predicado, Web semántica e datos vinculados. Correccións e engadidos и Web semántica e datos vinculados. Correccións e engadidos - constantes. Os rastros deste entendemento están no documento "LBase: Semántica para as linguaxes da Web Semántica", que ten o status de nota do grupo de traballo do W3C. Con este entendemento, o triplete s p []onde [] - nodo baleiro, traducirase como Web semántica e datos vinculados. Correccións e engadidosonde Web semántica e datos vinculados. Correccións e engadidos - variable, pero como logo traducir s [] o? Documento co estado de recomendación do W3C "RDF 1.1 Semántica” ofrece outro método de tradución, pero aínda non considera a posibilidade de que os predicados sexan nós baleiros.

Porén, Manu Sporni permitidas.

RDF é un modelo abstracto. RDF pódese escribir (serializar) en varias sintaxes: RDF/XML, Tartaruga (máis lexible por humanos), JSON-LD, HDT (binario).

O mesmo RDF pódese serializar en RDF/XML de diferentes xeitos, polo que, por exemplo, non ten sentido validar o XML resultante mediante XSD ou tentar extraer datos mediante XPath. Do mesmo xeito, é improbable que JSON-LD satisfaga o desexo medio do desenvolvedor de Javascript de traballar con RDF usando a notación de puntos e corchetes de Javascript (aínda que JSON-LD avanza nesa dirección ofrecendo un mecanismo encadramento).

A maioría das sintaxes ofrecen formas de acurtar os URI longos. Por exemplo, un anuncio @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> en Turtle permitirache escribir no seu lugar <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> xusto rdf:type.

RDFS

RDFS (Esquema RDF) - un vocabulario básico de modelado, introduce os conceptos de propiedade e clase e propiedades como rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Usando o dicionario RDFS, por exemplo, pódense escribir as seguintes expresións válidas:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS é un vocabulario de descrición e modelado, pero non é unha linguaxe de restrición (aínda que a especificación oficial e follas posibilidade de tal uso). A palabra "Esquema" non debe entenderse no mesmo sentido que na expresión "Esquema XML". Por exemplo, :author rdfs:range foaf:Person significa iso rdf:type todos os valores da propiedade :author - foaf:Person, pero non significa que isto deba dicirse con antelación.

SPARQL

SPARQL (Protocolo SPARQL e Linguaxe de consulta RDF): unha linguaxe para consultar datos RDF. Nun caso sinxelo, unha consulta SPARQL é un conxunto de mostras coas que se relacionan trillizos do gráfico que se está a consultar. Os patróns poden conter variables en posicións de suxeito, predicado e obxecto.

A consulta devolverá tales valores variables que, cando se substitúen nas mostras, poden dar como resultado un subgráfico do gráfico RDF consultado (un subconxunto dos seus tripletes). As variables do mesmo nome en diferentes mostras de trillizos deben ter os mesmos valores.

Por exemplo, dado o conxunto anterior de sete axiomas RDFS, devolverá a seguinte consulta rdfs:domain и rdfs:range como valores ?s и ?p respectivamente:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Paga a pena sinalar que SPARQL é declarativo e non é unha linguaxe para describir o atravesamento de gráficos (porén, algúns repositorios RDF ofrecen formas de axustar o plan de execución de consultas). Polo tanto, algúns problemas de gráficos estándar, por exemplo, atopar o camiño máis curto, non se poden resolver en SPARQL, incluíndo o uso do camiños da propiedade (pero, de novo, os repositorios RDF individuais ofrecen extensións especiais para resolver estes problemas).

SPARQL non comparte a presunción de apertura do mundo e segue o enfoque da "negación como fracaso", no que posible deseños como FILTER NOT EXISTS {…}. A distribución de datos tómase en conta mediante o mecanismo consultas federadas.

O punto de acceso SPARQL -un almacenamento RDF capaz de procesar consultas SPARQL- non ten análogos directos desde a segunda etapa (consulte o inicio deste parágrafo). Pódese comparar cunha base de datos, en función dos contidos das que se xeraron as páxinas HTML, pero accesible para o exterior. O punto de acceso SPARQL é máis análogo ao punto de acceso API da terceira etapa, pero con dúas diferenzas principais. En primeiro lugar, é posible combinar varias consultas "atómicas" nunha soa (que se considera unha característica clave de GraphQL) e, en segundo lugar, esa API é completamente autodocumentada (que é o que HATEOAS intentou conseguir).

Comentario polémico

RDF é unha forma de publicar datos na web, polo que o almacenamento RDF debe considerarse un DBMS de documentos. É certo, dado que RDF é un gráfico e non unha árbore, tamén resultaron estar baseados en gráficos. É incrible que funcionou en absoluto. Quen diría que habería xente intelixente que implementaría nodos en branco. Codd está aquí non funcionou.

Tamén hai formas menos completas de organizar o acceso aos datos RDF, por exemplo, Fragmentos de datos vinculados (LDF) e Plataforma de datos vinculados (LDP).

OWL

OWL (Web Ontology Language) - un formalismo para representar o coñecemento, unha versión sintáctica da lóxica de descrición Web semántica e datos vinculados. Correccións e engadidos (en todas partes abaixo é máis correcto dicir OWL 2, baseouse a primeira versión de OWL Web semántica e datos vinculados. Correccións e engadidos).

Os conceptos das lóxicas descritivas en OWL corresponden a clases, os roles corresponden a propiedades, os individuos conservan o seu nome anterior. Os axiomas tamén se chaman axiomas.

Por exemplo, no chamado Sintaxe de Manchester para a notación OWL un axioma xa coñecido por nós Web semántica e datos vinculados. Correccións e engadidos escribirase así:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Hai outras sintaxes para escribir OWL, como sintaxe funcional, usado na especificación oficial, e OWL/XML. Ademais, OWL pódese serializar para abstraer a sintaxe RDF e ademais - en calquera das sintaxes específicas.

OWL ten unha dobre relación con RDF. Por unha banda, pódese considerar como unha especie de dicionario que estende RDFS. Por outra banda, é un formalismo máis potente para o que RDF é só un formato de serialización. Non todas as construcións elementais de OWL poden escribirse usando un único triplete RDF.

Dependendo de que subconxunto de construcións OWL se permita utilizar, falan dos chamados Perfís OWL. Os estandarizados e máis famosos son OWL EL, OWL RL e OWL QL. A elección do perfil afecta a complexidade computacional dos problemas típicos. Un conxunto completo de construcións OWL correspondentes a Web semántica e datos vinculados. Correccións e engadidos, chamado OWL DL. Ás veces tamén falan de OWL Full, no que se permite o uso de construcións OWL coa total liberdade inherente a RDF, sen restricións semánticas e computacionais. Web semántica e datos vinculados. Correccións e engadidos. Por exemplo, algo pode ser tanto unha clase como unha propiedade. OWL Full é indecidible.

Os principios clave para achegar consecuencias en OWL son a adopción da suposición do mundo aberto. O.W.A.) e rexeitamento da presunción de nomes únicos (suposición de nome único, UNHA). A continuación veremos a onde poden levar estes principios e introduciremos algunhas construcións OWL.

Deixa que a ontoloxía conteña o seguinte fragmento (na sintaxe de Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Deducirase do que se dixo que Xoán ten moitos fillos? Rexeitar UNA obrigará ao motor de inferencia a responder a esta pregunta en negativo, xa que Alice e Bob ben poden ser a mesma persoa. Para que se produza o seguinte, é necesario engadir o seguinte axioma:

DifferentIndividuals: Alice, Bob, Carol, John

Imos agora que o fragmento de ontoloxía teña a seguinte forma (declárase que John ten moitos fillos, pero só ten dous fillos):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Esta ontoloxía será inconsistente (o que se pode interpretar como evidencia de datos non válidos)? Aceptar OWA fará que o motor de inferencia responda en negativo: noutro lugar (noutra ontoloxía) ben se pode dicir que Carol tamén é filla de John.

Para descartar a posibilidade diso, engademos un dato novo sobre John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Para excluír a aparición doutros fillos, digamos que todos os valores da propiedade "ter un fillo" son persoas, das que só temos catro:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Agora a ontoloxía converterase en contraditoria, o que o motor de inferencia non deixará de informar. Co último dos axiomas temos, en certo sentido, “pechado” o mundo, e observamos como se exclúe a posibilidade de que John sexa o seu propio fillo.

Vinculación de datos da empresa

O conxunto de enfoques e tecnoloxías Linked Data estaba orixinalmente destinado a publicar datos na web. O seu uso nun entorno corporativo interno enfróntase a unha serie de dificultades.

Por exemplo, nun entorno corporativo pechado, o poder deductivo de OWL baseado na adopción de OWA e no rexeitamento de UNA, decisións debido á natureza aberta e distribuída da Rede, é demasiado débil. E aquí son posibles as seguintes solucións.

  • Dotar a OWL de semántica, implicando o abandono de OWA e a adopción de UNA, a implantación do motor de saída correspondente. - Por este camiño vai indo Almacenamento Stardog RDF.
  • Abandonar as capacidades dedutivas de OWL en favor dos motores de regras. - Soportes Stardog SWRL; Oferta de Jena e GraphDB propio idiomas regras
  • Rexeitamento das capacidades dedutivas de OWL, uso dun ou outro subconxunto próximo a RDFS para a modelización. - Vexa máis sobre isto a continuación.

Outro problema é o maior foco que o mundo corporativo pode ter nos problemas de calidade dos datos e a falta de ferramentas de validación de datos na pila de datos vinculados. As saídas aquí son as seguintes.

  • De novo, úsao para validar construcións OWL con semántica de mundo pechado e nomes únicos se hai un motor de inferencia apropiado dispoñible.
  • Usar SHACL, estandarizado despois de que se corrixise a lista de capas de bolo de capas da web semántica (porén, tamén se pode usar como motor de regras) ou Shex.
  • Comprender que todo se fai en última instancia con consultas SPARQL, creando o seu propio mecanismo de validación de datos sinxelo usándoas.

Non obstante, mesmo un rexeitamento total das capacidades dedutivas e das ferramentas de validación deixa fóra da competencia a pila de datos vinculados en tarefas que son similares en paisaxe á web aberta e distribuída, nas tarefas de integración de datos.

E un sistema de información empresarial normal?

Isto é posible, pero, por suposto, debes saber exactamente cales son os problemas que terán que resolver as tecnoloxías correspondentes. Describirei aquí unha reacción típica dos participantes no desenvolvemento para mostrar como é esta pila tecnolóxica desde o punto de vista das TI convencional. Lémbrame un pouco a parábola do elefante:

  • Analista de negocios: RDF é algo así como un modelo lóxico almacenado directamente.
  • Analista de sistemas: RDF é como EAV, só cunha chea de índices e unha linguaxe de consulta conveniente.
  • Desenvolvedor: ben, isto é todo no espírito dos conceptos de modelo rico e código baixo, estaba lendo recentemente sobre isto.
  • Xerente de proxecto: si é o mesmo colapsando a pila!

A práctica mostra que a pila úsase con máis frecuencia en tarefas relacionadas coa distribución e heteroxeneidade dos datos, por exemplo, cando se crean sistemas de clase MDM (Master Data Management) ou DWH (Data Warehouse). Tales problemas existen en calquera industria.

En canto ás aplicacións específicas do sector, as tecnoloxías de datos vinculados son actualmente máis populares nas seguintes industrias.

  • tecnoloxías biomédicas (onde a súa popularidade parece estar relacionada coa complexidade do dominio);

actual

O "Boiling Point" acolleu recentemente unha conferencia organizada pola asociación "National Medical Knowledge Base" "Combinación de ontoloxías. Da teoría á aplicación práctica».

  • produción e explotación de produtos complexos (enxeñería mecánica grande, produción de petróleo e gas; a maioría das veces estamos a falar de estándares). ISO 15926);

actual

Aquí, tamén, a razón é a complexidade da área temática, cando, por exemplo, na fase ascendente, se falamos da industria do petróleo e do gas, a contabilidade simple require algunhas funcións CAD.

En 2008, tivo lugar un evento de instalación representativo, organizado por Chevron a conferencia.

A ISO 15926, ao final, pareceu un pouco pesada para a industria do petróleo e do gas (e quizais atopou unha maior aplicación na enxeñaría mecánica). Só Statoil (Equinor) se enganchou completamente a el; en Noruega, un todo ecosistema. Outros están tentando facer o seu. Por exemplo, segundo os rumores, o Ministerio de Enerxía nacional pretende crear un "modelo ontolóxico conceptual do complexo de combustible e enerxía", similar, ao parecer, ao creado para a industria da enerxía eléctrica.

  • organizacións financeiras (mesmo XBRL pode considerarse unha especie de híbrido de SDMX e a ontoloxía RDF Data Cube);

actual

A principios de ano, LinkedIn enviou activamente ao autor con vacantes de case todos os xigantes da industria financeira, a quen coñece pola serie de televisión "Force Majeure": Goldman Sachs, JPMorgan Chase e/ou Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Probablemente todo o mundo estaba a buscar alguén ao que enviar Xornada de Knowledge Graph. Moitos conseguiron atopar: as organizacións financeiras levaron todo mañá do primeiro día.

En HeadHunter, só Sberbank atopouse con algo interesante; tratábase de "almacenamento EAV cun modelo de datos tipo RDF".

Probablemente, a diferenza no grao de amor polas tecnoloxías correspondentes das institucións financeiras nacionais e occidentais débese á natureza transnacional das actividades destas últimas. Ao parecer, a integración a través das fronteiras estatais require solucións organizativas e técnicas cualitativamente diferentes.

  • sistemas de preguntas-respostas con aplicacións comerciais (IBM Watson, Apple Siri, Google Knowledge Graph);

actual

Por certo, o creador de Siri, Thomas Gruber, é o autor da propia definición da ontoloxía (no sentido das TI) como unha "especificación de conceptualización". Na miña opinión, reordenar as palabras nesta definición non cambia o seu significado, o que quizais indica que non está aí.

  • publicación de datos estruturados (con maior xustificación pódese atribuír a Linked Open Data).

actual

Os grandes fans dos datos vinculados son os chamados GLAM: galerías, bibliotecas, arquivos e museos. Basta dicir que a Biblioteca do Congreso está a promover un substituto para MARC21 BANDEIRAQue proporciona unha base para o futuro da descrición bibliográfica e, por suposto, baseado en RDF.

Wikidata cítase a miúdo como un exemplo de proxecto exitoso no campo dos Linked Open Data, unha especie de versión de Wikipedia lexible por máquinas, cuxo contido, a diferenza de DBPedia, non se xera mediante a importación desde caixas de información de artigos, senón que é creado máis ou menos manualmente (e posteriormente convértese nunha fonte de información para as mesmas caixas de información).

Tamén recomendamos que o comprobe список usuarios do almacenamento Stardog RDF no sitio web de Stardog na sección "Clientes".

Sexa como for, en Gartner Ciclo Hype para Tecnoloxías Emerxentes 2016 "Enterprise Taxonomy and Ontology Management" sitúase no medio dun descenso ao val da decepción coa perspectiva de alcanzar unha "meseta de produtividade" non antes de 10 anos.

Conectando datos empresariais

Previsións, previsións, previsións...

Por interese histórico, tabulari a continuación as previsións de Gartner durante varios anos sobre as tecnoloxías que nos interesan.

Ano Технология Informe Posición Anos ata a meseta
2001 Web semántica Tecnoloxías emerxentes Disparador de Innovación 5-10
2006 Web Semántica Corporativa Tecnoloxías emerxentes Pico de expectativas infladas 5-10
2012 Web semántica Big Data Pico de expectativas infladas > 10
2015 Datos vinculados Analítica avanzada e ciencia de datos Coxa da Desilusión 5-10
2016 Xestión da Ontoloxía Empresarial Tecnoloxías emerxentes Coxa da Desilusión > 10
2018 Gráficos de coñecemento Tecnoloxías emerxentes Disparador de Innovación 5-10

Porén, xa en "Hype Cycle..." 2018 apareceu outra tendencia ascendente - Knowledge Graphs. Produciuse unha certa reencarnación: os DBMS gráficos, aos que se cambiou a atención dos usuarios e os esforzos dos desenvolvedores, baixo a influencia das peticións dos primeiros e dos hábitos dos segundos, comezaron a tomar contornos e posicionamento. dos seus antecesores competidores.

Case todos os DBMS de gráficos decláranse agora como unha plataforma axeitada para construír un "gráfico de coñecemento" corporativo ("os datos vinculados" ás veces substitúense por "datos conectados"), pero ¿que tan xustificadas están tales afirmacións?

As bases de datos de gráficos seguen sendo asemánticas; os datos dun DBMS de gráficos seguen sendo o mesmo silo de datos. Os identificadores de cadea en lugar de URI fan que a tarefa de integrar dous DBMS de gráficos siga sendo unha tarefa de integración, mentres que a integración de dúas tendas RDF adoita reducirse a simplemente fusionar dous gráficos RDF. Outro aspecto da asemanticidade é a non reflexividade do modelo gráfico de LPG, o que dificulta a xestión dos metadatos mediante a mesma plataforma.

Finalmente, os DBMS gráficos non teñen motores de inferencia nin motores de regras. Os resultados deste tipo de motores pódense reproducir complicando as consultas, pero isto é posible incluso en SQL.

Non obstante, os principais sistemas de almacenamento RDF non teñen ningunha dificultade para soportar o modelo de GLP. Considérase que o enfoque máis sólido é o proposto nun tempo en Blazegraph: o modelo RDF*, que combina RDF e GLP.

Máis

Podes ler máis sobre o soporte de almacenamento RDF para o modelo GLP no artigo anterior sobre Habré: "Que está a pasar co almacenamento RDF agora". Espero que algún día se escriba un artigo separado sobre Knowledge Graphs e Data Fabric. O apartado final, como é doado de entender, foi escrito con présa, sen embargo, aínda seis meses despois, non está todo moito máis claro con estes conceptos.

Literatura

  1. Halpin, H., Monnin, A. (eds.) (2014). Enxeñaría filosófica: cara a unha filosofía da web
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2ª ed.)
  3. Staab, S., Studer, R. (eds.) (2009) Handbook on Ontologies (2ª ed.)
  4. Wood, D. (ed.). (2011) Linking Enterprise Data
  5. Keet, M. (2018) An Introduction to Ontology Engineering

Fonte: www.habr.com

Engadir un comentario