Web Semántica y Datos Enlazados. Correcciones y adiciones

Me gustaría presentar al público un fragmento de este libro recientemente publicado:

Modelado ontológico de una empresa: métodos y tecnologías [Texto]: monografía / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak y otros; editor ejecutivo S.V. Gorshkov]. - Ekaterimburgo: Editorial de la Universidad de los Urales, 2019. - 234 p.: ill., tabla; 20 cm.- Autor. indicado en la teta trasera. Con. — Bibliografía al final del cap. — ISBN 978-5-7996-2580-1: 200 ejemplares.

El propósito de publicar este fragmento sobre Habré es cuatro:

  • Es poco probable que alguien pueda tener este libro en sus manos si no es cliente de un respetado SergeIndex; Definitivamente no está a la venta.
  • Se han realizado correcciones al texto (no se resaltan a continuación) y se han agregado adiciones que no son muy compatibles con el formato de una monografía impresa: notas de actualidad (bajo spoilers) e hipervínculos.
  • Quiero recoger preguntas y comentarios, para tenerlos en cuenta a la hora de incluir este texto revisado en cualquier otra publicación.
  • Muchos seguidores de la Web Semántica y los Datos Enlazados todavía creen que su círculo es muy estrecho, principalmente porque todavía no se ha explicado adecuadamente al público en general lo bueno que es ser un seguidor de la Web Semántica y los Datos Enlazados. El autor del fragmento, aunque pertenece a este círculo, no comparte esta opinión, pero, sin embargo, se considera obligado a hacer otro intento.

Por lo tanto,

Web semántica

La evolución de Internet se puede representar de la siguiente manera (o hablar de sus segmentos que se formaron en el orden que se indica a continuación):

  1. Documentos en Internet. Tecnologías clave: Gopher, FTP, etc.
    Internet es una red global para el intercambio de recursos locales.
  2. documentos de internet. Las tecnologías clave son HTML y HTTP.
    La naturaleza de los recursos expuestos tiene en cuenta las características de su medio de transmisión.
  3. datos de internet. Tecnologías clave: API REST y SOAP, XHR, etc.
    En la era de las aplicaciones de Internet, no sólo las personas se convierten en consumidores de recursos.
  4. datos de internet. Las tecnologías clave son las tecnologías de datos vinculados.
    Esta cuarta etapa, vaticinada por Berners-Lee, creador de las tecnologías del segundo núcleo y director del W3C, se llama Web Semántica; Las tecnologías de datos vinculados están diseñadas para hacer que los datos en la web no sólo sean legibles por máquina, sino también “comprensibles por máquina”.

De lo que sigue, el lector comprenderá la correspondencia entre los conceptos clave de la segunda y cuarta etapa:

  • Las URL son análogas a las URI,
  • el análogo de HTML es RDF,
  • Los hipervínculos HTML son similares a las apariciones de URI en documentos RDF.

La Web Semántica es más una visión sistémica del futuro de Internet que una tendencia específica, espontánea o impulsada por lobby, aunque puede tener en cuenta estas últimas. Por ejemplo, una característica importante de lo que se llama Web 2.0 es el “contenido generado por el usuario”. En particular, se pide que la recomendación del W3C lo tenga en cuenta “Ontología de anotaciones web"y una empresa como Sólido.

¿Está muerta la Web Semántica?

si te niegas Expectativas irrealistas, la situación con la red semántica es aproximadamente la misma que con el comunismo durante la época del socialismo desarrollado (y si se observa la lealtad a los mandatos condicionales de Ilich, que cada uno decida por sí mismo). Los motores de búsqueda bastante exitoso obligan a los sitios web a utilizar RDFa y JSON-LD y ellos mismos utilizan tecnologías relacionadas con las que se describen a continuación (Google Knowledge Graph, Bing Knowledge Graph).

En términos generales, el autor no puede decir qué impide una mayor propagación, pero puede hablar basándose en su experiencia personal. Hay problemas que podrían resolverse "de forma inmediata" en las condiciones de la ofensiva SW, aunque no están muy extendidos. Como resultado, quienes se enfrentan a estas tareas no tienen medios de coerción contra quienes son capaces de proporcionar una solución, mientras que el suministro independiente de una solución por parte de estos últimos contradice sus modelos de negocio. Así que continuamos analizando HTML y uniendo varias API, cada una de ellas peor.

Sin embargo, las tecnologías de datos vinculados se han extendido más allá de la Web convencional; El libro, de hecho, está dedicado a estas aplicaciones. Actualmente, la comunidad de Linked Data espera que estas tecnologías se generalicen aún más gracias al registro (o proclamación, como se prefiera) por parte de Gartner de tendencias como Gráficos de conocimiento и Tejido de datos. Me gustaría creer que no serán las implementaciones "en bicicleta" de estos conceptos las que tendrán éxito, sino aquellas relacionadas con los estándares del W3C que se analizan a continuación.

Datos vinculados

Berners-Lee definió Linked Data como la web semántica “bien hecha”: un conjunto de enfoques y tecnologías que le permiten alcanzar sus objetivos finales. Principios básicos de los datos enlazados Berners-Lee señalado la siguiente.

Principio 1. Usar URI para nombrar entidades.

Los URI son identificadores de entidades globales, a diferencia de los identificadores de cadenas locales para entradas. Posteriormente, este principio se expresó mejor en el eslogan de Google Knowledge Graph “cosas, no cuerdas".

Principio 2. Usar URI en el esquema HTTP para que se pueda eliminar la referencia a ellos.

Haciendo referencia a un URI, debería ser posible obtener el significado detrás de ese significante (la analogía con el nombre del operador "es clara aquí).*" Cª); más precisamente, para obtener alguna representación de este significado, dependiendo del valor del encabezado HTTP Accept:. Quizás, con la llegada de la era AR/VR, será posible obtener el recurso en sí, pero por ahora lo más probable es que sea un documento RDF, que es el resultado de ejecutar una consulta SPARQL. DESCRIBE.

Principio 3. Uso de estándares W3C, principalmente RDF(S) y SPARQL, en particular al eliminar referencias de URI.

Estas "capas" individuales de la pila de tecnología de datos vinculados, también conocidas como Pastel de capas de web semántica, se describirá a continuación.

Principio 4. Uso de referencias a otros URI al describir entidades.

RDF le permite limitarse a una descripción verbal de un recurso en lenguaje natural, y el cuarto principio exige no hacerlo. Si el primer principio se observa universalmente, al describir un recurso será posible hacer referencia a otros, incluidos los "extranjeros", razón por la cual los datos se denominan vinculados. De hecho, es casi inevitable utilizar URI nombrados en el vocabulario RDFS.

RDF

RDF (Marco de descripción de recursos) es un formalismo para describir entidades interrelacionadas.

Se hacen declaraciones del tipo “sujeto-predicado-objeto”, llamadas tripletas, sobre entidades y sus relaciones. En el caso más simple, el sujeto, el predicado y el objeto son todos URI. El mismo URI puede estar en diferentes posiciones en diferentes tripletes: ser un sujeto, un predicado y un objeto; Por tanto, los tripletes forman una especie de gráfico llamado gráfico RDF.

Los sujetos y objetos pueden ser no sólo URI, sino también los llamados nodos vacios, y los objetos también pueden ser literales. Los literales son instancias de tipos primitivos que constan de una representación de cadena y una indicación de tipo.

Ejemplos de escritura literal (en sintaxis Turtle, más información a continuación): "5.0"^^xsd:float и "five"^^xsd:string. Literales con tipo rdf:langString También se puede equipar con una etiqueta de idioma, en Turtle se escribe así: "five"@en и "пять"@ru.

Los nodos vacíos son recursos "anónimos" sin identificadores globales, sobre los cuales, sin embargo, se pueden hacer declaraciones; tipo de variables existenciales.

Entonces (este es, de hecho, el objetivo de RDF):

  • El asunto es un URI o un nodo vacío.
  • el predicado es un URI,
  • El objeto es un URI, un nodo vacío o un literal.

¿Por qué los predicados no pueden ser nodos vacíos?

La razón probable es el deseo de comprender y traducir informalmente el triplete al lenguaje de la lógica de predicados de primer orden. s p o como algo como Web Semántica y Datos Enlazados. Correcciones y adicionesDonde Web Semántica y Datos Enlazados. Correcciones y adiciones - predicado, Web Semántica y Datos Enlazados. Correcciones y adiciones и Web Semántica y Datos Enlazados. Correcciones y adiciones - constantes. Las huellas de este entendimiento están en el documento “LBase: Semántica para Lenguajes de la Web Semántica", que tiene el estatus de nota del grupo de trabajo del W3C. Con este entendimiento, el triplete s p []Donde [] - nodo vacío, se traducirá como Web Semántica y Datos Enlazados. Correcciones y adicionesDonde Web Semántica y Datos Enlazados. Correcciones y adiciones - variable, pero ¿cómo entonces traducir? s [] o? Documento con estado de Recomendación W3C "Semántica RDF 1.1” ofrece otro método de traducción, pero aún no considera la posibilidad de que los predicados sean nodos vacíos.

Sin embargo, Manu Sporni permitido.

RDF es un modelo abstracto. RDF se puede escribir (serializar) en varias sintaxis: RDF / XML, salvar las (más legible por humanos), JSON-LD, HDT (binario).

El mismo RDF se puede serializar en RDF/XML de diferentes maneras, por lo que, por ejemplo, no tiene sentido validar el XML resultante usando XSD o intentar extraer datos usando XPath. Del mismo modo, es poco probable que JSON-LD satisfaga el deseo del desarrollador de Javascript promedio de trabajar con RDF usando la notación de puntos y corchetes de Javascript (aunque JSON-LD avanza en esa dirección al ofrecer un mecanismo enmarcado).

La mayoría de las sintaxis ofrecen formas de acortar los URI largos. Por ejemplo, un anuncio @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> en Turtle te permitirá escribir en su lugar <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> sólo rdf:type.

RDFS

RDFS (Esquema RDF): un vocabulario básico de modelado que introduce los conceptos de propiedad y clase y propiedades como rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Usando el diccionario RDFS, por ejemplo, se pueden escribir las siguientes expresiones válidas:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS es un vocabulario de descripción y modelado, pero no es un lenguaje de restricciones (aunque la especificación oficial y hojas posibilidad de tal uso). La palabra "Esquema" no debe entenderse en el mismo sentido que la expresión "Esquema XML". Por ejemplo, :author rdfs:range foaf:Person significa que rdf:type todos los valores de propiedad :author - foaf:Person, pero no significa que esto deba decirse de antemano.

SPARQL

SPARQL (Protocolo SPARQL y lenguaje de consulta RDF): un lenguaje para consultar datos RDF. En un caso simple, una consulta SPARQL es un conjunto de muestras con las que se comparan los tripletes del gráfico que se consulta. Los patrones pueden contener variables en posiciones de sujeto, predicado y objeto.

La consulta devolverá valores de variables que, cuando se sustituyen en las muestras, pueden dar como resultado un subgrafo del gráfico RDF consultado (un subconjunto de sus tripletes). Las variables del mismo nombre en diferentes muestras de tripletes deben tener los mismos valores.

Por ejemplo, dado el conjunto anterior de siete axiomas RDFS, la siguiente consulta devolverá rdfs:domain и rdfs:range como valores ?s и ?p en consecuencia:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Vale la pena señalar que SPARQL es declarativo y no es un lenguaje para describir el recorrido de gráficos (sin embargo, algunos repositorios RDF ofrecen formas de ajustar el plan de ejecución de consultas). Por lo tanto, algunos problemas de gráficos estándar, por ejemplo, encontrar el camino más corto, no se pueden resolver en SPARQL, incluido el uso del rutas de propiedad (pero, nuevamente, los repositorios RDF individuales ofrecen extensiones especiales para resolver estos problemas).

SPARQL no comparte la presunción de apertura del mundo y sigue el enfoque de “negación como fracaso”, en el que son posibles diseños como FILTER NOT EXISTS {…}. La distribución de datos se tiene en cuenta mediante el mecanismo. consultas federadas.

El punto de acceso SPARQL, un almacenamiento RDF capaz de procesar consultas SPARQL, no tiene análogos directos de la segunda etapa (consulte el principio de este párrafo). Se puede comparar con una base de datos, a partir de cuyo contenido se generaron páginas HTML, pero accesibles desde el exterior. El punto de acceso SPARQL es más análogo al punto de acceso API de la tercera etapa, pero con dos diferencias principales. En primer lugar, es posible combinar varias consultas "atómicas" en una (lo que se considera una característica clave de GraphQL) y, en segundo lugar, dicha API se autodocumenta por completo (que es lo que HATEOAS intentó lograr).

Comentario polémico

RDF es una forma de publicar datos en la web, por lo que el almacenamiento RDF debe considerarse un DBMS de documentos. Es cierto que, dado que RDF es un gráfico y no un árbol, también resultaron estar basados ​​en gráficos. Es sorprendente que haya funcionado. ¿Quién hubiera pensado que habría gente inteligente que implementaría nodos en blanco? Bacalao está aquí no funcionó.

También hay formas menos completas de organizar el acceso a los datos RDF, por ejemplo, Fragmentos de datos vinculados (LDF) y Plataforma de datos vinculados (PLD).

OWL

OWL (Web Ontology Language): un formalismo para representar el conocimiento, una versión sintáctica de la lógica de descripción. Web Semántica y Datos Enlazados. Correcciones y adiciones (en todas partes debajo es más correcto decir OWL 2, la primera versión de OWL se basó en Web Semántica y Datos Enlazados. Correcciones y adiciones).

Los conceptos de lógica descriptiva en OWL corresponden a clases, los roles corresponden a propiedades, los individuos conservan su nombre anterior. Los axiomas también se llaman axiomas.

Por ejemplo, en el llamado sintaxis de Manchester para la notación OWL, un axioma que ya conocemos Web Semántica y Datos Enlazados. Correcciones y adiciones se escribirá así:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Existen otras sintaxis para escribir OWL, como sintaxis funcional, utilizado en la especificación oficial, y BÚHO/XML. Además, OWL se puede serializar para abstraer la sintaxis RDF y además, en cualquiera de las sintaxis específicas.

OWL tiene una doble relación con RDF. Por un lado, puede considerarse como una especie de diccionario que amplía RDFS. Por otro lado, es un formalismo más poderoso para el cual RDF es sólo un formato de serialización. No todas las construcciones OWL elementales se pueden escribir utilizando un único triplete RDF.

Dependiendo de qué subconjunto de construcciones OWL se permite utilizar, se habla de los llamados Perfiles de BÚHO. Los estandarizados y más famosos son OWL EL, OWL RL y OWL QL. La elección del perfil afecta la complejidad computacional de los problemas típicos. Un conjunto completo de construcciones OWL correspondientes a Web Semántica y Datos Enlazados. Correcciones y adiciones, llamado OWL DL. A veces también se habla de OWL Full, en el que se permite utilizar construcciones OWL con la total libertad inherente a RDF, sin restricciones semánticas ni computacionales. Web Semántica y Datos Enlazados. Correcciones y adiciones. Por ejemplo, algo puede ser tanto una clase como una propiedad. OWL Full es indecidible.

Los principios clave para aplicar consecuencias en OWL son la adopción del supuesto de mundo abierto. OWA) y rechazo de la presunción de nombres únicos (suposición de nombre único, UNA). A continuación veremos adónde pueden conducir estos principios e introduciremos algunas construcciones OWL.

Deje que la ontología contenga el siguiente fragmento (en sintaxis Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

¿Se deducirá de lo dicho que Juan tiene muchos hijos? Rechazar UNA obligará al motor de inferencia a responder negativamente a esta pregunta, ya que Alice y Bob bien pueden ser la misma persona. Para que ocurra lo siguiente es necesario agregar el siguiente axioma:

DifferentIndividuals: Alice, Bob, Carol, John

Dejemos ahora que el fragmento de ontología tenga la siguiente forma (se declara que Juan tiene muchos hijos, pero solo tiene dos hijos):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

¿Será esta ontología inconsistente (lo que puede interpretarse como evidencia de datos no válidos)? Aceptar OWA hará que el motor de inferencia responda negativamente: "en algún otro lugar" (en otra ontología) bien se puede decir que Carol también es hija de John.

Para descartar la posibilidad de esto, agreguemos un nuevo hecho sobre John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Para excluir la aparición de otros hijos, digamos que todos los valores de la propiedad “tener un hijo” son personas, de las cuales solo tenemos cuatro:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Ahora la ontología se volverá contradictoria, algo que el motor de inferencia no dejará de informar. Con el último de los axiomas hemos, en cierto sentido, “cerrado” el mundo, y observamos cómo se excluye la posibilidad de que Juan sea su propio hijo.

Vinculación de datos empresariales

El conjunto de enfoques y tecnologías de Linked Data fue pensado originalmente para publicar datos en la Web. Su uso en un entorno corporativo interno enfrenta una serie de dificultades.

Por ejemplo, en un entorno corporativo cerrado, el poder deductivo de OWL basado en la adopción de OWA y el rechazo de UNA, decisiones debido a la naturaleza abierta y distribuida de la Web, es demasiado débil. Y aquí son posibles las siguientes soluciones.

  • Dotar a OWL de semántica, implica el abandono de OWA y la adopción de UNA, la implementación del correspondiente motor de salida. - Por este camino es Almacenamiento RDF de Stardog.
  • Abandonando las capacidades deductivas de OWL en favor de los motores de reglas. — Stardog apoya SWRL; Oferta de Jena y GraphDB propio idiomas normas
  • Rechazo de las capacidades deductivas de OWL, uso de uno u otro subconjunto cercano a RDFS para modelar. - Ver más sobre esto a continuación.

Otro problema es el mayor enfoque que el mundo empresarial puede tener en los problemas de calidad de los datos y la falta de herramientas de validación de datos en la pila de Linked Data. Los resultados aquí son los siguientes.

  • Nuevamente, utilícelo para la validación de construcciones OWL con semántica de mundo cerrado y nombres únicos si hay disponible un motor de inferencia apropiado.
  • el uso de SHACL, estandarizado después de que se haya corregido la lista de capas de Layer Cake de la Web Semántica (sin embargo, también se puede utilizar como motor de reglas), o SHEx.
  • Entender que, en última instancia, todo se hace con consultas SPARQL, creando su propio mecanismo simple de validación de datos usándolas.

Sin embargo, incluso un rechazo total de las capacidades deductivas y las herramientas de validación deja a la pila de datos vinculados fuera de competencia en tareas que son similares en panorama a la web abierta y distribuida: en tareas de integración de datos.

¿Qué pasa con un sistema de información empresarial normal?

Esto es posible, pero, por supuesto, hay que tener en cuenta exactamente qué problemas tendrán que resolver las tecnologías correspondientes. Describiré aquí una reacción típica de los participantes en el desarrollo para mostrar cómo se ve esta pila de tecnología desde el punto de vista de la TI convencional. Me recuerda un poco a la parábola del elefante:

  • Analista de negocios: RDF es algo así como un modelo lógico almacenado directamente.
  • Analizador de sistemas: RDF es como EAV, solo que con un montón de índices y un lenguaje de consulta conveniente.
  • revelador: bueno, todo esto está en el espíritu de los conceptos de modelo rico y código bajo, leer recientemente sobre esto.
  • Líder del proyecto:si es lo mismo colapsando la pila!

La práctica muestra que la pila se usa con mayor frecuencia en tareas relacionadas con la distribución y heterogeneidad de datos, por ejemplo, al construir sistemas de clase MDM (Master Data Management) o DWH (Data Warehouse). Estos problemas existen en cualquier industria.

En términos de aplicaciones específicas de la industria, las tecnologías de datos vinculados son actualmente más populares en las siguientes industrias.

  • tecnologías biomédicas (donde su popularidad parece estar relacionada con la complejidad del ámbito);

actual

El “Boiling Point” acogió recientemente una conferencia organizada por la asociación “National Medical Knowledge Base”Combinando ontologías. De la teoría a la aplicación práctica".

  • producción y operación de productos complejos (gran ingeniería mecánica, producción de petróleo y gas; la mayoría de las veces estamos hablando de estándar ISO 15926);

actual

También en este caso la razón es la complejidad del tema, cuando, por ejemplo, en la etapa upstream, si hablamos de la industria del petróleo y el gas, la contabilidad simple requiere algunas funciones CAD.

En 2008 tuvo lugar un evento de instalación representativo, organizado por Chevron. conferencia.

La norma ISO 15926, al final, pareció un poco pesada para la industria del petróleo y el gas (y quizás encontró una mayor aplicación en la ingeniería mecánica). Sólo Statoil (Equinor) se enganchó profundamente; en Noruega, toda una экосистема. Otros están tratando de hacer lo suyo. Por ejemplo, según los rumores, el Ministerio de Energía de Rusia tiene la intención de crear un "modelo ontológico conceptual del complejo energético y de combustible", similar, aparentemente, a creado para la industria de la energía eléctrica.

  • organizaciones financieras (incluso XBRL puede considerarse una especie de híbrido de la ontología SDMX y RDF Data Cube);

actual

A principios de año, LinkedIn bombardeó activamente al autor con ofertas de trabajo de casi todos los gigantes de la industria financiera que conoce de la serie de televisión “Fuerza mayor”: Goldman Sachs, JPMorgan Chase y/o Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Probablemente todos buscaban a alguien a quien enviarle Conferencia sobre gráficos de conocimiento. Muchos lograron encontrar: las organizaciones financieras se llevaron todo mañana del primer día.

En HeadHunter, sólo Sberbank encontró algo interesante: se trataba de "almacenamiento EAV con un modelo de datos similar a RDF".

Probablemente, la diferencia en el grado de amor por las tecnologías correspondientes de las instituciones financieras nacionales y occidentales se debe a la naturaleza transnacional de las actividades de estas últimas. Aparentemente, la integración a través de las fronteras estatales requiere soluciones organizativas y técnicas cualitativamente diferentes.

  • sistemas de preguntas y respuestas con aplicaciones comerciales (IBM Watson, Apple Siri, Google Knowledge Graph);

actual

Por cierto, el creador de Siri, Thomas Gruber, es el autor de la definición misma de ontología (en el sentido informático) como una "especificación de conceptualización". En mi opinión, reordenar las palabras de esta definición no cambia su significado, lo que quizás indique que no está ahí.

  • publicación de datos estructurados (con mayor justificación se puede atribuir a los Linked Open Data).

actual

Grandes fans de los Linked Data son los llamados GLAM: Galerías, Bibliotecas, Archivos y Museos. Baste decir que la Biblioteca del Congreso está promoviendo un reemplazo para MARC21 CUADRO DORSALQue proporciona una base para el futuro de la descripción bibliográfica y, por supuesto, basado en RDF.

Wikidata se cita a menudo como ejemplo de un proyecto exitoso en el campo de los datos abiertos vinculados, una especie de versión legible por máquina de Wikipedia, cuyo contenido, a diferencia de DBPedia, no se genera mediante la importación de cuadros de información de artículos, sino que se creado más o menos manualmente (y posteriormente se convierte en una fuente de información para los mismos cuadros de información).

También te recomendamos que lo consultes. lista usuarios del almacenamiento RDF de Stardog en el sitio web de Stardog en la sección “Clientes”.

Sea como fuere, en Gartner Ciclo de exageración para las tecnologías emergentes 2016 "Enterprise Taxonomy and Ontology Management" se sitúa en medio de un descenso hacia el valle de la decepción con la perspectiva de alcanzar una "meseta de productividad" no antes de 10 años.

Conexión de datos empresariales

Previsiones, previsiones, previsiones...

Por interés histórico, he tabulado a continuación las previsiones de Gartner para varios años sobre las tecnologías que nos interesan.

Año Tecnología Informe Posición Años para estabilizarse
2001 Web semántica Tecnologías emergentes Activador de innovación 5 - 10
2006 Web Semántica Corporativa Tecnologías emergentes Pico de expectativas infladas 5 - 10
2012 Web semántica Big Data Pico de expectativas infladas > 10
2015 Datos vinculados Análisis avanzado y ciencia de datos A través de la desilusión 5 - 10
2016 Gestión de ontologías empresariales Tecnologías emergentes A través de la desilusión > 10
2018 Gráficos de conocimiento Tecnologías emergentes Activador de innovación 5 - 10

Sin embargo, ya en "Ciclo de exageración..." 2018 Ha aparecido otra tendencia al alza: los gráficos de conocimiento. Se produjo una cierta reencarnación: los DBMS gráficos, a los que se centró la atención de los usuarios y los esfuerzos de los desarrolladores, bajo la influencia de las solicitudes de los primeros y los hábitos de los segundos, comenzaron a adquirir contornos y posicionamiento. de sus competidores predecesores.

Casi todos los DBMS gráficos ahora se declaran una plataforma adecuada para construir un "gráfico de conocimiento" corporativo ("los datos vinculados" a veces se reemplazan por "datos conectados"), pero ¿cuán justificadas están tales afirmaciones?

Las bases de datos de gráficos siguen siendo asemánticas; los datos en un DBMS de gráficos siguen siendo el mismo silo de datos. Los identificadores de cadena en lugar de URI hacen que la tarea de integrar dos DBMS de gráficos siga siendo una tarea de integración, mientras que la integración de dos almacenes RDF a menudo se reduce a simplemente fusionar dos gráficos RDF. Otro aspecto de la asemanticidad es la no reflexividad del modelo gráfico LPG, lo que dificulta la gestión de metadatos utilizando la misma plataforma.

Finalmente, los DBMS gráficos no tienen motores de inferencia ni motores de reglas. Los resultados de dichos motores se pueden reproducir complicando las consultas, pero esto es posible incluso en SQL.

Sin embargo, los principales sistemas de almacenamiento RDF no tienen dificultades para soportar el modelo de GLP. Se considera que el enfoque más sólido es el propuesto en su momento en Blazegraph: el modelo RDF*, que combina RDF y LPG.

Más

Puede leer más sobre el soporte de almacenamiento RDF para el modelo LPG en el artículo anterior sobre Habré: "¿Qué está pasando ahora con el almacenamiento RDF?". Espero que algún día se escriba un artículo aparte sobre Knowledge Graphs y Data Fabric. La sección final, como es fácil de entender, fue escrita a toda prisa, sin embargo, incluso seis meses después, no todo está mucho más claro con estos conceptos.

Literatura

  1. Halpin, H., Monnin, A. (eds.) (2014). Ingeniería filosófica: hacia una filosofía de la web
  2. Allemang, D., Hendler, J. (2011) Web semántica para el ontólogo que trabaja (2ª ed.)
  3. Staab, S., Studer, R. (eds.) (2009) Manual de ontologías (2ª ed.)
  4. Madera, D. (ed.). (2011) Vinculación de datos empresariales
  5. Keet, M. (2018) Introducción a la ingeniería ontológica

Fuente: habr.com

Añadir un comentario