Web Semântica e Linked Data. Correções e adições

Quero apresentar ao público um fragmento deste livro recentemente publicado:

Modelagem ontológica da empresa: métodos e tecnologias [Texto]: monografia / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak e outros; editor executivo S. V. Gorshkov]. - Yekaterinburg: Editora da Universidade dos Urais, 2019. - 234 p.: il., tab.; 20 cm - Aut. listado na parte de trás do tit. Com. — Bibliógrafo. no final do cap. - ISBN 978-5-7996-2580-1: 200 exemplares.

O propósito de colocar este fragmento em Habré é quádruplo:

  • É improvável que alguém consiga segurar este livro em suas mãos se não for cliente de um respeitado SergeIndex; Definitivamente não está à venda.
  • Foram feitas correções no texto (não estão destacadas abaixo) e foram feitos acréscimos pouco compatíveis com o formato da monografia impressa: notas tópicas (sob spoilers) e hiperlinks.
  • Quer coletar perguntas e comentáriosconsiderá-los quando este texto for incluído de forma revisada em quaisquer outras edições.
  • Muitos adeptos da Web Semântica e Linked Data ainda sentem que seu círculo é muito estreito, principalmente porque o público em geral ainda não foi devidamente explicado como é bom ser um adepto da Web Semântica e Linked Data. O autor do fragmento, embora pertença a este círculo, não adere a tal opinião, mas, no entanto, considera-se obrigado a fazer outra tentativa.

Assim,

Web Semântica

A evolução da Internet pode ser representada da seguinte forma (ou falar sobre seus segmentos formados na seguinte ordem):

  1. Documentos na Internet. Principais tecnologias - Gopher, FTP, etc.
    A Internet é uma rede global para a troca de recursos locais.
  2. Documentos da Internet. As principais tecnologias são HTML e HTTP.
    A natureza dos recursos expostos leva em consideração as características do meio para sua transmissão.
  3. dados da internet. As principais tecnologias são API REST e SOAP, XHR, etc.
    Na era dos aplicativos da Internet, não apenas as pessoas se tornam consumidores de recursos.
  4. dados da internet. As principais tecnologias são as tecnologias Linked Data.
    Esta quarta etapa, prevista por Berners-Lee, criador das principais tecnologias da segunda e diretor do W3C, é chamada de Web Semântica; As tecnologias de Linked Data são projetadas para tornar os dados na web não apenas legíveis por máquina, mas também "compreensíveis por máquina".

A partir do que se segue, ficará claro para o leitor que os conceitos-chave do segundo e quarto estágios correspondem:

  • análogos de URL são URIs,
  • HTML é análogo ao RDF,
  • Os hiperlinks HTML são semelhantes às entradas de URI em documentos RDF.

A Web Semântica é mais uma visão sistemática do futuro da Internet do que uma tendência específica espontânea ou de lobby, embora seja capaz de levar em conta também estas últimas. Por exemplo, uma característica importante do que é chamado de Web 2.0 é considerado "conteúdo gerado pelo usuário". Chama-se a ter em conta, em particular, a recomendação do W3C"Ontologia de anotação da Web"e um empreendimento como Sólido.

A Web Semântica está morta?

Se você recusar expectativas irrealistas, a situação com a web semântica é quase a mesma do comunismo nos dias do socialismo desenvolvido (e deixe cada um decidir por si mesmo se a lealdade aos preceitos condicionais de Ilyich é observada). Mecanismos de busca bastante bem sucedido forçar os sites a usar RDFa e JSON-LD e eles mesmos usarem tecnologias relacionadas às descritas abaixo (Google Knowledge Graph, Bing Knowledge Graph).

Em linhas gerais, o autor não pode dizer o que impede uma maior divulgação, mas pode falar com base na experiência pessoal. Existem tarefas que seriam resolvidas “fora da caixa” nas condições da ofensiva de SW, embora não muito massivas. Como consequência, aqueles que têm essas tarefas não têm meios de coerção contra aqueles que são capazes de fornecer uma solução, e estes últimos fornecer uma solução por estes é contrário aos seus modelos de negócios. Portanto, continuamos a analisar o HTML e a colar várias APIs, uma merda após a outra.

No entanto, as tecnologias de Linked Data se espalharam para além da rede de massa; O livro é, de fato, dedicado às suas aplicações. Atualmente, a comunidade Linked Data espera que essas tecnologias se tornem ainda mais difundidas com o Gartner corrigindo (ou anunciando, o que você quiser) tendências como Gráficos de conhecimento и Tecido de dados. Eu gostaria de acreditar que não serão bem-sucedidas as implementações “bicicletas” desses conceitos, mas aquelas relacionadas aos padrões W3C discutidos abaixo.

Dados Vinculados

Berners-Lee definiu Linked Data como a Web Semântica bem feita: um conjunto de abordagens e tecnologias para atingir seus objetivos finais. Princípios Básicos de Linked Data Berners-Lee destacado seguindo.

Princípio 1. Usando URIs para nomear entidades.

URIs são identificadores de entidade global em oposição a identificadores de string locais de entradas. Posteriormente, esse princípio encontrou sua melhor expressão no slogan do Google Knowledge Graph “coisas, não cordas".

Princípio 2. Usando URIs no esquema HTTP para que eles possam ser desreferenciados.

Ao referir-se a um URI, deve ser possível obter o significante por trás desse significante (a analogia com o nome do operador “*» em C); mais precisamente, para obter alguma representação deste significado - dependendo do valor do cabeçalho HTTP Accept:. Talvez com o advento da era AR/VR seja possível obter o próprio recurso, mas por enquanto, muito provavelmente, será um documento RDF resultante de uma consulta SPARQL DESCRIBE.

Princípio 3. Uso de padrões W3C - principalmente RDF(S) e SPARQL - em particular ao desreferenciar URIs.

Essas "camadas" individuais da pilha de tecnologia Linked Data, também conhecidas como Bolo de Camadas da Web Semântica, será descrito a seguir.

Princípio 4. Usando referências a outros URIs ao descrever entidades.

O RDF permite que você se limite a uma descrição verbal de um recurso em linguagem natural, e o quarto princípio exige que você não faça isso. Com a observância universal do primeiro princípio, torna-se possível referir-se a outros, inclusive "alienígenas", ao descrever um recurso, razão pela qual os dados são chamados de vinculados. Na verdade, é quase inevitável usar URIs nomeadas no dicionário RDFS.

RDF

RDF (Resource Description Framework) - um formalismo para descrever entidades inter-relacionadas.

Sobre as entidades e seus relacionamentos, são feitas afirmações da forma "sujeito-predicado-objeto", chamadas de tripletos. No caso mais simples, o sujeito, o predicado e o objeto são ambos URIs. O mesmo URI pode estar em diferentes tripletos em diferentes posições: ser um sujeito, um predicado e um objeto; os trigêmeos, portanto, formam um tipo de grafo chamado grafo RDF.

Assuntos e objetos podem ser não apenas URIs, mas também os chamados nós vazios, e os objetos também podem ser literais. Literais são instâncias de tipos primitivos, consistindo em uma representação de string e uma especificação de tipo.

Exemplos de escrita de literais (na sintaxe do Turtle, mais sobre isso abaixo): "5.0"^^xsd:float и "five"^^xsd:string. Literais com tipo rdf:langString também pode ser fornecido com uma tag de idioma, no Turtle é escrito assim: "five"@en и "пять"@ru.

Nós vazios são recursos "anônimos" sem identificadores globais, que, no entanto, podem ser declarados; uma espécie de variáveis ​​existenciais.

Então (isso, de fato, é toda a essência do RDF):

  • o assunto é um URI ou um nó vazio,
  • o predicado é um URI,
  • objeto é um URI, um nó vazio ou um literal.

Por que os predicados não podem ser nós vazios?

A razão provável é o desejo de entender e traduzir informalmente triplet para a linguagem da lógica de predicados de primeira ordem. s p o como algo como Web Semântica e Linked Data. Correções e adiçõesOnde Web Semântica e Linked Data. Correções e adições - predicado, Web Semântica e Linked Data. Correções e adições и Web Semântica e Linked Data. Correções e adições - constantes. Há vestígios de tal entendimento no documento “LBase: Semântica para Linguagens da Web Semântica”, que tem o status de nota do grupo de trabalho do W3C. Com esse entendimento, o trio s p []Onde [] - um nó vazio, será traduzido como Web Semântica e Linked Data. Correções e adiçõesOnde Web Semântica e Linked Data. Correções e adições - variável, mas como então traduzir s [] o? O documento de recomendação do W3C "RDF 1.1 Semântica” sugere outra forma de traduzir, mas ainda não considera a possibilidade de predicados serem nós vazios.

No entanto, Manu Sporny permitido.

RDF é um modelo abstrato. RDF pode ser escrito (serializado) em várias sintaxes: RDF / XML, Tartaruga (mais legível por humanos) JSON-LD, HDT (binário).

O mesmo RDF pode ser serializado em RDF/XML de maneiras diferentes, então não faz sentido, por exemplo, validar o XML resultante com XSD ou tentar extrair dados com XPath. Da mesma forma, é improvável que JSON-LD satisfaça o desejo do desenvolvedor Javascript médio de trabalhar com RDF usando a notação de ponto e colchete Javascript (embora JSON-LD esteja se movendo nessa direção, oferecendo um mecanismo enquadramento).

A maioria das sintaxes oferece maneiras de encurtar URIs longos. Por exemplo, anúncio @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> no Turtle permitirá que você escreva <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> justo rdf:type.

RDFS

RDFS (Esquema RDF) - vocabulário básico de modelagem, apresenta os conceitos de propriedade e classe e propriedades como rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Usando o dicionário RDFS, por exemplo, as seguintes expressões válidas podem ser escritas:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS é um vocabulário de descrição e modelagem, mas não é uma linguagem de restrição (embora a especificação oficial e folhas a possibilidade de tal uso). A palavra "Esquema" não deve ser entendida no mesmo sentido da expressão "Esquema XML". Por exemplo, :author rdfs:range foaf:Person significa que rdf:type todos os valores de propriedade :author - foaf:Person, mas não significa que isso deva ser dito com antecedência.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) é uma linguagem de consulta para dados RDF. Em um caso simples, uma consulta SPARQL é um conjunto de amostras com as quais as trincas do grafo consultado são correspondidas. As variáveis ​​podem ser colocadas nas posições de sujeitos, predicados e objetos em padrões.

A consulta retornará tais valores variáveis ​​que, quando substituídos nas amostras, podem resultar em um subgrafo do grafo RDF sendo consultado (um subconjunto de seus trigêmeos). Variáveis ​​de mesmo nome em diferentes amostras de trigêmeos devem ter os mesmos valores.

Por exemplo, no conjunto acima de sete axiomas RDFS, a consulta a seguir retornaria rdfs:domain и rdfs:range como valores ?s и ?p em conformidade:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Vale a pena notar que o SPARQL é declarativo e não é uma linguagem de travessia de grafos (no entanto, alguns repositórios RDF oferecem maneiras de ajustar o plano de execução da consulta). Portanto, alguns problemas de grafos padrão, como encontrar o caminho mais curto, não podem ser resolvidos no SPARQL, inclusive usando o mecanismo caminhos de propriedade (mas, novamente, repositórios RDF individuais oferecem extensões especiais para essas tarefas).

O SPARQL não compartilha da presunção da abertura do mundo e segue a abordagem da "negação como falha", na qual são possíveis estruturas como FILTER NOT EXISTS {…}. A distribuição de dados é levada em consideração usando o mecanismo consultas federadas.

O ponto de acesso SPARQL, um armazenamento RDF capaz de processar consultas SPARQL, não possui análogos diretos do segundo estágio (consulte o início deste parágrafo). Pode ser comparado a um banco de dados, com base no conteúdo do qual as páginas HTML foram geradas, mas acessíveis ao exterior. O ponto de acesso SPARQL é mais como um ponto de acesso API do terceiro estágio, mas com duas diferenças principais. Em primeiro lugar, é possível combinar várias consultas “atômicas” em uma (o que é considerado uma característica-chave do GraphQL) e, em segundo lugar, essa API é totalmente autodocumentada (o que o HATEOAS tentou alcançar).

Observação polêmica

RDF é uma forma de publicar dados na web, então repositórios RDF devem ser considerados DBMSs de documentos. É verdade que, como RDF é um grafo, não uma árvore, eles acabaram sendo grafos ao mesmo tempo. É incrível que tenha dado certo. Quem teria pensado que haveria pessoas inteligentes que implementam nós em branco. Aqui é Codd não deu certo.

Também existem maneiras menos completas de organizar o acesso aos dados RDF, por exemplo, Fragmentos de dados vinculados (LDF) e Plataforma de dados vinculados (LDP).

OWL

OWL (Web Ontology Language) - um formalismo de representação do conhecimento, uma versão sintática da lógica descritiva Web Semântica e Linked Data. Correções e adições (em todo lugar abaixo é mais correto dizer OWL 2, a primeira versão do OWL foi baseada em Web Semântica e Linked Data. Correções e adições).

Os conceitos da lógica de descrição em OWL correspondem a classes, funções a propriedades, indivíduos mantêm seu nome anterior. Axiomas também são chamados de axiomas.

Por exemplo, no chamado Sintaxe de Manchester para a notação OWL, o axioma que já conhecemos Web Semântica e Linked Data. Correções e adições será escrito assim:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Existem outras sintaxes para escrever OWL, como sintaxe funcional, usado na especificação oficial, e CORUJA/XML. Além disso, OWL pode ser serializado na sintaxe RDF abstrata e no futuro - em qualquer uma das sintaxes específicas.

OWL é duplo em relação ao RDF. Por um lado, pode ser visto como uma espécie de dicionário que estende o RDFS. Por outro lado, é um formalismo mais poderoso para o qual o RDF é apenas um formato de serialização. Nem todas as construções OWL elementares podem ser escritas com um único trio RDF.

Dependendo de qual subconjunto de construções OWL pode ser usado, fala-se do chamado perfis OWL. As padronizadas e mais conhecidas são OWL EL, OWL RL e OWL QL. A escolha do perfil afeta a complexidade computacional de problemas típicos. Um conjunto completo de designs OWL para combinar Web Semântica e Linked Data. Correções e adições, é chamado de OWL DL. Por vezes fala-se também em OWL Full, em que as construções OWL podem ser utilizadas com toda a liberdade inerente ao RDF, sem restrições semânticas e computacionais. Web Semântica e Linked Data. Correções e adições. Por exemplo, algo pode ser uma classe e uma propriedade. OWL Full é insolúvel.

Os princípios-chave de anexar consequências em OWL são a aceitação da suposição de mundo aberto (suposição de mundo aberto, OWA) e a rejeição da suposição de nome único, UM). A seguir, veremos a que esses princípios podem levar e apresentaremos algumas das construções de OWL.

Deixe a ontologia conter o seguinte fragmento (na sintaxe Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Isso resultará do que foi dito que John tem muitos filhos? Rejeitar o UNA forçaria o mecanismo de inferência a responder negativamente a essa pergunta, já que Alice e Bob podem muito bem ser a mesma pessoa. Para que ocorra o seguinte, precisamos adicionar o seguinte axioma:

DifferentIndividuals: Alice, Bob, Carol, John

Agora deixe o fragmento de ontologia ter a seguinte forma (João é declarado como tendo muitos filhos, mas ele tem apenas dois filhos):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Essa ontologia será inconsistente (o que pode ser interpretado como evidência de dados inválidos)? Aceitar o OWA fará com que o mecanismo de inferência responda negativamente: "em algum outro lugar" (em uma ontologia diferente), pode-se dizer que Carol também é filha de John.

Para eliminar essa possibilidade, vamos adicionar um novo fato sobre John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Para excluir a aparência de outros filhos, digamos que todos os valores da propriedade "ter um filho" sejam pessoas, das quais temos apenas quatro:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Agora a ontologia se tornará inconsistente, o que o mecanismo de inferência não deixará de relatar. Com o último dos axiomas, meio que "fechamos" o mundo, e notamos como a possibilidade de John ser seu próprio filho é descartada.

Vinculando Dados Empresariais

Um conjunto de abordagens e tecnologias Linked Data foi originalmente destinado à publicação de dados na web. Usá-los em um ambiente intracorporativo enfrenta uma série de dificuldades.

Por exemplo, em um ambiente corporativo fechado, o poder dedutivo de OWL baseado na adoção de OWA e na rejeição de UNA, soluções impulsionadas pela natureza aberta e distribuída da web, é muito fraco. E aqui as seguintes saídas são possíveis.

  • Dotando OWL de semântica, implicando a rejeição do OWA e a adoção do UNA, a implementação do correspondente motor de inferência. - neste caminho está chegando Repositório Stardog RDF.
  • Abandonando o poder dedutivo de OWL em favor de mecanismos de regras. - Suporte Stardog SWRL; Oferta de Jena e GraphDB possuir línguas regras.
  • Rejeição das capacidades dedutivas do OWL, o uso de um ou outro subconjunto próximo ao RDFS para modelagem. - Veja mais sobre isso abaixo.

Outro problema é a atenção mais significativa que o mundo corporativo pode dedicar às questões de qualidade de dados e a falta de ferramentas de validação de dados na pilha de Linked Data. As saídas são as seguintes.

  • Novamente, usando construções OWL com semântica de mundo fechado e exclusividade de nomes para validar se há um mecanismo de inferência apropriado.
  • Usar SHACL, padronizado após a lista de camadas do Semantic Web Layer Cake ter sido corrigida (no entanto, também pode ser usado como um mecanismo de regras) ou ShEx.
  • Percebendo que tudo é feito por consultas SPARQL, criando seu próprio mecanismo simples de validação de dados usando-as.

No entanto, mesmo uma rejeição completa de recursos dedutivos e ferramentas de validação deixa a pilha de Linked Data fora da competição em tarefas que são semelhantes à web aberta e distribuída - em tarefas de integração de dados.

Que tal um sistema regular de informações corporativas?

Isso é possível, mas é preciso, é claro, estar ciente de exatamente quais problemas as tecnologias apropriadas terão que resolver. Descreverei aqui uma reação típica dos participantes do desenvolvimento para mostrar como é essa pilha de tecnologia do ponto de vista da TI convencional. Me lembra um pouco a parábola do elefante:

  • Analista de negócios: RDF é algo como um modelo lógico armazenado diretamente.
  • Analista de sistemas: RDF é como Eav, apenas com vários índices e uma linguagem de consulta conveniente.
  • Revelador: bem, está tudo no espírito do modelo rico e dos conceitos de código baixo, ler sobre isso recentemente.
  • Gerente de Projetos: é sim recolhendo a pilha!

A prática mostra que a pilha é mais usada em tarefas relacionadas à distribuição e heterogeneidade de dados, por exemplo, ao construir sistemas da classe MDM (Master Data Management) ou DWH (Data Warehouse). Esses problemas existem em qualquer setor.

Quanto aos aplicativos específicos do setor, as tecnologias de Linked Data são atualmente mais populares nos seguintes setores.

  • tecnologias biomédicas (onde sua popularidade parece estar relacionada à complexidade da área temática);

tópico

No outro dia, no "Boiling Point", foi realizada uma conferência organizada pela associação "National Medical Knowledge Base" "Unificação de ontologias. Da teoria à aplicação prática".

  • fabricação e operação de produtos complexos (grande engenharia, produção de petróleo e gás; na maioria das vezes é um padrão ISO 15926);

tópico

Aqui também o motivo é a complexidade da área temática, quando, por exemplo, na fase upstream, se falamos da indústria de óleo e gás, uma simples contabilidade precisa ter algumas funções de CAD.

Em 2008, a Chevron organizou uma instalação representativa conferência.

A ISO 15926 acabou parecendo um pouco pesada para a indústria de petróleo e gás (e encontrou quase mais uso na engenharia mecânica). Apenas Statoil (Equinor) ficou viciado nele completamente, na Noruega um todo ecossistema. Outros estão tentando fazer suas próprias coisas. Por exemplo, segundo rumores, o Ministério da Energia nacional pretende criar um "modelo ontológico conceitual do complexo de combustíveis e energia", semelhante, aparentemente, ao criado para a indústria de energia elétrica.

  • instituições financeiras (mesmo o XBRL pode ser visto como um híbrido da ontologia SDMX e RDF Data Cube);

tópico

No início do ano, o LinkedIn enviou spam ativamente ao autor com vagas de quase todos os gigantes do setor financeiro, que ele conhece da série de TV Suits: Goldman Sachs, JPMorgan Chase e/ou Morgan Stanley, Wells Fargo, SWIFT/Visa/ Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank… Todos provavelmente estavam procurando alguém para enviar Conferência do Gráfico de Conhecimento. Muitos conseguiram descobrir: as instituições financeiras ocupavam tudo primeiro dia de manhã.

No HeadHunter, algo interessante surgiu apenas do Sberbank, era sobre "armazenamento EAV com um modelo de dados semelhante a RDF".

Provavelmente, a diferença no grau de amor pelas tecnologias correspondentes das instituições financeiras domésticas e ocidentais se deve à natureza transnacional das atividades destas últimas. Aparentemente, a integração além das fronteiras do estado requer soluções organizacionais e técnicas qualitativamente diferentes.

  • sistemas de perguntas e respostas com aplicações comerciais (IBM Watson, Apple Siri, Google Knowledge Graph);

tópico

A propósito, o criador da Siri, Thomas Gruber, é o autor da própria definição de ontologia (no sentido de TI) como uma “especificação de conceituação”. Na minha opinião, o rearranjo das palavras nesta definição não altera seu significado, o que, talvez, indique que não existe.

  • publicação de dados estruturados (com razão isso já pode ser atribuído ao Linked Open Data).

tópico

Grandes fãs de Linked Data são os chamados GLAM: Galerias, Bibliotecas, Arquivos e Museus. Basta dizer aqui que, para substituir o MARC21, a Biblioteca do Congresso está promovendo BIBFRAMEQue fornece uma base para o futuro da descrição bibliográfica e, claro, com base em RDF.

O Wikidata é freqüentemente citado como um exemplo de projeto bem-sucedido no campo de Linked Open Data - uma espécie de versão legível por máquina da Wikipedia, cujo conteúdo, ao contrário do DBPedia, não é gerado pela importação de artigos de infoboxes, mas é criado mais ou menos manualmente (e posteriormente se torna uma fonte de informação para as mesmas infoboxes).

Também recomendado para revisão lista usuários do repositório Stardog RDF no site Stardog na seção "Clientes".

Seja como for, no Gartner "Ciclo de hype para tecnologias emergentes" 2016 "Enterprise Taxonomy and Ontology Management" é colocado no meio de uma descida ao vale da decepção com a perspectiva de atingir um "platô de produtividade" não antes de 10 anos.

Conectando dados corporativos

Previsões, previsões, previsões…

Por interesse histórico, resumi as previsões do Gartner de vários anos para as tecnologias de nosso interesse na tabela abaixo.

Ano Технология Relatório Posição Anos para o platô
2001 Web Semântica Tecnologias Emergentes Gatilho de Inovação 5-10
2006 Web Semântica Corporativa Tecnologias Emergentes Pico das Expectativas Infladas 5-10
2012 Web Semântica Big Data Pico das Expectativas Infladas > 10
2015 Dados Vinculados Análise avançada e ciência de dados Vale da Desilusão 5-10
2016 Gerenciamento de Ontologia Corporativa Tecnologias Emergentes Vale da Desilusão > 10
2018 Gráficos de conhecimento Tecnologias Emergentes Gatilho de Inovação 5-10

No entanto, já em "Ciclo Hype ..." 2018 outra tendência de alta apareceu - Knowledge Graphs. Uma certa reencarnação ocorreu: o gráfico DBMS, para o qual a atenção dos usuários e as forças dos desenvolvedores acabou, sob a influência das solicitações dos primeiros e dos hábitos dos últimos, começou a adquirir contornos e posicionamento de seus antecessores concorrentes.

Quase todos os SGBD gráficos agora afirmam ser uma plataforma adequada para construir um “gráfico de conhecimento” corporativo (“dados vinculados” às vezes são substituídos por “dados conectados”), mas quão justificadas são essas afirmações?

Bancos de dados gráficos ainda são asemantic, os dados em um DBMS gráfico ainda é o mesmo silo de dados. Identificadores de string em vez de URIs tornam a tarefa de integrar dois DBMSs de gráfico ainda a mesma tarefa de integração, enquanto a integração de dois repositórios RDF geralmente é apenas uma questão de mesclar dois gráficos RDF. Outro aspecto da asemanticidade é a não reflexividade do modelo de gráfico LPG, o que dificulta o gerenciamento de metadados usando a mesma plataforma.

Finalmente, os SGBDs gráficos não possuem mecanismos de inferência ou mecanismos de regras. Os resultados de tais mecanismos podem ser reproduzidos complicando as consultas, mas isso é possível até mesmo em SQL.

No entanto, os principais repositórios RDF não têm problemas em suportar o modelo LPG. A mais sólida é a abordagem proposta em Blazegraph: o modelo RDF*, que combina RDF e LPG.

Mais

Você pode ler mais sobre o suporte do modelo LPG por armazenamentos RDF no artigo anterior sobre Habré: "O que está acontecendo com os repositórios RDF agora". Sobre Knowledge Graphs e Data Fabric, espero que um dia um artigo separado seja escrito. A seção final, como é fácil de entender, foi escrita às pressas, porém, mesmo seis meses depois, esses conceitos não estão muito mais claros.

Literatura

  1. Halpin, H., Monnin, A. (eds.) (2014). Engenharia Filosófica: Rumo a uma Filosofia da Web
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2ª ed.)
  3. Staab, S., Studer, R. (eds.) (2009) Handbook on Ontologies (2ª ed.)
  4. Madeira, D. (ed.). (2011) Vinculando dados corporativos
  5. Keet, M. (2018) Uma introdução à engenharia de ontologia

Fonte: habr.com

Adicionar um comentário