Web semantico e dati collegati. Correzioni e integrazioni

Vorrei presentare al pubblico un frammento di questo libro recentemente pubblicato:

La modellazione ontologica dell'impresa: metodi e tecnologie [Testo]: monografia / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak e altri; direttore esecutivo S.V. Gorshkov]. - Ekaterinburg: Casa editrice dell'Università degli Urali, 2019. - 234 p.: ill., tavola; 20 cm.- Autore. indicato sul retro tit. Con. — Bibliografia alla fine del cap. — ISBN 978-5-7996-2580-1: 200 copie.

Lo scopo di pubblicare questo frammento su Habré è quadruplice:

  • È improbabile che qualcuno possa tenere questo libro tra le mani se non è un cliente di una persona rispettata SergeIndice; Sicuramente non è in vendita.
  • Sono state apportate correzioni al testo (non vengono evidenziate di seguito) e sono state apportate aggiunte poco compatibili con il formato di una monografia stampata: note di attualità (sotto spoiler) e collegamenti ipertestuali.
  • Vuoi raccogliere domande e commenti, al fine di tenerne conto nell'inclusione del presente testo in forma riveduta in eventuali altre pubblicazioni.
  • Molti aderenti al Web Semantico e ai Linked Data credono ancora che la loro cerchia sia così ristretta, soprattutto perché al grande pubblico non è stato ancora spiegato adeguatamente quanto sia bello essere un aderente al Web Semantico e ai Linked Data. L'autore del frammento, pur appartenendo a questa cerchia, non è di questa opinione, ma si ritiene comunque obbligato a fare un altro tentativo.

Così,

Web semantico

L'evoluzione di Internet può essere rappresentata come segue (o parlare dei suoi segmenti che si sono formati nell'ordine indicato di seguito):

  1. Documenti su Internet. Tecnologie chiave: Gopher, FTP, ecc.
    Internet è una rete globale per lo scambio di risorse locali.
  2. Documenti Internet. Le tecnologie chiave sono HTML e HTTP.
    La natura delle risorse esposte tiene conto delle caratteristiche del loro mezzo trasmissivo.
  3. Dati Internet. Tecnologie chiave: API REST e SOAP, XHR, ecc.
    Nell'era delle applicazioni Internet, non solo le persone diventano consumatori di risorse.
  4. Dati Internet. Le tecnologie chiave sono le tecnologie dei dati collegati.
    Questa quarta fase, prevista da Berners-Lee, ideatore delle tecnologie del secondo nucleo e direttore del W3C, è chiamata Web Semantico; Le tecnologie Linked Data sono progettate per rendere i dati sul web non solo leggibili dalle macchine, ma anche “comprensibili dalle macchine”.

Da quanto segue il lettore potrà comprendere la corrispondenza tra i concetti chiave della seconda e della quarta fase:

  • Gli URL sono analoghi agli URI,
  • l'analogo dell'HTML è RDF,
  • I collegamenti ipertestuali HTML sono simili alle occorrenze URI nei documenti RDF.

Il Web Semantico è più una visione sistemica del futuro di Internet che una tendenza specifica, spontanea o lobbistica, anche se può tener conto di queste ultime. Ad esempio, una caratteristica importante di quello che viene chiamato Web 2.0 è considerata il “contenuto generato dall’utente”. In particolare, la raccomandazione del W3C è chiamata a tenerne conto”Ontologia delle annotazioni web"e un'impresa come Tinte Unite.

Il web semantico è morto?

Se rifiuti aspettative non realistiche, la situazione con il web semantico è più o meno la stessa che con il comunismo ai tempi del socialismo sviluppato (e se viene osservata la lealtà ai comandi condizionali di Ilyich, lascia che ognuno decida da solo). Motori di ricerca abbastanza successo obbligano i siti web a utilizzare RDFa e JSON-LD e utilizzano essi stessi tecnologie correlate a quelle descritte di seguito (Google Knowledge Graph, Bing Knowledge Graph).

In termini generali l'autore non può dire cosa ne impedisce una maggiore diffusione, ma può parlare sulla base dell'esperienza personale. Ci sono problemi che potrebbero essere risolti “fuori dagli schemi” nelle condizioni dell’offensiva SW, sebbene non siano molto diffusi. Di conseguenza, coloro che devono affrontare questi compiti non hanno mezzi di coercizione nei confronti di coloro che sono in grado di fornire una soluzione, mentre la fornitura indipendente di una soluzione da parte di questi ultimi contraddice i loro modelli di business. Quindi continuiamo ad analizzare l'HTML e a incollare insieme varie API, una più schifosa dell'altra.

Tuttavia, le tecnologie dei dati collegati si sono diffuse oltre il Web tradizionale; Il libro, infatti, è dedicato a queste applicazioni. Attualmente la community di Linked Data si aspetta che queste tecnologie diventino ancora più diffuse grazie alla rilevazione (o proclamazione, che dir si voglia) da parte di Gartner di trend quali Grafici della conoscenza и Tessuto dati. Mi piacerebbe credere che non saranno le implementazioni “in bicicletta” di questi concetti ad avere successo, ma quelle relative agli standard W3C discussi di seguito.

Linked Data

Berners-Lee ha definito i Linked Data come il web semantico “fatto bene”: un insieme di approcci e tecnologie che gli consentono di raggiungere i suoi obiettivi finali. Principi di base dei Linked Data Berners-Lee individuato il seguente.

Principio 1. Utilizzo degli URI per denominare le entità.

Gli URI sono identificatori di entità globali in contrapposizione agli identificatori di stringa locali per le voci. Successivamente questo principio è stato espresso al meglio nello slogan di Google Knowledge Graph “cose, non stringhe'.

Principio 2. Utilizzo degli URI nello schema HTTP in modo che possano essere dereferenziati.

Facendo riferimento a un URI, dovrebbe essere possibile ottenere il significato dietro quel significante (l'analogia con il nome dell'operatore " è qui chiara).*" in C); più precisamente, per ottenere una rappresentazione di questo significato, a seconda del valore dell'intestazione HTTP Accept:. Forse, con l'avvento dell'era AR/VR, sarà possibile ottenere la risorsa stessa, ma per ora, molto probabilmente, si tratterà di un documento RDF, che è il risultato dell'esecuzione di una query SPARQL DESCRIBE.

Principio 3. Utilizzo degli standard W3C - principalmente RDF(S) e SPARQL - in particolare quando si dereferenziano gli URI.

Questi singoli “strati” dello stack tecnologico Linked Data, noto anche come Torta a strati del web semantico, verrà descritto di seguito.

Principio 4. Utilizzo di riferimenti ad altri URI nella descrizione delle entità.

RDF ti consente di limitarti a una descrizione verbale di una risorsa in linguaggio naturale, e il quarto principio invita a non farlo. Se il primo principio viene osservato universalmente, diventa possibile nel descrivere una risorsa fare riferimento ad altre, anche “straniere”, per questo i dati vengono detti collegati. In effetti, è quasi inevitabile utilizzare gli URI nominati nel vocabolario RDFS.

RDF

RDF (Resource Description Framework) è un formalismo per descrivere entità correlate.

Affermazioni del tipo “soggetto-predicato-oggetto”, chiamate triplette, vengono fatte riguardo alle entità e alle loro relazioni. Nel caso più semplice, soggetto, predicato e oggetto sono tutti URI. Lo stesso URI può trovarsi in posizioni diverse in triplette diverse: essere un soggetto, un predicato e un oggetto; Pertanto, le triplette formano una sorta di grafo chiamato grafo RDF.

Soggetti e oggetti possono essere non solo URI, ma anche cosiddetti nodi vuotie anche gli oggetti possono esserlo letterali. I valori letterali sono istanze di tipi primitivi costituiti da una rappresentazione di stringa e un'indicazione di tipo.

Esempi di scrittura letterale (nella sintassi Turtle, ne parleremo più avanti): "5.0"^^xsd:float и "five"^^xsd:string. Letterali con tipo rdf:langString può essere dotato anche di un tag linguistico; in Turtle è scritto così: "five"@en и "пять"@ru.

I nodi vuoti sono risorse “anonime” senza identificatori globali, sui quali però è possibile fare delle dichiarazioni; sorta di variabili esistenziali.

Quindi (questo è, in effetti, il punto centrale di RDF):

  • l'oggetto è un URI o un nodo vuoto,
  • il predicato è un URI,
  • L'oggetto è un URI, un nodo vuoto o un valore letterale.

Perché i predicati non possono essere nodi vuoti?

La ragione probabile è il desiderio di comprendere e tradurre in modo informale la terzina nel linguaggio della logica dei predicati del primo ordine s p o come qualcosa del genere Web semantico e dati collegati. Correzioni e integrazioniDove Web semantico e dati collegati. Correzioni e integrazioni - predicato, Web semantico e dati collegati. Correzioni e integrazioni и Web semantico e dati collegati. Correzioni e integrazioni - costanti. Tracce di questa intesa sono nel documento”LBase: Semantica per i linguaggi del Web semantico", che ha lo status di nota del gruppo di lavoro del W3C. Con questa comprensione, la tripletta s p []Dove [] - nodo vuoto, verrà tradotto come Web semantico e dati collegati. Correzioni e integrazioniDove Web semantico e dati collegati. Correzioni e integrazioni - variabile, ma come tradurre allora s [] o? Documento con stato di raccomandazione W3C "RDF 1.1 Semantica” offre un altro metodo di traduzione, ma non considera ancora la possibilità che i predicati siano nodi vuoti.

Comunque Manu Sporni permesso.

RDF è un modello astratto. RDF può essere scritto (serializzato) in varie sintassi: RDF/XML, Tartaruga (più leggibile dall'uomo), JSON-LD, HDT (binario).

Lo stesso RDF può essere serializzato in RDF/XML in diversi modi, quindi, ad esempio, non ha senso convalidare l'XML risultante utilizzando XSD o provare a estrarre dati utilizzando XPath. Allo stesso modo, è improbabile che JSON-LD soddisfi il desiderio dello sviluppatore Javascript medio di lavorare con RDF utilizzando la notazione punto e parentesi quadra di Javascript (sebbene JSON-LD si muova in quella direzione offrendo un meccanismo inquadratura).

La maggior parte delle sintassi offre modi per abbreviare gli URI lunghi. Ad esempio, un annuncio @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> in Turtle ti consentirà quindi di scrivere <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> solo rdf:type.

RDFS

RDFS (RDF Schema) - un vocabolario di modellazione di base, introduce i concetti di proprietà e classe e proprietà come rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Utilizzando il dizionario RDFS, ad esempio, è possibile scrivere le seguenti espressioni valide:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS è un vocabolario di descrizione e modellazione, ma non è un linguaggio vincolante (sebbene le specifiche ufficiali e foglie possibilità di tale utilizzo). La parola "Schema" non deve essere intesa nello stesso senso dell'espressione "Schema XML". Per esempio, :author rdfs:range foaf:Person significa che rdf:type tutti i valori immobiliari :author - foaf:Person, ma non è detto che ciò debba essere detto in anticipo.

SPARQL

SPARQL (Protocollo SPARQL e RDF Query Language) - un linguaggio per interrogare i dati RDF. In un caso semplice, una query SPARQL è un insieme di campioni rispetto ai quali vengono confrontate le triplette del grafico interrogato. I modelli possono contenere variabili nelle posizioni di soggetto, predicato e oggetto.

La query restituirà valori variabili che, una volta sostituiti nei campioni, possono risultare in un sottografo del grafico RDF interrogato (un sottoinsieme delle sue triplette). Le variabili con lo stesso nome in diversi campioni di terzine devono avere gli stessi valori.

Ad esempio, dato l'insieme di sette assiomi RDFS sopra, verrà restituita la seguente query rdfs:domain и rdfs:range come valori ?s и ?p rispettivamente:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Vale la pena notare che SPARQL è dichiarativo e non è un linguaggio per descrivere l'attraversamento dei grafici (tuttavia, alcuni repository RDF offrono modi per regolare il piano di esecuzione delle query). Pertanto, alcuni problemi relativi ai grafici standard, ad esempio la ricerca del percorso più breve, non possono essere risolti in SPARQL, incluso l'utilizzo del metodo percorsi di proprietà (ma, ancora una volta, i singoli repository RDF offrono estensioni speciali per risolvere questi problemi).

SPARQL non condivide la presunzione di apertura del mondo e segue l’approccio della “negazione come fallimento”, in cui sono possibili disegni come FILTER NOT EXISTS {…}. La distribuzione dei dati viene presa in considerazione utilizzando il meccanismo query federate.

Il punto di accesso SPARQL - un archivio RDF in grado di elaborare query SPARQL - non ha analoghi diretti della seconda fase (vedere l'inizio di questo paragrafo). Può essere paragonato ad un database, in base al contenuto del quale sono state generate pagine HTML, ma accessibili dall'esterno. Il punto di accesso SPARQL è più analogo al punto di accesso API della terza fase, ma con due differenze principali. In primo luogo, è possibile combinare diverse query “atomiche” in una (che è considerata una caratteristica chiave di GraphQL) e, in secondo luogo, tale API è completamente autodocumentata (che è ciò che HATEOAS ha cercato di ottenere).

Osservazione polemica

RDF è un modo per pubblicare dati sul web, quindi l'archiviazione RDF dovrebbe essere considerata un DBMS di documenti. È vero, poiché RDF è un grafo e non un albero, si è scoperto che erano anche basati su grafi. È sorprendente che abbia funzionato. Chi avrebbe mai pensato che ci sarebbero state persone intelligenti che avrebbero implementato nodi vuoti. Codd è qui non ha funzionato.

Esistono anche modi meno completi per organizzare l'accesso ai dati RDF, ad esempio, Frammenti di dati collegati (LDF) e Piattaforma di dati collegati (LDP).

OWL

OWL (Web Ontology Language) - un formalismo per rappresentare la conoscenza, una versione sintattica della logica descrittiva Web semantico e dati collegati. Correzioni e integrazioni (ovunque di seguito è più corretto dire OWL 2, su cui era basata la prima versione di OWL Web semantico e dati collegati. Correzioni e integrazioni).

I concetti delle logiche descrittive in OWL corrispondono alle classi, i ruoli corrispondono alle proprietà, gli individui mantengono il loro nome precedente. Gli assiomi sono anche chiamati assiomi.

Ad esempio, nel cosiddetto Sintassi di Manchester per la notazione OWL un assioma a noi già noto Web semantico e dati collegati. Correzioni e integrazioni verrà scritto così:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Esistono altre sintassi per scrivere OWL, come ad esempio sintassi funzionale, utilizzato nelle specifiche ufficiali, e GUFO/XML. Inoltre, OWL può essere serializzato per astrarre la sintassi RDF e inoltre - in una qualsiasi delle sintassi specifiche.

OWL ha una doppia relazione con RDF. Da un lato, può essere considerato una sorta di dizionario che estende RDFS. D'altra parte, si tratta di un formalismo più potente per il quale RDF è solo un formato di serializzazione. Non tutti i costrutti elementari OWL possono essere scritti utilizzando una singola tripletta RDF.

A seconda di quale sottoinsieme di costrutti OWL è consentito utilizzare, si parla dei cosiddetti Profili GUFO. Quelli standardizzati e più famosi sono OWL EL, OWL RL e OWL QL. La scelta del profilo influenza la complessità computazionale dei problemi tipici. Un set completo di costrutti OWL corrispondenti a Web semantico e dati collegati. Correzioni e integrazioni, chiamato GUFO DL. A volte si parla anche di OWL Full, in cui i costrutti OWL possono essere utilizzati con la piena libertà insita in RDF, senza restrizioni semantiche e computazionali Web semantico e dati collegati. Correzioni e integrazioni. Ad esempio, qualcosa può essere sia una classe che una proprietà. OWL Full è indecidibile.

I principi chiave per allegare conseguenze in OWL sono l'adozione del presupposto del mondo aperto. OWA) e rifiuto della presunzione di nomi univoci (ipotesi del nome unico, La). Di seguito vedremo dove questi principi possono portare e introdurremo alcuni costrutti OWL.

Lascia che l'ontologia contenga il seguente frammento (nella sintassi Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Ne conseguirà da quanto detto che Giovanni ha molti figli? Rifiutare UNA costringerà il motore di inferenza a rispondere negativamente a questa domanda, poiché Alice e Bob potrebbero essere la stessa persona. Perché avvenga quanto segue, sarà necessario aggiungere il seguente assioma:

DifferentIndividuals: Alice, Bob, Carol, John

Supponiamo ora che il frammento dell'ontologia abbia la forma seguente (si dichiara che Giovanni ha molti figli, ma ne ha solo due):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Questa ontologia sarà incoerente (il che può essere interpretato come prova di dati non validi)? Accettare OWA farà sì che il motore di inferenza risponda in modo negativo: "da qualche parte" altrove (in un'altra ontologia) si potrebbe ben dire che Carol è anche la figlia di John.

Per escludere questa possibilità, aggiungiamo un nuovo fatto su John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Per escludere la comparsa di altri figli, diciamo che tutti i valori della proprietà “avere un figlio” sono persone, di cui ne abbiamo solo quattro:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Ora l'ontologia diventerà contraddittoria, cosa che il motore di inferenza non mancherà di segnalare. Con l'ultimo degli assiomi abbiamo, in un certo senso, “chiuso” il mondo, e notiamo come sia esclusa la possibilità che John sia figlio suo.

Collegamento dei dati aziendali

L'insieme di approcci e tecnologie dei Linked Data era originariamente destinato alla pubblicazione di dati sul Web. Il loro utilizzo in un ambiente aziendale interno deve affrontare una serie di difficoltà.

Ad esempio, in un ambiente aziendale chiuso, il potere deduttivo di OWL basato sull'adozione di OWA e sul rifiuto di UNA, decisioni dovute alla natura aperta e distribuita del Web, è troppo debole. E qui sono possibili le seguenti soluzioni.

  • Dotare OWL di semantica, implicando l'abbandono di OWA e l'adozione di UNA, l'implementazione del corrispondente motore di output. - Lungo questa strada è Archiviazione RDF di Stardog.
  • Abbandonare le capacità deduttive di OWL a favore dei motori di regole. — Supporta Stardog SWRL; Offerta Jena e GraphDB proprio lingue regole
  • Rifiuto delle capacità deduttive di OWL, utilizzo dell'uno o dell'altro sottoinsieme vicino a RDFS per la modellazione. - Scopri di più su questo argomento di seguito.

Un altro problema è la maggiore attenzione che il mondo aziendale potrebbe avere sui problemi di qualità dei dati e la mancanza di strumenti di convalida dei dati nello stack Linked Data. Gli output qui sono i seguenti.

  • Ancora una volta, utilizzare per la convalida dei costrutti OWL con semantica a mondo chiuso e nomi univoci se è disponibile un motore di inferenza appropriato.
  • l'uso di SHACL, standardizzato dopo che è stato corretto l'elenco dei livelli del Semantic Web Layer Cake (può tuttavia essere utilizzato anche come motore di regole), oppure SheEx.
  • Comprendere che alla fine tutto viene fatto con le query SPARQL, creando il proprio semplice meccanismo di convalida dei dati utilizzandole.

Tuttavia, anche un completo rifiuto delle capacità deduttive e degli strumenti di validazione lascia lo stack Linked Data fuori concorrenza in compiti che sono simili nel panorama al web aperto e distribuito - nei compiti di integrazione dei dati.

Che ne dici di un normale sistema informativo aziendale?

Questo è possibile, ma ovviamente dovresti essere consapevole di quali problemi dovranno risolvere le tecnologie corrispondenti. Descriverò qui una tipica reazione dei partecipanti allo sviluppo per mostrare come appare questo stack tecnologico dal punto di vista dell'IT convenzionale. Mi ricorda un po' la parabola dell'elefante:

  • Analista di affari: RDF è qualcosa come un modello logico memorizzato direttamente.
  • Analista di sistema: RDF è come EAV, solo con una serie di indici e un linguaggio di query conveniente.
  • Sviluppatore: beh, tutto questo è nello spirito dei concetti di modello ricco e codice basso, leggo recentemente a questo proposito.
  • project leader: sì, è lo stesso facendo crollare la pila!

La pratica dimostra che lo stack viene spesso utilizzato in attività relative alla distribuzione e all'eterogeneità dei dati, ad esempio quando si creano sistemi di classi MDM (Master Data Management) o DWH (Data Warehouse). Tali problemi esistono in qualsiasi settore.

In termini di applicazioni specifiche del settore, le tecnologie Linked Data sono attualmente più popolari nei seguenti settori.

  • tecnologie biomediche (dove la loro popolarità sembra essere legata alla complessità del dominio);

attuale

Il “Punto di Boiling” ha recentemente ospitato un convegno organizzato dall’associazione “National Medical Knowledge Base””Combinazione di ontologie. Dalla teoria all'applicazione pratica'.

  • produzione e funzionamento di prodotti complessi (grande ingegneria meccanica, produzione di petrolio e gas; molto spesso parliamo di standard ISO 15926);

attuale

Anche qui il motivo è la complessità dell'argomento, quando, ad esempio, nella fase upstream, se parliamo dell'industria del petrolio e del gas, una semplice contabilità richiede alcune funzioni CAD.

Nel 2008 ha avuto luogo un evento di installazione rappresentativo, organizzato da Chevron conferenza.

La ISO 15926, alla fine, è sembrata un po’ pesante per l’industria del petrolio e del gas (e ha trovato forse maggiore applicazione nell’ingegneria meccanica). Soltanto Statoil (Equinor) ne è rimasta completamente affascinata, in Norvegia addirittura ecosistema. Altri stanno cercando di fare le proprie cose. Ad esempio, secondo alcune indiscrezioni, il Ministero dell'Energia nazionale intende creare un "modello ontologico concettuale del complesso di combustibili ed energia", simile, a quanto pare, a creato per il settore dell'energia elettrica.

  • organizzazioni finanziarie (anche XBRL può essere considerato una sorta di ibrido tra SDMX e l'ontologia RDF Data Cube);

attuale

All'inizio dell'anno LinkedIn ha inondato attivamente l'autore con offerte di lavoro di quasi tutti i giganti del settore finanziario, che conosce dalla serie TV “Force Majeure”: Goldman Sachs, JPMorgan Chase e/o Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Probabilmente tutti cercavano qualcuno a cui inviare Conferenza sul grafico della conoscenza. Molti sono riusciti a trovarlo: le organizzazioni finanziarie hanno preso tutto mattina del primo giorno.

Su HeadHunter solo Sberbank ha trovato qualcosa di interessante: si trattava di "archiviazione EAV con un modello di dati simile a RDF".

Probabilmente, la differenza nel grado di amore per le corrispondenti tecnologie delle istituzioni finanziarie nazionali e occidentali è dovuta alla natura transnazionale delle attività di queste ultime. A quanto pare, l’integrazione oltre i confini statali richiede soluzioni organizzative e tecniche qualitativamente diverse.

  • sistemi di domanda-risposta con applicazioni commerciali (IBM Watson, Apple Siri, Google Knowledge Graph);

attuale

A proposito, il creatore di Siri, Thomas Gruber, è l’autore della definizione stessa di ontologia (nel senso informatico) come “specifica di concettualizzazione”. Secondo me, riordinare le parole di questa definizione non ne cambia il significato, il che forse indica che non c'è.

  • pubblicazione di dati strutturati (a maggior ragione ciò può essere imputato ai Linked Open Data).

attuale

Grandi fan dei Linked Data sono i cosiddetti GLAM: Gallerie, Biblioteche, Archivi e Musei. Basti dire che la Biblioteca del Congresso sta promuovendo un sostituto per MARC21 BAVAGLIAChe fornisce una base per il futuro della descrizione bibliografica e, ovviamente, basato su RDF.

Wikidata è spesso citata come esempio di progetto di successo nel campo dei Linked Open Data, una sorta di versione leggibile dalla macchina di Wikipedia, il cui contenuto, a differenza di DBPedia, non viene generato importando dagli infobox degli articoli, ma è creato più o meno manualmente (e successivamente diventa fonte di informazioni per gli stessi infobox).

Ti consigliamo anche di verificarlo elenco utenti dello storage Stardog RDF sul sito Stardog nella sezione “Clienti”.

Comunque sia, in Gartner Ciclo pubblicitario per le tecnologie emergenti 2016 "Tassonomia e gestione dell'ontologia aziendale" si trova nel mezzo di una discesa nella valle della delusione con la prospettiva di raggiungere un "altopiano della produttività" non prima di 10 anni.

Connessione dei dati aziendali

Previsioni, previsioni, previsioni...

Per interesse storico, ho elencato di seguito le previsioni di Gartner per vari anni sulle tecnologie che ci interessano.

anno Технология Segnala Posizione Anni al plateau
2001 Web semantico Tecnologie emergenti Innesco dell’innovazione 5-10
2006 Web semantico aziendale Tecnologie emergenti Peak of Inflated Expectations 5-10
2012 Web semantico Big Data Peak of Inflated Expectations > 10
2015 Linked Data Analisi avanzata e scienza dei dati Trogolo della disillusione 5-10
2016 Gestione dell'ontologia aziendale Tecnologie emergenti Trogolo della disillusione > 10
2018 Grafici della conoscenza Tecnologie emergenti Innesco dell’innovazione 5-10

Tuttavia, già dentro "Ciclo pubblicitario..." 2018 è apparsa un'altra tendenza al rialzo: i Knowledge Graphs. Ha avuto luogo una certa reincarnazione: i DBMS grafici, sui quali si è rivelata spostata l'attenzione degli utenti e gli sforzi degli sviluppatori, sotto l'influenza delle richieste dei primi e delle abitudini dei secondi, hanno cominciato ad assumere contorni e posizionamenti dei loro concorrenti predecessori.

Quasi tutti i DBMS a grafo ora si dichiarano una piattaforma adatta per costruire un “grafo della conoscenza” aziendale (“i dati collegati” sono talvolta sostituiti da “dati connessi”), ma quanto sono giustificate tali affermazioni?

I database a grafo sono ancora asemantici; i dati in un DBMS a grafo sono ancora lo stesso silo di dati. Gli identificatori di stringa invece degli URI rendono il compito di integrare due DBMS a grafico ancora un compito di integrazione, mentre l'integrazione di due archivi RDF spesso si riduce semplicemente alla fusione di due grafici RDF. Un altro aspetto dell’asemanticità è la non riflessività del modello grafico LPG, che rende difficile la gestione dei metadati utilizzando la stessa piattaforma.

Infine, i DBMS a grafo non dispongono di motori di inferenza o di regole. I risultati di tali motori possono essere riprodotti complicando le query, ma ciò è possibile anche in SQL.

Tuttavia, i principali sistemi di stoccaggio RDF non hanno difficoltà a supportare il modello GPL. L'approccio più solido è considerato quello proposto un tempo in Blazegraph: il modello RDF*, che combina RDF e GPL.

Più

Puoi leggere ulteriori informazioni sul supporto di archiviazione RDF per il modello GPL nel precedente articolo su Habré: "Cosa sta succedendo adesso con l'archiviazione RDF". Spero che un giorno venga scritto un articolo separato su Knowledge Graph e Data Fabric. La sezione finale, come è facile intuire, è stata scritta in fretta, tuttavia, anche sei mesi dopo, con questi concetti non è tutto molto più chiaro.

Letteratura

  1. Halpin, H., Monnin, A. (a cura di) (2014). Ingegneria filosofica: verso una filosofia del web
  2. Allemang, D., Hendler, J. (2011) Web semantico per l'ontologo di lavoro (2a ed.)
  3. Staab, S., Studer, R. (a cura di) (2009) Manuale sulle ontologie (2a ed.)
  4. Legno, D. (a cura di). (2011) Collegamento dei dati aziendali
  5. Keet, M. (2018) Un'introduzione all'ingegneria ontologica

Fonte: habr.com

Aggiungi un commento