Semantisches Web und verknüpfte Daten. Korrekturen und Ergänzungen

Ich möchte der Öffentlichkeit einen Auszug aus diesem kürzlich erschienenen Buch präsentieren:

Ontologische Modellierung eines Unternehmens: Methoden und Technologien [Text]: Monographie / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak und andere; Chefredakteur S.V. Gorshkov]. - Jekaterinburg: Verlag der Ural-Universität, 2019. - 234 S.: Abb., Tabelle; 20 cm. - Autor. auf der Rückseite der Brust angegeben. Mit. - Literaturverzeichnis am Ende von Kap. — ISBN 978-5-7996-2580-1: 200 Exemplare.

Der Zweck der Veröffentlichung dieses Fragments auf Habré ist vierfach:

  • Es ist unwahrscheinlich, dass jemand dieses Buch in den Händen halten kann, wenn er nicht Kunde eines angesehenen Unternehmens ist SergeIndex; Es ist definitiv nicht im Angebot.
  • Es wurden Korrekturen am Text vorgenommen (sie werden unten nicht hervorgehoben) und Ergänzungen vorgenommen, die mit dem Format einer gedruckten Monographie nicht sehr kompatibel sind: thematische Anmerkungen (unter Spoilern) und Hyperlinks.
  • Willst du Sammeln Sie Fragen und Kommentare, um sie bei der Einbindung dieses Textes in überarbeiteter Form in etwaige andere Veröffentlichungen zu berücksichtigen.
  • Viele Anhänger des Semantic Web und Linked Data glauben immer noch, dass ihr Kreis so eng ist, vor allem weil der breiten Öffentlichkeit noch nicht richtig erklärt wurde, wie großartig es ist, Anhänger des Semantic Web und Linked Data zu sein. Der Verfasser des Fragments vertritt, obwohl er diesem Kreis angehört, diese Meinung nicht, sieht sich aber dennoch zu einem weiteren Versuch verpflichtet.

somit

Semantisches Web

Die Entwicklung des Internets lässt sich wie folgt darstellen (oder sprechen Sie über seine Segmente, die in der unten angegebenen Reihenfolge entstanden sind):

  1. Dokumente im Internet. Schlüsseltechnologien – Gopher, FTP usw.
    Das Internet ist ein globales Netzwerk zum Austausch lokaler Ressourcen.
  2. Internetdokumente. Schlüsseltechnologien sind HTML und HTTP.
    Die Art der bereitgestellten Ressourcen berücksichtigt die Eigenschaften ihres Übertragungsmediums.
  3. Internetdaten. Schlüsseltechnologien – REST- und SOAP-API, XHR usw.
    Im Zeitalter der Internetanwendungen werden nicht nur Menschen zu Ressourcenkonsumenten.
  4. Internetdaten. Schlüsseltechnologien sind Linked-Data-Technologien.
    Diese vierte Stufe, die von Berners-Lee, dem Schöpfer der Schlüsseltechnologien der Zweiten und Direktor des W3C, vorhergesagt wurde, wird Semantic Web genannt. Linked-Data-Technologien sollen Daten im Web nicht nur maschinenlesbar, sondern auch „maschinenverständlich“ machen.

Aus dem Folgenden wird der Leser die Entsprechung zwischen den Schlüsselkonzepten der zweiten und vierten Stufe verstehen:

  • URLs sind analog zu URIs,
  • das Analogon von HTML ist RDF,
  • HTML-Hyperlinks ähneln URI-Vorkommen in RDF-Dokumenten.

Das Semantic Web ist eher eine systemische Vision der Zukunft des Internets als ein spezifischer spontaner oder propagierter Trend, obwohl es letztere berücksichtigen kann. Als wichtiges Merkmal des sogenannten Web 2.0 gelten beispielsweise „benutzergenerierte Inhalte“. Insbesondere die W3C-Empfehlung wird aufgefordert, dies zu berücksichtigen „Web-Annotation-Ontologie„Und ein solches Unterfangen wie Solid.

Ist das Semantic Web tot?

Wenn du dich weigerst unrealistische Erwartungen, die Situation mit dem semantischen Netz ist ungefähr die gleiche wie mit dem Kommunismus in der Zeit des entwickelten Sozialismus (und ob die Loyalität gegenüber Iljitschs bedingten Geboten eingehalten wird, muss jeder selbst entscheiden). Suchmaschinen ziemlich erfolgreich Websites dazu zwingen, RDFa und JSON-LD zu verwenden, und selbst Technologien verwenden, die mit den unten beschriebenen verwandt sind (Google Knowledge Graph, Bing Knowledge Graph).

Generell kann der Autor nicht sagen, was eine weitere Verbreitung verhindert, aber er kann auf der Grundlage persönlicher Erfahrungen sprechen. Es gibt Probleme, die unter den Bedingungen der SW-Offensive „out of the box“ gelöst werden könnten, obwohl sie nicht sehr verbreitet sind. Dies hat zur Folge, dass diejenigen, die mit diesen Aufgaben konfrontiert sind, keinerlei Druckmittel gegen diejenigen haben, die eine Lösung anbieten können, während deren eigenständige Bereitstellung einer Lösung ihren Geschäftsmodellen widerspricht. Also analysieren wir weiterhin HTML und kleben verschiedene APIs zusammen, die sich gegenseitig beschissener machen.

Linked-Data-Technologien haben sich jedoch über das Mainstream-Web hinaus verbreitet; Tatsächlich ist das Buch diesen Anwendungen gewidmet. Derzeit geht die Linked-Data-Community davon aus, dass sich diese Technologien dank der Aufzeichnung (oder Ankündigung, wie Sie so wollen) von Trends wie Gartner noch weiter verbreiten werden Wissensgraphen и Datenstruktur. Ich würde gerne glauben, dass nicht die „Fahrrad“-Implementierungen dieser Konzepte erfolgreich sein werden, sondern diejenigen, die sich auf die unten diskutierten W3C-Standards beziehen.

Verknüpfte Daten

Berners-Lee definierte Linked Data als das „richtig gemachte“ Semantic Web: eine Reihe von Ansätzen und Technologien, die es ihm ermöglichen, seine ultimativen Ziele zu erreichen. Grundprinzipien von Linked Data Berners-Lee herausgegriffen die folgende.

Prinzip 1. Verwenden von URIs zum Benennen von Entitäten.

URIs sind globale Entitätsbezeichner im Gegensatz zu lokalen Zeichenfolgenbezeichnern für Einträge. Anschließend wurde dieses Prinzip am besten im Google Knowledge Graph-Slogan ausgedrückt: „Dinge, keine Schnüre".

Prinzip 2. Verwendung von URIs im HTTP-Schema, damit sie dereferenziert werden können.

Durch die Bezugnahme auf einen URI sollte es möglich sein, das Signifikat hinter diesem Signifikanten zu erhalten (die Analogie zum Namen des Operators „ ist hier klar).*" in C); Genauer gesagt, um eine Darstellung dieser Bedeutung zu erhalten – abhängig vom Wert des HTTP-Headers Accept:. Vielleicht wird es mit dem Aufkommen der AR/VR-Ära möglich sein, die Ressource selbst zu erhalten, aber vorerst wird es höchstwahrscheinlich ein RDF-Dokument sein, das das Ergebnis der Ausführung einer SPARQL-Abfrage ist DESCRIBE.

Prinzip 3. Verwendung von W3C-Standards – hauptsächlich RDF(S) und SPARQL – insbesondere bei der Dereferenzierung von URIs.

Diese einzelnen „Schichten“ des Linked-Data-Technologie-Stacks, auch bekannt als Semantischer Web-Layer-Kuchen, wird im Folgenden beschrieben.

Prinzip 4. Verwendung von Verweisen auf andere URIs bei der Beschreibung von Entitäten.

RDF ermöglicht es Ihnen, sich auf eine verbale Beschreibung einer Ressource in natürlicher Sprache zu beschränken, und das vierte Prinzip fordert, dies nicht zu tun. Wenn das erste Prinzip allgemein beachtet wird, ist es bei der Beschreibung einer Ressource möglich, auf andere, auch „fremde“, zu verweisen, weshalb die Daten als verknüpft bezeichnet werden. Tatsächlich ist es fast unvermeidlich, im RDFS-Vokabular benannte URIs zu verwenden.

RDF

RDF (Resource Description Framework) ist ein Formalismus zur Beschreibung miteinander verbundener Einheiten.

Über Entitäten und ihre Beziehungen werden Aussagen vom Typ „Subjekt-Prädikat-Objekt“, sogenannte Tripletts, getroffen. Im einfachsten Fall sind Subjekt, Prädikat und Objekt alle URIs. Derselbe URI kann in verschiedenen Tripletts an unterschiedlichen Positionen stehen: ein Subjekt, ein Prädikat und ein Objekt sein; Somit bilden die Tripletts eine Art Graph, der RDF-Graph genannt wird.

Subjekte und Objekte können nicht nur URIs sein, sondern auch sogenannte leere Knoten, und Objekte können auch sein Literale. Literale sind Instanzen primitiver Typen, die aus einer Zeichenfolgendarstellung und einer Typangabe bestehen.

Beispiele für das Schreiben von Literalen (in Turtle-Syntax, mehr dazu weiter unten): "5.0"^^xsd:float и "five"^^xsd:string. Literale mit Typ rdf:langString kann auch mit einem Sprach-Tag ausgestattet werden; in Turtle wird es so geschrieben: "five"@en и "пять"@ru.

Leere Knoten sind „anonyme“ Ressourcen ohne globale Identifikatoren, über die jedoch Aussagen getroffen werden können; Art existenzieller Variablen.

Also (das ist eigentlich der Sinn von RDF):

  • Betreff ist ein URI oder ein leerer Knoten.
  • das Prädikat ist ein URI,
  • Objekt ist ein URI, ein leerer Knoten oder ein Literal.

Warum können Prädikate keine leeren Knoten sein?

Der wahrscheinliche Grund ist der Wunsch, Triplett informell zu verstehen und in die Sprache der Prädikatenlogik erster Ordnung zu übersetzen s p o wie so etwas wie Semantisches Web und verknüpfte Daten. Korrekturen und ErgänzungenWo Semantisches Web und verknüpfte Daten. Korrekturen und Ergänzungen - Prädikat, Semantisches Web und verknüpfte Daten. Korrekturen und Ergänzungen и Semantisches Web und verknüpfte Daten. Korrekturen und Ergänzungen - Konstanten. Spuren dieses Verständnisses finden sich in dem Dokument „LBase: Semantik für Sprachen des Semantic Web", die den Status einer W3C-Arbeitsgruppennotiz hat. Mit diesem Verständnis ist das Triplett s p []Wo [] - leerer Knoten, wird übersetzt als Semantisches Web und verknüpfte Daten. Korrekturen und ErgänzungenWo Semantisches Web und verknüpfte Daten. Korrekturen und Ergänzungen - variabel, aber wie soll man es dann übersetzen? s [] o? Dokument mit W3C-Empfehlungsstatus „RDF 1.1-Semantik„bietet eine andere Übersetzungsmethode, berücksichtigt aber immer noch nicht die Möglichkeit, dass Prädikate leere Knoten sind.

Allerdings Manu Sporni erlaubt.

RDF ist ein abstraktes Modell. RDF kann in verschiedenen Syntaxen geschrieben (serialisiert) werden: RDF/XML, Schildkröte (am menschlichsten lesbar), JSON-LD, HDT (binär).

Dasselbe RDF kann auf unterschiedliche Weise in RDF/XML serialisiert werden, sodass es beispielsweise keinen Sinn macht, das resultierende XML mithilfe von XSD zu validieren oder zu versuchen, Daten mithilfe von XPath zu extrahieren. Ebenso ist es unwahrscheinlich, dass JSON-LD den Wunsch des durchschnittlichen Javascript-Entwicklers erfüllt, mit RDF unter Verwendung der Punkt- und eckigen Klammernotation von Javascript zu arbeiten (obwohl JSON-LD in diese Richtung geht, indem es einen Mechanismus bietet). Rahmen).

Die meisten Syntaxen bieten Möglichkeiten, lange URIs zu kürzen. Zum Beispiel eine Anzeige @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> In Turtle können Sie dann stattdessen schreiben <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> nur rdf:type.

RDFS

RDFS (RDF-Schema) – ein grundlegendes Modellierungsvokabular, führt in die Konzepte von Eigenschaft und Klasse sowie Eigenschaften wie ein rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Mit dem RDFS-Wörterbuch können beispielsweise die folgenden gültigen Ausdrücke geschrieben werden:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS ist ein Beschreibungs- und Modellierungsvokabular, aber keine Einschränkungssprache (obwohl die offizielle Spezifikation und verlässt Möglichkeit einer solchen Nutzung). Das Wort „Schema“ ist nicht im gleichen Sinne zu verstehen wie der Ausdruck „XML-Schema“. Zum Beispiel, :author rdfs:range foaf:Person bedeutet, dass rdf:type alle Eigenschaftswerte :author - foaf:Person, bedeutet aber nicht, dass dies im Voraus gesagt werden sollte.

Sparql

Sparql (SPARQL Protocol and RDF Query Language) – eine Sprache zum Abfragen von RDF-Daten. In einem einfachen Fall handelt es sich bei einer SPARQL-Abfrage um eine Reihe von Stichproben, mit denen Tripletts des abgefragten Diagramms abgeglichen werden. Muster können Variablen an Subjekt-, Prädikat- und Objektpositionen enthalten.

Die Abfrage gibt solche Variablenwerte zurück, die, wenn sie in die Stichproben eingesetzt werden, zu einem Untergraphen des abgefragten RDF-Diagramms (einer Teilmenge seiner Tripletts) führen können. Variablen mit demselben Namen in verschiedenen Triplettstichproben müssen dieselben Werte haben.

Wenn beispielsweise der obige Satz von sieben RDFS-Axiomen gegeben ist, wird die folgende Abfrage zurückgegeben rdfs:domain и rdfs:range als Werte ?s и ?p bzw.:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Es ist erwähnenswert, dass SPARQL deklarativ ist und keine Sprache zur Beschreibung der Graph-Traversierung ist (einige RDF-Repositorys bieten jedoch Möglichkeiten, den Abfrageausführungsplan anzupassen). Daher können einige Standarddiagrammprobleme, beispielsweise das Finden des kürzesten Pfades, in SPARQL nicht gelöst werden, auch nicht mit dem Eigenschaftspfade (aber auch hier bieten einzelne RDF-Repositories spezielle Erweiterungen zur Lösung dieser Probleme).

SPARQL teilt nicht die Annahme der Offenheit der Welt und folgt dem Ansatz „Negation als Scheitern“. sind möglich Designs wie FILTER NOT EXISTS {…}. Mit dem Mechanismus wird die Datenverteilung berücksichtigt Verbundabfragen.

Der SPARQL-Zugriffspunkt – ein RDF-Speicher, der SPARQL-Anfragen verarbeiten kann – hat keine direkten Analoga aus der zweiten Stufe (siehe Anfang dieses Absatzes). Es kann mit einer Datenbank verglichen werden, auf deren Inhalt HTML-Seiten generiert wurden, die aber von außen zugänglich sind. Der SPARQL-Zugriffspunkt ähnelt eher dem API-Zugriffspunkt der dritten Stufe, weist jedoch zwei Hauptunterschiede auf. Erstens ist es möglich, mehrere „atomare“ Abfragen zu einer zu kombinieren (was als Schlüsselmerkmal von GraphQL gilt), und zweitens ist eine solche API vollständig selbstdokumentierend (was HATEOAS versucht hat).

Polemische Bemerkung

RDF ist eine Möglichkeit, Daten im Web zu veröffentlichen, daher sollte der RDF-Speicher als Dokumenten-DBMS betrachtet werden. Da es sich bei RDF zwar um einen Graphen und nicht um einen Baum handelt, erwiesen sie sich auch als graphbasiert. Es ist erstaunlich, dass es überhaupt geklappt hat. Wer hätte gedacht, dass es kluge Leute gibt, die leere Knoten implementieren würden? Codd ist hier hat nicht geklappt.

Es gibt auch weniger umfassende Möglichkeiten, den Zugriff auf RDF-Daten zu organisieren, zum Beispiel Verknüpfte Datenfragmente (LDF) und Linked-Data-Plattform (LDP).

OWL

OWL (Web Ontology Language) – ein Formalismus zur Darstellung von Wissen, eine syntaktische Version der Beschreibungslogik Semantisches Web und verknüpfte Daten. Korrekturen und Ergänzungen (Überall unten ist es korrekter, OWL 2 zu sagen, auf dem die erste Version von OWL basierte Semantisches Web und verknüpfte Daten. Korrekturen und Ergänzungen).

Konzepte der beschreibenden Logik in OWL entsprechen Klassen, Rollen entsprechen Eigenschaften, Individuen behalten ihren bisherigen Namen. Axiome werden auch Axiome genannt.

Zum Beispiel im sogenannten Manchester-Syntax für die OWL-Notation ein uns bereits bekanntes Axiom Semantisches Web und verknüpfte Daten. Korrekturen und Ergänzungen wird so geschrieben:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Es gibt andere Syntaxen zum Schreiben von OWL, z funktionale Syntax, in der offiziellen Spezifikation verwendet, und EULE/XML. Darüber hinaus kann OWL serialisiert werden um die RDF-Syntax zu abstrahieren und weiter - in einer der spezifischen Syntaxen.

OWL hat eine doppelte Beziehung zu RDF. Einerseits kann es als eine Art Wörterbuch betrachtet werden, das RDFS erweitert. Andererseits handelt es sich um einen leistungsfähigeren Formalismus, für den RDF nur ein Serialisierungsformat ist. Nicht alle elementaren OWL-Konstrukte können mit einem einzigen RDF-Triplett geschrieben werden.

Je nachdem, welche Teilmenge von OWL-Konstrukten verwendet werden darf, spricht man von sogenannten OWL-Profile. Die standardisierten und bekanntesten sind OWL EL, OWL RL und OWL QL. Die Wahl des Profils beeinflusst die Rechenkomplexität typischer Probleme. Ein vollständiger Satz von OWL-Konstrukten entsprechend Semantisches Web und verknüpfte Daten. Korrekturen und Ergänzungen, genannt OWL DL. Manchmal spricht man auch von OWL Full, bei dem OWL-Konstrukte mit der vollen RDF-eigenen Freiheit verwendet werden dürfen, ohne semantische und rechnerische Einschränkungen Semantisches Web und verknüpfte Daten. Korrekturen und Ergänzungen. Beispielsweise kann etwas sowohl eine Klasse als auch eine Eigenschaft sein. OWL Full ist unentscheidbar.

Die Schlüsselprinzipien für die Festlegung von Konsequenzen in OWL sind die Übernahme der Annahme einer offenen Welt. OWA) und Ablehnung der Annahme eindeutiger Namen (Unique-Name-Annahme, A). Im Folgenden werden wir sehen, wohin diese Prinzipien führen können, und einige OWL-Konstrukte vorstellen.

Die Ontologie soll das folgende Fragment enthalten (in Manchester-Syntax):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Folgt aus dem Gesagten, dass John viele Kinder hat? Durch die Ablehnung von UNA wird die Inferenzmaschine gezwungen, diese Frage negativ zu beantworten, da es sich bei Alice und Bob möglicherweise um dieselbe Person handelt. Damit Folgendes geschieht, ist es notwendig, das folgende Axiom hinzuzufügen:

DifferentIndividuals: Alice, Bob, Carol, John

Lassen Sie das Ontologiefragment nun die folgende Form haben (John soll viele Kinder haben, aber er hat nur zwei Kinder):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Wird diese Ontologie inkonsistent sein (was als Beweis für ungültige Daten interpretiert werden kann)? Das Akzeptieren von OWA führt dazu, dass die Inferenzmaschine verneinend reagiert: „Woanders“ (in einer anderen Ontologie) kann man durchaus sagen, dass Carol auch Johns Kind ist.

Um dies auszuschließen, fügen wir eine neue Tatsache über John hinzu:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Um das Auftreten anderer Kinder auszuschließen, nehmen wir an, dass alle Werte der Eigenschaft „ein Kind haben“ Menschen sind, von denen wir nur vier haben:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Jetzt wird die Ontologie widersprüchlich, was die Inferenzmaschine nicht verfehlen wird. Mit dem letzten der Axiome haben wir gewissermaßen die Welt „abgeschlossen“ und bemerken, dass die Möglichkeit, dass Johannes sein eigenes Kind sein könnte, ausgeschlossen ist.

Verknüpfung von Unternehmensdaten

Der Linked-Data-Satz an Ansätzen und Technologien war ursprünglich für die Veröffentlichung von Daten im Web gedacht. Ihr Einsatz im unternehmensinternen Umfeld ist mit einer Reihe von Schwierigkeiten verbunden.

Beispielsweise ist in einer geschlossenen Unternehmensumgebung die Schlussfolgerungskraft von OWL, die auf der Einführung von OWA und der Ablehnung von UNA basiert, Entscheidungen aufgrund der offenen und verteilten Natur des Webs, zu schwach. Und hier sind folgende Lösungen möglich.

  • Die Ausstattung von OWL mit Semantik bedeutet den Verzicht auf OWA und die Einführung von UNA sowie die Implementierung der entsprechenden Ausgabe-Engine. - Auf diesem Weg ist Stardog RDF-Speicher.
  • Verzicht auf die deduktiven Fähigkeiten von OWL zugunsten von Regel-Engines. – Stardog unterstützt SWRL; Angebot von Jena und GraphDB besitzen Sprachen Regeln
  • Ablehnung der deduktiven Fähigkeiten von OWL, Verwendung der einen oder anderen Teilmenge in der Nähe von RDFS zur Modellierung. - Weitere Informationen hierzu finden Sie weiter unten.

Ein weiteres Problem ist der stärkere Fokus, den die Unternehmenswelt möglicherweise auf Datenqualitätsprobleme legt, und das Fehlen von Datenvalidierungstools im Linked-Data-Stack. Die Ausgaben hier sind wie folgt.

  • Auch hier zur Validierung von OWL-Konstrukten mit Closed-World-Semantik und eindeutigen Namen verwenden, wenn eine geeignete Inferenz-Engine verfügbar ist.
  • Verwenden SHACL, standardisiert, nachdem die Liste der Semantic Web Layer Cake-Ebenen festgelegt wurde (kann jedoch auch als Regel-Engine verwendet werden), oder SheEx.
  • Verstehen Sie, dass letztendlich alles mit SPARQL-Abfragen erledigt wird, und erstellen Sie mithilfe dieser Abfragen Ihren eigenen einfachen Datenvalidierungsmechanismus.

Selbst eine völlige Ablehnung deduktiver Fähigkeiten und Validierungstools führt jedoch dazu, dass der Linked-Data-Stack bei Aufgaben, die in ihrer Landschaft dem offenen und verteilten Web ähneln, außer Konkurrenz steht – bei Datenintegrationsaufgaben.

Wie wäre es mit einem regulären Unternehmensinformationssystem?

Das ist möglich, allerdings sollte man sich natürlich darüber im Klaren sein, welche Probleme die entsprechenden Technologien genau lösen müssen. Ich werde hier eine typische Reaktion von Entwicklungsteilnehmern beschreiben, um zu zeigen, wie dieser Technologie-Stack aus Sicht der konventionellen IT aussieht. Erinnert mich ein wenig an das Gleichnis vom Elefanten:

  • Business Analyst: RDF ist so etwas wie ein direkt gespeichertes logisches Modell.
  • System-Analytiker: RDF ist wie EAV, nur mit einer Reihe von Indizes und einer praktischen Abfragesprache.
  • Entwickler: Nun, das ist alles im Sinne der Konzepte von Rich Model und Low Code, lesen kürzlich darüber.
  • Projektmanager: Ja, es ist das Gleiche Zusammenklappen des Stapels!

Die Praxis zeigt, dass der Stack am häufigsten bei Aufgaben im Zusammenhang mit der Verteilung und Heterogenität von Daten verwendet wird, beispielsweise beim Aufbau von MDM- (Master Data Management) oder DWH- (Data Warehouse) Klassensystemen. Solche Probleme gibt es in jeder Branche.

Im Hinblick auf branchenspezifische Anwendungen sind Linked-Data-Technologien derzeit in den folgenden Branchen am beliebtesten.

  • biomedizinische Technologien (wo ihre Beliebtheit offenbar mit der Komplexität des Fachgebiets zusammenhängt);

aktuell

Der „Boiling Point“ war kürzlich Gastgeber einer Konferenz, die vom Verein „National Medical Knowledge Base“ organisiert wurde.Ontologien kombinieren. Von der Theorie zur praktischen Anwendung".

  • Herstellung und Betrieb komplexer Produkte (großer Maschinenbau, Öl- und Gasförderung; am häufigsten sprechen wir von Standardprodukten). ISO 15926 );

aktuell

Auch hier liegt der Grund in der Komplexität des Fachgebiets, wenn beispielsweise im Upstream-Bereich, wenn es um die Öl- und Gasindustrie geht, für eine einfache Buchhaltung einige CAD-Funktionen erforderlich sind.

Im Jahr 2008 fand eine repräsentative Installationsveranstaltung, organisiert von Chevron, statt Konferenz.

Letztendlich erschien ISO 15926 für die Öl- und Gasindustrie etwas schwerfällig (und fand vielleicht im Maschinenbau größere Anwendung). Nur Statoil (Equinor) war davon völlig begeistert, in Norwegen sogar ein Ganzes экосистема. Andere versuchen, ihr eigenes Ding zu machen. Gerüchten zufolge beabsichtigt das inländische Energieministerium beispielsweise, ein „konzeptionelles ontologisches Modell des Brennstoff- und Energiekomplexes“ zu erstellen, ähnlich wie für die Elektrizitätswirtschaft entwickelt.

  • Finanzorganisationen (sogar XBRL kann als eine Art Hybrid aus SDMX und der RDF Data Cube-Ontologie betrachtet werden);

aktuell

Zu Beginn des Jahres überhäufte LinkedIn den Autor aktiv mit Stellenangeboten fast aller Giganten der Finanzbranche, die er aus der TV-Serie „Force Majeure“ kennt: Goldman Sachs, JPMorgan Chase und/oder Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Wahrscheinlich war jeder auf der Suche nach jemandem, an den er etwas senden konnte Knowledge Graph-Konferenz. Nicht wenige haben es geschafft, herauszufinden: Finanzorganisationen haben alles genommen Morgen des ersten Tages.

Auf HeadHunter stieß nur die Sberbank auf etwas Interessantes; es ging um „EAV-Speicher mit einem RDF-ähnlichen Datenmodell“.

Der Unterschied im Grad der Liebe zu den entsprechenden Technologien inländischer und westlicher Finanzinstitute ist wahrscheinlich auf den transnationalen Charakter der Aktivitäten letzterer zurückzuführen. Offenbar erfordert die Integration über Staatsgrenzen hinweg qualitativ unterschiedliche organisatorische und technische Lösungen.

  • Frage-Antwort-Systeme mit kommerziellen Anwendungen (IBM Watson, Apple Siri, Google Knowledge Graph);

aktuell

Übrigens ist der Schöpfer von Siri, Thomas Gruber, der Autor der eigentlichen Definition von Ontologie (im IT-Sinn) als „Konzeptualisierungsspezifikation“. Meiner Meinung nach ändert die Neuanordnung der Wörter in dieser Definition ihre Bedeutung nicht, was vielleicht darauf hindeutet, dass sie nicht vorhanden ist.

  • Veröffentlichung strukturierter Daten (mit größerem Recht kann dies auf Linked Open Data zurückgeführt werden).

aktuell

Große Fans von Linked Data sind die sogenannten GLAM: Galerien, Bibliotheken, Archive und Museen. Es genügt zu sagen, dass die Library of Congress einen Ersatz für MARC21 fördert LATZRAHMENDie Bietet eine Grundlage für die Zukunft der bibliografischen Beschreibung und natürlich basierend auf RDF.

Wikidata wird oft als Beispiel für ein erfolgreiches Projekt im Bereich Linked Open Data genannt – einer Art maschinenlesbarer Version von Wikipedia, deren Inhalte im Gegensatz zu DBPedia nicht durch Import aus Artikel-Infoboxen generiert werden, sondern mehr oder weniger manuell erstellt (und anschließend zur Informationsquelle für dieselben Infoboxen wird).

Wir empfehlen Ihnen auch, es sich anzusehen Liste Benutzer des Stardog RDF-Speichers auf der Stardog-Website im Bereich „Kunden“.

Wie dem auch sei, bei Gartner Hype-Zyklus für neue Technologien 2016 „Enterprise Taxonomy and Ontology Management“ befindet sich mitten in einem Abstieg ins Tal der Enttäuschung mit der Aussicht, frühestens in 10 Jahren ein „Produktivitätsplateau“ zu erreichen.

Unternehmensdaten verbinden

Prognosen, Prognosen, Prognosen...

Aus historischem Interesse habe ich im Folgenden die Prognosen von Gartner für verschiedene Jahre zu den Technologien aufgeführt, die uns interessieren.

Jahr Технология Bericht Position Jahre bis zum Plateau
2001 Semantisches Web Emerging Technologies Innovationsauslöser 5-10
2006 Semantisches Web für Unternehmen Emerging Technologies Höhepunkt der aufgeblähten Erwartungen 5-10
2012 Semantisches Web Big Data Höhepunkt der aufgeblähten Erwartungen > 10
2015 Verknüpfte Daten Fortgeschrittene Analytik und Datenwissenschaft Trog der Ernüchterung 5-10
2016 Unternehmensontologiemanagement Emerging Technologies Trog der Ernüchterung > 10
2018 Wissensgraphen Emerging Technologies Innovationsauslöser 5-10

Allerdings bereits drin „Hype-Zyklus…“ 2018 Ein weiterer Aufwärtstrend ist aufgetreten – Knowledge Graphs. Es kam zu einer Art Reinkarnation: Diagramm-DBMS, auf die sich die Aufmerksamkeit der Benutzer und die Bemühungen der Entwickler unter dem Einfluss der Anforderungen der ersteren und der Gewohnheiten der letzteren richteten, begannen, Konturen und Positionierungen anzunehmen ihrer Vorgängerkonkurrenten.

Nahezu jedes Graph-DBMS bezeichnet sich mittlerweile als geeignete Plattform für den Aufbau eines unternehmenseigenen „Wissensgraphen“ („Linked Data“ wird manchmal durch „Connected Data“ ersetzt), aber wie berechtigt sind solche Behauptungen?

Graphdatenbanken sind immer noch asemantisch; die Daten in einem Graph-DBMS sind immer noch das gleiche Datensilo. Durch Zeichenfolgenbezeichner anstelle von URIs ist die Integration zweier Graph-DBMS immer noch eine Integrationsaufgabe, während die Integration zweier RDF-Speicher oft darauf hinausläuft, einfach zwei RDF-Graphen zusammenzuführen. Ein weiterer Aspekt der Asemantizität ist die Nichtreflexivität des LPG-Graphenmodells, was die Verwaltung von Metadaten auf derselben Plattform erschwert.

Schließlich verfügen Graph-DBMS nicht über Inferenz-Engines oder Regel-Engines. Die Ergebnisse solcher Engines können durch komplizierte Abfragen reproduziert werden, dies ist jedoch auch in SQL möglich.

Führende EBS-Speichersysteme unterstützen jedoch problemlos das LPG-Modell. Der solideste Ansatz gilt als der, der einst in Blazegraph vorgeschlagen wurde: das RDF*-Modell, das RDF und LPG kombiniert.

mehr

Mehr über die RDF-Speicherunterstützung für das LPG-Modell können Sie im vorherigen Artikel auf Habré lesen: „Was passiert jetzt mit RDF-Speicher?“. Ich hoffe, dass eines Tages ein separater Artikel über Knowledge Graphs und Data Fabric geschrieben wird. Der letzte Abschnitt wurde, wie leicht zu verstehen ist, in Eile geschrieben, doch auch sechs Monate später ist mit diesen Konzepten nicht alles viel klarer.

Literatur

  1. Halpin, H., Monnin, A. (Hrsg.) (2014). Philosophical Engineering: Auf dem Weg zu einer Philosophie des Web
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2. Aufl.)
  3. Staab, S., Studer, R. (Hrsg.) (2009) Handbook on Ontologies (2. Auflage)
  4. Wood, D. (Hrsg.). (2011) Verknüpfung von Unternehmensdaten
  5. Keet, M. (2018) Eine Einführung in die Ontologietechnik

Source: habr.com

Kommentar hinzufügen