Web sémantique et données liées. Corrections et ajouts

Je voudrais présenter au public un fragment de ce livre récemment publié :

Modélisation ontologique d'une entreprise : méthodes et technologies [Texte] : monographie / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak et autres ; rédacteur en chef S.V. Gorshkov]. - Ekaterinbourg : Maison d'édition de l'Université de l'Oural, 2019. - 234 p. : ill., tableau ; 20 cm.- Auteur. indiqué sur la mésange arrière. Avec. — Bibliographie à la fin du ch. — ISBN 978-5-7996-2580-1 : 200 exemplaires.

L’objectif de la publication de ce fragment sur Habré est quadruple :

  • Il est peu probable que quiconque puisse tenir ce livre entre ses mains s'il n'est pas client d'un SergeIndex; Ce n'est certainement pas en vente.
  • Des corrections ont été apportées au texte (elles ne sont pas mises en évidence ci-dessous) et des ajouts ont été effectués peu compatibles avec le format d'une monographie imprimée : notes d'actualité (sous spoilers) et hyperliens.
  • Vouloir recueillir des questions et des commentaires, afin d'en tenir compte lors de l'inclusion de ce texte sous une forme révisée dans d'éventuelles autres publications.
  • De nombreux adeptes du Web sémantique et des données liées croient encore que leur cercle est si étroit, principalement parce que le grand public n'a pas encore été correctement expliqué à quel point il est formidable d'être un adepte du Web sémantique et des données liées. L'auteur du fragment, bien qu'appartenant à ce cercle, ne partage pas cette opinion, mais se considère néanmoins obligé de faire une autre tentative.

ainsi,

Web sémantique

L'évolution d'Internet peut être représentée comme suit (ou parler de ses segments qui se sont formés dans l'ordre indiqué ci-dessous) :

  1. Documents sur Internet. Technologies clés - Gopher, FTP, etc.
    Internet est un réseau mondial d'échange de ressources locales.
  2. Documents Internet. Les technologies clés sont HTML et HTTP.
    La nature des ressources exposées tient compte des caractéristiques de leur support de transmission.
  3. Données Internet. Technologies clés - API REST et SOAP, XHR, etc.
    À l'ère des applications Internet, les gens ne sont pas les seuls à devenir des consommateurs de ressources.
  4. Données Internet. Les technologies clés sont les technologies de données liées.
    Cette quatrième étape, prédite par Berners-Lee, créateur des deuxièmes technologies de base et directeur du W3C, s'appelle le Web sémantique ; Les technologies de données liées sont conçues pour rendre les données sur le Web non seulement lisibles par machine, mais également « compréhensibles par machine ».

De ce qui suit, le lecteur comprendra la correspondance entre les concepts clés des deuxième et quatrième étapes :

  • Les URL sont analogues aux URI,
  • l'analogue du HTML est RDF,
  • Les hyperliens HTML sont similaires aux occurrences d'URI dans les documents RDF.

Le Web sémantique constitue davantage une vision systémique du futur d'Internet qu'une tendance spécifique, spontanée ou lobée, bien qu'il puisse prendre en compte ces dernières. Par exemple, une caractéristique importante de ce qu’on appelle le Web 2.0 est considérée comme le « contenu généré par l’utilisateur ». La recommandation du W3C est notamment appelée à en tenir compte »Ontologie d'annotation Web"et une entreprise telle que Solide.

Le Web sémantique est-il mort ?

Si tu refuses Attentes irréalistes, la situation avec le Web sémantique est à peu près la même qu'avec le communisme à l'époque du socialisme développé (et si la fidélité aux ordres conditionnels d'Ilitch est respectée, chacun décide par lui-même). Moteurs de recherche assez réussi obliger les sites Web à utiliser RDFa et JSON-LD et utiliser eux-mêmes des technologies liées à celles décrites ci-dessous (Google Knowledge Graph, Bing Knowledge Graph).

D’une manière générale, l’auteur ne peut pas dire ce qui empêche une plus grande propagation, mais il peut s’exprimer sur la base de son expérience personnelle. Il existe des problèmes qui pourraient être résolus « hors des sentiers battus » dans les conditions de l'offensive sud-ouest, bien qu'ils ne soient pas très répandus. En conséquence, ceux qui sont confrontés à ces tâches ne disposent d’aucun moyen de coercition contre ceux qui sont capables d’apporter une solution, tandis que la fourniture indépendante d’une solution par ces derniers contredit leur modèle économique. Nous continuons donc à analyser le HTML et à coller diverses API, toutes plus merdiques les unes que les autres.

Cependant, les technologies de données liées se sont répandues au-delà du Web grand public ; Le livre, en fait, est dédié à ces applications. Actuellement, la communauté des données liées s'attend à ce que ces technologies deviennent encore plus répandues grâce à l'enregistrement (ou à la proclamation, comme vous préférez) par Gartner de tendances telles que Graphiques de connaissances и Structure de données. J'aimerais croire que ce ne seront pas les implémentations « vélos » de ces concepts qui connaîtront le succès, mais celles liées aux standards du W3C évoqués ci-dessous.

Données liées

Berners-Lee a défini les Linked Data comme le web sémantique « bien fait » : un ensemble d'approches et de technologies qui lui permettent d'atteindre ses objectifs ultimes. Principes de base des données liées Berners-Lee distingué ce qui suit.

Principe 1. Utiliser des URI pour nommer des entités.

Les URI sont des identifiants d'entité globaux par opposition aux identifiants de chaîne locaux pour les entrées. Par la suite, ce principe a été mieux exprimé dans le slogan de Google Knowledge Graph «des choses, pas des cordes».

Principe 2. Utiliser les URI dans le schéma HTTP afin qu'ils puissent être déréférencés.

En se référant à un URI, il devrait être possible d'obtenir le signifié derrière ce signifiant (l'analogie avec le nom de l'opérateur " est ici claire).*" en C); plus précisément, pour obtenir une représentation de ce signifié - en fonction de la valeur de l'en-tête HTTP Accept:. Peut-être qu'avec l'avènement de l'ère AR/VR, il sera possible d'obtenir la ressource elle-même, mais pour l'instant, il s'agira très probablement d'un document RDF, résultat de l'exécution d'une requête SPARQL. DESCRIBE.

Principe 3. Utilisation des standards du W3C - principalement RDF(S) et SPARQL - notamment lors du déréférencement des URI.

Ces « couches » individuelles de la pile technologique Linked Data, également appelées Gâteau de couches du Web sémantique, sera décrit ci-dessous.

Principe 4. Utilisation de références à d’autres URI lors de la description d’entités.

RDF permet de se limiter à une description verbale d'une ressource en langage naturel, et le quatrième principe appelle à ne pas le faire. Si le premier principe est universellement observé, il devient possible, lors de la description d'une ressource, de faire référence à d'autres, y compris « étrangères », c'est pourquoi les données sont dites liées. En fait, il est presque inévitable d'utiliser des URI nommés dans le vocabulaire RDFS.

RDF

RDF (Resource Description Framework) est un formalisme pour décrire des entités interdépendantes.

Des énoncés de type « sujet-prédicat-objet », appelés triplets, sont faits à propos des entités et de leurs relations. Dans le cas le plus simple, le sujet, le prédicat et l'objet sont tous des URI. Le même URI peut occuper différentes positions dans différents triplets : être un sujet, un prédicat et un objet ; Ainsi, les triplets forment une sorte de graphe appelé graphe RDF.

Les sujets et les objets peuvent être non seulement des URI, mais aussi ce qu'on appelle nœuds vides, et les objets peuvent également être littéraux. Les littéraux sont des instances de types primitifs constitués d'une représentation sous forme de chaîne et d'une indication de type.

Exemples d'écriture de littéraux (dans la syntaxe Turtle, plus d'informations ci-dessous) : "5.0"^^xsd:float и "five"^^xsd:string. Littéraux avec type rdf:langString peut également être équipé d'une balise de langue ; dans Turtle cela s'écrit ainsi : "five"@en и "пять"@ru.

Les nœuds vides sont des ressources « anonymes » sans identifiants globaux, sur lesquelles des déclarations peuvent cependant être faites ; sorte de variables existentielles.

Donc (c’est en fait tout l’intérêt de RDF) :

  • le sujet est un URI ou un nœud vide,
  • le prédicat est un URI,
  • L'objet est un URI, un nœud vide ou un littéral.

Pourquoi les prédicats ne peuvent-ils pas être des nœuds vides ?

La raison probable est le désir de comprendre et de traduire de manière informelle le triplet dans le langage de la logique des prédicats du premier ordre. s p o comme quelque chose comme Web sémantique et données liées. Corrections et ajoutsWeb sémantique et données liées. Corrections et ajouts - prédicat, Web sémantique et données liées. Corrections et ajouts и Web sémantique et données liées. Corrections et ajouts - des constantes. Des traces de cette compréhension se trouvent dans le document «LBase : Sémantique pour les langages du Web sémantique", qui a le statut de note du groupe de travail du W3C. Avec cette compréhension, le triplet s p [][] - nœud vide, sera traduit par Web sémantique et données liées. Corrections et ajoutsWeb sémantique et données liées. Corrections et ajouts - variable, mais comment alors traduire s [] o? Document avec le statut de recommandation W3C "Sémantique RDF 1.1» propose une autre méthode de traduction, mais ne considère toujours pas la possibilité que les prédicats soient des nœuds vides.

Toutefois, Manu Sporni permis.

RDF est un modèle abstrait. RDF peut être écrit (sérialisé) dans différentes syntaxes : RDF/XML, Tortue (le plus lisible par l'homme), JSON-LD, HDT (binaire).

Le même RDF peut être sérialisé en RDF/XML de différentes manières. Ainsi, par exemple, cela n'a aucun sens de valider le XML résultant à l'aide de XSD ou d'essayer d'extraire des données à l'aide de XPath. De même, il est peu probable que JSON-LD satisfasse le désir du développeur Javascript moyen de travailler avec RDF en utilisant la notation par points et crochets de Javascript (bien que JSON-LD aille dans cette direction en offrant un mécanisme encadrement).

La plupart des syntaxes offrent des moyens de raccourcir les URI longs. Par exemple, une annonce @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> dans Turtle vous permettra alors d'écrire à la place <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> juste rdf:type.

RDFS

RDFS (RDF Schema) - un vocabulaire de modélisation de base, introduit les concepts de propriété et de classe et des propriétés telles que rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. En utilisant le dictionnaire RDFS, par exemple, les expressions valides suivantes peuvent être écrites :

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS est un vocabulaire de description et de modélisation, mais n'est pas un langage de contraintes (bien que la spécification officielle et feuilles possibilité d'une telle utilisation). Le mot « Schéma » ne doit pas être compris dans le même sens que dans l'expression « Schéma XML ». Par exemple, :author rdfs:range foaf:Person signifie que rdf:type toutes les valeurs de propriété :author - foaf:Person, mais cela ne veut pas dire que cela doit être dit à l’avance.

SPARQL

SPARQL (Protocole SPARQL et langage de requête RDF) - un langage pour interroger les données RDF. Dans un cas simple, une requête SPARQL est un ensemble d'échantillons auxquels sont comparés les triplets du graphe interrogé. Les modèles peuvent contenir des variables dans les positions du sujet, du prédicat et de l'objet.

La requête renverra des valeurs de variables qui, une fois substituées dans les échantillons, pourront donner lieu à un sous-graphe du graphe RDF interrogé (un sous-ensemble de ses triplets). Les variables du même nom dans différents échantillons de triplets doivent avoir les mêmes valeurs.

Par exemple, étant donné l'ensemble ci-dessus de sept axiomes RDFS, la requête suivante renverra rdfs:domain и rdfs:range comme valeurs ?s и ?p respectivement:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Il convient de noter que SPARQL est déclaratif et n'est pas un langage pour décrire le parcours de graphes (cependant, certains référentiels RDF proposent des moyens d'ajuster le plan d'exécution des requêtes). Par conséquent, certains problèmes de graphes standards, par exemple la recherche du chemin le plus court, ne peuvent pas être résolus dans SPARQL, notamment en utilisant l'outil chemins de propriété (mais, encore une fois, les dépôts RDF individuels proposent des extensions spéciales pour résoudre ces problèmes).

SPARQL ne partage pas la présomption d'ouverture du monde et suit l'approche de la « négation comme échec », dans laquelle sont possibles des conceptions telles que FILTER NOT EXISTS {…}. La distribution des données est prise en compte à l'aide du mécanisme requêtes fédérées.

Le point d'accès SPARQL - un stockage RDF capable de traiter les requêtes SPARQL - n'a pas d'analogue direct de la deuxième étape (voir le début de ce paragraphe). Il peut être assimilé à une base de données, à partir du contenu de laquelle des pages HTML ont été générées, mais accessible de l'extérieur. Le point d'accès SPARQL est plus analogue au point d'accès API de la troisième étape, mais avec deux différences principales. Premièrement, il est possible de combiner plusieurs requêtes « atomiques » en une seule (ce qui est considéré comme une caractéristique clé de GraphQL), et deuxièmement, une telle API est totalement auto-documentée (ce que HATEOAS a essayé de réaliser).

Remarque polémique

RDF est un moyen de publier des données sur le Web, le stockage RDF doit donc être considéré comme un SGBD de documents. Certes, puisque RDF est un graphe et non un arbre, ils se sont également avérés être basés sur des graphes. C'est incroyable que ça ait marché. Qui aurait pensé qu'il y aurait des gens intelligents qui implémenteraient des nœuds vides. Codd est là n'a pas fonctionné.

Il existe également des moyens moins complets d'organiser l'accès aux données RDF, par exemple : Fragments de données liés (LDF) et Plateforme de données liées (PLD).

HIBOU

HIBOU (Web Ontology Language) - un formalisme pour représenter les connaissances, une version syntaxique de la logique de description Web sémantique et données liées. Corrections et ajouts (partout en dessous il est plus correct de dire OWL 2, la première version d'OWL était basée sur Web sémantique et données liées. Corrections et ajouts).

Les concepts de logiques descriptives en OWL correspondent à des classes, les rôles correspondent à des propriétés, les individus conservent leur ancien nom. Les axiomes sont aussi appelés axiomes.

Par exemple, dans ce qu'on appelle Syntaxe de Manchester pour la notation OWL un axiome déjà connu de nous Web sémantique et données liées. Corrections et ajouts s'écrira ainsi :

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Il existe d'autres syntaxes pour écrire OWL, telles que syntaxe fonctionnelle, utilisé dans la spécification officielle, et CHOUETTE/XML. De plus, OWL peut être sérialisé pour faire abstraction de la syntaxe RDF et plus loin - dans l'une des syntaxes spécifiques.

OWL a une double relation avec RDF. D’une part, il peut être considéré comme une sorte de dictionnaire étendant RDFS. En revanche, il s'agit d'un formalisme plus puissant pour lequel RDF n'est qu'un format de sérialisation. Toutes les constructions OWL élémentaires ne peuvent pas être écrites en utilisant un seul triplet RDF.

Selon le sous-ensemble de constructions OWL qui peut être utilisé, on parle de ce qu'on appelle Profils OWL. Les standardisés et les plus connus sont OWL EL, OWL RL et OWL QL. Le choix du profil affecte la complexité informatique des problèmes typiques. Un ensemble complet de constructions OWL correspondant à Web sémantique et données liées. Corrections et ajouts, appelé OWL DL. Parfois, ils parlent aussi d'OWL Full, dans lequel les constructions OWL peuvent être utilisées avec toute la liberté inhérente à RDF, sans restrictions sémantiques et informatiques. Web sémantique et données liées. Corrections et ajouts. Par exemple, quelque chose peut être à la fois une classe et une propriété. OWL Full est indécidable.

Les principes clés pour attacher des conséquences dans OWL sont l'adoption de l'hypothèse du monde ouvert. OWA) et rejet de la présomption de noms uniques (hypothèse de nom unique, A). Ci-dessous, nous verrons où ces principes peuvent mener et présenterons quelques constructions OWL.

Supposons que l'ontologie contienne le fragment suivant (dans la syntaxe Manchester) :

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Est-ce que cela découlera de ce qui a été dit que Jean a de nombreux enfants ? Rejeter UNA forcera le moteur d’inférence à répondre à cette question par la négative, puisqu’Alice et Bob pourraient bien être la même personne. Pour que ce qui suit ait lieu, vous devrez ajouter l’axiome suivant :

DifferentIndividuals: Alice, Bob, Carol, John

Supposons maintenant que le fragment d'ontologie ait la forme suivante (Jean est déclaré avoir de nombreux enfants, mais il n'en a que deux) :

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Cette ontologie sera-t-elle incohérente (ce qui peut être interprété comme une preuve de données invalides) ? Accepter OWA entraînera une réponse négative du moteur d'inférence : "quelque part" ailleurs (dans une autre ontologie), on pourrait très bien dire que Carol est aussi l'enfant de John.

Pour exclure cette possibilité, ajoutons un nouveau fait à propos de John :

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Pour exclure l'apparition d'autres enfants, disons que toutes les valeurs de la propriété « avoir un enfant » sont des personnes, dont nous n'en avons que quatre :

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Désormais l’ontologie va devenir contradictoire, ce que le moteur d’inférence ne manquera pas de signaler. Avec le dernier des axiomes, nous avons, en un sens, « fermé » le monde et remarquons à quel point la possibilité que John soit son propre enfant est exclue.

Relier les données d'entreprise

L’ensemble d’approches et de technologies Linked Data était initialement destiné à la publication de données sur le Web. Leur utilisation dans un environnement interne à l'entreprise se heurte à un certain nombre de difficultés.

Par exemple, dans un environnement d'entreprise fermé, le pouvoir déductif d'OWL basé sur l'adoption d'OWA et le rejet d'UNA, décisions dues à la nature ouverte et distribuée du Web, est trop faible. Et ici, les solutions suivantes sont possibles.

  • Doter OWL de sémantique, impliquant l'abandon d'OWA et l'adoption d'UNA, la mise en œuvre du moteur de sortie correspondant. - Sur ce chemin est Stockage RDF Stardog.
  • Abandonner les capacités déductives d'OWL au profit des moteurs de règles. — Stardog prend en charge SURL; Offre Jena et GraphDB propre les langues règles
  • Refus des capacités déductives d'OWL, utilisation de l'un ou l'autre sous-ensemble proche de RDFS pour la modélisation. - En savoir plus à ce sujet ci-dessous.

Un autre problème est l’attention accrue que le monde de l’entreprise peut porter aux problèmes de qualité des données et au manque d’outils de validation des données dans la pile de données liées. Les résultats ici sont les suivants.

  • Encore une fois, utilisez-le pour la validation des constructions OWL avec une sémantique de monde fermé et des noms uniques si un moteur d'inférence approprié est disponible.
  • l'utilisation de SHACL, standardisé après correction de la liste des couches Semantic Web Layer Cake (cependant, il peut également être utilisé comme moteur de règles), ou SheEx.
  • Comprendre que tout est finalement fait avec les requêtes SPARQL, en créant votre propre mécanisme simple de validation des données en les utilisant.

Cependant, même un rejet complet des capacités déductives et des outils de validation laisse la pile de données liées hors compétition dans des tâches dont le paysage est similaire à celui du Web ouvert et distribué - dans les tâches d'intégration de données.

Qu’en est-il d’un système d’information d’entreprise classique ?

Cela est possible, mais vous devez bien entendu savoir exactement quels problèmes les technologies correspondantes devront résoudre. Je décrirai ici une réaction typique des participants au développement pour montrer à quoi ressemble cette pile technologique du point de vue de l'informatique conventionnelle. Cela me rappelle un peu la parabole de l'éléphant :

  • Analyste d'affaires: RDF est quelque chose comme un modèle logique directement stocké.
  • Analyste de systèmes: RDF c'est comme EAV, uniquement avec un tas d'index et un langage de requête pratique.
  • Promoteur: eh bien, tout cela est dans l'esprit des concepts de modèle riche et de low code, lire récemment à ce sujet.
  • chef de projet: oui c'est pareil réduire la pile!

La pratique montre que la pile est le plus souvent utilisée dans des tâches liées à la distribution et à l'hétérogénéité des données, par exemple lors de la construction de systèmes de classe MDM (Master Data Management) ou DWH (Data Warehouse). De tels problèmes existent dans n’importe quelle industrie.

En termes d'applications spécifiques à l'industrie, les technologies de données liées sont actuellement les plus populaires dans les secteurs suivants.

  • les technologies biomédicales (dont la popularité semble liée à la complexité du domaine) ;

actuel

Le « Boiling Point » a récemment accueilli une conférence organisée par l’association « National Medical Knowledge Base »Combiner des ontologies. De la théorie à la mise en pratique».

  • production et exploitation de produits complexes (grande construction mécanique, production pétrolière et gazière ; on parle le plus souvent de standards ISO 15926);

actuel

Ici aussi, la raison est la complexité du domaine, alors que, par exemple, en amont, si l'on parle de l'industrie pétrolière et gazière, une comptabilité simple nécessite certaines fonctions de CAO.

En 2008, un événement d'installation représentatif, organisé par Chevron, a eu lieu conférence.

La norme ISO 15926 a finalement semblé un peu lourde pour l'industrie pétrolière et gazière (et a peut-être trouvé une plus grande application dans le génie mécanique). Seule Statoil (Equinor) en est devenue complètement accro ; en Norvège, tout un écosystème. D'autres essaient de faire leur propre truc. Par exemple, selon des rumeurs, le ministère national de l'Énergie aurait l'intention de créer un « modèle ontologique conceptuel du complexe combustible et énergétique », semblable, apparemment, à créé pour l'industrie de l'énergie électrique.

  • les organisations financières (même XBRL peut être considéré comme une sorte d'hybride entre SDMX et l'ontologie RDF Data Cube) ;

actuel

Au début de l'année, LinkedIn a activement spammé l'auteur avec des postes vacants provenant de presque tous les géants du secteur financier, qu'il connaît grâce à la série télévisée « Force Majeure »: Goldman Sachs, JPMorgan Chase et/ou Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Tout le monde cherchait probablement quelqu'un à qui envoyer des messages. Conférence sur les graphiques de connaissances. Beaucoup ont réussi à en trouver : les organismes financiers ont tout pris matin du premier jour.

Sur HeadHunter, seule la Sberbank a trouvé quelque chose d'intéressant : il s'agissait du "stockage EAV avec un modèle de données de type RDF".

La différence dans le degré d’amour pour les technologies correspondantes des institutions financières nationales et occidentales est probablement due à la nature transnationale des activités de ces dernières. Apparemment, l’intégration au-delà des frontières nationales nécessite des solutions organisationnelles et techniques qualitativement différentes.

  • systèmes de questions-réponses avec applications commerciales (IBM Watson, Apple Siri, Google Knowledge Graph) ;

actuel

D’ailleurs, le créateur de Siri, Thomas Gruber, est l’auteur de la définition même de l’ontologie (au sens informatique) comme « spécification de conceptualisation ». À mon avis, réorganiser les mots dans cette définition ne change pas son sens, ce qui indique peut-être qu'elle n'y est pas.

  • publication de données structurées (avec une plus grande justification, cela peut être attribué aux Linked Open Data).

actuel

Les grands fans de Linked Data sont ce qu’on appelle les GLAM : galeries, bibliothèques, archives et musées. Il suffit de dire que la Bibliothèque du Congrès promeut un remplacement de MARC21. CADRE À BIBLIOTHÈQUEQui fournit une base pour l’avenir de la description bibliographique et, bien sûr, basé sur RDF.

Wikidata est souvent cité comme exemple de projet réussi dans le domaine des Linked Open Data - une sorte de version lisible par machine de Wikipédia, dont le contenu, contrairement à DBPedia, n'est pas généré par importation à partir des infobox d'articles, mais est créé plus ou moins manuellement (et devient par la suite une source d'informations pour les mêmes infobox).

Nous vous recommandons également de le consulter liste utilisateurs du stockage Stardog RDF sur le site Stardog dans la rubrique « Clients ».

Quoi qu'il en soit, selon Gartner Cycle de battage médiatique pour les technologies émergentes 2016 "Enterprise Taxonomy and Ontology Management" se trouve au milieu d'une descente dans la vallée de la déception avec la perspective d'atteindre un "plateau de productivité" au plus tôt dans 10 ans.

Connecter les données d'entreprise

Des prévisions, des prévisions, des prévisions...

Par intérêt historique, j’ai compilé ci-dessous les prévisions de Gartner sur plusieurs années sur les technologies qui nous intéressent.

année Technologie Rapport Position Des années pour atteindre un plateau
2001 Web sémantique Les technologies émergentes Déclencheur d'innovation 5-10
2006 Web sémantique d'entreprise Les technologies émergentes Sommet des attentes gonflées 5-10
2012 Web sémantique Big Data Sommet des attentes gonflées > 10
2015 Données liées Analyse avancée et science des données Creux de désillusion 5-10
2016 Gestion des ontologies d'entreprise Les technologies émergentes Creux de désillusion > 10
2018 Graphiques de connaissances Les technologies émergentes Déclencheur d'innovation 5-10

Cependant, déjà dans "Cycle de battage médiatique..." 2018 une autre tendance à la hausse est apparue : les Knowledge Graphs. Une certaine réincarnation s'opère : les SGBD graphes, vers lesquels se sont tournés l'attention des utilisateurs et les efforts des développeurs, sous l'influence des demandes des premiers et des habitudes des seconds, commencent à prendre contours et positionnement de leurs concurrents prédécesseurs.

Presque tous les SGBD graphiques se déclarent désormais comme une plate-forme appropriée pour construire un « graphe de connaissances » d'entreprise (« les données liées » sont parfois remplacées par des « données connectées »), mais dans quelle mesure de telles affirmations sont-elles justifiées ?

Les bases de données graphiques sont toujours asémantiques ; les données dans un SGBD graphique sont toujours le même silo de données. Les identifiants de chaîne au lieu des URI font que la tâche d'intégration de deux SGBD à graphes reste une tâche d'intégration, tandis que l'intégration de deux magasins RDF revient souvent à simplement fusionner deux graphes RDF. Un autre aspect de l'asémanicité est la non-réflexivité du modèle de graphe LPG, qui rend difficile la gestion des métadonnées en utilisant la même plateforme.

Enfin, les SGBD graphiques ne disposent pas de moteurs d’inférence ni de moteurs de règles. Les résultats de ces moteurs peuvent être reproduits en compliquant les requêtes, mais cela est possible même en SQL.

Cependant, les principaux systèmes de stockage RDF n'ont aucune difficulté à prendre en charge le modèle LPG. L'approche la plus solide est considérée comme celle proposée autrefois dans Blazegraph : le modèle RDF*, combinant RDF et LPG.

Plus

Vous pouvez en savoir plus sur la prise en charge du stockage RDF pour le modèle LPG dans l'article précédent sur Habré : "Que se passe-t-il actuellement avec le stockage RDF". J'espère qu'un jour, un article séparé sera écrit sur les Knowledge Graphs et Data Fabric. La dernière section, comme il est facile de le comprendre, a été écrite à la hâte, cependant, même six mois plus tard, tout n'est pas beaucoup plus clair avec ces concepts.

littérature

  1. Halpin, H., Monnin, A. (éd.) (2014). Ingénierie philosophique : vers une philosophie du Web
  2. Allemang, D., Hendler, J. (2011) Web sémantique pour l'ontologue qui travaille (2e éd.)
  3. Staab, S., Studer, R. (éd.) (2009) Manuel sur les ontologies (2e éd.)
  4. Bois, D. (éd.). (2011) Lier les données d'entreprise
  5. Keet, M. (2018) Une introduction à l'ingénierie des ontologies

Source: habr.com

Ajouter un commentaire