Semantic Web і Linked Data. Выпраўленні і дапаўненні

Жадаю прадставіць увазе публікі фрагмент вось гэтай нядаўна якая выйшла кнігі:

Анталагічнае мадэляванне прадпрыемства: метады і тэхналогіі [Тэкст]: манаграфія / [С. В. Гаршкоў, С. С. Кралін, А. І. Муштак і інш.; адказны рэдактар ​​С. В. Гаршкоў]. - Екацярынбург: І. ць Уральскага ун-та, 2019. - 234 с .: глей., табл.; 20 см. - Аўт. указаны на абароце тыт. с. - Бібліягр. у канцы гл. - ISBN 978-5-7996-2580-1: 200 экз.

Мэта выкладкі гэтага фрагмента на Хабры чацвёртая:

  • Ці наўрад у кагосьці атрымаецца патрымаць гэтую кніжку ў руках, калі ён не з'яўляецца кліентам паважанага SergeIndex; у продажы яе няма зусім дакладна.
  • У тэкст унесены выпраўленні (ніжэй яны ніяк не вылучаныя) і зроблены дадаткі, не вельмі сумяшчальныя з фарматам друкаванай манаграфіі: надзённыя нататкі (пад спойлерамі) і гіперспасылкі.
  • Жадаецца сабраць пытанні і заўвагі, Каб улічыць іх пры ўключэнні гэтага тэксту ў перапрацаваным выглядзе ў якія-небудзь іншыя выданні.
  • Шматлікія адэпты Semantic Web і Linked Data усё яшчэ лічаць, што іх круг гэтак вузкі галоўным чынам таму, што шырокай публіцы дагэтуль па-добраму не растлумачылі, як жа гэта выдатна – быць адэптам Semantic Web і Linked Data. Аўтар фрагмента, хоць да гэтага кола і належыць, такой думкі не прытрымліваецца, але, тым не менш, лічыць сябе абавязаным зрабіць яшчэ адну спробу.

Такім чынам,

Semantic Web

Эвалюцыю Інтэрнэту можна ўявіць наступным чынам (ці казаць пра яго сегменты, якія фармаваліся ў паказаным ніжэй парадку):

  1. Дакументы ў інтэрнэце. Ключавыя тэхналогіі - Gopher, FTP і т. п.
    Інтэрнет з'яўляецца глабальнай сеткай для абмену лакальнымі рэсурсамі.
  2. Інтэрнэт дакументаў. Ключавыя тэхналогіі - HTML і HTTP.
    Характар ​​выстаўленых рэсурсаў улічвае асаблівасці асяроддзя іх перадачы.
  3. Дадзеныя ў інтэрнэце. Ключавыя тэхналогіі – REST і SOAP API, XHR і інш.
    Эпоха інтэрнэт-прыкладанняў, спажыўцамі рэсурсаў становяцца не толькі людзі.
  4. Інтэрнэт дадзеных. Ключавыя тэхналогіі - тэхналогіі Linked Data.
    Гэты чацвёрты этап, які прадказваецца Бернерсам-Лі, стваральнікам ключавых тэхналогій другога і дырэктарам W3C, і называецца Semantic Web; тэхналогіі Linked Data закліканы зрабіць дадзеныя ў інтэрнэце не толькі машыначытальнымі, але і «машынаразумеюцца».

З наступнага чытачу стане зразумела адпаведнасць ключавых паняццяў другога і чацвёртага этапаў:

  • аналагамі URL з'яўляюцца URI,
  • аналагам HTML з'яўляецца RDF,
  • HTML-гіперспасылкам аналагічныя ўваходжання URI у RDF-дакументы.

Semantic Web - хутчэй сістэмнае бачанне будучыні інтэрнэту, чым пэўны стыхійны або лабіруецца трэнд, хоць здольны ўлічваць і гэтыя апошнія. Напрыклад, важнай характарыстыкай таго, што завецца Web 2.0, лічыцца «стваранае карыстачамі змесціва». Прымаць яе да ўвагі закліканы, у прыватнасці, рэкамендацыя W3CWeb Annotation Ontology» і такое пачынанне, як Цвёрды.

Ці мёртвы Semantic Web?

Калі адмовіцца ад нерэалістычных чаканняў, сітуацыя з семантычным вэбам прыкладна такая ж, як з камунізмам у часы развітога сацыялізму (а ўжо ці выконваецца вернасць умоўным запаветам Ілліча, кожны хай вырашае сам). Пошукавыя сістэмы даволі паспяхова прымушаюць вэб-сайты да выкарыстання RDFa і JSON-LD і самі выкарыстоўваюць тэхналогіі, роднасныя апісваным далей (Google Knowledge Graph, Bing Knowledge Graph).

У агульным выглядзе аўтар не можа сказаць, што перашкаджае большаму распаўсюджванню, але можа выказацца на аснове асабістага досведу. Задачы, якія вырашаліся б са скрынкі ва ўмовах наступу SW, ёсць, хоць і не вельмі масавыя. Як следства, у тых, перад кім гэтыя задачы стаяць, няма сродкаў прымусу ў стаўленні тых, хто здольны забяспечыць рашэнне, самастойнае ж забеспячэнне рашэння гэтымі апошнімі супярэчыць іх бізнэс-мадэлям. Так што працягваем парсіць HTML і склейваць розныя API, адно аднаго shittier.

Аднак тэхналогіі Linked Data атрымалі распаўсюджванне і за межамі масавага вэба; гэтым іх ужываннем кніга, уласна, і прысвечана. У цяперашні час супольнасць Linked Data чакае, што гэтыя тэхналогіі атрымаюць яшчэ большае распаўсюджванне дзякуючы фіксацыі (ці абвяшчэнню, каму як падабаецца) Gartner такіх трэндаў, як Графікі ведаў и Data Fabric. Хочацца верыць, што будуць мець поспех не "веласіпедныя" рэалізацыі гэтых канцэпцый, а якія маюць дачыненне да разгляданых далей стандартам W3C.

Linked Data

Бернерс-Лі вызначаў Linked Data як "правільна зроблены" семантычны вэб: сукупнасць падыходаў і тэхналогій, якая дазваляе дасягнуць яго канчатковых мэт. Базавыя прынцыпы Linked Data Бернерс-Лі вылучаў наступныя.

Прынцып 1. Выкарыстанне URI для наймення сутнасцяў.

URI з'яўляюцца глабальнымі ідэнтыфікатарамі сутнасцяў у супрацьлегласць лакальным радковым ідэнтыфікатарам запісаў. Пасля лепшае выраз гэты прынцып знайшоў у слогане Google.things, not strings.

Прынцып 2. Выкарыстанне URI у схеме HTTP, каб іх было магчыма дэрэферэнсаваць.

Звярнуўшыся да URI, павінна быць магчыма атрымаць азначанае, стаялае за гэтым азначальным (тут зразумелая аналогія з назовам аператара.*» у Сі); дакладней, атрымаць некаторае ўяўленне гэтага азначае – у залежнасці ад значэння HTTP-загалоўка Accept:. Быць можа, з надыходам эпохі AR/VR можна будзе атрымаць сам рэсурс, пакуль жа, хутчэй за ўсё, гэта будзе RDF-дакумент, які з'яўляецца вынікам выканання SPARQL-запыту DESCRIBE.

Прынцып 3. Выкарыстанне стандартаў W3C – у першую чаргу, RDF(S) і SPARQL – у прыватнасці, пры дереференсировании URI.

Гэтыя асобныя «пласты» стэка тэхналогій Linked Data, вядомага таксама пад назовам Semantic Web Layer Cake, будуць апісаны намі далей.

Прынцып 4. Выкарыстанне пры апісанні сутнасцяў спасылак на іншыя URI.

RDF дазваляе абмежавацца слоўным апісаннем рэсурсу на натуральнай мове, і чацвёрты прынцып заклікае гэтага не рабіць. Пры ўсеагульным выкананні першага прынцыпу з'яўляецца магчымасць пры апісанні рэсурсу спасылацца на іншыя, у тым ліку "чужыя", з-за чаго дадзеныя і называюцца звязанымі. Насамрэч амаль непазбежна выкарыстанні URI, пайменаваных у слоўніку RDFS.

RDF

RDF (Resource Description Framework) - фармалізм апісання ўзаемазвязаных сутнасцяў.

Аб сутнасцях і іх узаемасувязях робяцца сцвярджэнні выгляду "суб'ект-прэдыкат-аб'ект", званыя трыплет. У найпростым выпадку і суб'ект, і прэдыкат, і аб'ект - гэта URI. Адзін і той жа URI можа ў розных трыплетах знаходзіцца ў розных пазіцыях: быць і суб'ектам, і прэдыкатам, і аб'ектам; тым самым трыплет ўтвараюць свайго роду граф, званы RDF-графам.

Суб'екты і аб'екты могуць быць не толькі URI, але і так званымі пустымі вузламі, а аб'екты могуць быць яшчэ і літараламі. Літаралы - экзэмпляры прымітыўных тыпаў, якія складаюцца з радковага прадстаўлення і ўказанні тыпу.

Прыклады запісу літаралаў (у Turtle-сінтаксісе, пра яго ніжэй): "5.0"^^xsd:float и "five"^^xsd:string. Літаралы з тыпам rdf:langString могуць быць забяспечаны яшчэ і моўным тэгам, у Turtle гэта запісваецца так: "five"@en и "пять"@ru.

Пустыя вузлы - "ананімныя" рэсурсы без глабальных ідэнтыфікатараў, аб якіх, аднак, могуць рабіцца сцвярджэнні; свайго роду экзістэнцыйныя зменныя.

Такім чынам (у гэтым, уласна, і складаецца ўся сутнасць RDF):

  • суб'ект - гэта URI або пусты вузел,
  • прэдыкат - гэта URI,
  • аб'ект - гэта URI, пусты вузел або литерал.

Чаму прэдыкаты не могуць быць пустымі вузламі?

Верагодная прычына - жаданне нефармальна разумець і перакладаць на мову логікі прэдыкатаў першага парадку трыплет s p o як нешта накшталт Semantic Web і Linked Data. Выпраўленні і дапаўненні, Дзе Semantic Web і Linked Data. Выпраўленні і дапаўненні - прэдыкат, Semantic Web і Linked Data. Выпраўленні і дапаўненні и Semantic Web і Linked Data. Выпраўленні і дапаўненні - канстанты. Следы такога разумення ёсць у дакуменце.LBase: Semantics for Languages ​​of the Semantic Web», Які мае статус нататкі працоўнай групы W3С. Пры такім разуменні трыплет s p [], Дзе [] - пусты вузел, будзе перакладзены як Semantic Web і Linked Data. Выпраўленні і дапаўненні, Дзе Semantic Web і Linked Data. Выпраўленні і дапаўненні - зменная, але як тады перавесці s [] o? Які мае статус рэкамендацыі W3C дакумент «RDF 1.1 Semantics» прапануе іншы спосаб перакладу, але магчымасць прэдыкатаў быць пустымі вузламі ўсё роўна не разглядае.

Зрэшты, Ману Спрэчкі дазволілі.

RDF - абстрактная мадэль. RDF можа быць запісаны (серыялізаваны) у розных сінтаксісах: RDF/XML, чарапаха (найбольш чалавекачытаемы), JSON-LD, HDT (бінарны).

Адзін і той жа RDF можа быць серыялізаваны ў RDF/XML рознымі спосабамі, таму, напрыклад, атрыманы XML бессэнсоўна валідаваць з дапамогай XSD ці спрабаваць здабываць дадзеныя з дапамогай XPath. Роўным чынам JSON-LD ці наўрад задаволіць жаданне радавога Javascript-распрацоўніка працаваць з RDF з выкарыстаннем кропкавай і квадратна-дужкавай натацыі Javascript (хоць JSON-LD і рухаецца ў гэтым кірунку, прапаноўваючы механізм фрэймінга).

Большасць сінтаксісаў прапануе спосабы скарачэння доўгіх URI. Напрыклад, аб'ява @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> у Turtle дазволіць потым пісаць замест <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> проста rdf:type.

RDFS

RDFS (RDF Schema) - базавы слоўнік мадэлявання, уводзіць паняцці ўласцівасці і класа і такія ўласцівасці, як rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. З дапамогай слоўніка RDFS могуць быць запісаныя, напрыклад, наступныя дакладныя выразы:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS з'яўляецца слоўнікам апісання і мадэлявання, але не з'яўляецца мовай абмежаванняў (хоць афіцыйная спецыфікацыя і пакідае магчымасць падобнага ўжывання). Слова "Schema" не варта разумець у тым жа сэнсе, што і ў выразе "XML Schema". Напрыклад, :author rdfs:range foaf:Person азначае, што rdf:type усіх значэнняў уласцівасці :author - foaf:Person, Але не азначае, што пра гэта павінна быць сказана загадзя.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) - мова запытаў да RDF-дадзеных. У простым выпадку SPARQL-запыт уяўляе сабой набор узораў, з якімі супастаўляюцца трыплет апытанага графа. Ва ўзорах у пазіцыях суб'ектаў, прэдыкатаў і аб'ектаў могуць знаходзіцца зменныя.

Запыт верне такія значэнні зменных, пры падстаноўцы якіх ва ўзоры можа атрымацца падграф апытванага RDF-графа (падмноства яго трыплет). Аднайменныя зменныя ў розных узорах трыплетаў павінны мець пры гэтым аднолькавыя значэнні.

Напрыклад, на прыведзеным вышэй наборы з сямі RDFS-аксіём наступны запыт верне rdfs:domain и rdfs:range у якасці значэнняў ?s и ?p адпаведна:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Варта адзначыць, што SPARQL дэкларатыўны і не з'яўляецца мовай апісання абыходу графа (зрэшты, некаторыя RDF-сховішчы прапануюць спосабы карэкціроўкі плана выканання запыту). Таму некаторыя стандартныя графавыя задачы, напрыклад, пошук найкароткага шляху, не могуць быць вырашаны на SPARQL, у тым ліку і з выкарыстаннем механізму. property paths (але, ізноў жа, асобныя RDF-сховішчы прапануюць адмысловыя пашырэнні для рашэння гэтых задач).

SPARQL не падзяляе прэзумпцыю адкрытасці свету і прытрымліваецца падыходу "negation as failure", у ім магчымы такія канструкцыі, як FILTER NOT EXISTS {…}. Размеркаванасць дадзеных улічваецца з дапамогай механізму федэратыўных запытаў.

Кропка доступу SPARQL - RDF-сховішча, здольнае апрацоўваць SPARQL-запыты - не мае прамых аналагаў з другога этапу (гл. пачатак дадзенага параграфа). Яе можна прыпадобніць да базы дадзеных, на аснове змесціва якой генераваліся HTML-старонкі, але даступнай па-за. Кропка доступу SPARQL з'яўляецца аналагам хутчэй кропкі доступу API з трэцяга этапу, аднак з двума асноўнымі адрозненнямі. Па-першае, ёсць магчымасць аб'ядноўваць некалькі "атамарных" запытаў у адзін (што лічыцца ключавой характарыстыкай GraphQL), па-другое, такі API цалкам самадакументаваны (чаго спрабаваў дасягнуць HATEOAS).

Палемічная заўвага

RDF - спосаб публікацыі дадзеных на вэбе, таму RDF-сховішчы варта было б лічыць дакументнымі СКБД. Праўда, паколькі RDF – граф, а не дрэва, яны заадно атрымаліся і графавымі. Дзіўна, што ўвогуле атрымаліся. Хто б мог падумаць, што знойдуцца разумнікі, якія рэалізуюць blank nodes. У Кодда вось не выйшла.

Маюцца і меней поўнафунуцыянальныя спосабы арганізацыі доступу да RDF-дадзеных, напрыклад, Linked Data Fragments (LDF) і Linked Data Platform (LDP).

OWL

OWL (Web Ontology Language) - фармалізм прадстаўлення ведаў, сінтаксічны варыянт дэскрыпцыйнай логікі Semantic Web і Linked Data. Выпраўленні і дапаўненні (усюды ніжэй правільней казаць OWL 2, першая версія OWL была заснавана на Semantic Web і Linked Data. Выпраўленні і дапаўненні).

Канцэптам дэскрыпцыйных логік у OWL адпавядаюць класы, ролям - уласцівасці, індывіды захоўваюць сваю ранейшую назву. Аксіёмы таксама называюцца аксіёмамі.

Напрыклад, у так званым манчэстэрскім сінтаксісе для запісу OWL ужо вядомая нам аксіёма Semantic Web і Linked Data. Выпраўленні і дапаўненні будзе запісана так:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Маюцца і іншыя сінтаксісы для запісу OWL, напрыклад, функцыянальны сінтаксіс, які выкарыстоўваецца ў афіцыйнай спецыфікацыі, і OWL/XML. Акрамя таго, OWL можа быць серыялізаваны у абстрактны сінтаксіс RDF і ў далейшым - у любой з канкрэтных сінтаксісаў.

OWL у стаўленні да RDF выступае ў дваякім стаўленні. Яго, з аднаго боку, можна разглядаць як нейкі слоўнік, які пашырае RDFS. З іншага боку, гэта больш магутны фармалізм, для якога RDF толькі фармат серыялізацыі. Не ўсе элементарныя канструкцыі OWL можна запісаць з дапамогай адзінага RDF-трыплет.

У залежнасці ад таго, якое падмноства канструкцый OWL дазволена выкарыстоўваць, кажуць пра так званыя профілях OWL. Стандартызаваныя і найбольш вядомыя - гэта OWL EL, OWL RL і OWL QL. Выбар профіля ўплывае на вылічальную складанасць тыпавых задач. Поўны набор канструкцый OWL, які адпавядае Semantic Web і Linked Data. Выпраўленні і дапаўненні, называецца OWL DL. Часам таксама кажуць аб OWL Full, у якім канструкцыі OWL дазволена выкарыстоўваць з поўнай свабодай, уласцівай RDF, без семантычных і вылічальных абмежаванняў Semantic Web і Linked Data. Выпраўленні і дапаўненні. Напрыклад, нешта можа быць і класам, і ўласцівасцю. OWL Full невырашальны.

Ключавыя прынцыпы далучэння следстваў у OWL - прыняцце прэзумпцыі адкрытага свету (open world assumption, O.W.A.) і адмова ад прэзумпцыі ўнікальнасці імёнаў (unique name assumption, Адзін). Ніжэй мы ўбачым, навошта могуць прыводзіць гэтыя прынцыпы, і пазнаёмімся з некаторымі канструкцыямі OWL.

Няхай анталогія змяшчае наступны фрагмент (у манчэстарскім сінтаксісе):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Ці будзе са сказанага вынікаць, што Джон шматдзетны? Адмова ад UNA прымусіць рухавік вываду адказаць на гэтае пытанне адмоўна, бо Аліса і Боб цалкам могуць быць адным і тым жа чалавекам. Каб прытрымліванне мела месца, спатрэбіцца дадаць такую ​​аксіёму:

DifferentIndividuals: Alice, Bob, Carol, John

Хай зараз фрагмент анталогіі мае наступны выгляд (Джон аб'яўлены шматдзетным, але ў яго пазначана толькі двое дзяцей):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Ці будзе гэтая анталогія супярэчлівай (што можна інтэрпрэтаваць як сведчанне неваліднасці дадзеных)? Прыняцце OWA прымусіць рухавічок высновы адказаць адмоўна: дзесьці яшчэ (у іншай анталогіі) суцэль можа быць сказанае, што Кэрал таксама з'яўляецца дзіцем Джона.

Каб выключыць магчымасць гэтага, дадамо новы факт аб Джону:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Каб выключыць з'яўленне і іншых дзяцей, скажам, што ўсе значэнні ўласцівасці "мець дзіця" - людзі, якіх у нас усяго чацвёра:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Зараз анталогія стане супярэчлівай, пра што рухавік вываду не праміне паведаміць. Апошняй з аксіём мы ў нейкім сэнсе "замкнулі" мір, і звернеце ўвагу, якім спосабам выключана магчымасць таго, што Джон з'яўляецца дзіцем самому сабе.

Linking Enterprise Data

Набор падыходаў і тэхналогій Linked Data першапачаткова прызначаўся для публікацыі дадзеных у інтэрнэце. Выкарыстанне іх ва ўнутрыкарпаратыўнай асяроддзі сутыкаецца з шэрагам цяжкасцяў.

Напрыклад, у замкнёным карпаратыўным асяроддзі аказваецца занадта слабой дэдуктыўная сіла OWL, заснаванага на прыняцці OWA і адмове ад UNA – рашэннях, абумоўленых адкрытым і размеркаваным характарам вэба. І тут магчымы наступныя выхады.

  • Надзяленне OWL семантыкай, які прадугледжвае адмову ад OWA і прыняцце UNA, рэалізацыя адпаведнага рухавічка высновы. - Па такім шляху ідзе RDF-сховішча Stardog.
  • Адмова ад дэдуктыўных магчымасцяў OWL у карысць рухавічкоў правіл. - Stardog падтрымлівае SWRL; Jena і GraphDB прапануюць ўласныя мовы правілаў.
  • Адмова ад дэдуктыўных магчымасцяў OWL, выкарыстанне для мадэлявання таго ці іншага падмноства, блізкага да RDFS. - Глядзі пра гэта далей.

Іншая праблема - больш істотная ўвага, якое ў карпаратыўным свеце магчыма надаць праблемам якасці дадзеных, і адсутнасць у стэку Linked Data інструментаў валідацыі дадзеных. Выхады тут наступныя.

  • Ізноў-ткі, выкарыстанне для валідацыі канструкцый OWL з семантыкай зачыненага міру і ўнікальнасці імёнаў пры наяўнасці які адпавядае рухавічка высновы.
  • Выкарыстанне SHACL, стандартызаванага ўжо пасля таго, як пералік пластоў Semantic Web Layer Cake быў зафіксаваны (зрэшты, ён можа выкарыстоўвацца і ў якасці рухавічка правілаў), або ShEx.
  • Усведамленне таго, што ўсё ў канчатковым выніку робіцца SPARQL-запытамі, стварэнне ўласнага нескладанага механізму валідацыі дадзеных з іх выкарыстаннем.

Зрэшты, нават поўная адмова ад дэдуктыўных магчымасцяў і прылад валідацыі пакідае стэк Linked Data па-за канкурэнцыяй у задачах, ландшафтна падобных з адчыненым і размеркаваным вэбам - у задачах інтэграцыі дадзеных.

Як наконт звычайнай карпаратыўнай інфармацыйнай сістэмы?

Гэта магчыма, але варта, вядома, разумець, якія менавіта праблемы павінны будуць вырашыць адпаведныя тэхналогіі. Апішу тут тыпавую рэакцыю ўдзельнікаў распрацоўкі, каб паказаць, як выглядае гэты тэхналагічны стэк з пункту гледжання канвенцыйнага IT. Трохі нагадвае прытчу аб слане:

  • Бізнес-аналітык: RDF - гэта нешта тыпу непасрэдна захоўваецца лагічнай мадэлі.
  • Сістэмны аналітык: RDF - гэта як EAV, толькі з кучай індэксаў і зручным мовай запытаў.
  • Распрацоўшчык: ну, гэта ўсё ў духу канцэпцый rich model і low code, чытаў нядаўна аб гэтым.
  • Кіраўнік праекта: ды гэта ж collapsing the stack!

Практыка паказвае, што стэк часцей за ўсё выкарыстоўваецца ў задачах, звязаных з размеркаванасцю і гетэрагеннасцю дадзеных, напрыклад, пры пабудове сістэм класа MDM (Master Data Management) або DWH (Data Warehouse). Такія задачы ёсць у любой галіне.

Што да ўжыванняў з галіновай спецыфікай, у наш час тэхналогіі Linked Data найболей папулярныя ў наступных галінах.

  • біямедыцынскія тэхналогіі (дзе іх папулярнасць, відаць, звязана са складанасцю прадметнай вобласці);

актуальнае

У «Кропцы кіпення» на днях у праходзіла арганізаваная асацыяцыяй «Нацыянальная база медыцынскіх ведаў» канферэнцыя «Аб'яднанне анталогій. Ад тэорыі да практычнага прымянення.

  • выраб і эксплуатацыя складаных вырабаў (буйное машынабудаванне, здабыча нафты і газу; часцей за ўсё размова ідзе аб стандарце ISO 15926);

актуальнае

Тут таксама чыннікам з'яўляецца складанасць прадметнай вобласці, калі, напрыклад, на этапе upstream, калі казаць аб нафтагазавай галіне, простай уліковай трэба мець некаторыя функцыі САПР.

У 2008 году мінула арганізаваная Chevron прадстаўнічая ўсталявальная канферэнцыя.

ISO 15926 у выніку здаўся нафтагазавай галіны цяжкаватым (і ці ледзь не большае ўжыванне знайшоў у машынабудаванні). Грунтоўна на яго падсела хіба што Statoil (Equinor), у Нарвегіі вакол яго склалася цэлая экасістэма. Іншыя спрабуюць рабіць нешта сваё. Напрыклад, па чутках, айчынны Мінэнерга мае намер заняцца стварэннем "канцэптуальнай анталагічнай мадэлі ПЭК", аналагічнай, відаць, створанай для электраэнергетыкі.

  • фінансавыя арганізацыі (нават XBRL можна разглядаць як нейкі гібрыд SDMX і анталогіі RDF Data Cube);

актуальнае

LinkedIn напачатку гады актыўна спаміў аўтара вакансіямі ці ледзь не ва ўсіх гігантаў фінансавай індустрыі, якіх ён ведае па серыяле «Форс-мажоры»: Goldman Sachs, JPMorgan Chase і/ці Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, ФРС, Deutsche Bank… Верагодна, усё шукалі, каго можна будзе адправіць на Knowledge Graph Conference. Знайсці ўдалося даволі многім: фінансавыя арганізацыі занялі ўсё раніца першага дня.

На HeadHunter ж нешта цікавае траплялася толькі ў Ашчадбанка, гаворка ішла аб "EAV-сховішча з RDF-падобнай мадэллю дадзеных".

Верагодна, адрозненне ў ступені кахання да адпаведных тэхналогій айчынных і заходніх фінансавых інстытуцый абумоўлена транснацыянальным характарам дзейнасці апошніх. Відавочна, інтэграцыі праз дзяржаўныя межы патрабуюць якасна іншых арганізацыйных і тэхнічных рашэнняў.

  • пытальна-зваротныя сістэмы, якія маюць камерцыйнае прымяненне (IBM Watson, Apple Siri, Google Knowledge Graph);

актуальнае

Дарэчы, стваральнік Siri Томас Грубер – аўтар таго самага вызначэння анталогіі (у ІТ-значэнні) як "спецыфікацыі канцэптуалізацыі". На мой погляд, перастаноўка слоў у гэтым азначэнні не мяняе яго сэнс, што, магчыма, сведчыць аб тым, што яго там і няма.

  • публікацыя структураваных дадзеных (з вялікай падставай гэта можа быць аднесена ўжо да Linked Open Data).

актуальнае

Вялікія аматары Linked Data - так званыя GLAM: Galleries, Libraries, Archives, and Museums. Тут дастаткова сказаць, што на замену MARC21 Бібліятэка Кангрэса прасоўвае BIBFRAME, Які забяспечвае фундацыю для future of bibliographic description і, зразумела, заснаваны на RDF.

Часта ў якасці прыкладу паспяховага праекта ў сферы Linked Open Data прыводзяць Wikidata – свайго роду машыначытальную версію Вікіпедыі, змесціва якой, у супрацьлегласць DBPedia, не генеруецца імпартам з інфабоксаў артыкулаў, а ствараецца больш-менш уручную (і ў наступным становіцца крыніцай інфармацыі для тых жа інфабоксаў).

Рэкамендуемы таксама для азнаямлення спіс карыстальнікаў RDF-сховішчы Stardog на сайце Stardog у раздзеле "Customers".

Як бы там ні было, у гартнераўскім "Hype Cycle for Emerging Technologies" 2016 года "Enterprise Taxonomy and Ontology Management" змешчаны ў сярэдзіне спуску ў даліну расчараванні з перспектывай выхаду на "плато прадуктыўнасці" не раней чым праз 10 гадоў.

Connecting Enterprise Data

Прагнозы, прагнозы, прагнозы…

З гістарычнай цікавасці звёў у табліцу ніжэй гартнераўскія прагнозы розных гадоў па цікавых для нас тэхналогіях.

Год Тэхналогія Справаздача Становішча Гадоў да плато
2001 Semantic Web новыя тэхналогіі Innovation Trigger 5-10
2006 Corporate Semantic Web новыя тэхналогіі Peak of Inflated Expectations 5-10
2012 Semantic Web Вялікі дадзеных Peak of Inflated Expectations > 10
2015 Linked Data Advanced Analytics and Data Science Trough of Disillusionment 5-10
2016 Enterprise Ontology Management новыя тэхналогіі Trough of Disillusionment > 10
2018 Графікі ведаў новыя тэхналогіі Innovation Trigger 5-10

Зрэшты, ужо ў «Hype Cycle…» 2018 года з'явіўся іншы ўзыходзячы трэнд - Knowledge Graphs. Адбылася нейкая рэінкарнацыя: графавыя СКБД, на якія аказалася пераключана ўвага карыстальнікаў і сілы распрацоўшчыкаў, пад уплывам запытаў першых і звычак апошніх сталі здабываць контуры і пазіцыянаванне сваіх папярэднікаў-канкурэнтаў.

Практычна кожная графавая СКБД зараз аб'яўляе сябе прыдатнай платформай для пабудовы карпаратыўнага "графа ведаў" ("linked data" часам замяняецца на "connected data"), але наколькі апраўданыя падобныя дамаганні?

Графавыя базы дадзеных па-ранейшаму асемантычныя, дадзеныя ў графавай СКБД – усё той жа data silo. Радковыя ідэнтыфікатары замест URI робяць задачу інтэграцыі двух графавых СКБД усё той жа задачай інтэграцыі, у той час як інтэграцыя двух RDF-сховішчаў часта зводзіцца проста да аб'яднання двух RDF-графаў. Іншы аспект асемантычнасці – нерэфлексіўнасць графавай мадэлі LPG, якая робіць цяжкім кіраванне метададзенымі з выкарыстаннем той жа платформы.

Нарэшце, графавыя СКБД не маюць рухавікоў вываду і рухавікоў правілаў. Вынікі працы такіх рухавікоў могуць быць прайграны ўскладненнем запытаў, але такое магчыма нават у SQL.

Зрэшты, кіроўныя RDF-сховішчы не выпрабоўваюць цяжкасцяў з падтрымкай мадэлі LPG. Найбольш самавітым лічыцца падыход, прапанаваны ў сваё час у Blazegraph: мадэль RDF*, якая аб'ядноўвае RDF і LPG.

Больш падрабязна

Падрабязней аб падтрымцы RDF-сховішчамі мадэлі LPG можна прачытаць у папярэднім артыкуле на Хабры: «Што зараз адбываецца з RDF-сховішчамі». Пра Knowledge Graphs і Data Fabric будзе, спадзяюся, аднойчы напісаны асобны артыкул. Заключны раздзел, як лёгка зразумець, дапісваўся ў спешцы, зрэшты, і праз паўгода з гэтымі канцэпцыямі ўсё не нашмат ясней.

Літаратура

  1. Halpin, H., Monnin, A. (eds.) (2014). Philosophical Engineering: Toward a Philosophy of the Web
  2. Allemang, D., Hendler, J. (2011) Semantic Web for Working Ontologist (2nd ed.)
  3. Staab, S., Studer, R. (eds.) (2009) Handbook on Ontologies (2nd ed.)
  4. Wood, D. (ed.). (2011) Linking Enterprise Data
  5. Keet, M. (2018) An Introduction to Ontology Engineering

Крыніца: habr.com

Дадаць каментар