我想向公眾展示這本最近出版的書的一個片段:
企業本體建模:方法與技術 [正文]:專著/[S. V. Gorshkov、S. S. Kralin、O. I. Mushtak 等; 執行主編 S.V.戈爾什科夫]。 - 葉卡捷琳堡:烏拉爾大學出版社,2019 年。- 234 頁:病態,表格; 20 公分 - 作者。 表示在背面的山雀上。 和。 — 參考書目在第 978 章的結尾— ISBN 5-7996-2580-1-200:XNUMX 份。
在哈布雷上發布此片段的目的有四:
- 如果不是受人尊敬的客戶,任何人都不太可能擁有這本書。
塞爾日指數 ; 肯定是不賣的。 - 對文字進行了更正(下面未突出顯示),並添加了與印刷專著的格式不太相容的內容:主題註釋(劇透下)和超連結。
- 我想要 收集問題和意見,以便在任何其他出版物中以修訂形式包含此文本時考慮到它們。
- 許多語義網和關聯數據的追隨者仍然認為他們的圈子如此狹窄,主要是因為公眾還沒有正確地解釋成為語義網和關聯數據的追隨者有多偉大。 該片段的作者雖然屬於這個圈子,但並不持這種觀點,但仍認為自己有義務再做一次嘗試。
因此,
語義網
互聯網的演變可以表示如下(或討論按下面所示的順序形成的各個部分):
- 互聯網上的文檔。 關鍵技術—Gopher、FTP等
互聯網是一個用於交換本地資源的全球網路。 - 網路檔案。 關鍵技術是 HTML 和 HTTP。
公開資源的性質考慮了其傳輸介質的特性。 - 網路數據。 關鍵技術-REST和SOAP API、XHR等。
網路應用時代,不僅人成為資源的消費者。 - 網路數據。 關鍵技術是關聯資料技術。
第二個核心技術的創造者、W3C 總監伯納斯李 (Berners-Lee) 預言的第四個階段稱為語義網 (Semantic Web); 關聯資料技術旨在使網路上的資料不僅是機器可讀的,而且是「機器可理解的」。
透過下文,讀者將了解第二階段和第四階段關鍵概念之間的對應關係:
- URL 類似 URI,
- HTML 的類似物是 RDF,
- HTML 超連結類似於 RDF 文件中的 URI 出現。
語意網更多的是對網路未來的系統願景,而不是特定的自發性或遊說趨勢,儘管它可以考慮後者。 例如,所謂的 Web 2.0 的一個重要特徵被認為是「使用者產生的內容」。 特別是,W3C 建議應考慮到“
語意網死了嗎?
如果你拒絕
總的來說,作者無法說出是什麼阻止了更大的傳播,但他可以根據個人經驗來發言。 在西南攻勢的條件下,有些問題可以「開箱即用」解決,儘管這些問題不是很普遍。 因此,面臨這些任務的人無法對能夠提供解決方案的人進行強制,而後者獨立提供解決方案又與他們的商業模式相矛盾。 所以我們繼續解析 HTML 並將各種 API 黏合在一起,一個接一個更糟。
然而,關聯數據技術已擴展到主流網路之外。 事實上,這本書就是專門討論這些應用程式的。 目前,由於 Gartner 記錄(或宣布,隨你喜歡)趨勢,關聯數據社群預計這些技術將變得更加廣泛,例如 知識圖 и 數據結構。 我願意相信,這些概念的「自行車」實現不會獲得成功,但那些與下面討論的 W3C 標準相關的實現才會成功。
關聯數據
伯納斯-李將關聯資料定義為「正確完成」的語意網路:一組使其能夠實現最終目標的方法和技術。 關聯資料的基本原則 Berners-Lee
原則1。 使用 URI 來命名實體。
URI 是全域實體標識符,而不是條目的本機字串標識符。 隨後,這項原則在Google知識圖譜口號中得到了最好的表達“
原則2。 在 HTTP 方案中使用 URI,以便可以取消引用它們。
透過存取 URI,應該可以獲得該能指背後的所指(這裡與操作員名稱的類比很清楚)。*
「在C)中; 更準確地說,要獲得此表示的某種表示形式 - 取決於 HTTP 標頭的值 Accept:
。 或許,隨著AR/VR時代的到來,獲取資源本身將成為可能,但就目前而言,最有可能的是一個RDF文檔,它是執行SPARQL查詢的結果 DESCRIBE
.
原則3。 使用 W3C 標準(主要是 RDF(S) 和 SPARQL),特別是在取消引用 URI 時。
連結資料技術堆疊的這些單獨“層”,也稱為
原則4。 描述實體時使用其他 URI 的引用。
RDF 允許您將自己限制為以自然語言對資源進行口頭描述,而第四個原則要求不要這樣做。 如果普遍遵守第一個原則,那麼在描述資源時就有可能引用其他資源,包括「外國」資源,這就是為什麼資料被稱為連結的原因。 事實上,使用 RDFS 詞彙表中命名的 URI 幾乎是不可避免的。
RDF
「主詞-謂詞-受詞」類型的陳述(稱為三元組)是關於實體及其關係的。 在最簡單的情況下,主詞、述詞和受詞都是 URI。 相同的 URI 在不同的三元組中可以處於不同的位置:主詞、謂詞和受詞; 因此,三元組形成一種稱為 RDF 圖的圖。
主體和客體不僅可以是 URI,還可以是所謂的 空節點,而且物件也可以是 文字。 文字是由字串表示形式和類型指示組成的原始類型的實例。
編寫文字的範例(使用 Turtle 語法,以下有更多相關內容): "5.0"^^xsd:float
и "five"^^xsd:string
。 帶類型的文字 rdf:langString
還可以配備語言標籤;在Turtle中是這樣寫的: "five"@en
и "пять"@ru
.
空節點是沒有全域標識符的「匿名」資源,但是可以對其進行聲明; 一種存在變數。
所以(事實上,這就是 RDF 的全部要點):
- subject 是一個 URI 或一個空節點,
- 謂詞是 URI,
- object 是一個 URI、一個空節點或一個文字。
為什麼謂詞不能是空節點?
可能的原因是希望非正式地理解三元組並將其翻譯成一階謂詞邏輯的語言 s p o
像類似的東西 哪裡 - 謂詞, и - 常數。 這種理解的痕跡在文件中“s p []
哪裡 []
- 空節點,將翻譯為 哪裡 - 變量,但如何翻譯 s [] o
? 具有 W3C 推薦狀態的文件“
然而,馬努·斯波尼
RDF是一個抽像模型。 RDF 可以用各種語法寫成(序列化):
相同的 RDF 可以透過不同的方式序列化為 RDF/XML,因此,使用 XSD 驗證產生的 XML 或嘗試使用 XPath 提取資料是沒有意義的。 同樣,JSON-LD 不太可能滿足普通 Javascript 開發人員使用 Javascript 的點和方括號表示法來處理 RDF 的願望(儘管 JSON-LD 透過提供一種機制朝這個方向發展)
大多數語法都提供了縮短長 URI 的方法。 例如,一個廣告 @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
然後在 Turtle 中將允許你寫 <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
只是 rdf:type
.
分散式檔案系統
rdf:type
, rdfs:subClassOf
, rdfs:domain
и rdfs:range
。 例如,使用 RDFS 字典,可以編寫以下有效表達式:
rdf:type rdf:type rdf:Property .
rdf:Property rdf:type rdfs:Class .
rdfs:Class rdfs:subClassOf rdfs:Resource .
rdfs:subClassOf rdfs:domain rdfs:Class .
rdfs:domain rdfs:domain rdf:Property .
rdfs:domain rdfs:range rdfs:Class .
rdfs:label rdfs:range rdfs:Literal .
RDFS是一種描述和建模詞彙,但不是一種約束語言(儘管官方規範和 :author rdfs:range foaf:Person
意思是 rdf:type
所有屬性值 :author
- foaf:Person
,但並不意味著應該提前說出來。
SPARQL
查詢將傳回這樣的變數值,當將其替換到樣本中時,可以產生所查詢的 RDF 圖的子圖(其三元組的子集)。 三元組的不同樣本中的同名變數必須具有相同的值。
例如,給定上述七個 RDFS 公理集,以下查詢將傳回 rdfs:domain
и rdfs:range
作為價值觀 ?s
и ?p
分別為:
SELECT * WHERE {
?s ?p rdfs:Class .
?p ?p rdf:Property .
}
值得注意的是,SPARQL 是聲明性的,並不是用來描述圖遍歷的語言(但是,一些 RDF 儲存庫提供了調整查詢執行計劃的方法)。 因此,一些標準圖問題,例如尋找最短路徑,無法在 SPARQL 中解決,包括使用
SPARQL不認同世界開放的假設,並遵循「否定即失敗」的方法,其中 FILTER NOT EXISTS {…}
。 使用該機制考慮數據分佈
SPARQL 存取點 - 能夠處理 SPARQL 查詢的 RDF 儲存 - 沒有第二階段的直接類似物(請參閱本段開頭)。 它可以比作一個資料庫,根據其中的內容產生 HTML 頁面,但可供外部存取。 SPARQL 存取點與第三階段的 API 存取點更相似,但有兩個主要差異。 首先,可以將多個「原子」查詢組合成一個(這被認為是 GraphQL 的關鍵特徵),其次,這樣的 API 是完全自文檔化的(這正是 HATEOAS 試圖實現的目標)。
爭論性言論
RDF是一種在網路上發布資料的方式,因此RDF儲存應該被視為文件DBMS。 確實,由於 RDF 是圖而不是樹,因此它們也是基於圖的。 令人驚訝的是它竟然成功了。 誰能想到竟然有聰明人實現了空白節點。 科德來了
還有一些功能不太齊全的方法來組織對 RDF 資料的訪問,例如,
貓頭鷹
OWL 中描述邏輯的概念對應於類,角色對應於屬性,個體保留其先前的名稱。 公理也稱為公理。
例如,在所謂的
Class: Human
Class: Parent
EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent
還有其他用於編寫 OWL 的語法,例如
OWL 與 RDF 有雙重關係。 一方面,它可以被認為是一種擴展RDFS的字典。 另一方面,它是一種更強大的形式主義,RDF 只是一種序列化格式。 並非所有基本 OWL 構造都可以使用單一 RDF 三元組編寫。
根據允許使用 OWL 結構的子集,他們談到了所謂的
在 OWL 中附加後果的關鍵原則是採用開放世界假設。
讓本體包含以下片段(採用曼徹斯特語法):
Class: manyChildren
EquivalentTo: Human that hasChild min 3
Individual: John
Types: Human
Facts: hasChild Alice, hasChild Bob, hasChild Carol
從約翰有很多孩子的說法可以看出來嗎? 拒絕 UNA 將迫使推理引擎給出否定的答案,因為 Alice 和 Bob 很可能是同一人。 為了發生以下情況,有必要加入以下公理:
DifferentIndividuals: Alice, Bob, Carol, John
現在讓本體片段有以下形式(約翰被聲明有很多孩子,但他只有兩個孩子):
Class: manyChildren
EquivalentTo: Human that hasChild min 3
Individual: John
Types: Human, manyChildren
Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John
這個本體會不一致嗎(這可以解釋為無效資料的證據)? 接受 OWA 將導致推理引擎作出否定回應:「在其他地方」(在另一個本體中)很可能會說 Carol 也是 John 的孩子。
為了排除這種可能性,讓我們加入一個關於約翰的新事實:
Individual: John
Facts: hasChild Alice, hasChild Bob, not hasChild Carol
為了排除其他孩子的出現,假設屬性「有孩子」的所有值都是人,其中我們只有四個:
ObjectProperty: hasChild
Domain: Human
Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }
現在本體將變得矛盾,推理機不會不報告這一點。 從某種意義上說,透過最後一條公理,我們「封閉」了世界,並注意約翰是他自己的孩子的可能性是如何被排除的。
連結企業數據
關聯資料方法和技術集最初旨在用於在 Web 上發布資料。 它們在企業內部環境中的使用面臨許多困難。
例如,在封閉的企業環境中,基於Web的開放性和分散性質而做出的採用OWA和拒絕UNA的決策的OWL的演繹能力太弱。 這裡可以採用以下解決方案。
- 賦予OWL語意,意味著放棄OWA而採用UNA,對應輸出引擎的實作。 - 沿著這條路
來了 Stardog RDF 儲存。 - 放棄 OWL 的演繹能力,轉而使用規則引擎。 — 星狗 支持
SWRL ; Jena 和 GraphDB 提供自己 語言 規則 - 拒絕OWL的演繹能力,使用接近RDFS的一個或另一個子集進行建模。 - 請參閱下面有關此內容的更多資訊。
另一個問題是企業界可能更加關注資料品質問題以及關聯資料堆疊中缺乏資料驗證工具。 這裡的輸出如下。
- 同樣,如果有適當的推理引擎可用,則可用於驗證具有封閉世界語義和唯一名稱的 OWL 構造。
- 使用
SHACL ,在修復語義Web層蛋糕層清單後進行標準化(但是,它也可以用作規則引擎),或者上海證券交易所 . - 了解一切最終都是透過 SPARQL 查詢完成的,並使用它們創建您自己的簡單資料驗證機制。
然而,即使完全拒絕演繹功能和驗證工具,連結資料堆疊也會在與開放和分散式網路類似的資料整合任務中失去競爭。
常規的企業資訊系統怎麼樣?
這是可能的,但是您當然應該清楚相應的技術必須解決哪些問題。 我將在這裡描述開發參與者的典型反應,以展示從傳統 IT 的角度來看該技術堆疊是什麼樣子。 讓我想起了大象的寓言:
- 業務分析師:RDF 類似於直接儲存的邏輯模型。
- 系統分析:RDF就像
伊夫 ,只需要一堆索引和方便的查詢語言。 - 開發人員:嗯,這都是本著豐富模型和低程式碼概念的精神,
正在閱讀 最近關於這件事。 - 專案經理: 是的,是一樣的
折疊堆疊 !
實踐表明,堆疊最常用於與資料分佈和異質性相關的任務,例如建構MDM(主資料管理)或DWH(資料倉儲)類系統時。 任何行業都存在這樣的問題。
從產業應用來看,關聯數據技術目前在以下產業最受歡迎。
- 生物醫學技術(其受歡迎程度似乎與領域的複雜性有關);
目前的
《沸點》近日主辦了“全國醫學知識庫”協會主辦的會議“
- 複雜產品的生產和營運(大型機械工程、石油和天然氣生產;我們最常談論的是標準
品質政策 ISO 15926 );
目前的
這裡的原因也在於主題領域的複雜性,例如,在上游階段,如果我們談論石油和天然氣行業,簡單的會計需要一些 CAD 功能。
2008年,舉辦了由雪佛龍組織的代表性安裝活動
最終,ISO 15926 對於石油和天然氣行業來說似乎有點沉重(並且在機械工程中可能有更多的應用)。 只有挪威國家石油公司 (Equinor) 徹底迷上了它;在挪威,整個
- 金融組織(甚至 XBRL 也可以被視為 SDMX 和 RDF 資料立方體本體的混合體);
目前的
今年年初,LinkedIn 積極向作者發送了來自幾乎所有金融業巨頭的職缺職位,這些巨頭都是他在電視劇《不可抗力》中認識的:高盛、摩根大通和/或摩根士丹利、富國銀行、 SWIFT /Visa/Mastercard、美國銀行、花旗集團、聯準會、德意志銀行...可能每個人都在尋找可以發送給的人
在 HeadHunter 上,只有 Sberbank 發現了一些有趣的東西;它是關於「具有類似 RDF 資料模型的 EAV 儲存」。
國內和西方金融機構對相應技術的喜愛程度的差異可能是由於後者活動的跨國性質造成的。 顯然,跨國界整合需要本質上不同的組織和技術解決方案。
- 具有商業應用的問答系統(IBM Watson、Apple Siri、Google Knowledge Graph);
目前的
順便說一句,Siri 的創建者 Thomas Gruber 是將本體(IT 意義上的)定義為「概念化規範」的作者。 在我看來,重新排列這個定義中的單字並不會改變它的意義,這也許表明它不存在。
- 結構化資料的發布(更有理由這可以歸因於連結開放資料)。
目前的
連結資料的忠實粉絲是所謂的 GLAM:畫廊、圖書館、檔案館和博物館。 可以說美國國會圖書館正在推廣 MARC21 的替代品
維基資料經常被引用為連結開放資料領域成功專案的一個例子 - 維基百科的一種機器可讀版本,與 DBPedia 相比,其內容不是透過從文章資訊框導入生成的,而是透過或多或少手動建立(並隨後成為相同資訊框的資訊來源)。
我們也建議您檢查一下
無論如何,在 Gartner 中
連結企業數據
預測、預測、預測…
出於對歷史的興趣,我在下面列出了 Gartner 多年來對我們感興趣的技術的預測。
年 | Технология | 報告 | 位置 | 進入平台期的年份 |
---|---|---|---|---|
2001 | 語義網 | 新興技術 | 創新觸發點 | 5-10 |
2006 | 企業語意網 | 新興技術 | 期望過高的頂峰 | 5-10 |
2012 | 語義網 | 大數據 | 期望過高的頂峰 | > 10 |
2015 | 關聯數據 | 進階分析和數據科學 | 幻滅槽 | 5-10 |
2016 | 企業本體管理 | 新興技術 | 幻滅槽 | > 10 |
2018 | 知識圖 | 新興技術 | 創新觸發點 | 5-10 |
然而,已經在
現在幾乎每個圖 DBMS 都宣稱自己是建立企業「知識圖」的合適平台(「連結資料」有時會被「連結資料」取代),但這種說法的合理性如何?
圖資料庫仍然是語義化的;圖 DBMS 中的資料仍然是相同的資料豎井。 字串識別碼而不是 URI 使得整合兩個圖 DBMS 的任務仍然是一個整合任務,而整合兩個 RDF 儲存通常歸結為簡單地合併兩個 RDF 圖。 非語意性的另一個面向是 LPG 圖模型的非自反性,這使得使用相同平台來管理元資料變得困難。
最後,圖 DBMS 沒有推理引擎或規則引擎。 此類引擎的結果可以透過複雜的查詢來重現,但這甚至在 SQL 中也是可能的。
然而,領先的 RDF 儲存系統在支援 LPG 模型方面沒有任何困難。 最可靠的方法被認為是 Blazegraph 中一度提出的方法:RDF* 模型,結合了 RDF 和 LPG。
更
您可以在上一篇關於 Habré 的文章中閱讀有關 LPG 模型的 RDF 儲存支援的更多資訊:
文學
- Halpin, H.、Monnin, A.(編)(2014 年)。 哲學工程:邁向網路哲學
- Allemang, D., Hendler, J. (2011) 工作本體論者的語意網(第二版)
- Staab, S., Studer, R.(編)(2009)本體論手冊(第二版)
- 伍德,D.(編輯)。 (2011)連結企業數據
- Keet, M. (2018) 本體工程簡介
來源: www.habr.com