Web ngữ nghĩa và dữ liệu liên kết. Sửa chữa và bổ sung

Tôi xin giới thiệu với công chúng một đoạn của cuốn sách mới xuất bản này:

Mô hình hóa bản thể của doanh nghiệp: phương pháp và công nghệ [Văn bản]: chuyên khảo / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak và những người khác; biên tập viên điều hành S.V. Gorshkov]. - Ekaterinburg: Nhà xuất bản Đại học Ural, 2019. - 234 tr.: hình, bảng; 20 cm - Tác giả. được chỉ định ở mặt sau. Với. - Thư mục ở cuối ch. — ISBN 978-5-7996-2580-1: 200 bản.

Mục đích của việc đăng đoạn này lên Habré gồm bốn phần:

  • Khó có ai có thể cầm được cuốn sách này trên tay nếu không phải là khách hàng của một vị khách đáng kính. SergeChỉ mục; Nó chắc chắn không được bán.
  • Văn bản đã được sửa chữa (chúng không được đánh dấu bên dưới) và các bổ sung đã được thực hiện không tương thích lắm với định dạng của một chuyên khảo được in: ghi chú chuyên đề (dưới phần tiết lộ nội dung) và siêu liên kết.
  • tôi muốn thu thập câu hỏi và ý kiến, để tính đến chúng khi đưa văn bản này vào dạng sửa đổi trong bất kỳ ấn phẩm nào khác.
  • Nhiều người theo dõi Web ngữ nghĩa và Dữ liệu liên kết vẫn tin rằng vòng kết nối của họ quá hẹp, chủ yếu là do công chúng vẫn chưa được giải thích chính xác rằng việc trở thành một tín đồ của Web ngữ nghĩa và Dữ liệu liên kết sẽ tuyệt vời như thế nào. Tác giả của đoạn văn, mặc dù thuộc về nhóm này, không giữ quan điểm này, tuy nhiên, ông cho rằng mình có nghĩa vụ phải thực hiện một nỗ lực khác.

Vì vậy,

Web ngữ nghĩa

Sự phát triển của Internet có thể được trình bày như sau (hoặc nói về các phân đoạn của nó được hình thành theo thứ tự dưới đây):

  1. Tài liệu trên Internet. Các công nghệ chính - Gopher, FTP, v.v.
    Internet là một mạng lưới toàn cầu để trao đổi các nguồn tài nguyên địa phương.
  2. Tài liệu trên mạng. Các công nghệ chính là HTML và HTTP.
    Bản chất của các tài nguyên tiếp xúc có tính đến các đặc điểm của môi trường truyền dẫn của chúng.
  3. Dữ liệu Internet. Các công nghệ chính - API REST và SOAP, XHR, v.v.
    Thời đại của các ứng dụng Internet, không chỉ con người mới trở thành người tiêu dùng tài nguyên.
  4. Dữ liệu Internet. Công nghệ chính là công nghệ Dữ liệu được liên kết.
    Giai đoạn thứ tư này, được dự đoán bởi Berners-Lee, người tạo ra các công nghệ chủ chốt của thế hệ thứ hai và là giám đốc của W3C, được gọi là Web ngữ nghĩa; Công nghệ Dữ liệu Liên kết được thiết kế để làm cho dữ liệu trên web không chỉ có thể đọc được bằng máy mà còn “dễ hiểu bằng máy”.

Từ những gì tiếp theo, người đọc sẽ hiểu được sự tương ứng giữa các khái niệm chính của giai đoạn thứ hai và thứ tư:

  • URL tương tự như URI,
  • tương tự của HTML là RDF,
  • Siêu liên kết HTML tương tự như sự xuất hiện của URI trong tài liệu RDF.

Web ngữ nghĩa giống như một tầm nhìn mang tính hệ thống về tương lai của Internet hơn là một xu hướng tự phát hoặc được vận động hành lang cụ thể, mặc dù nó có thể tính đến những xu hướng sau này. Ví dụ: một đặc điểm quan trọng của cái được gọi là Web 2.0 được coi là “nội dung do người dùng tạo”. Đặc biệt, khuyến nghị của W3C được yêu cầu phải tính đến nó “Bản thể chú thích web"và một cam kết như Rắn.

Web ngữ nghĩa có chết không?

Nếu bạn từ chối kỳ vọng không thực tế, tình hình với web ngữ nghĩa cũng gần giống như với chủ nghĩa cộng sản trong thời kỳ chủ nghĩa xã hội phát triển (và liệu lòng trung thành với các mệnh lệnh có điều kiện của Ilyich có được tuân thủ hay không, hãy để mọi người tự quyết định). Công cụ tìm kiếm khá thành công buộc các trang web sử dụng RDFa và JSON-LD và bản thân chúng sử dụng các công nghệ liên quan đến những công nghệ được mô tả bên dưới (Sơ đồ tri thức Google, Sơ đồ tri thức Bing).

Nói chung, tác giả không thể nói điều gì đang ngăn chặn sự lây lan lớn hơn, nhưng ông có thể nói dựa trên kinh nghiệm cá nhân. Có những vấn đề có thể được giải quyết “ngay lập tức” trong điều kiện tấn công SW, mặc dù chúng không phổ biến lắm. Kết quả là, những người phải đối mặt với những nhiệm vụ này không có cách nào để ép buộc những người có thể đưa ra giải pháp, trong khi việc cung cấp giải pháp độc lập của những người sau lại mâu thuẫn với mô hình kinh doanh của họ. Vì vậy, chúng tôi tiếp tục phân tích cú pháp HTML và kết hợp nhiều API khác nhau lại với nhau, thứ khác tệ hơn.

Tuy nhiên, công nghệ Dữ liệu Liên kết đã lan rộng ra ngoài Web chính thống; Trên thực tế, cuốn sách này được dành riêng cho những ứng dụng này. Hiện tại, cộng đồng Dữ liệu được liên kết kỳ vọng những công nghệ này sẽ còn trở nên phổ biến hơn nữa nhờ việc Gartner ghi lại (hoặc công bố, tùy thích) các xu hướng như Đồ thị tri thức и Vải dữ liệu. Tôi muốn tin rằng sẽ thành công không phải việc triển khai “xe đạp” những khái niệm này mà là những khái niệm liên quan đến tiêu chuẩn W3C được thảo luận dưới đây.

Dữ liệu được Liên kết

Berners-Lee đã định nghĩa Dữ liệu được liên kết là web ngữ nghĩa “được thực hiện đúng cách”: một tập hợp các phương pháp tiếp cận và công nghệ cho phép nó đạt được các mục tiêu cuối cùng của mình. Nguyên tắc cơ bản của dữ liệu liên kết Berners-Lee chỉ ra sau đây.

Nguyên tắc 1. Sử dụng URI để đặt tên cho các thực thể.

URI là mã định danh thực thể toàn cầu, trái ngược với mã định danh chuỗi cục bộ cho các mục nhập. Sau đó, nguyên tắc này được thể hiện rõ nhất trong khẩu hiệu Sơ đồ tri thức của Google “mọi thứ, không phải dây'.

Nguyên tắc 2. Sử dụng URI trong sơ đồ HTTP để chúng có thể được hủy tham chiếu.

Bằng cách tham chiếu đến một URI, có thể nhận được ký hiệu đằng sau ký hiệu đó (sự tương tự với tên của toán tử " ở đây rõ ràng).*" trong C); chính xác hơn, để có được một số biểu thị được biểu thị này - tùy thuộc vào giá trị của tiêu đề HTTP Accept:. Có lẽ, với sự ra đời của kỷ nguyên AR/VR, người ta sẽ có thể tự lấy được tài nguyên đó, nhưng hiện tại, rất có thể, đó sẽ là một tài liệu RDF, là kết quả của việc thực hiện truy vấn SPARQL DESCRIBE.

Nguyên tắc 3. Sử dụng các tiêu chuẩn W3C - chủ yếu là RDF(S) và SPARQL - đặc biệt khi hủy tham chiếu các URI.

Các “lớp” riêng lẻ này của ngăn xếp công nghệ Dữ liệu được Liên kết, còn được gọi là Bánh lớp web ngữ nghĩa, sẽ được mô tả dưới đây.

Nguyên tắc 4. Sử dụng các tham chiếu đến các URI khác khi mô tả các thực thể.

RDF cho phép bạn giới hạn bản thân trong việc mô tả bằng lời về một tài nguyên bằng ngôn ngữ tự nhiên và nguyên tắc thứ tư yêu cầu không làm điều này. Nếu nguyên tắc đầu tiên được tuân thủ phổ biến, thì khi mô tả một tài nguyên có thể đề cập đến những tài nguyên khác, kể cả những tài nguyên “nước ngoài”, đó là lý do tại sao dữ liệu được gọi là liên kết. Trên thực tế, việc sử dụng các URI có tên trong từ vựng RDFS là điều gần như không thể tránh khỏi.

RDF

RDF (Khung mô tả tài nguyên) là một hình thức để mô tả các thực thể có liên quan với nhau.

Các câu lệnh thuộc loại “chủ ngữ-vị ngữ-tân ngữ”, được gọi là bộ ba, được tạo ra về các thực thể và mối quan hệ của chúng. Trong trường hợp đơn giản nhất, chủ ngữ, vị ngữ và tân ngữ đều là URI. Cùng một URI có thể ở các vị trí khác nhau trong các bộ ba khác nhau: là chủ ngữ, vị ngữ và tân ngữ; Do đó, các bộ ba tạo thành một loại đồ thị gọi là đồ thị RDF.

Chủ thể và đối tượng không chỉ có thể là URI mà còn có thể được gọi là nút trống, và các đối tượng cũng có thể chữ. Literal là các thể hiện của kiểu nguyên thủy bao gồm biểu diễn chuỗi và chỉ báo kiểu.

Ví dụ về cách viết chữ (theo cú pháp của Turtle, hãy tìm hiểu thêm về nó bên dưới): "5.0"^^xsd:float и "five"^^xsd:string. Chữ có loại rdf:langString cũng có thể được trang bị thẻ ngôn ngữ; trong Turtle nó được viết như thế này: "five"@en и "пять"@ru.

Tuy nhiên, các nút trống là các tài nguyên “ẩn danh” không có mã định danh toàn cầu, tuy nhiên, có thể đưa ra những tuyên bố nào; loại biến tồn tại.

Vì vậy (trên thực tế, đây là toàn bộ quan điểm của RDF):

  • chủ đề là một URI hoặc một nút trống,
  • vị ngữ là một URI,
  • đối tượng là một URI, một nút trống hoặc một chữ.

Tại sao vị từ không thể là nút trống?

Lý do có thể xảy ra là mong muốn hiểu và dịch bộ ba một cách không chính thức sang ngôn ngữ của logic vị từ bậc nhất. s p o thích một cái gì đó như Web ngữ nghĩa và dữ liệu liên kết. Sửa chữa và bổ sungĐâu Web ngữ nghĩa và dữ liệu liên kết. Sửa chữa và bổ sung - Thuộc tính, Web ngữ nghĩa và dữ liệu liên kết. Sửa chữa và bổ sung и Web ngữ nghĩa và dữ liệu liên kết. Sửa chữa và bổ sung - hằng số. Dấu vết của sự hiểu biết này có trong tài liệu “LBase: Ngữ nghĩa cho các ngôn ngữ của Web ngữ nghĩa", có trạng thái là ghi chú của nhóm làm việc W3C. Với sự hiểu biết này, bộ ba s p []Đâu [] - nút trống, sẽ được dịch là Web ngữ nghĩa và dữ liệu liên kết. Sửa chữa và bổ sungĐâu Web ngữ nghĩa và dữ liệu liên kết. Sửa chữa và bổ sung - biến, nhưng làm thế nào để dịch s [] o? Tài liệu có trạng thái Khuyến nghị của W3C "Ngữ nghĩa RDF 1.1” đưa ra một phương pháp dịch khác, nhưng vẫn không xem xét khả năng các vị từ là các nút trống.

Tuy nhiên, Manu Sporni cho phép.

RDF là một mô hình trừu tượng. RDF có thể được viết (tuần tự hóa) theo nhiều cú pháp khác nhau: RDF / XML, Turtle (hầu hết con người có thể đọc được), JSON-LD, HĐT (nhị phân).

RDF tương tự có thể được tuần tự hóa thành RDF/XML theo nhiều cách khác nhau, do đó, chẳng hạn, sẽ không có ý nghĩa gì khi xác thực XML kết quả bằng XSD hoặc cố gắng trích xuất dữ liệu bằng XPath. Tương tự như vậy, JSON-LD khó có thể đáp ứng mong muốn làm việc với RDF của nhà phát triển Javascript thông thường bằng cách sử dụng ký hiệu dấu chấm và dấu ngoặc vuông của Javascript (mặc dù JSON-LD di chuyển theo hướng đó bằng cách cung cấp một cơ chế đóng khung).

Hầu hết các cú pháp đều đưa ra cách rút ngắn các URI dài. Ví dụ: một quảng cáo @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> trong Turtle sau đó sẽ cho phép bạn viết thay thế <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> chỉ rdf:type.

RDFS

RDFS (Lược đồ RDF) - từ vựng mô hình hóa cơ bản, giới thiệu các khái niệm về thuộc tính, lớp và các thuộc tính như rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Ví dụ: bằng cách sử dụng từ điển RDFS, có thể viết các biểu thức hợp lệ sau:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS là từ vựng mô tả và mô hình hóa, nhưng không phải là ngôn ngữ ràng buộc (mặc dù đặc tả chính thức và khả năng sử dụng như vậy). Từ "Lược đồ" không nên được hiểu theo nghĩa tương tự như trong cụm từ "Lược đồ XML". Ví dụ, :author rdfs:range foaf:Person có nghĩa là rdf:type tất cả các giá trị thuộc tính :author - foaf:Person, nhưng không có nghĩa là điều này nên được nói trước.

SPARQL

SPARQL (Giao thức SPARQL và Ngôn ngữ truy vấn RDF) - ngôn ngữ để truy vấn dữ liệu RDF. Trong trường hợp đơn giản, truy vấn SPARQL là một tập hợp các mẫu dựa vào đó bộ ba của biểu đồ được truy vấn được khớp. Các mẫu có thể chứa các biến ở vị trí chủ ngữ, vị ngữ và tân ngữ.

Truy vấn sẽ trả về các giá trị biến mà khi được thay thế vào các mẫu có thể dẫn đến một sơ đồ con của biểu đồ RDF được truy vấn (một tập hợp con của các bộ ba của nó). Các biến cùng tên trong các mẫu bộ ba khác nhau phải có cùng giá trị.

Ví dụ: với bộ bảy tiên đề RDFS ở trên, truy vấn sau sẽ trả về rdfs:domain и rdfs:range như giá trị ?s и ?p tương ứng:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Cần lưu ý rằng SPARQL là ngôn ngữ khai báo và không phải là ngôn ngữ để mô tả việc truyền tải đồ thị (tuy nhiên, một số kho RDF đưa ra các cách để điều chỉnh kế hoạch thực hiện truy vấn). Do đó, một số vấn đề về đồ thị tiêu chuẩn, chẳng hạn như tìm đường đi ngắn nhất, không thể giải được trong SPARQL, kể cả việc sử dụng đường dẫn thuộc tính (nhưng, một lần nữa, các kho RDF riêng lẻ cung cấp các phần mở rộng đặc biệt để giải quyết những vấn đề này).

SPARQL không chia sẻ giả định về tính mở của thế giới và tuân theo cách tiếp cận “phủ định là thất bại”, trong đó khả thi những thiết kế như FILTER NOT EXISTS {…}. Việc phân phối dữ liệu được tính đến bằng cơ chế truy vấn liên kết.

Điểm truy cập SPARQL - một kho lưu trữ RDF có khả năng xử lý các truy vấn SPARQL - không có điểm tương tự trực tiếp nào từ giai đoạn thứ hai (xem phần đầu của đoạn này). Nó có thể được ví như một cơ sở dữ liệu, dựa trên nội dung của các trang HTML được tạo ra nhưng có thể truy cập được từ bên ngoài. Điểm truy cập SPARQL tương tự như điểm truy cập API ở giai đoạn thứ ba, nhưng có hai điểm khác biệt chính. Thứ nhất, có thể kết hợp một số truy vấn “nguyên tử” thành một (được coi là đặc điểm chính của GraphQL) và thứ hai, một API như vậy hoàn toàn tự ghi lại tài liệu (đó là điều mà HATEOAS đã cố gắng đạt được).

Bình luận mang tính luận chiến

RDF là một cách để xuất bản dữ liệu trên web, vì vậy việc lưu trữ RDF nên được coi là một DBMS tài liệu. Đúng, vì RDF là một đồ thị chứ không phải cây nên chúng cũng dựa trên đồ thị. Thật ngạc nhiên là nó đã thành công. Ai có thể ngờ rằng sẽ có những người thông minh triển khai các nút trống. Codd ở đây không thành công.

Ngoài ra còn có những cách ít đầy đủ tính năng hơn để tổ chức quyền truy cập vào dữ liệu RDF, ví dụ: Các mảnh dữ liệu được liên kết (LDF) và Nền tảng dữ liệu được liên kết (LDP).

OWL

OWL (Ngôn ngữ bản thể học web) - một chủ nghĩa hình thức để biểu diễn kiến ​​thức, một phiên bản cú pháp của logic mô tả Web ngữ nghĩa và dữ liệu liên kết. Sửa chữa và bổ sung (ở mọi nơi bên dưới thì nói OWL 2 thì đúng hơn, phiên bản đầu tiên của OWL dựa trên Web ngữ nghĩa và dữ liệu liên kết. Sửa chữa và bổ sung).

Các khái niệm logic mô tả trong OWL tương ứng với các lớp, các vai trò tương ứng với các thuộc tính, các cá thể giữ nguyên tên cũ của mình. Tiên đề còn được gọi là tiên đề.

Ví dụ, trong cái gọi là Cú pháp Manchester đối với ký hiệu OWL, một tiên đề đã được chúng ta biết đến Web ngữ nghĩa và dữ liệu liên kết. Sửa chữa và bổ sung sẽ được viết như thế này:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Có những cú pháp khác để viết OWL, chẳng hạn như cú pháp chức năng, được sử dụng trong thông số kỹ thuật chính thức và Cú/XML. Ngoài ra, OWL có thể được tuần tự hóa cú pháp RDF trừu tượng và hơn thế nữa - trong bất kỳ cú pháp cụ thể nào.

OWL có mối quan hệ kép với RDF. Một mặt, nó có thể được coi là một loại từ điển mở rộng RDFS. Mặt khác, đó là một chủ nghĩa hình thức mạnh mẽ hơn mà RDF chỉ là một định dạng tuần tự hóa. Không phải tất cả các cấu trúc OWL cơ bản đều có thể được viết bằng một bộ ba RDF.

Tùy thuộc vào tập hợp con nào của cấu trúc OWL được phép sử dụng, họ nói về cái gọi là hồ sơ OWL. Tiêu chuẩn hóa và nổi tiếng nhất là OWL EL, OWL RL và OWL QL. Việc lựa chọn profile ảnh hưởng đến độ phức tạp tính toán của các bài toán điển hình. Một tập hợp đầy đủ các cấu trúc OWL tương ứng với Web ngữ nghĩa và dữ liệu liên kết. Sửa chữa và bổ sung, được gọi là OWL DL. Đôi khi họ cũng nói về OWL Full, trong đó các cấu trúc OWL được phép sử dụng với toàn quyền tự do vốn có trong RDF, không có các hạn chế về ngữ nghĩa và tính toán Web ngữ nghĩa và dữ liệu liên kết. Sửa chữa và bổ sung. Ví dụ, một cái gì đó có thể vừa là lớp vừa là thuộc tính. OWL Full là không thể quyết định được.

Các nguyên tắc chính để gắn kết các hệ quả trong OWL là việc áp dụng giả định về thế giới mở. OWA) và bác bỏ giả định tên duy nhất (giả định tên duy nhất, MỘT). Dưới đây chúng ta sẽ thấy những nguyên tắc này có thể dẫn dắt và giới thiệu một số cấu trúc OWL ở đâu.

Hãy để ontology chứa đoạn sau (theo cú pháp Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Liệu nó có tuân theo những gì đã được nói rằng John có nhiều con không? Việc từ chối UNA sẽ buộc công cụ suy luận trả lời câu hỏi này theo hướng phủ định, vì Alice và Bob có thể là cùng một người. Để những điều sau đây xảy ra, bạn sẽ cần thêm tiên đề sau:

DifferentIndividuals: Alice, Bob, Carol, John

Bây giờ đoạn ontology có dạng sau (John được khai báo là có nhiều con, nhưng anh ta chỉ có hai con):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Bản thể luận này có mâu thuẫn không (có thể được hiểu là bằng chứng của dữ liệu không hợp lệ)? Việc chấp nhận OWA sẽ khiến công cụ suy luận phản hồi theo hướng phủ định: "ở một nơi nào đó" khác (trong một bản thể luận khác), có thể nói rằng Carol cũng là con của John.

Để loại trừ khả năng xảy ra điều này, hãy thêm một sự thật mới về John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Để loại trừ sự xuất hiện của những đứa trẻ khác, giả sử rằng tất cả các giá trị của thuộc tính “có con” là những người, trong đó chúng ta chỉ có bốn người:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Bây giờ bản thể luận sẽ trở nên mâu thuẫn, điều mà công cụ suy luận sẽ không báo cáo được. Với tiên đề cuối cùng, theo một nghĩa nào đó, chúng ta có “đóng cửa” thế giới và lưu ý rằng khả năng John là con ruột của anh ấy bị loại trừ như thế nào.

Liên kết dữ liệu doanh nghiệp

Tập hợp các phương pháp tiếp cận và công nghệ Dữ liệu được Liên kết ban đầu được dự định để xuất bản dữ liệu trên Web. Việc sử dụng chúng trong môi trường nội bộ doanh nghiệp gặp phải một số khó khăn.

Ví dụ, trong một môi trường doanh nghiệp khép kín, khả năng suy luận của OWL dựa trên việc áp dụng OWA và từ chối UNA, các quyết định do tính chất mở và phân tán của Web, là quá yếu. Và ở đây các giải pháp sau đây là có thể.

  • Cung cấp ngữ nghĩa cho OWL, ngụ ý từ bỏ OWA và áp dụng UNA, triển khai công cụ đầu ra tương ứng. - Dọc theo con đường này Lưu trữ RDF Stardog.
  • Từ bỏ khả năng suy luận của OWL để chuyển sang sử dụng các công cụ quy tắc. - Hỗ trợ Stardog SWRL; Ưu đãi của Jena và GraphDB sở hữu ngôn ngữ quy tắc
  • Từ chối khả năng suy diễn của OWL, sử dụng một hoặc một tập con khác gần với RDFS để lập mô hình. - Xem thêm về điều này dưới đây.

Một vấn đề khác là thế giới doanh nghiệp có thể tập trung nhiều hơn vào các vấn đề về chất lượng dữ liệu và thiếu các công cụ xác thực dữ liệu trong ngăn xếp Dữ liệu được Liên kết. Các kết quả đầu ra ở đây như sau.

  • Một lần nữa, hãy sử dụng để xác thực các cấu trúc OWL với ngữ nghĩa thế giới đóng và các tên duy nhất nếu có sẵn công cụ suy luận thích hợp.
  • Sử dụng SHACL, được chuẩn hóa sau khi danh sách các lớp Bánh lớp Web ngữ nghĩa đã được sửa (tuy nhiên, nó cũng có thể được sử dụng làm công cụ quy tắc) hoặc ShEx.
  • Hiểu rằng mọi thứ cuối cùng đều được thực hiện bằng các truy vấn SPARQL, tạo cơ chế xác thực dữ liệu đơn giản của riêng bạn bằng cách sử dụng chúng.

Tuy nhiên, ngay cả việc từ chối hoàn toàn các khả năng suy luận và các công cụ xác thực cũng khiến ngăn xếp Dữ liệu được Liên kết không còn cạnh tranh trong các nhiệm vụ có bối cảnh tương tự như web mở và phân tán - trong các nhiệm vụ tích hợp dữ liệu.

Thế còn một hệ thống thông tin doanh nghiệp thông thường thì sao?

Điều này là có thể, nhưng tất nhiên bạn phải biết chính xác những vấn đề mà công nghệ tương ứng sẽ phải giải quyết. Ở đây tôi sẽ mô tả phản ứng điển hình của những người tham gia phát triển để cho thấy ngăn xếp công nghệ này trông như thế nào theo quan điểm của CNTT thông thường. Làm tôi nhớ lại một chút về dụ ngôn con voi:

  • Phân tích kinh doanh: RDF giống như một mô hình logic được lưu trữ trực tiếp.
  • Phân tích hệ thống: RDF giống như tiện ích mở rộng EAV, chỉ với một loạt các chỉ mục và ngôn ngữ truy vấn thuận tiện.
  • Nhà phát triển: à, tất cả đều theo tinh thần của các khái niệm về mô hình phong phú và mã thấp, Đang đọc gần đây về việc này.
  • Quản lý dự án: vâng, nó giống nhau thu gọn ngăn xếp!

Thực tiễn cho thấy ngăn xếp thường được sử dụng nhiều nhất trong các tác vụ liên quan đến phân phối và tính không đồng nhất của dữ liệu, chẳng hạn như khi xây dựng hệ thống lớp MDM (Quản lý dữ liệu chính) hoặc DWH (Kho dữ liệu). Những vấn đề như vậy tồn tại trong bất kỳ ngành nào.

Xét về các ứng dụng dành riêng cho ngành, công nghệ Dữ liệu được liên kết hiện phổ biến nhất trong các ngành sau.

  • công nghệ y sinh (nơi mà sự phổ biến của chúng dường như liên quan đến độ phức tạp của lĩnh vực này);

hiện hành

“Điểm sôi” mới đây đã tổ chức một hội nghị do hiệp hội “Cơ sở tri thức y tế quốc gia” tổ chức “Kết hợp ontology. Từ lý thuyết đến ứng dụng thực tế'.

  • sản xuất và vận hành các sản phẩm phức tạp (cơ khí lớn, sản xuất dầu khí; chúng ta thường nói về tiêu chuẩn ISO 15926);

hiện hành

Ở đây, lý do cũng là sự phức tạp của lĩnh vực chủ đề, chẳng hạn như ở giai đoạn thượng nguồn, nếu chúng ta nói về ngành dầu khí, kế toán đơn giản yêu cầu một số chức năng CAD.

Năm 2008, một sự kiện lắp đặt tiêu biểu do Chevron tổ chức đã diễn ra hội nghị.

Cuối cùng, ISO 15926 có vẻ hơi nặng nề đối với ngành dầu khí (và có lẽ được ứng dụng nhiều hơn trong kỹ thuật cơ khí). Chỉ có Statoil (Equinor) là hoàn toàn bị cuốn hút vào nó; ở Na Uy, cả một hệ sinh thái. Những người khác đang cố gắng làm việc riêng của họ. Ví dụ, theo tin đồn, Bộ Năng lượng trong nước có ý định tạo ra một “mô hình bản thể khái niệm của tổ hợp nhiên liệu và năng lượng”, tương tự như vậy. tạo ra cho ngành điện lực.

  • các tổ chức tài chính (thậm chí XBRL có thể được coi là một dạng kết hợp giữa SDMX và bản thể luận Khối dữ liệu RDF);

hiện hành

Vào đầu năm, LinkedIn đã tích cực gửi thư rác cho tác giả về các vị trí tuyển dụng từ hầu hết các gã khổng lồ trong ngành tài chính, những người mà ông biết từ bộ phim truyền hình “Force Majeure”: Goldman Sachs, JPMorgan Chase và/hoặc Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Có lẽ mọi người đang tìm kiếm người mà họ có thể gửi đến Hội nghị đồ thị tri thức. Khá nhiều người đã tìm được: các tổ chức tài chính đã lấy đi mọi thứ buổi sáng ngày đầu tiên.

Trên HeadHunter, chỉ có Sberbank tìm thấy một điều thú vị; đó là về “Bộ lưu trữ EAV với mô hình dữ liệu giống RDF”.

Có lẽ, sự khác biệt về mức độ yêu thích các công nghệ tương ứng của các tổ chức tài chính trong nước và phương Tây là do tính chất xuyên quốc gia của các hoạt động sau này. Rõ ràng, việc hội nhập xuyên biên giới quốc gia đòi hỏi các giải pháp tổ chức và kỹ thuật khác nhau về chất lượng.

  • hệ thống hỏi đáp với các ứng dụng thương mại (IBM Watson, Apple Siri, Google Knowledge Graph);

hiện hành

Nhân tiện, người tạo ra Siri, Thomas Gruber, là tác giả của định nghĩa về bản thể luận (theo nghĩa CNTT) là một “đặc tả khái niệm hóa”. Theo tôi, việc sắp xếp lại các từ trong định nghĩa này không làm thay đổi nghĩa của nó, điều này có lẽ cho thấy rằng nó không có ở đó.

  • xuất bản dữ liệu có cấu trúc (với sự biện minh lớn hơn điều này có thể được quy cho Dữ liệu Mở Liên kết).

hiện hành

Những người hâm mộ lớn Dữ liệu Liên kết là cái gọi là GLAM: Phòng trưng bày, Thư viện, Kho lưu trữ và Bảo tàng. Chỉ cần nói rằng Thư viện Quốc hội đang thúc đẩy việc thay thế MARC21 BIBFRAMEcung cấp nền tảng cho tương lai của mô tả thư mục và tất nhiên là dựa trên RDF.

Wikidata thường được coi là một ví dụ về một dự án thành công trong lĩnh vực Dữ liệu Mở Liên kết - một loại phiên bản Wikipedia máy có thể đọc được, nội dung của nó, trái ngược với DBPedia, không được tạo ra bằng cách nhập từ các hộp thông tin bài viết, mà là được tạo ít nhiều theo cách thủ công (và sau đó trở thành nguồn thông tin cho cùng các hộp thông tin).

Chúng tôi cũng khuyên bạn nên kiểm tra nó danh sách người dùng bộ lưu trữ Stardog RDF trên trang web Stardog trong phần “Khách hàng”.

Dù vậy, ở Gartner Chu kỳ cường điệu cho các công nghệ mới nổi 2016 "Quản lý bản thể học và phân loại doanh nghiệp" được đặt giữa lúc rơi vào thung lũng thất vọng với triển vọng đạt đến "bình nguyên năng suất" không sớm hơn 10 năm tới.

Kết nối dữ liệu doanh nghiệp

Dự báo, dự báo, dự báo...

Vì lợi ích lịch sử, tôi đã lập bảng dưới đây dự báo của Gartner trong nhiều năm về các công nghệ mà chúng ta quan tâm.

Năm Технология Báo cáo Chức vụ Năm lên cao nguyên
2001 Web ngữ nghĩa Công nghệ mới nổi kích hoạt đổi mới 5-10
2006 Web ngữ nghĩa doanh nghiệp Công nghệ mới nổi Đỉnh điểm của những kỳ vọng thổi phồng 5-10
2012 Web ngữ nghĩa Dữ Liệu Lớn. Đỉnh điểm của những kỳ vọng thổi phồng > 10
2015 Dữ liệu được Liên kết Phân tích nâng cao và Khoa học dữ liệu Máng vỡ 5-10
2016 Quản lý bản thể doanh nghiệp Công nghệ mới nổi Máng vỡ > 10
2018 Đồ thị tri thức Công nghệ mới nổi kích hoạt đổi mới 5-10

Tuy nhiên, đã ở "Chu kỳ cường điệu..." 2018 một xu hướng đi lên khác đã xuất hiện - Sơ đồ tri thức. Một sự tái sinh nhất định đã diễn ra: các DBMS đồ thị, nơi mà sự chú ý của người dùng và nỗ lực của các nhà phát triển đã được chuyển sang, dưới ảnh hưởng của các yêu cầu của cái trước và thói quen của cái sau, bắt đầu hình thành và định vị của các đối thủ cạnh tranh tiền nhiệm của họ.

Hầu hết mọi DBMS biểu đồ hiện nay đều tuyên bố mình là một nền tảng phù hợp để xây dựng “biểu đồ tri thức” của công ty (“dữ liệu được liên kết” đôi khi được thay thế bằng “dữ liệu được kết nối”), nhưng những tuyên bố như vậy hợp lý đến mức nào?

Cơ sở dữ liệu đồ thị vẫn chưa có ngữ nghĩa; dữ liệu trong DBMS đồ thị vẫn ở cùng một kho dữ liệu. Các mã định danh chuỗi thay vì URI khiến nhiệm vụ tích hợp hai DBMS đồ thị vẫn là một nhiệm vụ tích hợp, trong khi việc tích hợp hai cửa hàng RDF thường chỉ đơn giản là hợp nhất hai biểu đồ RDF. Một khía cạnh khác của tính vô nghĩa là tính không phản xạ của mô hình đồ thị LPG, điều này gây khó khăn cho việc quản lý siêu dữ liệu bằng cách sử dụng cùng một nền tảng.

Cuối cùng, DBMS đồ thị không có công cụ suy luận hoặc công cụ quy tắc. Kết quả của các công cụ như vậy có thể được sao chép bằng cách làm phức tạp các truy vấn, nhưng điều này thậm chí có thể thực hiện được trong SQL.

Tuy nhiên, các hệ thống lưu trữ RDF hàng đầu không gặp khó khăn gì trong việc hỗ trợ mô hình LPG. Cách tiếp cận vững chắc nhất được coi là cách tiếp cận được đề xuất cùng lúc trong Blazegraph: mô hình RDF*, kết hợp RDF và LPG.

hơn

Bạn có thể đọc thêm về hỗ trợ lưu trữ RDF cho mô hình LPG ở bài viết trước trên Habré: "Điều gì đang xảy ra với bộ lưu trữ RDF". Tôi hy vọng một ngày nào đó sẽ có một bài viết riêng về Sơ đồ tri thức và Cấu trúc dữ liệu. Phần cuối cùng, như dễ hiểu, được viết vội vàng, tuy nhiên, thậm chí sáu tháng sau, mọi thứ vẫn chưa rõ ràng hơn bao nhiêu với những khái niệm này.

Văn chương

  1. Halpin, H., Monnin, A. (eds.) (2014). Kỹ thuật triết học: Hướng tới triết lý về web
  2. Allemang, D., Hendler, J. (2011) Web ngữ nghĩa dành cho nhà nghiên cứu bản thể học làm việc (tái bản lần thứ 2)
  3. Staab, S., Studer, R. (eds.) (2009) Sổ tay về Ontology (tái bản lần thứ 2)
  4. Gỗ, D. (chủ biên). (2011) Liên kết dữ liệu doanh nghiệp
  5. Keet, M. (2018) Giới thiệu về Kỹ thuật bản thể học

Nguồn: www.habr.com

Thêm một lời nhận xét