Web Semantik dan Data Tertaut. Koreksi dan penambahan

Saya ingin mempersembahkan kepada publik sebuah penggalan dari buku yang baru diterbitkan ini:

Pemodelan ontologis suatu perusahaan: metode dan teknologi [Teks]: monografi / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak dan lainnya; editor eksekutif S.V.Gorshkov]. - Ekaterinburg: Rumah Penerbitan Universitas Ural, 2019. - 234 hal.: sakit., tabel; 20 cm - Penulis. ditunjukkan pada tit belakang. Dengan. — Bibliografi di akhir bab. — ISBN 978-5-7996-2580-1: 200 eksemplar.

Tujuan memposting fragmen ini di Habré ada empat:

  • Tidak mungkin ada orang yang bisa memegang buku ini jika dia bukan klien dari orang yang dihormati Indeks Serge; Ini jelas tidak dijual.
  • Koreksi telah dilakukan pada teks (tidak disorot di bawah) dan penambahan telah dilakukan yang sangat tidak sesuai dengan format monografi tercetak: catatan topikal (di bawah spoiler) dan hyperlink.
  • aku ingin mengumpulkan pertanyaan dan komentar, untuk mempertimbangkannya ketika memasukkan teks ini dalam bentuk revisi di publikasi lain.
  • Banyak penganut Semantic Web dan Linked Data yang masih beranggapan bahwa lingkaran mereka begitu sempit, terutama karena masyarakat umum belum dijelaskan dengan baik betapa hebatnya menjadi penganut Semantic Web dan Linked Data. Penulis penggalan tersebut, meskipun ia termasuk dalam lingkaran ini, tidak menganut pendapat tersebut, namun tetap menganggap dirinya berkewajiban untuk melakukan upaya lain.

Dengan demikian,

Web semantik

Evolusi Internet dapat direpresentasikan sebagai berikut (atau membicarakan segmen-segmennya, yang terbentuk sesuai urutan di bawah):

  1. Dokumen di Internet. Teknologi utama - Gopher, FTP, dll.
    Internet adalah jaringan global untuk pertukaran sumber daya lokal.
  2. dokumen internet. Teknologi utamanya adalah HTML dan HTTP.
    Sifat sumber daya yang terekspos mempertimbangkan karakteristik media transmisinya.
  3. data internet. Teknologi utama - REST dan SOAP API, XHR, dll.
    Era aplikasi Internet, tidak hanya manusia yang menjadi konsumen sumber daya.
  4. data internet. Teknologi utamanya adalah teknologi Linked Data.
    Tahap keempat ini, yang diprediksi oleh Berners-Lee, pencipta teknologi inti kedua dan direktur W3C, disebut Web Semantik; Teknologi Data Tertaut dirancang untuk membuat data di web tidak hanya dapat dibaca oleh mesin, namun juga “dapat dipahami oleh mesin.”

Berikut ini pembaca akan memahami kesesuaian antara konsep-konsep kunci tahap kedua dan keempat:

  • URL analog dengan URI,
  • analog dari HTML adalah RDF,
  • Hyperlink HTML mirip dengan kemunculan URI dalam dokumen RDF.

Web Semantik lebih merupakan visi sistemis mengenai masa depan Internet dibandingkan tren spesifik yang spontan atau dilobi, meskipun tren ini dapat mempertimbangkan hal-hal tersebut. Misalnya, karakteristik penting dari apa yang disebut Web 2.0 adalah “konten buatan pengguna”. Secara khusus, rekomendasi W3C diminta untuk mempertimbangkannya “Ontologi Anotasi Web"dan usaha seperti Padat.

Apakah Web Semantik Sudah Mati?

Jika Anda menolak harapan yang tidak realistis, situasi dengan jaringan semantik kira-kira sama dengan komunisme pada masa sosialisme maju (dan apakah kesetiaan terhadap perintah bersyarat Ilyich dipatuhi, biarkan semua orang memutuskan sendiri). Mesin pencari cukup sukses memaksa situs web untuk menggunakan RDFa dan JSON-LD dan situs itu sendiri menggunakan teknologi yang terkait dengan yang dijelaskan di bawah (Grafik Pengetahuan Google, Grafik Pengetahuan Bing).

Secara umum, penulis tidak dapat mengatakan apa yang mencegah penyebaran lebih luas, namun ia dapat berbicara berdasarkan pengalaman pribadi. Ada masalah yang bisa diselesaikan “di luar kotak” dalam kondisi ofensif SW, meskipun masalah tersebut tidak terlalu meluas. Akibatnya, pihak-pihak yang dihadapkan pada tugas-tugas tersebut tidak mempunyai cara untuk melakukan paksaan terhadap pihak-pihak yang mampu memberikan solusi, sementara pihak yang mampu memberikan solusi secara independen bertentangan dengan model bisnis mereka. Jadi kami terus mengurai HTML dan merekatkan berbagai API, satu sama lain lebih buruk.

Namun, teknologi Linked Data telah menyebar melampaui arus utama Web; Faktanya, buku ini didedikasikan untuk aplikasi ini. Saat ini, komunitas Data Tertaut mengharapkan teknologi ini menjadi lebih luas berkat pencatatan Gartner (atau proklamasi, sesuka Anda) terhadap tren seperti Grafik Pengetahuan и Kain Data. Saya percaya bahwa bukan implementasi “sepeda” dari konsep-konsep ini yang akan berhasil, tetapi implementasi yang terkait dengan standar W3C yang dibahas di bawah.

Data Tertaut

Berners-Lee mendefinisikan Data Tertaut sebagai web semantik yang “dilakukan dengan benar”: serangkaian pendekatan dan teknologi yang memungkinkannya mencapai tujuan utamanya. Prinsip dasar Linked Data Berners-Lee disorot pengikut.

Prinsip 1. Menggunakan URI untuk memberi nama entitas.

URI adalah pengidentifikasi entitas global dan bukan pengidentifikasi string lokal untuk entri. Selanjutnya, prinsip ini paling baik diungkapkan dalam slogan Grafik Pengetahuan Google “benda, bukan string'.

Prinsip 2. Menggunakan URI dalam skema HTTP sehingga dapat dide-referensi.

Dengan mengacu pada URI, petanda di balik penanda tersebut dapat diperoleh (analogi dengan nama operator " jelas di sini).*" di C); lebih tepatnya, untuk mendapatkan representasi dari hal ini - tergantung pada nilai header HTTP Accept:. Mungkin, dengan munculnya era AR/VR, sumber daya itu sendiri dapat diperoleh, tetapi untuk saat ini, kemungkinan besar, sumber daya tersebut akan berupa dokumen RDF, yang merupakan hasil eksekusi kueri SPARQL. DESCRIBE.

Prinsip 3. Penggunaan standar W3C - terutama RDF(S) dan SPARQL - khususnya saat melakukan dereferensi URI.

“Lapisan” individual dari tumpukan teknologi Data Tertaut ini, juga dikenal sebagai Kue Lapisan Web Semantik, akan dijelaskan di bawah ini.

Prinsip 4. Penggunaan referensi ke URI lain saat mendeskripsikan entitas.

RDF memungkinkan Anda membatasi diri pada deskripsi verbal sumber daya dalam bahasa alami, dan prinsip keempat menyerukan untuk tidak melakukan hal ini. Jika prinsip pertama dipatuhi secara universal, ketika mendeskripsikan suatu sumber daya, ada kemungkinan untuk merujuk ke sumber lain, termasuk sumber daya “asing”, itulah sebabnya data tersebut disebut tertaut. Faktanya, penggunaan URI yang disebutkan dalam kosakata RDFS hampir tidak dapat dihindari.

RDF

RDF (Resource Description Framework) adalah formalisme untuk menggambarkan entitas yang saling terkait.

Pernyataan tipe “subjek-predikat-objek”, yang disebut kembar tiga, dibuat tentang entitas dan hubungannya. Dalam kasus paling sederhana, subjek, predikat, dan objek semuanya adalah URI. URI yang sama dapat berada pada posisi berbeda dalam triplet berbeda: menjadi subjek, predikat, dan objek; Dengan demikian, kembar tiga tersebut membentuk semacam graf yang disebut graf RDF.

Subyek dan objek tidak hanya bisa berupa URI, tapi juga disebut node kosong, dan objek juga bisa literal. Literal adalah contoh tipe primitif yang terdiri dari representasi string dan indikasi tipe.

Contoh penulisan literal (dalam sintaks Turtle, selengkapnya di bawah): "5.0"^^xsd:float и "five"^^xsd:string. Literal dengan tipe rdf:langString bisa juga dilengkapi dengan tag bahasa, di Turtle tulisannya seperti ini: "five"@en и "пять"@ru.

Node kosong adalah sumber daya “anonim” tanpa pengidentifikasi global, namun pernyataannya dapat dibuat; jenis variabel eksistensial.

Jadi (sebenarnya inilah inti dari RDF):

  • subjek adalah URI atau node kosong,
  • predikatnya adalah URI,
  • objek adalah URI, node kosong, atau literal.

Mengapa predikat tidak boleh berupa node kosong?

Kemungkinan alasannya adalah keinginan untuk memahami dan menerjemahkan triplet secara informal ke dalam bahasa logika predikat orde pertama s p o seperti sesuatu seperti Web Semantik dan Data Tertaut. Koreksi dan penambahanDimana Web Semantik dan Data Tertaut. Koreksi dan penambahan - predikat, Web Semantik dan Data Tertaut. Koreksi dan penambahan и Web Semantik dan Data Tertaut. Koreksi dan penambahan - konstanta. Jejak pemahaman ini ada dalam dokumen “LBase: Semantik untuk Bahasa Web Semantik", yang berstatus catatan kelompok kerja W3C. Dengan pemahaman ini, si kembar tiga s p []Dimana [] - node kosong, akan diterjemahkan sebagai Web Semantik dan Data Tertaut. Koreksi dan penambahanDimana Web Semantik dan Data Tertaut. Koreksi dan penambahan - variabel, tapi bagaimana cara menerjemahkannya s [] o? Dokumen dengan status Rekomendasi W3C "RDF 1.1 Semantik” menawarkan metode terjemahan lain, namun tetap tidak mempertimbangkan kemungkinan predikat menjadi node kosong.

Namun, Manu Sporni diizinkan.

RDF adalah model abstrak. RDF dapat ditulis (berseri) dalam berbagai sintaksis: RDF/XML, Penyu (paling mudah dibaca manusia), JSON-LD, HDT (biner).

RDF yang sama dapat diserialkan ke dalam RDF/XML dengan cara yang berbeda, jadi, misalnya, tidak masuk akal untuk memvalidasi XML yang dihasilkan menggunakan XSD atau mencoba mengekstrak data menggunakan XPath. Demikian pula, JSON-LD sepertinya tidak akan memuaskan keinginan rata-rata pengembang Javascript untuk bekerja dengan RDF menggunakan notasi titik dan tanda kurung siku Javascript (walaupun JSON-LD bergerak ke arah itu dengan menawarkan mekanisme pembingkaian).

Kebanyakan sintaksis menawarkan cara untuk mempersingkat URI yang panjang. Misalnya saja sebuah iklan @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> di Turtle kemudian akan memungkinkan Anda untuk menulis <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> hanya rdf:type.

RDFS

RDFS (RDF Schema) - kosakata pemodelan dasar, memperkenalkan konsep properti dan kelas serta properti seperti rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Menggunakan kamus RDFS, misalnya, ekspresi valid berikut dapat ditulis:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS adalah kosakata deskripsi dan pemodelan, tetapi bukan bahasa kendala (walaupun spesifikasi resmi dan Daun-daun kemungkinan penggunaan tersebut). Kata "Skema" tidak boleh dipahami dalam arti yang sama seperti dalam ungkapan "Skema XML". Misalnya, :author rdfs:range foaf:Person maksudnya rdf:type semua nilai properti :author - foaf:Person, namun tidak berarti hal ini harus dikatakan sebelumnya.

SPARQL

SPARQL (Protokol SPARQL dan Bahasa Kueri RDF) - bahasa untuk menanyakan data RDF. Dalam kasus sederhana, kueri SPARQL adalah sekumpulan sampel yang cocok dengan triplet grafik yang dikueri. Pola dapat memuat variabel pada posisi subjek, predikat, dan objek.

Kueri akan mengembalikan nilai variabel yang, jika disubstitusikan ke dalam sampel, dapat menghasilkan subgraf dari grafik RDF yang dikueri (subset dari tripletnya). Variabel dengan nama yang sama pada sampel kembar tiga yang berbeda harus mempunyai nilai yang sama.

Misalnya, dengan kumpulan tujuh aksioma RDFS di atas, kueri berikut akan kembali rdfs:domain и rdfs:range sebagai nilai ?s и ?p masing-masing:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Perlu dicatat bahwa SPARQL bersifat deklaratif dan bukan bahasa untuk mendeskripsikan traversal grafik (namun, beberapa repositori RDF menawarkan cara untuk menyesuaikan rencana eksekusi kueri). Oleh karena itu, beberapa permasalahan graf standar, misalnya mencari jalur terpendek, tidak dapat diselesaikan di SPARQL, termasuk menggunakan jalur properti (tetapi, sekali lagi, masing-masing repositori RDF menawarkan ekstensi khusus untuk mengatasi masalah ini).

SPARQL tidak menganut anggapan keterbukaan dunia dan mengikuti pendekatan “negasi sebagai kegagalan”, di mana mungkin desain seperti FILTER NOT EXISTS {…}. Distribusi data diperhitungkan menggunakan mekanisme pertanyaan gabungan.

Titik akses SPARQL - penyimpanan RDF yang mampu memproses kueri SPARQL - tidak memiliki analog langsung dari tahap kedua (lihat awal paragraf ini). Hal ini dapat diibaratkan sebagai database, berdasarkan isi halaman HTML yang dihasilkan, namun dapat diakses dari luar. Jalur akses SPARQL lebih analog dengan jalur akses API dari tahap ketiga, namun dengan dua perbedaan utama. Pertama, dimungkinkan untuk menggabungkan beberapa kueri "atom" menjadi satu (yang dianggap sebagai karakteristik utama GraphQL), dan kedua, API semacam itu sepenuhnya mendokumentasikan dirinya sendiri (yang ingin dicapai oleh HATEOAS).

Pernyataan yang polemik

RDF adalah cara untuk mempublikasikan data di web, jadi penyimpanan RDF harus dianggap sebagai DBMS dokumen. Benar, karena RDF adalah grafik dan bukan pohon, ternyata RDF juga berbasis grafik. Sungguh menakjubkan bahwa hal itu berhasil. Siapa sangka akan ada orang pintar yang mengimplementasikan blank node. Codd ada di sini tidak berhasil.

Ada juga cara dengan fitur yang lebih sedikit untuk mengatur akses ke data RDF, misalnya, Fragmen Data Tertaut (LDF) dan Platform Data Tertaut (LDP).

BURUNG HANTU

BURUNG HANTU (Bahasa Ontologi Web) - formalisme untuk merepresentasikan pengetahuan, versi sintaksis dari logika deskripsi Web Semantik dan Data Tertaut. Koreksi dan penambahan (di mana pun di bawah ini lebih tepat untuk mengatakan OWL 2, berdasarkan versi pertama OWL Web Semantik dan Data Tertaut. Koreksi dan penambahan).

Konsep logika deskriptif dalam OWL berhubungan dengan kelas, peran berhubungan dengan properti, individu mempertahankan nama sebelumnya. Aksioma disebut juga aksioma.

Misalnya, dalam apa yang disebut Sintaks Manchester untuk notasi OWL sebuah aksioma sudah kita ketahui Web Semantik dan Data Tertaut. Koreksi dan penambahan akan ditulis seperti ini:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Ada sintaks lain untuk menulis OWL, seperti sintaksis fungsional, digunakan dalam spesifikasi resmi, dan burung hantu/XML. Selain itu, OWL dapat diserialkan untuk mengabstraksi sintaks RDF dan selanjutnya - dalam salah satu sintaksis spesifik.

OWL memiliki hubungan ganda dengan RDF. Di satu sisi, ini dapat dianggap sebagai semacam kamus yang memperluas RDFS. Di sisi lain, ini adalah formalisme yang lebih kuat dimana RDF hanyalah format serialisasi. Tidak semua konstruksi dasar OWL dapat ditulis menggunakan triplet RDF tunggal.

Bergantung pada subset konstruksi OWL mana yang diizinkan untuk digunakan, mereka disebut apa yang disebut profil burung hantu. Yang terstandarisasi dan paling terkenal adalah OWL EL, OWL RL dan OWL QL. Pilihan profil mempengaruhi kompleksitas komputasi dari masalah-masalah umum. Satu set lengkap konstruksi OWL yang sesuai dengan Web Semantik dan Data Tertaut. Koreksi dan penambahan, disebut burung hantu DL. Terkadang mereka juga berbicara tentang OWL Full, di mana konstruksi OWL diperbolehkan untuk digunakan dengan kebebasan penuh yang melekat pada RDF, tanpa batasan semantik dan komputasi. Web Semantik dan Data Tertaut. Koreksi dan penambahan. Misalnya, sesuatu bisa berupa kelas dan properti. OWL Penuh tidak dapat diputuskan.

Prinsip utama untuk menerapkan konsekuensi dalam OWL adalah penerapan asumsi dunia terbuka. OWA) dan penolakan terhadap anggapan nama unik (unique name asumsi, SATU). Di bawah ini kita akan melihat ke mana prinsip-prinsip ini dapat mengarahkan dan memperkenalkan beberapa konstruksi OWL.

Biarkan ontologi berisi fragmen berikut (dalam sintaksis Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Akankah berdasarkan apa yang dikatakan bahwa John memiliki banyak anak? Menolak UNA akan memaksa mesin inferensi untuk menjawab pertanyaan ini secara negatif, karena Alice dan Bob mungkin adalah orang yang sama. Agar hal berikut dapat terjadi, perlu ditambahkan aksioma berikut:

DifferentIndividuals: Alice, Bob, Carol, John

Misalkan sekarang penggalan ontologinya berbentuk sebagai berikut (John dinyatakan mempunyai banyak anak, namun ia hanya mempunyai dua anak):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Apakah ontologi ini akan menjadi tidak konsisten (yang dapat diartikan sebagai bukti data yang tidak valid)? Menerima OWA akan menyebabkan mesin inferensi merespons secara negatif: "di tempat lain" (dalam ontologi lain) dapat dikatakan bahwa Carol juga adalah anak John.

Untuk mengesampingkan kemungkinan ini, mari tambahkan fakta baru tentang John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Untuk mengecualikan kemunculan anak-anak lain, misalkan semua nilai properti “memiliki anak” adalah orang, yang kita hanya punya empat:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Sekarang ontologi akan menjadi kontradiktif, yang tidak akan gagal dilaporkan oleh mesin inferensi. Dengan aksioma terakhir kita, dalam arti tertentu, “menutup” dunia, dan memperhatikan bagaimana kemungkinan John menjadi anaknya sendiri dikecualikan.

Menghubungkan Data Perusahaan

Kumpulan pendekatan dan teknologi Data Tertaut pada awalnya ditujukan untuk mempublikasikan data di Web. Penggunaannya dalam lingkungan internal perusahaan menghadapi sejumlah kesulitan.

Misalnya, dalam lingkungan perusahaan yang tertutup, kekuatan deduktif OWL berdasarkan adopsi OWA dan penolakan UNA, keputusan karena sifat Web yang terbuka dan terdistribusi, terlalu lemah. Dan di sini solusi berikut mungkin dilakukan.

  • Memberkahi OWL dengan semantik, menyiratkan pengabaian OWA dan adopsi UNA, implementasi mesin keluaran yang sesuai. - Sepanjang jalan ini akan datang Penyimpanan RDF Stardog.
  • Meninggalkan kemampuan deduktif OWL demi mesin aturan. — Dukungan Stardog SWRL; Penawaran Jena dan GraphDB sendiri bahasa aturan
  • Penolakan kemampuan deduktif OWL, penggunaan satu atau beberapa subset yang dekat dengan RDFS untuk pemodelan. - Lihat lebih lanjut tentang ini di bawah.

Masalah lainnya adalah semakin besarnya fokus dunia usaha terhadap masalah kualitas data dan kurangnya alat validasi data dalam tumpukan Data Tertaut. Outputnya di sini adalah sebagai berikut.

  • Sekali lagi, gunakan untuk validasi konstruksi OWL dengan semantik dunia tertutup dan nama unik jika mesin inferensi yang sesuai tersedia.
  • Menggunakan SHACL, distandarisasi setelah daftar lapisan Kue Lapisan Web Semantik diperbaiki (namun, ini juga dapat digunakan sebagai mesin aturan), atau Dia.
  • Memahami bahwa semuanya pada akhirnya dilakukan dengan kueri SPARQL, membuat mekanisme validasi data sederhana Anda sendiri dengan menggunakannya.

Namun, bahkan penolakan total terhadap kemampuan deduktif dan alat validasi membuat tumpukan Data Tertaut keluar dari persaingan dalam tugas-tugas yang serupa dalam lanskap dengan web terbuka dan terdistribusi - dalam tugas-tugas integrasi data.

Bagaimana dengan sistem informasi perusahaan biasa?

Hal ini mungkin terjadi, tetapi Anda tentu saja harus menyadari masalah apa yang harus dipecahkan oleh teknologi terkait. Di sini saya akan menjelaskan reaksi khas para peserta pembangunan untuk menunjukkan seperti apa tumpukan teknologi ini dari sudut pandang TI konvensional. Sedikit mengingatkan saya pada perumpamaan gajah:

  • Analis bisnis: RDF adalah sesuatu seperti model logis yang disimpan langsung.
  • Analis sistem: RDF itu seperti ekstensi EAV, hanya dengan sekumpulan indeks dan bahasa kueri yang nyaman.
  • Pembangun: nah, ini semua sesuai dengan semangat konsep model kaya dan kode rendah, sedang membaca baru-baru ini tentang hal ini.
  • Manajer proyek: ya sama saja meruntuhkan tumpukan!

Praktek menunjukkan bahwa tumpukan paling sering digunakan dalam tugas-tugas yang berkaitan dengan distribusi dan heterogenitas data, misalnya, ketika membangun sistem kelas MDM (Master Data Management) atau DWH (Data Warehouse). Masalah seperti ini ada di industri mana pun.

Dalam hal aplikasi spesifik industri, teknologi Data Tertaut saat ini paling populer di industri berikut ini.

  • teknologi biomedis (yang popularitasnya tampaknya terkait dengan kompleksitas domainnya);

saat ini

“Titik Didih” baru-baru ini menjadi tuan rumah konferensi yang diselenggarakan oleh asosiasi “Basis Pengetahuan Medis Nasional” “Menggabungkan ontologi. Mulai dari teori hingga penerapan praktis'.

  • produksi dan pengoperasian produk yang kompleks (teknik mesin besar, produksi minyak dan gas; paling sering kita berbicara tentang standar ISO 15926);

saat ini

Di sini juga alasannya adalah kompleksitas bidang studi, misalnya pada tahap hulu, jika kita berbicara tentang industri minyak dan gas, akuntansi sederhana memerlukan beberapa fungsi CAD.

Pada tahun 2008, diadakan acara instalasi perwakilan yang diselenggarakan oleh Chevron konferensi.

ISO 15926, pada akhirnya, tampak agak berat bagi industri minyak dan gas (dan mungkin lebih banyak diterapkan di bidang teknik mesin). Hanya Statoil (Equinor) yang benar-benar ketagihan; di Norwegia, secara keseluruhan ekosistem. Yang lain mencoba melakukan hal mereka sendiri. Misalnya, menurut rumor yang beredar, Kementerian Energi dalam negeri bermaksud untuk menciptakan “model ontologis konseptual dari kompleks bahan bakar dan energi”, yang tampaknya mirip dengan diciptakan untuk industri tenaga listrik.

  • organisasi keuangan (bahkan XBRL dapat dianggap sebagai semacam hibrida dari SDMX dan ontologi RDF Data Cube);

saat ini

Pada awal tahun, LinkedIn secara aktif mengirim spam kepada penulis dengan lowongan dari hampir semua raksasa industri keuangan, yang dia kenal dari serial TV “Force Majeure”: Goldman Sachs, JPMorgan Chase dan/atau Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Mungkin semua orang mencari seseorang yang dapat mereka kirimkan Konferensi Grafik Pengetahuan. Cukup banyak yang berhasil ditemukan: lembaga keuangan mengambil semuanya pagi hari pertama.

Di HeadHunter, hanya Bank Tabungan yang menemukan sesuatu yang menarik, yaitu tentang “penyimpanan EAV dengan model data mirip RDF.”

Mungkin, perbedaan tingkat kecintaan terhadap teknologi yang terkait antara lembaga keuangan domestik dan Barat disebabkan oleh sifat transnasional dari aktivitas lembaga keuangan Barat. Rupanya, integrasi lintas batas negara memerlukan solusi organisasi dan teknis yang berbeda secara kualitatif.

  • sistem tanya jawab dengan aplikasi komersial (IBM Watson, Apple Siri, Google Knowledge Graph);

saat ini

Omong-omong, pencipta Siri, Thomas Gruber, adalah penulis definisi ontologi (dalam pengertian IT) sebagai “spesifikasi konseptualisasi.” Menurut pendapat saya, penataan ulang kata-kata dalam definisi ini tidak mengubah maknanya, yang mungkin menunjukkan bahwa definisi tersebut tidak ada.

  • publikasi data terstruktur (dengan justifikasi yang lebih besar, hal ini dapat dikaitkan dengan Data Terbuka Tertaut).

saat ini

Penggemar berat Data Tertaut adalah apa yang disebut GLAM: Galeri, Perpustakaan, Arsip, dan Museum. Cukuplah untuk mengatakan bahwa Perpustakaan Kongres sedang mempromosikan pengganti MARC21 BINGKAI BIBYang memberikan landasan bagi masa depan deskripsi bibliografi dan, tentu saja, berdasarkan RDF.

Wikidata sering dikutip sebagai contoh proyek yang sukses di bidang Data Terbuka Tertaut - sejenis versi Wikipedia yang dapat dibaca mesin, yang isinya, berbeda dengan DBPedia, tidak dihasilkan dengan mengimpor dari kotak info artikel, tetapi dihasilkan dibuat kurang lebih secara manual (dan selanjutnya menjadi sumber informasi untuk kotak info yang sama).

Kami juga menyarankan Anda memeriksanya daftar pengguna penyimpanan Stardog RDF di situs web Stardog di bagian “Pelanggan”.

Bagaimanapun, di Gartner Siklus Hype untuk Teknologi Berkembang 2016 "Taksonomi Perusahaan dan Manajemen Ontologi" ditempatkan di tengah-tengah penurunan ke dalam lembah kekecewaan dengan prospek mencapai "dataran tinggi produktivitas" tidak lebih awal dari dalam 10 tahun.

Menghubungkan Data Perusahaan

Prakiraan, prakiraan, prakiraan...

Berdasarkan kepentingan historis, di bawah ini saya telah membuat tabel perkiraan Gartner selama beberapa tahun mengenai teknologi yang menarik minat kita.

Tahun Технология Laporan Posisi Bertahun-tahun menuju dataran tinggi
2001 Web semantik Emerging Technologies Pemicu Inovasi 5-10
2006 Web Semantik Perusahaan Emerging Technologies Puncak Ekspektasi yang Meningkat 5-10
2012 Web semantik Big data Puncak Ekspektasi yang Meningkat > 10
2015 Data Tertaut Analisis Tingkat Lanjut dan Ilmu Data Kekecewaan 5-10
2016 Manajemen Ontologi Perusahaan Emerging Technologies Kekecewaan > 10
2018 Grafik Pengetahuan Emerging Technologies Pemicu Inovasi 5-10

Namun, sudah masuk "Siklus Hype..." 2018 tren peningkatan lainnya telah muncul - Grafik Pengetahuan. Reinkarnasi tertentu terjadi: grafik DBMS, yang menjadi perhatian pengguna dan upaya pengembang, di bawah pengaruh permintaan yang pertama dan kebiasaan yang terakhir, mulai mengambil kontur dan posisi dari pesaing pendahulunya.

Hampir setiap DBMS grafik sekarang menyatakan dirinya sebagai platform yang sesuai untuk membangun “grafik pengetahuan” perusahaan (“data tertaut” kadang-kadang diganti dengan “data terhubung”), namun seberapa beralasan klaim tersebut?

Basis data graf masih asemantik, data pada DBMS graf masih silo data yang sama. Pengidentifikasi string dan bukan URI membuat tugas mengintegrasikan dua DBMS grafik masih merupakan tugas integrasi, sementara mengintegrasikan dua penyimpanan RDF sering kali hanya sekedar menggabungkan dua grafik RDF. Aspek asemantisitas lainnya adalah non-refleksivitas model grafik LPG, yang menyulitkan pengelolaan metadata menggunakan platform yang sama.

Terakhir, DBMS grafik tidak memiliki mesin inferensi atau mesin aturan. Hasil dari mesin tersebut dapat direproduksi dengan memperumit kueri, tetapi hal ini dimungkinkan bahkan dalam SQL.

Namun, sistem penyimpanan RDF terkemuka tidak mengalami kesulitan dalam mendukung model LPG. Pendekatan yang paling solid dianggap sebagai pendekatan yang pernah diusulkan di Blazegraph: model RDF*, yang menggabungkan RDF dan LPG.

lebih

Anda dapat membaca selengkapnya tentang dukungan penyimpanan RDF untuk model LPG di artikel sebelumnya di Habré: "Apa yang terjadi dengan penyimpanan RDF sekarang". Saya berharap suatu hari nanti akan ada artikel terpisah tentang Grafik Pengetahuan dan Struktur Data. Bagian terakhir, mudah dimengerti, ditulis dengan tergesa-gesa, namun, bahkan enam bulan kemudian, konsep-konsep ini masih belum jelas.

Literatur

  1. Halpin, H., Monnin, A. (eds.) (2014). Rekayasa Filsafat: Menuju Filsafat Web
  2. Allemang, D., Hendler, J. (2011) Web Semantik untuk Ahli Ontologi yang Bekerja (Edisi ke-2nd)
  3. Staab, S., Studer, R. (eds.) (2009) Buku Pegangan Ontologi (Edisi ke-2nd)
  4. Kayu, D. (ed.). (2011) Menghubungkan Data Perusahaan
  5. Keet, M. (2018) Pengantar Rekayasa Ontologi

Sumber: www.habr.com

Tambah komentar