Web Semantik dan Data Terpaut. Pembetulan dan penambahan

Saya ingin membentangkan kepada umum satu serpihan buku yang diterbitkan baru-baru ini:

Pemodelan ontologi perusahaan: kaedah dan teknologi [Teks]: monograf / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak dan lain-lain; editor eksekutif S.V. Gorshkov]. - Ekaterinburg: Ural University Publishing House, 2019. - 234 p.: ill., table; 20 cm - Pengarang. ditunjukkan pada tetek belakang. Dengan. - Bibliografi pada akhir ch. β€” ISBN 978-5-7996-2580-1: 200 salinan.

Tujuan menyiarkan serpihan ini pada HabrΓ© adalah empat kali ganda:

  • Tidak mungkin sesiapa akan dapat memegang buku ini di tangan mereka jika dia bukan pelanggan orang yang dihormati SergeIndex; Ia pasti tidak dijual.
  • Pembetulan telah dibuat pada teks (ia tidak diserlahkan di bawah) dan penambahan telah dibuat yang tidak begitu serasi dengan format monograf bercetak: nota topikal (di bawah spoiler) dan hiperpautan.
  • saya mahu mengumpul soalan dan komen, untuk mengambil kiranya apabila memasukkan teks ini dalam bentuk yang disemak dalam mana-mana penerbitan lain.
  • Ramai penganut Web Semantik dan Data Terpaut masih percaya bahawa kalangan mereka sangat sempit, terutamanya kerana orang awam masih belum dijelaskan dengan betul betapa hebatnya menjadi penganut Web Semantik dan Data Terpaut. Pengarang serpihan, walaupun dia tergolong dalam kalangan ini, tidak memegang pendapat ini, tetapi, bagaimanapun, menganggap dirinya bertanggungjawab untuk membuat percubaan lain.

Oleh itu,

Web Semantik

Evolusi Internet boleh diwakili seperti berikut (atau bercakap tentang segmennya yang dibentuk mengikut susunan yang ditunjukkan di bawah):

  1. Dokumen di Internet. Teknologi utama - Gopher, FTP, dsb.
    Internet ialah rangkaian global untuk pertukaran sumber tempatan.
  2. dokumen Internet. Teknologi utama ialah HTML dan HTTP.
    Sifat sumber yang terdedah mengambil kira ciri-ciri medium penghantarannya.
  3. data internet. Teknologi utama - REST dan SOAP API, XHR, dsb.
    Era aplikasi Internet, bukan sahaja orang menjadi pengguna sumber.
  4. data internet. Teknologi utama ialah teknologi Data Terpaut.
    Peringkat keempat ini, yang diramalkan oleh Berners-Lee, pencipta teknologi utama kedua dan pengarah W3C, dipanggil Web Semantik; Teknologi Data Terpaut direka untuk menjadikan data di web bukan sahaja boleh dibaca mesin, tetapi juga "boleh difahami oleh mesin."

Daripada apa yang berikut, pembaca akan memahami korespondensi antara konsep utama peringkat kedua dan keempat:

  • URL adalah serupa dengan URI,
  • analog HTML ialah RDF,
  • Hiperpautan HTML adalah serupa dengan kejadian URI dalam dokumen RDF.

Web Semantik adalah lebih kepada visi sistemik masa depan Internet daripada trend spontan atau lobi tertentu, walaupun ia boleh mengambil kira perkara ini. Sebagai contoh, ciri penting apa yang dipanggil Web 2.0 dianggap sebagai "kandungan jana pengguna." Khususnya, pengesyoran W3C diminta untuk mengambil kira "Ontologi Anotasi Web"dan aku janji seperti Pepejal.

Adakah Web Semantik Mati?

Jika anda menolak jangkaan yang tidak realistik, keadaan dengan web semantik adalah lebih kurang sama dengan komunisme semasa zaman sosialisme yang maju (dan sama ada kesetiaan kepada perintah bersyarat Ilyich dipatuhi, biarkan semua orang memutuskan sendiri). Enjin carian agak berjaya memaksa tapak web menggunakan RDFa dan JSON-LD dan mereka sendiri menggunakan teknologi yang berkaitan dengan yang diterangkan di bawah (Graf Pengetahuan Google, Graf Pengetahuan Bing).

Secara umum, pengarang tidak boleh mengatakan apa yang menghalang penyebaran yang lebih besar, tetapi dia boleh bercakap berdasarkan pengalaman peribadi. Terdapat masalah yang boleh diselesaikan "di luar kotak" dalam keadaan serangan SW, walaupun ia tidak begitu meluas. Akibatnya, mereka yang berhadapan dengan tugas-tugas ini tidak mempunyai cara paksaan terhadap mereka yang mampu memberikan penyelesaian, manakala penyediaan penyelesaian bebas daripada mereka bercanggah dengan model perniagaan mereka. Jadi kami terus menghuraikan HTML dan melekatkan pelbagai API, satu sama lain lebih buruk.

Walau bagaimanapun, teknologi Data Terpaut telah merebak melangkaui Web arus perdana; Buku itu, sebenarnya, didedikasikan untuk aplikasi ini. Pada masa ini, komuniti Data Terpaut menjangkakan teknologi ini akan menjadi lebih meluas berkat rakaman Gartner (atau pengisytiharan, seperti yang anda suka) tentang arah aliran seperti Graf Pengetahuan ΠΈ Fabrik Data. Saya ingin percaya bahawa pelaksanaan "basikal" konsep ini tidak akan berjaya, tetapi yang berkaitan dengan piawaian W3C yang dibincangkan di bawah.

Data Terpaut

Berners-Lee mendefinisikan Data Terpaut sebagai web semantik "dilakukan dengan betul": satu set pendekatan dan teknologi yang membolehkannya mencapai matlamat utamanya. Prinsip asas Data Terpaut Berners-Lee diasingkan yang berikut.

Prinsip 1. Menggunakan URI untuk menamakan entiti.

URI ialah pengecam entiti global berbanding dengan pengecam rentetan tempatan untuk entri. Selepas itu, prinsip ini paling baik dinyatakan dalam slogan Graf Pengetahuan Google β€œperkara, bukan rentetan'.

Prinsip 2. Menggunakan URI dalam skema HTTP supaya ia boleh dinyahrujuk.

Dengan merujuk kepada URI, adalah mungkin untuk mendapatkan petanda di sebalik penanda itu (analogi dengan nama operator " jelas di sini).*"dalam C); lebih tepat lagi, untuk mendapatkan beberapa perwakilan ini bermakna - bergantung pada nilai pengepala HTTP Accept:. Mungkin, dengan kemunculan era AR/VR, adalah mungkin untuk mendapatkan sumber itu sendiri, tetapi buat masa ini, kemungkinan besar, ia akan menjadi dokumen RDF, yang merupakan hasil daripada melaksanakan pertanyaan SPARQL DESCRIBE.

Prinsip 3. Penggunaan piawaian W3C - terutamanya RDF(S) dan SPARQL - khususnya apabila membatalkan rujukan URI.

"Lapisan" individu tindanan teknologi Data Terpaut ini, juga dikenali sebagai Kek Lapis Web Semantik, akan diterangkan di bawah.

Prinsip 4. Penggunaan rujukan kepada URI lain apabila menerangkan entiti.

RDF membolehkan anda menghadkan diri anda kepada penerangan lisan sumber dalam bahasa semula jadi, dan prinsip keempat meminta untuk tidak melakukan ini. Jika prinsip pertama dipatuhi secara universal, ia menjadi mungkin apabila menerangkan sumber untuk merujuk kepada orang lain, termasuk yang "asing", itulah sebabnya data itu dipanggil dipautkan. Malah, hampir tidak dapat dielakkan untuk menggunakan URI yang dinamakan dalam perbendaharaan kata RDFS.

RDF

RDF (Rangka Kerja Penerangan Sumber) ialah formalisme untuk menerangkan entiti yang saling berkaitan.

Pernyataan jenis "subjek-predikat-objek", dipanggil kembar tiga, dibuat tentang entiti dan hubungannya. Dalam kes yang paling mudah, subjek, predikat dan objek adalah semua URI. URI yang sama boleh berada dalam kedudukan yang berbeza dalam kembar tiga yang berbeza: menjadi subjek, predikat dan objek; Oleh itu, kembar tiga membentuk sejenis graf yang dipanggil graf RDF.

Subjek dan objek boleh bukan sahaja URI, tetapi juga dipanggil nod kosong, dan objek juga boleh literal. Literal ialah contoh jenis primitif yang terdiri daripada perwakilan rentetan dan petunjuk jenis.

Contoh penulisan literal (dalam sintaks Turtle, lebih lanjut mengenainya di bawah): "5.0"^^xsd:float ΠΈ "five"^^xsd:string. Literal dengan jenis rdf:langString juga boleh dilengkapi dengan tag bahasa; dalam Turtle ia ditulis seperti ini: "five"@en ΠΈ "ΠΏΡΡ‚ΡŒ"@ru.

Nod kosong ialah sumber "tanpa nama" tanpa pengecam global, tentang pernyataan yang boleh, walau bagaimanapun, dibuat; jenis pembolehubah wujud.

Jadi (ini, sebenarnya, keseluruhan perkara RDF):

  • subjek ialah URI atau nod kosong,
  • predikatnya ialah URI,
  • objek ialah URI, nod kosong atau literal.

Mengapa predikat tidak boleh menjadi nod kosong?

Sebab yang mungkin adalah keinginan untuk memahami dan menterjemah triplet secara tidak rasmi ke dalam bahasa logik predikat urutan pertama s p o seperti sesuatu seperti Web Semantik dan Data Terpaut. Pembetulan dan penambahanJika Web Semantik dan Data Terpaut. Pembetulan dan penambahan - predikat, Web Semantik dan Data Terpaut. Pembetulan dan penambahan ΠΈ Web Semantik dan Data Terpaut. Pembetulan dan penambahan - pemalar. Jejak pemahaman ini terdapat dalam dokumen "LBase: Semantik untuk Bahasa-bahasa Web Semantik", yang mempunyai status nota kumpulan kerja W3C. Dengan pemahaman ini, triplet s p []Jika [] - nod kosong, akan diterjemahkan sebagai Web Semantik dan Data Terpaut. Pembetulan dan penambahanJika Web Semantik dan Data Terpaut. Pembetulan dan penambahan - pembolehubah, tetapi bagaimana kemudian untuk menterjemah s [] o? Dokumen dengan status Pengesyoran W3C "RDF 1.1 Semantik” menawarkan kaedah terjemahan lain, tetapi masih tidak menganggap kemungkinan predikat sebagai nod kosong.

Walau bagaimanapun, Manu Sporni dibenarkan.

RDF ialah model abstrak. RDF boleh ditulis (bersiri) dalam pelbagai sintaks: RDF/XML, penyu (kebanyakan manusia boleh dibaca), JSON-LD, HDT (perduaan).

RDF yang sama boleh disirikan ke dalam RDF/XML dengan cara yang berbeza, jadi, sebagai contoh, tidak masuk akal untuk mengesahkan XML yang terhasil menggunakan XSD atau cuba mengekstrak data menggunakan XPath. Begitu juga, JSON-LD tidak mungkin memenuhi keinginan pembangun Javascript purata untuk bekerja dengan RDF menggunakan notasi titik dan kurungan kurungan Javascript (walaupun JSON-LD bergerak ke arah itu dengan menawarkan mekanisme pembingkaian).

Kebanyakan sintaks menawarkan cara untuk memendekkan URI yang panjang. Contohnya, iklan @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> dalam Turtle akan membenarkan anda menulis sebaliknya <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> hanya rdf:type.

RDFS

RDFS (Skema RDF) - perbendaharaan kata pemodelan asas, memperkenalkan konsep harta dan kelas dan sifat seperti rdf:type, rdfs:subClassOf, rdfs:domain ΠΈ rdfs:range. Menggunakan kamus RDFS, sebagai contoh, ungkapan sah berikut boleh ditulis:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS ialah perihalan dan perbendaharaan kata model, tetapi bukan bahasa kekangan (walaupun spesifikasi rasmi dan daun kemungkinan penggunaan sedemikian). Perkataan "Skema" tidak sepatutnya difahami dalam erti kata yang sama seperti dalam ungkapan "Skema XML". Sebagai contoh, :author rdfs:range foaf:Person bermakna rdf:type semua nilai harta :author - foaf:Person, tetapi tidak bermakna perkara ini harus dinyatakan lebih awal.

SPARQL

SPARQL (SPARQL Protocol dan RDF Query Language) - bahasa untuk menanyakan data RDF. Dalam kes yang mudah, pertanyaan SPARQL ialah satu set sampel yang mana triplet graf yang sedang disoal dipadankan. Corak boleh mengandungi pembolehubah dalam kedudukan subjek, predikat dan objek.

Pertanyaan akan mengembalikan nilai pembolehubah sedemikian yang, apabila digantikan ke dalam sampel, boleh menghasilkan subgraf graf RDF yang ditanya (subset daripada kembar tiganya). Pembolehubah dengan nama yang sama dalam sampel kembar tiga yang berbeza mesti mempunyai nilai yang sama.

Sebagai contoh, memandangkan set tujuh aksiom RDFS di atas, pertanyaan berikut akan kembali rdfs:domain ΠΈ rdfs:range sebagai nilai ?s ΠΈ ?p masing-masing:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Perlu diingat bahawa SPARQL adalah deklaratif dan bukan bahasa untuk menerangkan traversal graf (namun, beberapa repositori RDF menawarkan cara untuk melaraskan pelan pelaksanaan pertanyaan). Oleh itu, beberapa masalah graf piawai, sebagai contoh, mencari laluan terpendek, tidak dapat diselesaikan dalam SPARQL, termasuk menggunakan laluan harta benda (tetapi, sekali lagi, repositori RDF individu menawarkan sambungan khas untuk menyelesaikan masalah ini).

SPARQL tidak berkongsi anggapan keterbukaan dunia dan mengikuti pendekatan "negasi sebagai kegagalan", di mana mungkin reka bentuk seperti FILTER NOT EXISTS {…}. Pengagihan data diambil kira menggunakan mekanisme pertanyaan bersekutu.

Titik capaian SPARQL - storan RDF yang mampu memproses pertanyaan SPARQL - tidak mempunyai analog langsung dari peringkat kedua (lihat permulaan perenggan ini). Ia boleh disamakan dengan pangkalan data, berdasarkan kandungan halaman HTML yang dihasilkan, tetapi boleh diakses oleh luar. Titik capaian SPARQL lebih serupa dengan titik capaian API dari peringkat ketiga, tetapi dengan dua perbezaan utama. Pertama, adalah mungkin untuk menggabungkan beberapa pertanyaan "atom" menjadi satu (yang dianggap sebagai ciri utama GraphQL), dan kedua, API sedemikian sepenuhnya mendokumentasikan diri (iaitu apa yang HATEOAS cuba capai).

Teguran polemik

RDF ialah cara untuk menerbitkan data di web, jadi storan RDF harus dianggap sebagai DBMS dokumen. Benar, kerana RDF ialah graf dan bukan pokok, ia juga ternyata berasaskan graf. Sungguh mengagumkan bahawa ia berjaya sama sekali. Siapa sangka akan ada orang pintar yang akan melaksanakan nod kosong. Codd ada di sini ia tidak berjaya.

Terdapat juga cara yang kurang lengkap untuk mengatur akses kepada data RDF, contohnya, Serpihan Data Terpaut (LDF) dan Platform Data Terpaut (LDP).

Burung Hantu

Burung Hantu (Bahasa Ontologi Web) - formalisme untuk mewakili pengetahuan, versi sintaksis logik penerangan Web Semantik dan Data Terpaut. Pembetulan dan penambahan (di mana-mana di bawah adalah lebih tepat untuk mengatakan OWL 2, versi pertama OWL adalah berdasarkan Web Semantik dan Data Terpaut. Pembetulan dan penambahan).

Konsep logik deskriptif dalam OWL sepadan dengan kelas, peranan sepadan dengan sifat, individu mengekalkan nama terdahulu mereka. Aksiom juga dipanggil aksiom.

Sebagai contoh, dalam apa yang dipanggil Sintaks Manchester untuk tatatanda OWL aksiom yang telah kita ketahui Web Semantik dan Data Terpaut. Pembetulan dan penambahan akan ditulis seperti ini:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Terdapat sintaks lain untuk menulis OWL, seperti sintaks berfungsi, digunakan dalam spesifikasi rasmi, dan OWL/XML. Selain itu, OWL boleh bersiri kepada sintaks RDF abstrak dan seterusnya - dalam mana-mana sintaks tertentu.

OWL mempunyai hubungan dwi dengan RDF. Di satu pihak, ia boleh dianggap sebagai sejenis kamus yang memanjangkan RDFS. Sebaliknya, ia adalah formalisme yang lebih berkuasa yang mana RDF hanyalah format bersiri. Tidak semua binaan OWL asas boleh ditulis menggunakan triplet RDF tunggal.

Bergantung pada subset binaan OWL yang dibenarkan untuk digunakan, mereka bercakap tentang apa yang dipanggil Profil burung hantu. Yang standard dan paling terkenal ialah OWL EL, OWL RL dan OWL QL. Pilihan profil mempengaruhi kerumitan pengiraan masalah biasa. Satu set lengkap binaan OWL yang sepadan dengan Web Semantik dan Data Terpaut. Pembetulan dan penambahan, dipanggil OWL DL. Kadangkala mereka juga bercakap tentang OWL Full, di mana binaan OWL dibenarkan untuk digunakan dengan kebebasan penuh yang wujud dalam RDF, tanpa sekatan semantik dan pengiraan Web Semantik dan Data Terpaut. Pembetulan dan penambahan. Sebagai contoh, sesuatu boleh menjadi kedua-dua kelas dan harta. OWL Full tidak dapat diputuskan.

Prinsip utama untuk melampirkan akibat dalam OWL adalah penggunaan andaian dunia terbuka. O.W.A.) dan penolakan anggapan nama unik (andaian nama unik, SATU). Di bawah ini kita akan melihat di mana prinsip ini boleh membawa dan memperkenalkan beberapa binaan OWL.

Biarkan ontologi mengandungi serpihan berikut (dalam sintaks Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Adakah ia akan mengikut apa yang dikatakan bahawa John mempunyai ramai anak? Menolak UNA akan memaksa enjin inferens untuk menjawab soalan ini secara negatif, kerana Alice dan Bob mungkin orang yang sama. Untuk perkara berikut berlaku, adalah perlu untuk menambah aksiom berikut:

DifferentIndividuals: Alice, Bob, Carol, John

Biarkan sekarang serpihan ontologi mempunyai bentuk berikut (John diisytiharkan mempunyai ramai anak, tetapi dia hanya mempunyai dua anak):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Adakah ontologi ini tidak konsisten (yang boleh ditafsirkan sebagai bukti data tidak sah)? Menerima OWA akan menyebabkan enjin inferens bertindak balas secara negatif: "di tempat lain" (dalam ontologi lain) boleh dikatakan bahawa Carol juga anak John.

Untuk menolak kemungkinan ini, mari tambah fakta baharu tentang John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Untuk mengecualikan penampilan kanak-kanak lain, katakan bahawa semua nilai harta "mempunyai anak" adalah orang, yang kami hanya mempunyai empat:

ObjectProperty: hasChild
   Domain: Human
   Π‘haracteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Kini ontologi akan menjadi bercanggah, yang mana enjin inferens tidak akan gagal melaporkannya. Dengan aksiom terakhir yang kita ada, dalam erti kata lain, "menutup" dunia, dan perhatikan bagaimana kemungkinan John menjadi anaknya sendiri dikecualikan.

Memautkan Data Perusahaan

Set pendekatan dan teknologi Data Terpaut pada asalnya bertujuan untuk menerbitkan data di Web. Penggunaannya dalam persekitaran korporat dalaman menghadapi beberapa kesukaran.

Sebagai contoh, dalam persekitaran korporat tertutup, kuasa deduktif OWL berdasarkan penggunaan OWA dan penolakan UNA, keputusan kerana sifat terbuka dan pengedaran Web, adalah terlalu lemah. Dan di sini penyelesaian berikut adalah mungkin.

  • Menganugerahkan OWL dengan semantik, membayangkan pengabaian OWA dan penggunaan UNA, pelaksanaan enjin keluaran yang sepadan. - Sepanjang laluan ini akan datang Storan RDF Stardog.
  • Meninggalkan keupayaan deduktif OWL memihak kepada enjin peraturan. β€” Stardog menyokong SWRL; Tawaran Jena dan GraphDB memiliki bahasa peraturan
  • Penolakan keupayaan deduktif OWL, penggunaan satu atau subset lain yang hampir dengan RDFS untuk pemodelan. - Lihat lebih lanjut mengenai perkara ini di bawah.

Isu lain ialah tumpuan yang lebih besar yang mungkin ada pada dunia korporat terhadap isu kualiti data dan kekurangan alat pengesahan data dalam timbunan Data Terpaut. Output di sini adalah seperti berikut.

  • Sekali lagi, gunakan untuk pengesahan binaan OWL dengan semantik dunia tertutup dan nama unik jika enjin inferens yang sesuai tersedia.
  • Gunakan SHACL, diseragamkan selepas senarai lapisan Kek Lapisan Web Semantik telah ditetapkan (namun, ia juga boleh digunakan sebagai enjin peraturan), atau ShEx.
  • Memahami bahawa segala-galanya akhirnya selesai dengan pertanyaan SPARQL, mencipta mekanisme pengesahan data mudah anda sendiri menggunakan pertanyaan tersebut.

Walau bagaimanapun, walaupun penolakan sepenuhnya terhadap keupayaan deduktif dan alat pengesahan menyebabkan Data Terpaut tidak dapat bersaing dalam tugasan yang serupa dalam landskap dengan web terbuka dan teragih - dalam tugas penyepaduan data.

Bagaimana pula dengan sistem maklumat perusahaan biasa?

Ini adalah mungkin, tetapi anda harus, sudah tentu, mengetahui dengan tepat masalah apa yang perlu diselesaikan oleh teknologi yang sepadan. Saya akan menerangkan di sini reaksi tipikal peserta pembangunan untuk menunjukkan rupa susunan teknologi ini dari sudut pandangan IT konvensional. Mengingatkan saya sedikit perumpamaan tentang gajah:

  • Penganalisa perniagaan: RDF adalah sesuatu seperti model logik yang disimpan secara langsung.
  • Sistem Analisis: RDF adalah seperti EAV, hanya dengan sekumpulan indeks dan bahasa pertanyaan yang mudah.
  • Pemaju: nah, ini semua berdasarkan semangat konsep model kaya dan kod rendah, membaca baru-baru ini tentang perkara ini.
  • Pengurus projek: ya sama sahaja meruntuhkan timbunan!

Amalan menunjukkan bahawa tindanan paling kerap digunakan dalam tugas yang berkaitan dengan pengedaran dan heterogeniti data, contohnya, apabila membina sistem kelas MDM (Pengurusan Data Induk) atau DWH (Gudang Data). Masalah sebegini wujud dalam mana-mana industri.

Dari segi aplikasi khusus industri, teknologi Data Terpaut pada masa ini paling popular dalam industri berikut.

  • teknologi bioperubatan (di mana popularitinya nampaknya berkaitan dengan kerumitan domain);

semasa

"Takat Didih" baru-baru ini menganjurkan persidangan yang dianjurkan oleh persatuan "Pangkalan Pengetahuan Perubatan Kebangsaan" "Menggabungkan ontologi. Dari teori kepada aplikasi praktikal'.

  • pengeluaran dan operasi produk kompleks (kejuruteraan mekanikal besar, pengeluaran minyak dan gas; selalunya kita bercakap tentang standard ISO 15926);

semasa

Di sini juga, sebabnya ialah kerumitan kawasan subjek, apabila, sebagai contoh, di peringkat huluan, jika kita bercakap tentang industri minyak dan gas, perakaunan mudah memerlukan beberapa fungsi CAD.

Pada tahun 2008, acara pemasangan perwakilan, yang dianjurkan oleh Chevron, telah berlangsung persidangan itu.

ISO 15926, pada akhirnya, kelihatan agak berat kepada industri minyak dan gas (dan didapati aplikasi yang lebih besar dalam kejuruteraan mekanikal). Hanya Statoil (Equinor) yang terpikat dengannya; di Norway, keseluruhannya ekosistem. Orang lain cuba melakukan perkara mereka sendiri. Sebagai contoh, menurut khabar angin, Kementerian Tenaga domestik berhasrat untuk mencipta "model ontologi konseptual bagi bahan api dan kompleks tenaga," serupa, nampaknya, kepada dicipta untuk industri tenaga elektrik.

  • organisasi kewangan (malah XBRL boleh dianggap sejenis hibrid SDMX dan ontologi RDF Data Cube);

semasa

Pada awal tahun ini, LinkedIn secara aktif menghantar spam kepada pengarang dengan kekosongan dari hampir semua gergasi industri kewangan, yang dia kenali daripada siri TV "Force Majeure": Goldman Sachs, JPMorgan Chase dan/atau Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Mungkin semua orang sedang mencari seseorang yang boleh mereka hantar Persidangan Graf Pengetahuan. Tidak ramai yang berjaya menemui: organisasi kewangan mengambil segala-galanya pagi hari pertama.

Pada HeadHunter, hanya Sberbank yang menemui sesuatu yang menarik; ia mengenai "storan EAV dengan model data seperti RDF."

Mungkin, perbezaan dalam tahap kecintaan terhadap teknologi sepadan institusi kewangan domestik dan Barat adalah disebabkan oleh sifat transnasional aktiviti kedua. Nampaknya, penyepaduan merentas sempadan negeri memerlukan penyelesaian organisasi dan teknikal yang berbeza secara kualitatif.

  • sistem soal jawab dengan aplikasi komersial (IBM Watson, Apple Siri, Google Knowledge Graph);

semasa

Ngomong-ngomong, pencipta Siri, Thomas Gruber, adalah pengarang definisi ontologi (dalam erti kata IT) sebagai "spesifikasi konsep." Pada pendapat saya, menyusun semula perkataan dalam definisi ini tidak mengubah maknanya, yang mungkin menunjukkan bahawa ia tidak ada.

  • penerbitan data berstruktur (dengan justifikasi yang lebih besar ini boleh dikaitkan dengan Data Terbuka Terpaut).

semasa

Peminat besar Data Terpaut ialah apa yang dipanggil GLAM: Galeri, Perpustakaan, Arkib dan Muzium. Cukuplah untuk mengatakan bahawa Perpustakaan Kongres mempromosikan penggantian untuk MARC21 BIBFRAMEYang menyediakan asas untuk masa depan huraian bibliografi dan, sudah tentu, berdasarkan RDF.

Wikidata sering disebut sebagai contoh projek yang berjaya dalam bidang Data Terbuka Terpaut - sejenis versi Wikipedia yang boleh dibaca mesin, yang kandungannya, berbeza dengan DBPedia, tidak dihasilkan melalui import daripada kotak maklumat artikel, tetapi adalah dibuat lebih kurang secara manual (dan seterusnya menjadi sumber maklumat untuk kotak maklumat yang sama).

Kami juga mengesyorkan anda menyemaknya senarai pengguna storan Stardog RDF di tapak web Stardog dalam bahagian "Pelanggan".

Walau apa pun, di Gartner Kitaran Hype untuk Teknologi Baru Muncul 2016 "Enterprise Taxonomy and Ontology Management" diletakkan di tengah-tengah penurunan ke lembah kekecewaan dengan prospek mencapai "productivity plateau" tidak lebih awal daripada 10 tahun.

Menyambung Data Perusahaan

Ramalan, ramalan, ramalan...

Atas minat sejarah, saya telah menjadualkan di bawah ramalan Gartner untuk pelbagai tahun tentang teknologi yang menarik minat kami.

Tahun ВСхнология Laporan Jawatan Bertahun ke dataran tinggi
2001 Web Semantik Teknologi Baru Pencetus Inovasi 5-10
2006 Web Semantik Korporat Teknologi Baru Puncak Ekspektasi Inflated 5-10
2012 Web Semantik Data Besar Puncak Ekspektasi Inflated > 10
2015 Data Terpaut Analitis Lanjutan dan Sains Data Palung Kecewa 5-10
2016 Pengurusan Ontologi Perusahaan Teknologi Baru Palung Kecewa > 10
2018 Graf Pengetahuan Teknologi Baru Pencetus Inovasi 5-10

Namun, sudah masuk "Kitaran Hype..." 2018 satu lagi aliran menaik telah muncul - Graf Pengetahuan. Penjelmaan semula tertentu berlaku: DBMS graf, yang perhatian pengguna dan usaha pemaju ternyata beralih, di bawah pengaruh permintaan bekas dan tabiat yang terakhir, mula mengambil kontur dan kedudukan daripada pesaing terdahulu mereka.

Hampir setiap graf DBMS kini mengisytiharkan dirinya sebagai platform yang sesuai untuk membina "graf pengetahuan" korporat ("data terpaut" kadangkala digantikan dengan "data bersambung"), tetapi sejauh manakah tuntutan tersebut wajar?

Pangkalan data graf masih semantik; data dalam graf DBMS masih silo data yang sama. Pengecam rentetan dan bukannya URI menjadikan tugas menyepadukan dua DBMS graf masih menjadi tugas penyepaduan, manakala penyepaduan dua stor RDF selalunya datang kepada hanya menggabungkan dua graf RDF. Satu lagi aspek kesemantian ialah model graf LPG yang tidak mencerminkan kelenturan, yang menjadikannya sukar untuk mengurus metadata menggunakan platform yang sama.

Akhir sekali, DBMS graf tidak mempunyai enjin inferens atau enjin peraturan. Hasil enjin sedemikian boleh dihasilkan semula dengan pertanyaan yang merumitkan, tetapi ini boleh dilakukan walaupun dalam SQL.

Walau bagaimanapun, sistem storan RDF terkemuka tidak mempunyai kesukaran untuk menyokong model LPG. Pendekatan yang paling kukuh dianggap sebagai yang dicadangkan pada satu masa dalam Blazegraph: model RDF*, menggabungkan RDF dan LPG.

lebih

Anda boleh membaca lebih lanjut mengenai sokongan storan RDF untuk model LPG dalam artikel sebelumnya tentang HabrΓ©: "Apa yang berlaku dengan storan RDF sekarang". Saya berharap suatu hari nanti artikel berasingan akan ditulis mengenai Graf Pengetahuan dan Fabrik Data. Bahagian akhir, seperti yang mudah difahami, ditulis dengan tergesa-gesa, namun, walaupun enam bulan kemudian, semuanya tidak lebih jelas dengan konsep ini.

Kesusasteraan

  1. Halpin, H., Monnin, A. (eds.) (2014). Kejuruteraan Falsafah: Ke Arah Falsafah Web
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (edisi ke-2)
  3. Staab, S., Studer, R. (eds.) (2009) Handbook on Ontologies (2nd ed.)
  4. Wood, D. (ed.). (2011) Menghubungkan Data Perusahaan
  5. Keet, M. (2018) An Introduction to Ontology Engineering

Sumber: www.habr.com

Tambah komen