Semantik veb va bog'langan ma'lumotlar. Tuzatishlar va qo'shimchalar

Yaqinda nashr etilgan ushbu kitobdan bir parchani ommaga taqdim etmoqchiman:

Korxonani ontologik modellashtirish: usullar va texnologiyalar [Matn]: monografiya / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak va boshqalar; mas'ul muharrir S.V. Gorshkov]. - Ekaterinburg: Ural universiteti nashriyoti, 2019. - 234 b.: ill., jadval; 20 sm. - Muallif. orqa tomonda ko'rsatilgan. Bilan. - Bibliografiya ch oxirida. — ISBN 978-5-7996-2580-1: 200 nusxa.

Ushbu parchani Habré-ga joylashtirishdan maqsad to'rtta:

  • Agar u hurmatli odamning mijozi bo'lmasa, kimdir bu kitobni qo'lida ushlab turishi dargumon SergeIndex; Bu, albatta, sotilmaydi.
  • Matnga tuzatishlar kiritildi (ular quyida ta'kidlanmagan) va bosma monografiya formatiga unchalik mos kelmaydigan qo'shimchalar kiritildi: dolzarb eslatmalar (spoilerlar ostida) va giperhavolalar.
  • Men .. moqchiman savollar va sharhlarni to'plash, ushbu matnni boshqa nashrlarga qayta ko'rib chiqilgan shaklda kiritishda ularni hisobga olish uchun.
  • Ko'pgina Semantik Internet va bog'langan ma'lumotlar tarafdorlari hali ham o'zlarining doiralari juda tor ekanligiga ishonishadi, chunki keng jamoatchilik hali semantik Internet va bog'langan ma'lumotlar tarafdori bo'lish qanchalik ajoyibligini to'g'ri tushuntirmagan. Parcha muallifi, garchi u ushbu doiraga mansub bo'lsa-da, bu fikrga ega emas, lekin shunga qaramay, o'zini yana bir urinishga majbur deb hisoblaydi.

Va shunday qilib,

Semantik veb

Internetning evolyutsiyasini quyidagicha ifodalash mumkin (yoki uning quyida ko'rsatilgan tartibda shakllangan segmentlari haqida gapiring):

  1. Internetda hujjatlar. Asosiy texnologiyalar - Gopher, FTP va boshqalar.
    Internet - bu mahalliy resurslarni almashish uchun global tarmoq.
  2. Internet hujjatlari. Asosiy texnologiyalar HTML va HTTP hisoblanadi.
    Ta'sir qilingan resurslarning tabiati ularni uzatish muhitining xususiyatlarini hisobga oladi.
  3. Internet ma'lumotlari. Asosiy texnologiyalar - REST va SOAP API, XHR va boshqalar.
    Internet-ilovalar davri nafaqat odamlar resurslarning iste'molchisiga aylanadi.
  4. Internet ma'lumotlari. Asosiy texnologiyalar - bog'langan ma'lumotlar texnologiyalari.
    Ikkinchisining asosiy texnologiyalarini yaratuvchisi va W3C direktori Berners-Li tomonidan bashorat qilingan ushbu to'rtinchi bosqich Semantik Web deb ataladi; Bog'langan ma'lumotlar texnologiyalari internetdagi ma'lumotlarni nafaqat mashinada, balki "mashinada ham tushunarli" qilish uchun mo'ljallangan.

Keyinchalik, o'quvchi ikkinchi va to'rtinchi bosqichlarning asosiy tushunchalari o'rtasidagi muvofiqlikni tushunadi:

  • URL manzillari URI larga o'xshash,
  • HTMLning analogi RDF,
  • HTML giperhavolalari RDF hujjatlaridagi URI hodisalariga o'xshaydi.

Semantik Internet ma'lum bir spontan yoki lobbi tendentsiyasidan ko'ra Internetning kelajagini tizimli ko'rishdir, garchi u ularni hisobga olsa ham. Masalan, Web 2.0 deb ataladigan narsaning muhim xususiyati “foydalanuvchi tomonidan yaratilgan kontent” hisoblanadi. Xususan, W3C tavsiyasi buni hisobga olishga chaqiriladi "Veb-annotatsiyalar ontologiyasi"va shunga o'xshash majburiyat qattiq.

Semantik veb o'likmi?

Agar rad qilsangiz haqiqiy bo'lmagan umidlar, semantik tarmoq bilan bog'liq vaziyat rivojlangan sotsializm davridagi kommunizm bilan taxminan bir xil (va Ilyichning shartli vasiyatlariga sodiqlik kuzatiladimi, har kim o'zi qaror qilsin). Qidiruv tizimlari ancha muvaffaqiyatli veb-saytlarni RDFa va JSON-LD dan foydalanishga majburlash va o'zlari quyida tavsiflanganlarga (Google Knowledge Graph, Bing Knowledge Graph) tegishli texnologiyalardan foydalanadilar.

Umuman olganda, muallif ko'proq tarqalishga nima to'sqinlik qilayotganini ayta olmaydi, lekin u shaxsiy tajribaga asoslanib gapirishi mumkin. SW hujumi sharoitida "qutidan tashqari" hal qilinishi mumkin bo'lgan muammolar mavjud, garchi ular juda keng tarqalmagan bo'lsa ham. Natijada, ushbu vazifalarga duch kelganlar, yechimni ta'minlay oladiganlarga qarshi majburlash vositalariga ega emaslar, ikkinchisining mustaqil yechim taqdim etishi esa ularning biznes modellariga zid keladi. Shunday qilib, biz HTML-ni tahlil qilishni davom ettiramiz va turli xil API-larni bir-biriga yopishtirishda davom etamiz.

Biroq, bog'langan ma'lumotlar texnologiyalari asosiy Internetdan tashqariga tarqaldi; Kitob, aslida, ushbu ilovalarga bag'ishlangan. Hozirda bog'langan ma'lumotlar hamjamiyati Gartnerning tendentsiyalarni qayd etishi (yoki xohlaganingizcha e'lon qilishi) tufayli ushbu texnologiyalar yanada keng tarqalishini kutmoqda. Bilim grafikalari и Data Fabric. Men ishonmoqchimanki, bu kontseptsiyalarning "velosiped" tatbiq etilishi emas, balki quyida muhokama qilinadigan W3C standartlari bilan bog'liq bo'lganlar muvaffaqiyatli bo'ladi.

Bog'langan ma'lumotlar

Berners-Li bog'langan ma'lumotlarni semantik veb-"to'g'ri bajarilgan" deb ta'rifladi: unga o'zining yakuniy maqsadlariga erishishga imkon beruvchi yondashuvlar va texnologiyalar to'plami. Bog'langan ma'lumotlarning asosiy tamoyillari Berners-Li ta'kidlangan quyidagi.

1-tamoyil. Ob'ektlarni nomlash uchun URI'lardan foydalanish.

URI'lar kirishlar uchun mahalliy qator identifikatorlaridan farqli o'laroq global ob'ekt identifikatorlari. Keyinchalik, bu tamoyil Google Knowledge Graph shiorida eng yaxshi ifodalangan "narsalar, iplar emas".

2-tamoyil. URI-larni HTTP sxemasida ishlatish, shunda ularga havolalarni olib tashlash mumkin.

URI ga murojaat qilib, ushbu ko'rsatuvchi orqasida joylashgan belgini olish mumkin bo'lishi kerak (operator nomi bilan o'xshashlik bu erda aniq).*"C da); aniqrog'i, HTTP sarlavhasining qiymatiga qarab, bu belgining ba'zi ifodasini olish uchun Accept:. Ehtimol, AR/VR davrining kelishi bilan resursning o'zini olish mumkin bo'ladi, ammo hozircha bu SPARQL so'rovini bajarish natijasi bo'lgan RDF hujjati bo'ladi. DESCRIBE.

3-tamoyil. W3C standartlaridan foydalanish - birinchi navbatda RDF(S) va SPARQL - xususan, URI-ga havolalarni bekor qilishda.

Bog'langan ma'lumotlar texnologiyasi stekining ushbu alohida "qatlamlari" sifatida ham tanilgan Semantik veb-qatlam torti, quyida tavsiflanadi.

4-tamoyil. Ob'ektlarni tavsiflashda boshqa URI'larga havolalardan foydalanish.

RDF o'zingizni tabiiy tilda resursning og'zaki tavsifi bilan cheklash imkonini beradi va to'rtinchi tamoyil buni qilmaslikka chaqiradi. Agar birinchi tamoyil universal tarzda kuzatilsa, manbani tavsiflashda boshqalarga, shu jumladan "xorijiy"larga ham murojaat qilish mumkin bo'ladi, shuning uchun ma'lumotlar bog'langan deb ataladi. Aslida, RDFS lug'atida nomlangan URI-lardan foydalanish deyarli muqarrar.

RDF

RDF (Resurs tavsifi ramkasi) - o'zaro bog'liq ob'ektlarni tavsiflash uchun formalizm.

“Sub’ekt-predikat-ob’yekt” tipidagi gaplar uchlik deb ataladi, sub’ektlar va ularning munosabatlari haqida aytiladi. Eng oddiy holatda, mavzu, predikat va ob'ekt barcha URI'lardir. Xuddi shu URI turli xil uchliklarda turli pozitsiyalarda bo'lishi mumkin: sub'ekt, predikat va ob'ekt bo'lishi; Shunday qilib, uchlik RDF grafigi deb ataladigan grafik turini hosil qiladi.

Mavzular va ob'ektlar nafaqat URI, balki so'zda ham bo'lishi mumkin bo'sh tugunlar, va ob'ektlar ham bo'lishi mumkin harflar. Literallar qator ko'rinishi va tur ko'rsatkichidan iborat ibtidoiy tiplarning namunalari.

Literallarni yozishga misollar (Toshbaqa sintaksisida, quyida batafsilroq): "5.0"^^xsd:float и "five"^^xsd:string. Turi bilan harflar rdf:langString til yorlig'i bilan ham jihozlanishi mumkin; Turtleda u shunday yozilgan: "five"@en и "пять"@ru.

Bo'sh tugunlar global identifikatorlarsiz "anonim" resurslar bo'lib, ular haqida bayonotlar berilishi mumkin; ekzistensial o'zgaruvchilar turi.

Shunday qilib (bu, aslida, RDFning butun nuqtasi):

  • mavzu URI yoki bo'sh tugun,
  • predikat URI,
  • ob'ekt URI, bo'sh tugun yoki literaldir.

Nima uchun predikatlar bo'sh tugunlar bo'la olmaydi?

Mumkin sabab - bu uchlikni norasmiy ravishda tushunish va birinchi darajali predikat mantiqi tiliga tarjima qilish istagi. s p o kabi narsa kabi Semantik veb va bog'langan ma'lumotlar. Tuzatishlar va qo'shimchalarqayerda Semantik veb va bog'langan ma'lumotlar. Tuzatishlar va qo'shimchalar - predikat, Semantik veb va bog'langan ma'lumotlar. Tuzatishlar va qo'shimchalar и Semantik veb va bog'langan ma'lumotlar. Tuzatishlar va qo'shimchalar - konstantalar. Ushbu tushunchaning izlari hujjatda "LBase: Semantik Internet tillari uchun semantika", W3C ishchi guruhi eslatmasi maqomiga ega. Bu tushuncha bilan, uchlik s p []qayerda [] - bo'sh tugun, deb tarjima qilinadi Semantik veb va bog'langan ma'lumotlar. Tuzatishlar va qo'shimchalarqayerda Semantik veb va bog'langan ma'lumotlar. Tuzatishlar va qo'shimchalar - o'zgaruvchan, lekin qanday qilib tarjima qilish kerak s [] o? W3C tavsiya holatiga ega hujjat "RDF 1.1 Semantika” boshqa tarjima usulini taklif qiladi, lekin hali ham predikatlarning bo'sh tugunlar bo'lish imkoniyatini hisobga olmaydi.

Biroq, Manu Sporni ruxsat berilgan.

RDF mavhum modeldir. RDF turli sintaksislarda yozilishi (seriyalashtirilgan) mumkin: RDF/XML, Kaplumbağa (odamlar tomonidan o'qilishi mumkin), JSON-LD, HDT (ikkilik).

Xuddi shu RDF turli yo'llar bilan RDF/XML ga ketma-ketlashtirilishi mumkin, shuning uchun, masalan, XSD yordamida olingan XMLni tasdiqlash yoki XPath yordamida ma'lumotlarni olishga harakat qilish mantiqiy emas. Xuddi shunday, JSON-LD o'rtacha Javascript ishlab chiqaruvchisining RDF bilan Javascript-ning nuqta va kvadrat qavs belgilaridan foydalangan holda ishlash istagini qondira olmaydi (garchi JSON-LD mexanizmni taklif qilish orqali shu yo'nalishda harakat qiladi. ramkalash).

Ko'pgina sintaksislar uzoq URI'larni qisqartirish usullarini taklif qiladi. Masalan, reklama @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> Turtle'da keyin o'rniga yozishga ruxsat beradi <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> faqatgina rdf:type.

RDFS

RDFS (RDF sxemasi) - asosiy modellashtirish lug'ati, mulk va sinf tushunchalarini va kabi xususiyatlarni taqdim etadi. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. RDFS lug'atidan foydalanib, masalan, quyidagi to'g'ri ifodalarni yozish mumkin:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS tavsif va modellashtirish lug'atidir, lekin cheklovchi til emas (garchi rasmiy spetsifikatsiya va barglari Bunday foydalanish imkoniyati). "Sxema" so'zini "XML sxemasi" iborasidagi kabi tushunmaslik kerak. Masalan, :author rdfs:range foaf:Person shuni anglatadiki rdf:type barcha mulk qiymatlari :author - foaf:Person, lekin buni oldindan aytish kerak degani emas.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) - RDF ma'lumotlarini so'rash uchun til. Oddiy holatda, SPARQL so'rovi so'ralayotgan grafikning uchliklari mos keladigan namunalar to'plamidir. Naqshlar sub'ekt, predikat va ob'ekt pozitsiyalarida o'zgaruvchilarni o'z ichiga olishi mumkin.

So'rov shunday o'zgaruvchan qiymatlarni qaytaradi, ular namunalarga almashtirilganda so'ralgan RDF grafigining pastki grafigi (uning uchliklarining kichik to'plami) paydo bo'lishi mumkin. Uchliklarning turli namunalarida bir xil nomdagi o'zgaruvchilar bir xil qiymatlarga ega bo'lishi kerak.

Masalan, yuqoridagi ettita RDFS aksiomasidan iborat to'plamni hisobga olsak, quyidagi so'rov qaytadi rdfs:domain и rdfs:range qadriyatlar sifatida ?s и ?p shunga muvofiq:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Shuni ta'kidlash kerakki, SPARQL deklarativdir va grafiklarni o'tishni tavsiflash uchun til emas (ammo, ba'zi RDF omborlari so'rovlarni bajarish rejasini sozlash usullarini taklif qiladi). Shuning uchun, ba'zi bir standart grafik muammolarini, masalan, eng qisqa yo'lni topishni SPARQLda, shu jumladan, yordamida hal qilib bo'lmaydi. mulk yo'llari (lekin, yana, individual RDF omborlari ushbu muammolarni hal qilish uchun maxsus kengaytmalarni taklif qiladi).

SPARQL dunyoning ochiqligi prezumpsiyasiga qo'shilmaydi va "inkor etish muvaffaqiyatsizlik sifatida" yondashuviga amal qiladi. mumkin kabi dizaynlar FILTER NOT EXISTS {…}. Mexanizm yordamida ma'lumotlarni taqsimlash hisobga olinadi federativ so'rovlar.

SPARQL kirish nuqtasi - SPARQL so'rovlarini qayta ishlashga qodir RDF xotirasi - ikkinchi bosqichdan to'g'ridan-to'g'ri analoglarga ega emas (ushbu bandning boshiga qarang). Uni mazmuniga ko'ra HTML sahifalari yaratilgan, ammo tashqaridan foydalanish mumkin bo'lgan ma'lumotlar bazasiga o'xshatish mumkin. SPARQL kirish nuqtasi uchinchi bosqichdagi API kirish nuqtasiga ko'proq o'xshash, ammo ikkita asosiy farq bilan. Birinchidan, bir nechta "atom" so'rovlarni bittasiga birlashtirish mumkin (bu GraphQLning asosiy xususiyati hisoblanadi), ikkinchidan, bunday API to'liq o'z-o'zini hujjatlashtiradi (HATEOAS bunga erishmoqchi bo'lgan).

Polemik izoh

RDF - bu ma'lumotlarni Internetda nashr qilish usuli, shuning uchun RDF xotirasi ma'lumotlar bazasi hujjati sifatida ko'rib chiqilishi kerak. To'g'ri, RDF daraxt emas, balki grafik bo'lgani uchun ular ham grafikga asoslangan bo'lib chiqdi. Ajablanarlisi shundaki, u umuman amalga oshdi. Bo'sh tugunlarni amalga oshiradigan aqlli odamlar bo'lishini kim o'ylagan edi. Codd shu yerda natija bermadi.

RDF ma'lumotlariga kirishni tashkil qilishning kamroq to'liq xususiyatli usullari mavjud, masalan, Bog'langan ma'lumotlar fragmentlari (LDF) va Bog'langan ma'lumotlar platformasi (LDP).

OWL

OWL (Web Ontology Language) - bilimlarni ifodalash uchun formalizm, tavsif mantiqining sintaktik versiyasi Semantik veb va bog'langan ma'lumotlar. Tuzatishlar va qo'shimchalar (quyida hamma joyda OWL 2 deyish to'g'riroq, OWL ning birinchi versiyasi asoslangan Semantik veb va bog'langan ma'lumotlar. Tuzatishlar va qo'shimchalar).

OWLda tavsiflovchi mantiq tushunchalari sinflarga, rollar xususiyatlarga mos keladi, shaxslar avvalgi nomini saqlab qoladilar. Aksiomalar aksioma deb ham ataladi.

Misol uchun, so'zda Manchester sintaksisi OWL yozuvi uchun bizga allaqachon ma'lum bo'lgan aksioma Semantik veb va bog'langan ma'lumotlar. Tuzatishlar va qo'shimchalar quyidagicha yoziladi:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

OWL yozish uchun boshqa sintaksislar mavjud, masalan funktsional sintaksis, rasmiy spetsifikatsiyada qo'llaniladi va OWL/XML. Bundan tashqari, OWL seriyali bo'lishi mumkin mavhum RDF sintaksisiga va undan keyin - har qanday maxsus sintaksisda.

OWL RDF bilan ikki tomonlama aloqaga ega. Bir tomondan, uni RDFSni kengaytiradigan o'ziga xos lug'at deb hisoblash mumkin. Boshqa tomondan, bu yanada kuchli rasmiyatchilik bo'lib, u uchun RDF shunchaki ketma-ketlashtirish formatidir. Hamma elementar OWL konstruksiyalarini bitta RDF triplet yordamida yozish mumkin emas.

OWL konstruktsiyalarining qaysi kichik to'plamidan foydalanishga ruxsat berilganiga qarab, ular shunday deb ataladi OWL profillari. Standartlashtirilgan va eng mashhurlari OWL EL, OWL RL va OWL QL. Profilni tanlash odatiy muammolarning hisoblash murakkabligiga ta'sir qiladi. Tegishli OWL konstruktsiyalarining to'liq to'plami Semantik veb va bog'langan ma'lumotlar. Tuzatishlar va qo'shimchalar, OWL DL deb ataladi. Ba'zan ular OWL Full haqida ham gapirishadi, unda OWL konstruksiyalaridan RDFga xos bo'lgan to'liq erkinlik bilan, semantik va hisoblash cheklovlarisiz foydalanishga ruxsat beriladi. Semantik veb va bog'langan ma'lumotlar. Tuzatishlar va qo'shimchalar. Masalan, biror narsa ham sinf, ham xususiyat bo'lishi mumkin. OWL To'liqligini hal qilib bo'lmaydi.

OWLda oqibatlarni qo'shishning asosiy tamoyillari ochiq dunyo taxminini qabul qilishdir. O.W.A.) va noyob nomlar prezumpsiyasini rad etish (noyob nom taxmini, Una,). Quyida biz ushbu tamoyillar qayerga olib kelishi va ba'zi OWL konstruksiyalarini joriy etishi mumkinligini ko'rib chiqamiz.

Ontologiyada quyidagi fragment bo'lsin (Manchester sintaksisida):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Yahyoning ko'p farzandlari borligi aytilganlardan kelib chiqadimi? UNA dan voz kechish, xulosa chiqarish mexanizmini bu savolga salbiy javob berishga majbur qiladi, chunki Elis va Bob bir xil odam bo'lishi mumkin. Quyidagilarni amalga oshirish uchun quyidagi aksiomani qo'shish kerak:

DifferentIndividuals: Alice, Bob, Carol, John

Endi ontologiya bo'lagi quyidagi shaklga ega bo'lsin (Jon ko'p bolali deb e'lon qilingan, ammo uning faqat ikkita farzandi bor):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Ushbu ontologiya nomuvofiq bo'ladimi (bu noto'g'ri ma'lumotlarning dalili sifatida talqin qilinishi mumkin)? OWA ni qabul qilish, xulosa qilish mexanizmining salbiy javob berishiga olib keladi: "bir joyda" (boshqa ontologiyada) Kerol ham Jonning bolasi deb aytish mumkin.

Buning ehtimolini istisno qilish uchun keling, Jon haqida yangi faktni qo'shamiz:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Boshqa bolalarning ko'rinishini istisno qilish uchun, aytaylik, "farzandli bo'lish" mulkining barcha qadriyatlari odamlardir, ulardan faqat to'rttasi bor:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Endi ontologiya qarama-qarshi bo'lib qoladi, bu haqda xulosa chiqarish mexanizmi xabar bermaydi. Oxirgi aksiomalar bilan biz dunyoni qaysidir ma'noda "yopib qo'ydik" va Jonning o'z farzandi bo'lish ehtimoli qanday istisno qilinganiga e'tibor bering.

Korxona ma'lumotlarini ulash

Bog'langan ma'lumotlar yondashuvlar va texnologiyalar to'plami dastlab ma'lumotlarni Internetda nashr qilish uchun mo'ljallangan edi. Ulardan ichki korporativ muhitda foydalanish bir qator qiyinchiliklarga duch keladi.

Masalan, yopiq korporativ muhitda OWA qabul qilinishi va UNAni rad etishga asoslangan OWLning deduktiv kuchi, Internetning ochiq va taqsimlangan tabiati tufayli qarorlar juda zaif. Va bu erda quyidagi echimlar mumkin.

  • OWL-ni semantika bilan ta'minlash, OWA-dan voz kechishni va UNA-ni qabul qilishni, tegishli chiqish dvigatelini amalga oshirishni nazarda tutadi. - Bu yo'lda ketadi Stardog RDF xotirasi.
  • Qoida dvigatellari foydasiga OWLning deduktiv imkoniyatlaridan voz kechish. — Stardog qo'llab-quvvatlaydi SWRL; Jena va GraphDB taklifi Shaxsiy yazyki qoidalar
  • OWLning deduktiv imkoniyatlaridan voz kechish, modellashtirish uchun RDFSga yaqin bo'lgan u yoki bu kichik to'plamdan foydalanish. - Quyida bu haqda ko'proq bilib oling.

Yana bir muammo - korporativ dunyoda ma'lumotlar sifati muammolariga ko'proq e'tibor qaratilishi va bog'langan ma'lumotlar to'plamida ma'lumotlarni tekshirish vositalarining etishmasligi. Bu erda chiqishlar quyidagicha.

  • Shunga qaramay, agar tegishli xulosa chiqarish mexanizmi mavjud bo'lsa, yopiq dunyo semantikasi va noyob nomlari bilan OWL konstruktsiyalarini tekshirish uchun foydalaning.
  • foydalanish SHACL, Semantik Web Layer Cake qatlamlari roʻyxati oʻrnatilgandan soʻng standartlashtirilgan (ammo undan qoidalar mexanizmi sifatida ham foydalanish mumkin) yoki ShEx.
  • Hamma narsa oxir-oqibat SPARQL so'rovlari bilan amalga oshirilishini tushunib, ulardan foydalanib o'zingizning oddiy ma'lumotlarni tekshirish mexanizmingizni yarating.

Biroq, hatto deduktiv imkoniyatlar va tekshirish vositalaridan butunlay voz kechish ham bog'langan ma'lumotlar stekini landshaftda ochiq va tarqatilgan internetga o'xshash vazifalarda - ma'lumotlarni integratsiyalash vazifalarida raqobatdan tashqarida qoldiradi.

Oddiy korporativ axborot tizimi haqida nima deyish mumkin?

Bu mumkin, lekin siz, albatta, tegishli texnologiyalar qanday muammolarni hal qilishi kerakligini bilishingiz kerak. Men bu yerda an'anaviy IT nuqtai nazaridan ushbu texnologiya stekining qanday ko'rinishini ko'rsatish uchun ishlab chiqish ishtirokchilarining odatiy reaktsiyasini tasvirlab beraman. Menga fil haqidagi masalni bir oz eslatadi:

  • Biznes bo'yicha tahlilchi: RDF to'g'ridan-to'g'ri saqlanadigan mantiqiy modelga o'xshaydi.
  • Tizim tahlilchisi: RDF o'xshaydi EAV, faqat bir qator indekslar va qulay so'rovlar tili bilan.
  • Tuzuvchi: yaxshi, bularning barchasi boy model va past kod tushunchalari ruhida, o'qiyotgan edi yaqinda bu haqda.
  • Loyiha menejeri: ha, xuddi shunday to'plamni buzish!

Amaliyot shuni ko'rsatadiki, stek ko'pincha ma'lumotlarning taqsimlanishi va heterojenligi bilan bog'liq vazifalarda, masalan, MDM (Master Data Management) yoki DWH (Data Warehouse) sinf tizimlarini qurishda qo'llaniladi. Bunday muammolar har qanday sohada mavjud.

Sohaga xos ilovalar nuqtai nazaridan, bog'langan ma'lumotlar texnologiyalari hozirgi vaqtda quyidagi sohalarda eng mashhurdir.

  • biotibbiyot texnologiyalari (ularning mashhurligi domenning murakkabligi bilan bog'liq ko'rinadi);

joriy

Yaqinda “Qaynoq nuqtasi”da “Milliy tibbiy bilimlar bazasi” uyushmasi tomonidan tashkil etilgan anjuman bo‘lib o‘tdi.Ontologiyalarni birlashtirish. Nazariyadan amaliy qo'llashgacha".

  • murakkab mahsulotlarni ishlab chiqarish va ishlatish (yirik mashinasozlik, neft va gaz ishlab chiqarish; ko'pincha biz standart haqida gapiramiz ISO 15926);

joriy

Bu erda ham sabab, masalan, yuqori oqim bosqichida, agar neft va gaz sanoati haqida gapiradigan bo'lsak, oddiy buxgalteriya hisobi ba'zi SAPR funktsiyalarini talab qilganda, mavzu sohasining murakkabligi.

2008 yilda Chevron tomonidan tashkil etilgan vakillik montaj tadbiri bo'lib o'tdi konferentsiya.

Oxir-oqibat, ISO 15926 neft va gaz sanoati uchun biroz og'ir bo'lib tuyuldi (va ehtimol mashinasozlikda ko'proq qo'llanilishini topdi). Faqat Statoil (Equinor) unga to'liq bog'langan; Norvegiyada butun ekosistema. Boshqalar o'z ishlarini qilishga harakat qilmoqdalar. Masalan, mish-mishlarga ko'ra, mahalliy Energetika vazirligi "yoqilg'i-energetika kompleksining kontseptual ontologik modeli" ni yaratish niyatida. elektroenergetika sanoati uchun yaratilgan.

  • moliyaviy tashkilotlar (hatto XBRL-ni SDMX va RDF Data Cube ontologiyasining o'ziga xos gibridlari deb hisoblash mumkin);

joriy

Yil boshida LinkedIn muallifga "Fors-major" teleserialidan tanish bo'lgan deyarli barcha moliyaviy industriya gigantlarining bo'sh ish o'rinlari haqida spam yubordi: Goldman Sachs, JPMorgan Chase va/yoki Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Ehtimol, har bir kishi yuborishi mumkin bo'lgan odamni qidirayotgan edi. Bilimlar grafik konferentsiyasi. Ko'pchilik topishga muvaffaq bo'ldi: moliyaviy tashkilotlar hamma narsani oldi birinchi kunning tongida.

HeadHunter-da faqat Sberbank qiziqarli narsaga duch keldi, bu "RDFga o'xshash ma'lumotlar modeli bilan EAV saqlash" haqida edi.

Ehtimol, mahalliy va G'arb moliya institutlarining tegishli texnologiyalariga bo'lgan muhabbat darajasidagi farq ularning faoliyatining transmilliy xususiyati bilan bog'liq. Ko‘rinib turibdiki, davlat chegaralari orqali integratsiya sifat jihatidan har xil tashkiliy va texnik echimlarni talab qiladi.

  • tijorat ilovalari bilan savol-javob tizimlari (IBM Watson, Apple Siri, Google Knowledge Graph);

joriy

Aytgancha, Siri yaratuvchisi Tomas Gruber ontologiyaning (IT ma'nosida) "kontseptsiya spetsifikatsiyasi" sifatidagi ta'rifining muallifi. Menimcha, ushbu ta'rifdagi so'zlarni qayta tartibga solish uning ma'nosini o'zgartirmaydi, bu uning mavjud emasligini ko'rsatadi.

  • tuzilgan ma'lumotlarni nashr etish (ko'proq asosli ravishda bu bog'langan ochiq ma'lumotlarga tegishli bo'lishi mumkin).

joriy

Bog'langan ma'lumotlarning katta muxlislari GLAM deb ataladi: Galereyalar, kutubxonalar, arxivlar va muzeylar. Kongress kutubxonasi MARC21 ni almashtirishni targ'ib qilayotganini aytish kifoya BIBFRAME, bu bibliografik tavsifning kelajagi uchun asos yaratadi va, albatta, RDF asosida.

Vikipediya ko'pincha bog'langan ochiq ma'lumotlar sohasidagi muvaffaqiyatli loyihaga misol sifatida keltiriladi - Vikipediyaning mashinada o'qiladigan versiyasi bo'lib, uning mazmuni DBPedia'dan farqli o'laroq, maqola ma'lumotlar qutilaridan import qilish orqali yaratilmaydi, lekin ko'proq yoki kamroq qo'lda yaratilgan (va keyinchalik bir xil ma'lumot qutilari uchun ma'lumot manbai bo'ladi).

Shuningdek, uni tekshirishingizni tavsiya qilamiz ro'yxat "Mijozlar" bo'limida Stardog veb-saytidagi Stardog RDF xotirasi foydalanuvchilari.

Qanday bo'lmasin, Gartnerda Rivojlanayotgan texnologiyalar uchun Hype Cycle 2016 "Korxona taksonomiyasi va ontologiyasi menejmenti" 10 yil ichida "hosildorlik platosi" ga erishish umidi bilan umidsizlik vodiysiga tushishning o'rtasida joylashgan.

Korxona ma'lumotlarini ulash

Prognozlar, prognozlar, prognozlar ...

Tarixiy qiziqishdan kelib chiqib, bizni qiziqtirgan texnologiyalar bo'yicha Gartnerning turli yillardagi prognozlarini quyida keltirdim.

Izd texnologiya Hisobot Batafsil Platogacha yillar
2001 Semantik veb Rivojlanayotgan texnologiyalar Innovatsiya Trigger 5-10
2006 Korporativ semantik veb Rivojlanayotgan texnologiyalar Ko'tarilgan umidlarning cho'qqisi 5-10
2012 Semantik veb Katta ma'lumot Ko'tarilgan umidlarning cho'qqisi > 10
2015 Bog'langan ma'lumotlar Ilg'or tahlil va ma'lumotlar fanlari Hafsalasizlik chuqurligi 5-10
2016 Korxona ontologiyasini boshqarish Rivojlanayotgan texnologiyalar Hafsalasizlik chuqurligi > 10
2018 Bilim grafikalari Rivojlanayotgan texnologiyalar Innovatsiya Trigger 5-10

Biroq, allaqachon kiritilgan "Hype Cycle..." 2018 yil yana bir o'sish tendentsiyasi paydo bo'ldi - Bilim Grafiklari. Muayyan reenkarnasyon sodir bo'ldi: foydalanuvchilarning e'tibori va ishlab chiquvchilarning sa'y-harakatlari birinchisining so'rovlari va ikkinchisining odatlari ta'siri ostida o'zgargan DBMS grafigi kontur va joylashishni o'zlashtira boshladi. ularning oldingi raqobatchilari.

Deyarli har bir grafik DBMS hozirda o'zini korporativ "bilimlar grafigi" ("bog'langan ma'lumotlar" ba'zan "ulangan ma'lumotlar" bilan almashtiriladi) yaratish uchun mos platforma deb e'lon qiladi, ammo bunday da'volar qanchalik asosli?

Grafik ma'lumotlar bazalari hali ham asemantik; DBMS grafikidagi ma'lumotlar hali ham bir xil ma'lumotlar silosidir. URI o'rniga string identifikatorlari ikkita grafik ma'lumotlar bazasini birlashtirish vazifasini hali ham integratsiya vazifasiga aylantiradi, ikkita RDF do'konini integratsiya qilish ko'pincha ikkita RDF grafigini birlashtirishga to'g'ri keladi. Asemantiklikning yana bir jihati LPG grafik modelining refleksivligi bo'lib, bu bir xil platforma yordamida metama'lumotlarni boshqarishni qiyinlashtiradi.

Nihoyat, grafik DBMSlarda xulosa chiqarish mexanizmlari yoki qoida dvigatellari mavjud emas. Bunday dvigatellarning natijalarini murakkablashtiruvchi so'rovlar orqali ko'paytirish mumkin, ammo bu hatto SQLda ham mumkin.

Biroq, etakchi RDF saqlash tizimlari LPG modelini qo'llab-quvvatlashda qiyinchiliklarga duch kelmaydi. Eng qat'iy yondashuv Blazegraphda bir vaqtning o'zida taklif qilingan yondashuv hisoblanadi: RDF va LPGni birlashtirgan RDF* modeli.

Nizom

LPG modeli uchun RDF saqlashni qo'llab-quvvatlash haqida ko'proq Habré-dagi oldingi maqolada o'qishingiz mumkin: "RDF xotirasi bilan nima sodir bo'lmoqda". Umid qilamanki, bir kun Bilim Grafiklari va Data Fabric haqida alohida maqola yoziladi. Yakuniy qism, tushunarli bo'lganidek, shoshqaloqlik bilan yozilgan, ammo olti oydan keyin ham bu tushunchalar bilan hamma narsa aniq emas.

adabiyot

  1. Halpin, H., Monnin, A. (tahrirlar) (2014). Falsafiy muhandislik: Internet falsafasiga
  2. Allemang, D., Hendler, J. (2011) Ishlaydigan ontolog uchun semantik Internet (2-nashr)
  3. Staab, S., Studer, R. (tahrirlar) (2009) Ontologiyalar bo'yicha qo'llanma (2-nashr)
  4. Vud, D. (tahrir). (2011) Korxona ma'lumotlarini bog'lash
  5. Keet, M. (2018) Ontologiya muhandisligiga kirish

Manba: www.habr.com

a Izoh qo'shish