Semantiskais tīmeklis un saistītie dati. Labojumi un papildinājumi

Vēlos iepazÄ«stināt sabiedrÄ«bu ar Ŕīs nesen izdotās grāmatas fragmentu:

Uzņēmuma ontoloÄ£iskā modelÄ“Å”ana: metodes un tehnoloÄ£ijas [Teksts]: monogrāfija / [S. V. GorÅ”kovs, S. S. Kraļins, O. I. MuÅ”taks un citi; izpildredaktors S.V. GorÅ”kovs]. - Jekaterinburga: Ural University Publishing House, 2019. - 234 lpp.: il., tabula; 20 cm - Autors. norādÄ«ts uz muguras krÅ«tis. Ar. ā€” Bibliogrāfija nodaļas beigās. ā€” ISBN 978-5-7996-2580-1: 200 eks.

Å Ä« fragmenta ievietoÅ”anai HabrĆ© ir četri mērÄ·i:

  • Diez vai kāds spēs turēt Å”o grāmatu rokās, ja viņŔ nebÅ«s cienÄ«jama klients SergeIndex; Tas noteikti nav pārdoÅ”anā.
  • Tekstā veikti labojumi (zemāk tie nav izcelti) un ar drukātas monogrāfijas formātu ne pārāk savienojami papildinājumi: aktuālās piezÄ«mes (zem spoileriem) un hipersaites.
  • ES gribu apkopot jautājumus un komentārus, lai tos ņemtu vērā, iekļaujot Å”o tekstu pārskatÄ«tā veidā citās publikācijās.
  • Daudzi semantiskā tÄ«mekļa un saistÄ«to datu piekritēji joprojām uzskata, ka viņu loks ir tik Å”aurs, galvenokārt tāpēc, ka plaÅ”ai sabiedrÄ«bai vēl nav pienācÄ«gi izskaidrots, cik lieliski ir bÅ«t semantiskā tÄ«mekļa un saistÄ«to datu piekritējiem. Fragmenta autors, lai arÄ« pieder Å”im lokam, nepieturas pie Ŕāda viedokļa, tomēr uzskata sevi par pienākumu izdarÄ«t vēl vienu mēģinājumu.

Tātad,

Semantiskais tīmeklis

Interneta attÄ«stÄ«bu var attēlot Ŕādi (vai runāt par tā segmentiem, kas tika izveidoti tālāk norādÄ«tajā secÄ«bā):

  1. Dokumenti internetā. Galvenās tehnoloģijas - Gopher, FTP utt.
    Internets ir globāls tīkls vietējo resursu apmaiņai.
  2. Interneta dokumenti. Galvenās tehnoloģijas ir HTML un HTTP.
    Atklāto resursu raksturs ņem vērā to pārraides vides Ä«paŔības.
  3. Interneta dati. Galvenās tehnoloģijas - REST un SOAP API, XHR u.c.
    Interneta lietojumprogrammu laikmets, ne tikai cilvēki kļūst par resursu patērētājiem.
  4. Interneta dati. Galvenās tehnoloģijas ir saistīto datu tehnoloģijas.
    Å o ceturto posmu, ko paredzēja Berners-LÄ«, otrās pamattehnoloÄ£ijas radÄ«tājs un W3C direktors, sauc par semantisko tÄ«mekli; SaistÄ«to datu tehnoloÄ£ijas ir izstrādātas, lai padarÄ«tu datus tÄ«meklÄ« ne tikai maŔīnlasāmus, bet arÄ« "maŔīnlasāmus".

No tālāk minētā lasītājs sapratīs atbilstību starp otrā un ceturtā posma galvenajiem jēdzieniem:

  • URL ir lÄ«dzÄ«gi URI,
  • HTML analogs ir RDF,
  • HTML hipersaites ir lÄ«dzÄ«gas URI gadÄ«jumiem RDF dokumentos.

Semantiskais tÄ«meklis drÄ«zāk ir sistēmisks interneta nākotnes redzējums, nevis Ä«paÅ”a spontāna vai lobēta tendence, lai gan tas var ņemt vērā pēdējo. Piemēram, svarÄ«ga Ä«paŔība, ko sauc par Web 2.0, tiek uzskatÄ«ta par ā€œlietotāju Ä£enerētu saturuā€. Jo Ä«paÅ”i W3C ieteikums tiek aicināts to ņemt vērā ā€œTÄ«mekļa anotācijas ontoloÄ£ija"un tāds uzņēmums kā Ciets.

Vai semantiskais tīmeklis ir miris?

Ja atsakās nereālas cerÄ«bas, situācija ar semantisko tÄ«mekli ir aptuveni tāda pati kā ar komunismu attÄ«stÄ«tā sociālisma laikos (un vai tiek ievērota lojalitāte Iļjiča nosacÄ«tajiem pavēlēm, lai katrs izlemj pats). Meklētājprogrammas diezgan veiksmÄ«gi piespiest vietnes izmantot RDFa un JSON-LD un paÅ”as izmantot tehnoloÄ£ijas, kas saistÄ«tas ar tālāk aprakstÄ«tajām (Google zināŔanu diagramma, Bing zināŔanu diagramma).

VispārÄ«gi runājot, autors nevar pateikt, kas kavē plaŔāku izplatÄ«bu, taču viņŔ var runāt, balstoties uz personÄ«go pieredzi. Ir problēmas, kuras DR ofensÄ«vas apstākļos varētu atrisināt ā€œno kastesā€, lai gan tās nav Ä«paÅ”i izplatÄ«tas. Rezultātā tiem, kas saskaras ar Å”iem uzdevumiem, nav nekādu piespieÅ”anas lÄ«dzekļu pret tiem, kas spēj sniegt risinājumu, savukārt pēdējo neatkarÄ«gā risinājuma nodroÅ”ināŔana ir pretrunā ar viņu uzņēmējdarbÄ«bas modeļiem. Tāpēc mēs turpinām parsēt HTML un salÄ«mēt kopā dažādas API, vienu citu vēl sÅ«dÄ«gāk.

Tomēr saistÄ«to datu tehnoloÄ£ijas ir izplatÄ«juŔās ārpus galvenā tÄ«mekļa; Grāmata patiesÄ«bā ir veltÄ«ta Å”iem lietojumiem. PaÅ”laik saistÄ«to datu kopiena sagaida, ka Ŕīs tehnoloÄ£ijas kļūs vēl plaŔākas, pateicoties Gartnera ierakstÄ«Å”anai (vai pasludināŔanai, kā vēlaties) par tādām tendencēm kā, piemēram, ZināŔanu grafiki Šø Datu audums. Gribētos ticēt, ka veiksmÄ«gas bÅ«s nevis Å”o koncepciju ā€œvelosipēduā€ realizācijas, bet gan tās, kas saistÄ«tas ar tālāk aplÅ«kotajiem W3C standartiem.

Saistītie dati

Berners-LÄ« definēja saistÄ«tos datus kā semantisko tÄ«mekli, kas ir "pareizi izdarÄ«ts": pieeju un tehnoloÄ£iju kopums, kas ļauj sasniegt galvenos mērÄ·us. SaistÄ«to datu pamatprincipi Berners-LÄ« izcelts sekojoÅ”ais.

1. princips. URI izmantoŔana entītiju nosaukŔanai.

URI ir globālie entÄ«tiju identifikatori, nevis vietējie ierakstu virkņu identifikatori. Pēc tam Å”is princips vislabāk izpaudās Google Knowledge Graph sauklÄ« ā€œlietas, nevis stÄ«gas'.

2. princips. URI izmantoÅ”ana HTTP shēmā, lai uz tiem varētu noņemt atsauces.

Atsaucoties uz URI, vajadzētu bÅ«t iespējai iegÅ«t apzÄ«mēto aiz Ŕī apzÄ«mētāja (Å”eit ir skaidra analoÄ£ija ar operatora nosaukumu).*" C); precÄ«zāk, lai iegÅ«tu zināmu Ŕī apzÄ«mējuma attēlojumu - atkarÄ«bā no HTTP galvenes vērtÄ«bas Accept:. Iespējams, lÄ«dz ar AR/VR ēras atnākÅ”anu bÅ«s iespējams iegÅ«t paÅ”u resursu, bet pagaidām tas, visticamāk, bÅ«s RDF dokuments, kas tapis SPARQL vaicājuma izpildes rezultātā. DESCRIBE.

3. princips. W3C standartu ā€” galvenokārt RDF(S) un SPARQL ā€” izmantoÅ”ana, jo Ä«paÅ”i, atsaucot URI.

Å ie atseviŔķie saistÄ«to datu tehnoloÄ£iju kopas ā€œslāņiā€, kas pazÄ«stami arÄ« kā Semantiskā tÄ«mekļa slāņa kÅ«ka, tiks aprakstÄ«ts tālāk.

4. princips. Atsauču uz citiem URI izmantoŔana, aprakstot entītijas.

RDF ļauj aprobežoties ar resursa verbālu aprakstu dabiskā valodā, un ceturtais princips aicina to nedarÄ«t. Ja vispārēji tiek ievērots pirmais princips, aprakstot resursu kļūst iespējams atsaukties uz citiem, arÄ« uz ā€œsveÅ”ajiemā€, tāpēc dati tiek saukti par saistÄ«tiem. Faktiski ir gandrÄ«z neizbēgami izmantot RDFS vārdnÄ«cā nosauktos URI.

RDF

RDF (Resource Description Framework) ir formālisms savstarpēji saistÄ«tu entÄ«tiju aprakstÄ«Å”anai.

Par entÄ«tijām un to attiecÄ«bām tiek veidoti ā€œsubjekta-predikāta-objektaā€ tipa paziņojumi, ko sauc par tripletiem. VienkārŔākajā gadÄ«jumā subjekts, predikāts un objekts ir visi URI. Viens un tas pats URI var atrasties dažādās pozÄ«cijās dažādos tripletos: ir subjekts, predikāts un objekts; Tādējādi tripleti veido sava veida grafiku, ko sauc par RDF grafiku.

Subjekti un objekti var bÅ«t ne tikai URI, bet arÄ« t.s tukÅ”i mezgli, un objekti var bÅ«t arÄ« burtiski. Literāļi ir primitÄ«vu tipu gadÄ«jumi, kas sastāv no virknes attēlojuma un tipa norādes.

Literāļu rakstÄ«Å”anas piemēri (Turtle sintaksē, vairāk par to zemāk): "5.0"^^xsd:float Šø "five"^^xsd:string. Literāļi ar tipu rdf:langString var bÅ«t aprÄ«kots arÄ« ar valodas tagu; Bruņurupucis tas ir rakstÄ«ts Ŕādi: "five"@en Šø "Šæять"@ru.

TukÅ”ie mezgli ir ā€œanonÄ«miā€ resursi bez globāliem identifikatoriem, par kuriem tomēr var izteikt apgalvojumus; eksistenciālie mainÄ«gie.

Tātad (faktiski Ŕī ir visa RDF būtība):

  • priekÅ”mets ir URI vai tukÅ”s mezgls,
  • predikāts ir URI,
  • objekts ir URI, tukÅ”s mezgls vai literāls.

Kāpēc predikāti nevar bÅ«t tukÅ”i mezgli?

Iespējamais iemesls ir vēlme neformāli saprast un tulkot tripletu pirmās kārtas predikātu loÄ£ikas valodā s p o kā kaut kas lÄ«dzÄ«gs Semantiskais tÄ«meklis un saistÄ«tie dati. Labojumi un papildinājumiKur Semantiskais tÄ«meklis un saistÄ«tie dati. Labojumi un papildinājumi - predikāts, Semantiskais tÄ«meklis un saistÄ«tie dati. Labojumi un papildinājumi Šø Semantiskais tÄ«meklis un saistÄ«tie dati. Labojumi un papildinājumi - konstantes. Å Ä«s izpratnes pēdas ir dokumentā "LBase: semantika semantiskā tÄ«mekļa valodām", kam ir W3C darba grupas piezÄ«mes statuss. Ar Å”o izpratni trÄ«nÄ«tis s p []Kur [] - tukÅ”s mezgls, tiks tulkots kā Semantiskais tÄ«meklis un saistÄ«tie dati. Labojumi un papildinājumiKur Semantiskais tÄ«meklis un saistÄ«tie dati. Labojumi un papildinājumi - mainÄ«gs, bet kā tad tulkot s [] o? Dokuments ar W3C ieteikuma statusu "RDF 1.1 semantikaā€ piedāvā citu tulkoÅ”anas metodi, taču joprojām neapsver iespēju, ka predikāti ir tukÅ”i mezgli.

Tomēr Manu Sporni atļauts.

RDF ir abstrakts modelis. RDF var rakstīt (serializēt) dažādās sintaksēs: RDF/XML, Bruņurupucis (cilvēkam lasāmākais), JSON-LD, HDT (binārs).

To paÅ”u RDF var serializēt RDF/XML formātā dažādos veidos, tāpēc, piemēram, nav jēgas apstiprināt iegÅ«to XML, izmantojot XSD, vai mēģināt iegÅ«t datus, izmantojot XPath. Tāpat maz ticams, ka JSON-LD apmierinās vidusmēra Javascript izstrādātāja vēlmi strādāt ar RDF, izmantojot Javascript punktu un kvadrātiekavās (lai gan JSON-LD virzās Å”ajā virzienā, piedāvājot mehānismu ierāmÄ“Å”ana).

Lielākā daļa sintakse piedāvā veidus, kā saÄ«sināt garus URI. Piemēram, reklāma @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> Turtle ļaus jums rakstÄ«t tā vietā <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> tikko rdf:type.

RDFS

RDFS (RDF shēma) - pamata modelÄ“Å”anas vārdnÄ«ca, iepazÄ«stina ar Ä«paÅ”uma un klases jēdzieniem un Ä«paŔībām, piemēram, rdf:type, rdfs:subClassOf, rdfs:domain Šø rdfs:range. Izmantojot RDFS vārdnÄ«cu, piemēram, var uzrakstÄ«t Ŕādas derÄ«gas izteiksmes:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS ir apraksta un modelÄ“Å”anas vārdnÄ«ca, taču tā nav ierobežojoÅ”a valoda (lai gan oficiālā specifikācija un lapas Ŕādas izmantoÅ”anas iespēja). Vārds "shēma" nav jāsaprot tādā paŔā nozÄ«mē kā izteiciens "XML shēma". Piemēram, :author rdfs:range foaf:Person nozÄ«mē to rdf:type visas Ä«paÅ”uma vērtÄ«bas :author Sākot no foaf:Person, taču tas nenozÄ«mē, ka tas bÅ«tu jāpasaka iepriekÅ”.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) ā€“ valoda RDF datu vaicāŔanai. VienkārŔā gadÄ«jumā SPARQL vaicājums ir paraugu kopa, ar kuru tiek saskaņoti vaicātā grafika tripleti. Raksti var saturēt mainÄ«gos lielumus subjekta, predikāta un objekta pozÄ«cijās.

Vaicājums atgriezÄ«s tādas mainÄ«gās vērtÄ«bas, kuras, aizvietojot paraugos, var radÄ«t vaicātā RDF grafika apakÅ”grafu (tā tripletu apakÅ”kopu). Viena nosaukuma mainÄ«gajiem dažādos tripletu paraugos ir jābÅ«t vienādām vērtÄ«bām.

Piemēram, ņemot vērā iepriekÅ” minēto septiņu RDFS aksiomu kopu, tiks atgriezts Ŕāds vaicājums rdfs:domain Šø rdfs:range kā vērtÄ«bas ?s Šø ?p attiecÄ«gi:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Ir vērts atzÄ«mēt, ka SPARQL ir deklaratÄ«vs un nav valoda, lai aprakstÄ«tu grafu ŔķērsoÅ”anu (tomēr daži RDF repozitoriji piedāvā veidus, kā pielāgot vaicājuma izpildes plānu). Tāpēc dažas standarta grafikas problēmas, piemēram, Ä«sākā ceļa atraÅ”ana, nevar atrisināt SPARQL, tostarp izmantojot Ä«paÅ”umu ceļi (bet atkal atseviŔķas RDF krātuves piedāvā Ä«paÅ”us paplaÅ”inājumus, lai atrisinātu Ŕīs problēmas).

SPARQL nepiekrÄ«t pasaules atvērtÄ«bas prezumpcijai un ievēro pieeju ā€œnigācija kā neveiksmeā€, kurā iespējams tādi dizaini kā FILTER NOT EXISTS {ā€¦}. Datu izplatÄ«Å”ana tiek ņemta vērā, izmantojot mehānismu apvienotie vaicājumi.

SPARQL piekļuves punktam - RDF krātuvei, kas spēj apstrādāt SPARQL vaicājumus - nav tieÅ”u analogu no otrā posma (skatiet Ŕīs rindkopas sākumu). To var pielÄ«dzināt datu bāzei, pamatojoties uz kuras saturu tika Ä£enerētas HTML lapas, taču tās ir pieejamas ārpusei. SPARQL piekļuves punkts ir vairāk analoÄ£isks API piekļuves punktam no treŔā posma, taču ar divām galvenajām atŔķirÄ«bām. Pirmkārt, ir iespējams apvienot vairākus ā€œatomiskusā€ vaicājumus vienā (kas tiek uzskatÄ«ts par galveno GraphQL Ä«paŔību), un, otrkārt, Ŕāda API ir pilnÄ«bā paÅ”dokumentējoÅ”a (to HATEOAS mēģināja panākt).

Polemiska piezīme

RDF ir veids, kā publicēt datus tÄ«meklÄ«, tāpēc RDF uzglabāŔana ir jāuzskata par dokumentu DBVS. Tiesa, tā kā RDF ir grafs, nevis koks, izrādÄ«jās, ka tie arÄ« ir balstÄ«ti uz grafiem. ApbrÄ«nojami, ka tas vispār izdevās. Kas to bÅ«tu domājis, ka bÅ«s gudri cilvēki, kas ieviesÄ«s tukÅ”us mezglus. Menca ir klāt tas neizdevās.

Ir arī mazāk pilnvērtīgi veidi, kā organizēt piekļuvi RDF datiem, piemēram, Saistītie datu fragmenti (LDF) un Saistītā datu platforma (LDP).

OWL

OWL (Web Ontology Language) - formālisms zināŔanu attēloÅ”anai, apraksta loÄ£ikas sintaktiskā versija Semantiskais tÄ«meklis un saistÄ«tie dati. Labojumi un papildinājumi (visur zemāk pareizāk ir teikt OWL 2, pirmā OWL versija tika balstÄ«ta uz Semantiskais tÄ«meklis un saistÄ«tie dati. Labojumi un papildinājumi).

AprakstoŔās loÄ£ikas jēdzieni OWL atbilst klasēm, lomas atbilst Ä«paŔībām, indivÄ«di saglabā savu iepriekŔējo nosaukumu. Aksiomas sauc arÄ« par aksiomām.

Piemēram, tā sauktajā Mančestras sintakse OWL apzÄ«mējumam mums jau zināma aksioma Semantiskais tÄ«meklis un saistÄ«tie dati. Labojumi un papildinājumi tiks rakstÄ«ts Ŕādi:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Ir arÄ« citas sintakses OWL rakstÄ«Å”anai, piemēram funkcionālā sintakse, ko izmanto oficiālajā specifikācijā, un OWL/XML. Turklāt OWL var serializēt uz abstraktu RDF sintaksi un tālāk - jebkurā no konkrētajām sintaksēm.

OWL ir divējādas attiecÄ«bas ar RDF. No vienas puses, to var uzskatÄ«t par sava veida vārdnÄ«cu, kas paplaÅ”ina RDFS. No otras puses, tas ir spēcÄ«gāks formālisms, kuram RDF ir tikai serializācijas formāts. Ne visas elementārās OWL konstrukcijas var uzrakstÄ«t, izmantojot vienu RDF tripletu.

AtkarÄ«bā no tā, kuru OWL konstrukciju apakÅ”kopu atļauts izmantot, tās runā par t.s OWL profili. Standartizētie un slavenākie ir OWL EL, OWL RL un OWL QL. Profila izvēle ietekmē tipisko problēmu skaitļoÅ”anas sarežģītÄ«bu. Pilns OWL konstrukciju komplekts, kas atbilst Semantiskais tÄ«meklis un saistÄ«tie dati. Labojumi un papildinājumi, ko sauc OWL DL. Dažreiz viņi runā arÄ« par OWL Full, kurā OWL konstrukcijas ir atļauts izmantot ar pilnu brÄ«vÄ«bu, kas raksturÄ«ga RDF, bez semantiskiem un skaitļoÅ”anas ierobežojumiem. Semantiskais tÄ«meklis un saistÄ«tie dati. Labojumi un papildinājumi. Piemēram, kaut kas var bÅ«t gan klase, gan Ä«paÅ”ums. OWL Full ir neizŔķirams.

Galvenie principi seku piesaistÄ«Å”anai OWL ir atvērtās pasaules pieņēmuma pieņemÅ”ana. OWA) un unikālu nosaukumu prezumpcijas noraidÄ«Å”ana (unikālā nosaukuma pieņēmums, ONE). Tālāk mēs redzēsim, kur Å”ie principi var novest, un ieviesÄ«sim dažas OWL konstrukcijas.

Ä»aujiet ontoloÄ£ijai saturēt Ŕādu fragmentu (Mančestras sintaksē):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Vai no teiktā izrietēs, ka Jānim ir daudz bērnu? AtteikÅ”anās no UNA liks secinājumu dzinējam atbildēt uz Å”o jautājumu noliedzoÅ”i, jo Alise un Bobs var bÅ«t viena un tā pati persona. Lai notiktu sekojoÅ”ais, ir jāpievieno Ŕāda aksioma:

DifferentIndividuals: Alice, Bob, Carol, John

Lai tagad ontoloÄ£ijas fragmentam ir Ŕāda forma (Jānim ir daudz bērnu, bet viņam ir tikai divi bērni):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Vai Ŕī ontoloÄ£ija bÅ«s nekonsekventa (ko var interpretēt kā nederÄ«gu datu pierādÄ«jumu)? Pieņemot OWA, secinājumu dzinējs reaģēs noliedzoÅ”i: "kaut kur citur" (citā ontoloÄ£ijā) var teikt, ka Kerola arÄ« ir Džona bērns.

Lai to izslēgtu, pievienosim jaunu faktu par Džonu:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Lai izslēgtu citu bērnu parādÄ«Å”anos, pieņemsim, ka visas Ä«paÅ”uma vērtÄ«bas "bērnam" ir cilvēki, no kuriem mums ir tikai četri:

ObjectProperty: hasChild
   Domain: Human
   Š”haracteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Tagad ontoloÄ£ija kļūs pretrunÄ«ga, par ko secinājumu dzinējs neziņos. Ar pēdējo no aksiomām mēs savā ziņā esam ā€œaizvēruÅ”iā€ pasauli un pamanām, kā tiek izslēgta iespēja, ka Jānis ir viņa paÅ”a bērns.

Uzņēmuma datu sasaiste

SaistÄ«to datu pieeju un tehnoloÄ£iju kopums sākotnēji bija paredzēts datu publicÄ“Å”anai tÄ«meklÄ«. To izmantoÅ”ana iekŔējā korporatÄ«vajā vidē saskaras ar vairākām grÅ«tÄ«bām.

Piemēram, slēgtā korporatÄ«vajā vidē OWL deduktÄ«vā vara, kas balstÄ«ta uz OWA pieņemÅ”anu un UNA noraidÄ«Å”anu, lēmumiem tÄ«mekļa atvērtā un izplatÄ«tā rakstura dēļ, ir pārāk vāja. Un Å”eit ir iespējami Ŕādi risinājumi.

  • OWL pieŔķirÅ”ana ar semantiku, kas nozÄ«mē atteikÅ”anos no OWA un UNA pieņemÅ”anu, atbilstoŔā izejas dzinēja ievieÅ”anu. - Pa Å”o ceļu ir Stardog RDF krātuve.
  • AtteikÅ”anās no OWL dedukcijas iespējām par labu noteikumu dzinējiem. ā€” Stardog atbalsta SWRL; Jena un GraphDB piedāvājums savu яŠ·Ń‹ŠŗŠø noteikumiem.
  • AtteikÅ”anās no OWL deduktÄ«vām iespējām, vienas vai otras apakÅ”kopas, kas ir tuvu RDFS, izmantoÅ”ana modelÄ“Å”anai. - Vairāk par to skatiet tālāk.

Vēl viena problēma ir lielāks uzsvars, ko var likt uz datu kvalitātes problēmām korporatÄ«vajā pasaulē, un datu validācijas rÄ«ku trÅ«kums saistÄ«to datu kaudzē. Izvades Å”eit ir Ŕādas.

  • Atkal izmantojiet OWL konstrukciju validācijai ar slēgtas pasaules semantiku un unikāliem nosaukumiem, ja ir pieejams atbilstoÅ”s secinājumu dzinējs.
  • Izmantot SHACL, standartizēts pēc tam, kad ir labots semantiskā tÄ«mekļa slāņa kÅ«kas slāņu saraksts (tomēr to var izmantot arÄ« kā noteikumu dzinēju), vai ShEx.
  • Saprotot, ka viss galu galā tiek darÄ«ts ar SPARQL vaicājumiem, izveidojot savu vienkārÅ”u datu validācijas mehānismu, izmantojot tos.

Tomēr pat pilnÄ«ga dedukcijas iespēju un validācijas rÄ«ku noraidÄ«Å”ana atstāj saistÄ«to datu kopu ārpus konkurences uzdevumos, kas pēc ainavas ir lÄ«dzÄ«gi atvērtajam un izplatÄ«tajam tÄ«meklim ā€” datu integrācijas uzdevumos.

Kā ir ar parastu uzņēmuma informācijas sistēmu?

Tas ir iespējams, taču jums, protams, ir jāzina, kādas tieÅ”i problēmas bÅ«s jāatrisina attiecÄ«gajām tehnoloÄ£ijām. Å eit es aprakstÄ«Å”u tipisku attÄ«stÄ«bas dalÄ«bnieku reakciju, lai parādÄ«tu, kā Ŕī tehnoloÄ£iju kaudze izskatās no parastā IT viedokļa. Man nedaudz atgādina lÄ«dzÄ«bu par ziloni:

  • Biznesa analÄ«tiÄ·is: RDF ir kaut kas lÄ«dzÄ«gs tieÅ”i saglabātam loÄ£iskam modelim.
  • Sistēmu analÄ«tiÄ·is: RDF ir kā EAV, tikai ar virkni indeksu un ērtu vaicājumu valodu.
  • Š : labi, tas viss ir bagāta modeļa un zema koda koncepcijas garā, lasÄ«ja nesen par Å”o.
  • Projekta vadÄ«tājs: jā, tas ir tas pats kaudzes sabrukÅ”ana!

Prakse rāda, ka steku visbiežāk izmanto uzdevumos, kas saistÄ«ti ar datu izplatÄ«Å”anu un neviendabÄ«gumu, piemēram, veidojot MDM (Master Data Management) vai DWH (Data Warehouse) klases sistēmas. Šādas problēmas pastāv jebkurā nozarē.

Runājot par nozarei specifiskām lietojumprogrammām, saistÄ«to datu tehnoloÄ£ijas paÅ”laik ir vispopulārākās Ŕādās nozarēs.

  • biomedicÄ«nas tehnoloÄ£ijas (kur to popularitāte, Ŕķiet, ir saistÄ«ta ar jomas sarežģītÄ«bu);

strāva

"VārīŔanās punktā" nesen notika biedrības "Valsts medicīnas zināŔanu bāze" rīkotā konference "Ontoloģiju apvienoŔana. No teorijas līdz praktiskajam pielietojumam'.

  • sarežģītu produktu ražoÅ”ana un ekspluatācija (lielā maŔīnbÅ«ve, naftas un gāzes ražoÅ”ana; visbiežāk mēs runājam par standarta ISO 15926);

strāva

ArÄ« Å”eit iemesls ir mācÄ«bu jomas sarežģītÄ«ba, kad, piemēram, iepriekŔējā posmā, ja mēs runājam par naftas un gāzes nozari, vienkārÅ”ai grāmatvedÄ«bai ir nepiecieÅ”amas dažas CAD funkcijas.

2008. gadā notika reprezentatīvs instalācijas pasākums, ko organizēja Chevron konference.

Galu galā ISO 15926 naftas un gāzes nozarei Ŕķita nedaudz smags (un, iespējams, tas tika pielietots maŔīnbÅ«vē). PamatÄ«gi uzķērās tikai Statoil (Equinor), Norvēģijā vesels ekosistēma. Citi cenÅ”as darÄ«t savu. Piemēram, saskaņā ar baumām vietējā Enerģētikas ministrija plāno izveidot "kurināmā un enerÄ£ijas kompleksa konceptuālu ontoloÄ£isko modeli", kas, Ŕķiet, ir lÄ«dzÄ«gs radÄ«ts elektroenerÄ£ijas nozarei.

  • finanÅ”u organizācijas (pat XBRL var uzskatÄ«t par sava veida SDMX un RDF Data Cube ontoloÄ£ijas hibrÄ«du);

strāva

LinkedIn gada sākumā autoram aktÄ«vi sÅ«tÄ«ja surogātpastu ar vakancēm gandrÄ«z visos finanÅ”u industrijas gigantos, kurus viņŔ pazÄ«st no seriāla ā€œForce Majeureā€: Goldman Sachs, JPMorgan Chase un/vai Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... DroÅ”i vien katrs meklēja kādu, kam varētu nosÅ«tÄ«t ZināŔanu grafika konference. Diezgan daudziem izdevās atrast: finanÅ”u organizācijas paņēma visu pirmās dienas rÄ«ts.

Vietnē HeadHunter tikai Sberbank saskārās ar kaut ko interesantu; tas bija par "EAV krātuvi ar RDF līdzīgu datu modeli".

Iespējams, vietējās un Rietumu finanÅ”u institÅ«ciju mÄ«lestÄ«bas pret atbilstoŔām tehnoloÄ£ijām pakāpes atŔķirÄ«ba ir saistÄ«ta ar pēdējo darbÄ«bu transnacionālo raksturu. AcÄ«mredzot integrācijai pāri valsts robežām ir nepiecieÅ”ami kvalitatÄ«vi atŔķirÄ«gi organizatoriskie un tehniskie risinājumi.

  • jautājumu-atbilžu sistēmas ar komerciālām lietojumprogrammām (IBM Watson, Apple Siri, Google Knowledge Graph);

strāva

Starp citu, Siri radÄ«tājs Tomass GrÅ«bers ir paÅ”as ontoloÄ£ijas definÄ«cijas (IT nozÄ«mē) kā ā€œkonceptualizācijas specifikācijasā€ autors. Manuprāt, vārdu pārkārtoÅ”ana Å”ajā definÄ«cijā nemaina tā nozÄ«mi, kas varbÅ«t norāda, ka tā nav.

  • strukturētu datu publicÄ“Å”ana (ar lielāku pamatojumu to var attiecināt uz saistÄ«tajiem atvērtajiem datiem).

strāva

Lieli saistÄ«to datu cienÄ«tāji ir tā sauktais GLAM: galerijas, bibliotēkas, arhÄ«vi un muzeji. Pietiek pateikt, ka Kongresa bibliotēka veicina MARC21 aizstāŔanu BIBFRAMEKurÅ” sniedz pamatu bibliogrāfiskā apraksta nākotnei un, protams, pamatojoties uz RDF.

Vikidati bieži tiek minēti kā piemērs veiksmÄ«gam projektam Linked Open Data jomā ā€“ sava veida maŔīnlasāma Vikipēdijas versija, kuras saturs, atŔķirÄ«bā no DBPedia, netiek Ä£enerēts, importējot no rakstu infokastēm, bet gan ir izveidots vairāk vai mazāk manuāli (un pēc tam kļūst par informācijas avotu tām paŔām informācijas kastēm).

Mēs arÄ« iesakām to pārbaudÄ«t saraksts Stardog RDF krātuves lietotāji Stardog tÄ«mekļa vietnes sadaļā ā€œKlientiā€.

Lai kā arÄ« bÅ«tu, Gartnerā Hype cikls jaunām tehnoloÄ£ijām 2016 "Uzņēmuma taksonomijas un ontoloÄ£ijas vadÄ«ba" atrodas vilÅ”anās ielejas vidÅ« ar izredzēm sasniegt "ražīguma plato" ne agrāk kā pēc 10 gadiem.

Uzņēmuma datu savienoÅ”ana

Prognozes, prognozes, prognozes...

Vēsturiskas intereses dēļ es zemāk esmu apkopojis Gartnera prognozes dažādiem gadiem par tehnoloģijām, kas mūs interesē.

Gads Š¢ŠµŃ…Š½Š¾Š»Š¾Š³Šøя Ziņot PozÄ«cija Gadi lÄ«dz plato
2001 Semantiskais tīmeklis Emerging Technologies Inovācijas izraisītājs 5-10
2006 Korporatīvais semantiskais tīmeklis Emerging Technologies Uzpūsto cerību maksimums 5-10
2012 Semantiskais tīmeklis Big Datu Uzpūsto cerību maksimums > 10
2015 Saistītie dati Uzlabotā analīze un datu zinātne VilŔanās sile 5-10
2016 Uzņēmuma ontoloÄ£ijas vadÄ«ba Emerging Technologies VilÅ”anās sile > 10
2018 ZināŔanu grafiki Emerging Technologies Inovācijas izraisītājs 5-10

Tomēr jau iekŔā "Hype Cycle..." 2018 ir parādÄ«jusies vēl viena augÅ”upejoÅ”a tendence - ZināŔanu grafiki. Notika zināma reinkarnācija: grafu DBVS, uz kurām tika pārslēgta lietotāju uzmanÄ«ba un izstrādātāju centieni, pirmā pieprasÄ«jumu un pēdējo ieradumu ietekmē sāka iegÅ«t kontÅ«ras un pozicionÄ“Å”anu. savu priekÅ”gājēju konkurentiem.

GandrÄ«z katrs grafiks DBVS tagad sevi pasludina par piemērotu platformu korporatÄ«vā ā€œzināŔanu grafikaā€ veidoÅ”anai (ā€œsaistÄ«tos datusā€ dažkārt aizstāj ar ā€œsavienotajiem datiemā€), bet cik pamatoti ir Ŕādi apgalvojumi?

Grafu datu bāzes joprojām ir asemantiskas; dati diagrammā DBVS joprojām ir tas pats datu rezervuārs. Virknes identifikatori URI vietā padara divu grafiku DBVS integrāciju par integrācijas uzdevumu, savukārt divu RDF krātuvju integrÄ“Å”ana bieži vien ir vienkārÅ”a divu RDF grafiku sapludināŔana. Vēl viens asemantiskuma aspekts ir LPG grafika modeļa nerefleksivitāte, kas apgrÅ«tina metadatu pārvaldÄ«bu, izmantojot to paÅ”u platformu.

Visbeidzot, grafiku DBVS nav secinājumu dzinēju vai noteikumu dzinēju. Šādu dzinēju rezultātus var reproducēt, sarežģījot vaicājumus, taču tas ir iespējams pat SQL.

Tomēr vadoÅ”ajām RDF uzglabāŔanas sistēmām nav grÅ«tÄ«bu atbalstÄ«t LPG modeli. Par visnoturÄ«gāko tiek uzskatÄ«ta Blazegraph vienā reizē piedāvātā pieeja: RDF* modelis, kas apvieno RDF un LPG.

vairāk

Vairāk par RDF uzglabāŔanas atbalstu LPG modelim varat lasÄ«t iepriekŔējā rakstā par HabrĆ©: "Kas tagad notiek ar RDF krātuvi". Es ceru, ka kādu dienu tiks uzrakstÄ«ts atseviŔķs raksts par zināŔanu grafikiem un datu audumu. Pēdējā sadaļa, kā viegli saprotams, tika uzrakstÄ«ta steigā, tomēr arÄ« pusgadu vēlāk ar Å”iem jēdzieniem viss nav daudz skaidrāks.

Literatūra

  1. Halpin, H., Monnin, A. (eds.) (2014). Filozofiskā inženierija: ceļā uz tīmekļa filozofiju
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2. izd.)
  3. Staab, S., Studer, R. (eds.) (2009) Ontoloģiju rokasgrāmata (2. izd.)
  4. Wood, D. (red.). (2011) Uzņēmuma datu sasaiste
  5. Keet, M. (2018) An Introduction to ontology Engineering

Avots: www.habr.com

Pievieno komentāru