Semantic Web at Naka-link na Data. Mga pagwawasto at pagdaragdag

Nais kong ipakita sa publiko ang isang fragment ng kamakailang nai-publish na librong ito:

Ontological modeling ng isang enterprise: mga pamamaraan at teknolohiya [Text]: monograph / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak at iba pa; executive editor S.V. Gorshkov]. - Ekaterinburg: Ural University Publishing House, 2019. - 234 p.: ill., table; 20 cm - May-akda. nakasaad sa likod na tite. Sa. β€” Bibliograpiya sa dulo ng ch. β€” ISBN 978-5-7996-2580-1: 200 kopya.

Ang layunin ng pag-post ng fragment na ito sa HabrΓ© ay apat na beses:

  • Malabong mahawakan ng sinuman ang librong ito sa kanilang mga kamay kung hindi siya kliyente ng isang respetado SergeIndex; Siguradong hindi ito ibinebenta.
  • Ang mga pagwawasto ay ginawa sa teksto (hindi sila naka-highlight sa ibaba) at ang mga pagdaragdag ay ginawa na hindi masyadong tugma sa format ng isang naka-print na monograph: mga tala sa paksa (sa ilalim ng mga spoiler) at mga hyperlink.
  • gusto ko mangolekta ng mga tanong at komento, upang isaalang-alang ang mga ito kapag isinama ang tekstong ito sa isang binagong anyo sa anumang iba pang publikasyon.
  • Maraming tagasunod ng Semantic Web at Linked Data ang naniniwala pa rin na napakakitid ng kanilang bilog, higit sa lahat dahil hindi pa naipaliwanag nang maayos sa pangkalahatang publiko kung gaano kahusay na maging isang sumusunod sa Semantic Web at Linked Data. Ang may-akda ng fragment, kahit na siya ay kabilang sa bilog na ito, ay hindi hawak ang opinyon na ito, ngunit, gayunpaman, isinasaalang-alang ang kanyang sarili na obligado na gumawa ng isa pang pagtatangka.

Kaya,

Semantiko Web

Ang ebolusyon ng Internet ay maaaring ilarawan bilang mga sumusunod (o pag-usapan ang tungkol sa mga segment nito na nabuo sa pagkakasunud-sunod na ipinahiwatig sa ibaba):

  1. Mga dokumento sa Internet. Mga pangunahing teknolohiya - Gopher, FTP, atbp.
    Ang Internet ay isang pandaigdigang network para sa pagpapalitan ng mga lokal na mapagkukunan.
  2. Mga dokumento sa Internet. Ang mga pangunahing teknolohiya ay HTML at HTTP.
    Ang likas na katangian ng mga nakalantad na mapagkukunan ay isinasaalang-alang ang mga katangian ng kanilang daluyan ng paghahatid.
  3. data sa internet. Mga pangunahing teknolohiya - REST at SOAP API, XHR, atbp.
    Ang panahon ng mga aplikasyon sa Internet, hindi lamang ang mga tao ang nagiging mga mamimili ng mga mapagkukunan.
  4. data sa internet. Ang mga pangunahing teknolohiya ay mga teknolohiya ng Linked Data.
    Ang ikaapat na yugto na ito, na hinulaang ni Berners-Lee, ang lumikha ng pangalawang pangunahing teknolohiya at direktor ng W3C, ay tinatawag na Semantic Web; Ang mga teknolohiya ng Linked Data ay idinisenyo upang gawing hindi lamang nababasa ng makina ang data sa web, kundi pati na rin ang "naiintindihan ng makina."

Mula sa mga sumusunod, mauunawaan ng mambabasa ang pagsusulatan sa pagitan ng mga pangunahing konsepto ng ikalawa at ikaapat na yugto:

  • Ang mga URL ay kahalintulad sa mga URI,
  • ang analogue ng HTML ay RDF,
  • Ang mga HTML hyperlink ay katulad ng mga paglitaw ng URI sa mga dokumento ng RDF.

Ang Semantic Web ay higit pa sa isang sistematikong pananaw ng kinabukasan ng Internet kaysa sa isang partikular na kusang-loob o lobbied trend, bagama't maaari nitong isaalang-alang ang mga huli. Halimbawa, ang isang mahalagang katangian ng tinatawag na Web 2.0 ay itinuturing na "nilalaman na binuo ng gumagamit." Sa partikular, ang rekomendasyon ng W3C ay tinatawag na isaalang-alang ito "Web Annotation Ontology"at tulad ng isang pangako bilang Matatag.

Patay na ba ang Semantic Web?

Kung tatanggi ka hindi makatotohanang mga inaasahan, ang sitwasyon sa semantic web ay humigit-kumulang kapareho ng sa komunismo sa panahon ng umunlad na sosyalismo (at kung ang katapatan sa mga kondisyonal na utos ni Ilyich ay sinusunod, hayaan ang lahat na magpasya para sa kanilang sarili). Mga search engine medyo matagumpay pinipilit ang mga website na gamitin ang RDFa at JSON-LD at sila mismo ay gumagamit ng mga teknolohiyang nauugnay sa mga inilarawan sa ibaba (Google Knowledge Graph, Bing Knowledge Graph).

Sa pangkalahatan, hindi masasabi ng may-akda kung ano ang pumipigil sa mas malawak na pagkalat, ngunit maaari siyang magsalita batay sa personal na karanasan. May mga problemang maaaring lutasin β€œout of the box” sa mga kondisyon ng opensiba sa SW, bagama't hindi ito gaanong kalat. Bilang resulta, ang mga nahaharap sa mga gawaing ito ay walang paraan ng pamimilit laban sa mga may kakayahang magbigay ng solusyon, habang ang independiyenteng probisyon ng huli ng solusyon ay sumasalungat sa kanilang mga modelo ng negosyo. Kaya patuloy kaming nag-parse ng HTML at pinagsasama-sama ang iba't ibang mga API, mas shittier ang isa't isa.

Gayunpaman, ang mga teknolohiya ng Linked Data ay kumalat sa kabila ng pangunahing Web; Ang aklat, sa katunayan, ay nakatuon sa mga application na ito. Sa kasalukuyan, inaasahan ng komunidad ng Linked Data na mas laganap ang mga teknolohiyang ito salamat sa pag-record ni Gartner (o pagpapahayag, ayon sa gusto mo) ng mga uso gaya ng Mga Kaalaman ng Kaalaman ΠΈ Tela ng Data. Gusto kong maniwala na hindi magiging matagumpay ang mga pagpapatupad ng "bisikleta" ng mga konseptong ito, ngunit ang mga nauugnay sa mga pamantayan ng W3C na tinalakay sa ibaba.

Naka-link na Data

Tinukoy ni Berners-Lee ang Linked Data bilang ang semantic web na "tama na": isang hanay ng mga diskarte at teknolohiya na nagbibigay-daan dito upang makamit ang mga sukdulang layunin nito. Mga pangunahing prinsipyo ng Linked Data Berners-Lee naka-highlight ang mga sumusunod.

Prinsipyo 1. Paggamit ng mga URI para pangalanan ang mga entity.

Ang mga URI ay mga global entity identifier kumpara sa mga lokal na string identifier para sa mga entry. Kasunod nito, ang prinsipyong ito ay pinakamahusay na naipahayag sa Google Knowledge Graph slogan na "bagay, hindi string'.

Prinsipyo 2. Paggamit ng mga URI sa HTTP scheme para ma-de-reference ang mga ito.

Sa pamamagitan ng pagtukoy sa isang URI, posibleng makuha ang signified sa likod ng signifier na iyon (ang pagkakatulad sa pangalan ng operator " ay malinaw dito).*"sa C); mas tiyak, upang makakuha ng ilang representasyon ng ito ay ipinahiwatig - depende sa halaga ng HTTP header Accept:. Marahil, sa pagdating ng panahon ng AR/VR, posibleng makuha ang mapagkukunan mismo, ngunit sa ngayon, malamang, ito ay isang dokumento ng RDF, na resulta ng pagsasagawa ng isang query sa SPARQL. DESCRIBE.

Prinsipyo 3. Paggamit ng mga pamantayan ng W3C - pangunahin ang RDF(S) at SPARQL - lalo na kapag binabalewala ang mga URI.

Ang mga indibidwal na "layer" na ito ng stack ng teknolohiya ng Linked Data, na kilala rin bilang Semantic Web Layer Cake, ay ilalarawan sa ibaba.

Prinsipyo 4. Paggamit ng mga sanggunian sa iba pang mga URI kapag naglalarawan ng mga entity.

Ang RDF ay nagpapahintulot sa iyo na limitahan ang iyong sarili sa isang pandiwang paglalarawan ng isang mapagkukunan sa natural na wika, at ang ikaapat na prinsipyo ay humihiling na huwag gawin ito. Kung ang unang prinsipyo ay pangkalahatang sinusunod, ito ay nagiging posible kapag naglalarawan ng isang mapagkukunan upang sumangguni sa iba, kabilang ang mga "dayuhan", kung kaya't ang data ay tinatawag na naka-link. Sa katunayan, halos hindi maiiwasang gumamit ng mga URI na pinangalanan sa bokabularyo ng RDFS.

RDF

RDF (Resource Description Framework) ay isang pormalismo para sa paglalarawan ng magkakaugnay na entity.

Ang mga pahayag ng uri ng "subject-predicate-object", na tinatawag na triplets, ay ginawa tungkol sa mga entity at kanilang mga relasyon. Sa pinakasimpleng kaso, ang paksa, panaguri, at bagay ay pawang mga URI. Ang parehong URI ay maaaring nasa iba't ibang posisyon sa iba't ibang triplets: maging isang paksa, isang panaguri, at isang bagay; Kaya, ang mga triplet ay bumubuo ng isang uri ng graph na tinatawag na RDF graph.

Ang mga paksa at bagay ay maaaring hindi lamang mga URI, kundi pati na rin ang tinatawag na walang laman na mga node, at ang mga bagay ay maaari ding mga literal. Ang mga literal ay mga pagkakataon ng mga primitive na uri na binubuo ng representasyon ng string at indikasyon ng uri.

Mga halimbawa ng pagsulat ng mga literal (sa Turtle syntax, higit pa tungkol dito sa ibaba): "5.0"^^xsd:float ΠΈ "five"^^xsd:string. Mga literal na may uri rdf:langString ay maaari ding nilagyan ng tag ng wika; sa Turtle ito ay nakasulat na ganito: "five"@en ΠΈ "ΠΏΡΡ‚ΡŒ"@ru.

Ang mga walang laman na node ay "anonymous" na mga mapagkukunan na walang mga pandaigdigang identifier, tungkol sa kung aling mga pahayag ang maaaring gawin, gayunpaman,; uri ng existential variable.

Kaya (ito ay, sa katunayan, ang buong punto ng RDF):

  • ang paksa ay isang URI o isang walang laman na node,
  • ang panaguri ay isang URI,
  • Ang object ay isang URI, isang walang laman na node, o isang literal.

Bakit hindi maaaring maging mga walang laman na node ang mga predicate?

Ang posibleng dahilan ay ang pagnanais na impormal na maunawaan at isalin ang triplet sa wika ng first-order predicate logic s p o tulad ng isang bagay tulad ng Semantic Web at Naka-link na Data. Mga pagwawasto at pagdaragdagSaan Semantic Web at Naka-link na Data. Mga pagwawasto at pagdaragdag - panaguri, Semantic Web at Naka-link na Data. Mga pagwawasto at pagdaragdag ΠΈ Semantic Web at Naka-link na Data. Mga pagwawasto at pagdaragdag - mga pare-pareho. Ang mga bakas ng pag-unawang ito ay nasa dokumento "LBase: Semantics para sa Mga Wika ng Semantic Web", na may katayuan ng isang tala ng grupong nagtatrabaho sa W3C. Sa ganitong pag-unawa, ang triplet s p []Saan [] - walang laman na node, isasalin bilang Semantic Web at Naka-link na Data. Mga pagwawasto at pagdaragdagSaan Semantic Web at Naka-link na Data. Mga pagwawasto at pagdaragdag - variable, ngunit kung paano pagkatapos ay isalin s [] o? Dokumento na may katayuan ng Rekomendasyon ng W3C "RDF 1.1 Semantics” ay nag-aalok ng isa pang paraan ng pagsasalin, ngunit hindi pa rin isinasaalang-alang ang posibilidad ng mga predicate na walang laman na mga node.

Gayunpaman, Manu Sporni pinapayagan.

Ang RDF ay isang abstract na modelo. Ang RDF ay maaaring isulat (serialized) sa iba't ibang mga syntax: RDF/XML, Pagong (karamihan na nababasa ng tao), JSON-LD, HDT (binary).

Ang parehong RDF ay maaaring i-serialize sa RDF/XML sa iba't ibang paraan, kaya, halimbawa, walang saysay na patunayan ang resultang XML gamit ang XSD o subukang kunin ang data gamit ang XPath. Gayundin, malamang na hindi matugunan ng JSON-LD ang pagnanais ng karaniwang developer ng Javascript na magtrabaho kasama ang RDF gamit ang notasyon ng tuldok at square-bracket ng Javascript (bagama't gumagalaw ang JSON-LD sa direksyong iyon sa pamamagitan ng pag-aalok ng mekanismo pag-frame).

Karamihan sa mga syntax ay nag-aalok ng mga paraan upang paikliin ang mahahabang URI. Halimbawa, isang ad @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> sa Turtle ay magbibigay-daan sa iyo na magsulat sa halip <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> lamang rdf:type.

RDFS

RDFS (RDF Schema) - isang pangunahing bokabularyo sa pagmomodelo, ay nagpapakilala sa mga konsepto ng ari-arian at klase at mga katangian tulad ng rdf:type, rdfs:subClassOf, rdfs:domain ΠΈ rdfs:range. Gamit ang diksyunaryo ng RDFS, halimbawa, maaaring isulat ang mga sumusunod na wastong expression:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

Ang RDFS ay isang paglalarawan at pagmomodelo ng bokabularyo, ngunit hindi isang hadlang na wika (bagaman ang opisyal na detalye at dahon posibilidad ng naturang paggamit). Ang salitang "Schema" ay hindi dapat unawain sa parehong kahulugan tulad ng sa expression na "XML Schema". Halimbawa, :author rdfs:range foaf:Person ibig sabihin nun rdf:type lahat ng halaga ng ari-arian :author - foaf:Person, ngunit hindi nangangahulugan na dapat itong sabihin nang maaga.

SPARQL

SPARQL (SPARQL Protocol at RDF Query Language) - isang wika para sa pag-query ng data ng RDF. Sa isang simpleng kaso, ang isang query sa SPARQL ay isang hanay ng mga sample kung saan ang mga triplet ng graph na tina-query ay itinutugma. Ang mga pattern ay maaaring maglaman ng mga variable sa subject, predicate, at object positions.

Ibabalik ng query ang mga variable na value na, kapag napalitan sa mga sample, ay maaaring magresulta sa isang subgraph ng query na RDF graph (isang subset ng triplets nito). Ang mga variable ng parehong pangalan sa iba't ibang mga sample ng triplets ay dapat na may parehong mga halaga.

Halimbawa, ibinigay ang nasa itaas na hanay ng pitong RDFS axioms, babalik ang sumusunod na query rdfs:domain ΠΈ rdfs:range bilang mga halaga ?s ΠΈ ?p naaayon:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Dapat tandaan na ang SPARQL ay deklaratibo at hindi isang wika para sa paglalarawan ng graph traversal (gayunpaman, ang ilang RDF repository ay nag-aalok ng mga paraan upang ayusin ang query execution plan). Samakatuwid, ang ilang karaniwang problema sa graph, halimbawa, paghahanap ng pinakamaikling landas, ay hindi malulutas sa SPARQL, kabilang ang paggamit ng mga landas ng ari-arian (ngunit, muli, ang mga indibidwal na repositoryo ng RDF ay nag-aalok ng mga espesyal na extension upang malutas ang mga problemang ito).

Ang SPARQL ay hindi nagbabahagi ng pagpapalagay ng pagiging bukas ng mundo at sumusunod sa "negation as failure" na diskarte, kung saan maaari mga disenyo tulad ng FILTER NOT EXISTS {…}. Ang pamamahagi ng data ay isinasaalang-alang gamit ang mekanismo federated query.

Ang SPARQL access point - isang imbakan ng RDF na may kakayahang magproseso ng mga query sa SPARQL - ay walang direktang mga analogue mula sa ikalawang yugto (tingnan ang simula ng talatang ito). Maaari itong maihalintulad sa isang database, batay sa mga nilalaman kung saan nabuo ang mga pahina ng HTML, ngunit naa-access sa labas. Ang SPARQL access point ay mas kahalintulad sa API access point mula sa ikatlong yugto, ngunit may dalawang pangunahing pagkakaiba. Una, posibleng pagsamahin ang ilang "atomic" na query sa isa (na itinuturing na pangunahing katangian ng GraphQL), at pangalawa, ang naturang API ay ganap na self-documenting (na siyang sinubukang makamit ng HATEOAS).

Polemic na pangungusap

Ang RDF ay isang paraan upang mag-publish ng data sa web, kaya ang RDF storage ay dapat ituring na isang dokumentong DBMS. Totoo, dahil ang RDF ay isang graph at hindi isang puno, sila rin ay naging batay sa graph. Ito ay kamangha-manghang na ito ay nagtrabaho sa lahat. Sinong mag-aakala na may mga matatalinong tao na magpapatupad ng mga blangkong node. Nandito si Codd hindi natuloy.

Mayroon ding hindi gaanong ganap na tampok na mga paraan upang ayusin ang pag-access sa data ng RDF, halimbawa, Naka-link na Mga Fragment ng Data (LDF) at Naka-link na Platform ng Data (LDP).

Bahaw

Bahaw (Web Ontology Language) - isang pormalismo para sa kumakatawan sa kaalaman, isang syntactic na bersyon ng lohika ng paglalarawan Semantic Web at Naka-link na Data. Mga pagwawasto at pagdaragdag (sa lahat ng dako sa ibaba ay mas tamang sabihing OWL 2, ang unang bersyon ng OWL ay batay sa Semantic Web at Naka-link na Data. Mga pagwawasto at pagdaragdag).

Ang mga konsepto ng mapaglarawang lohika sa OWL ay tumutugma sa mga klase, ang mga tungkulin ay tumutugma sa mga katangian, ang mga indibidwal ay nagpapanatili ng kanilang dating pangalan. Ang mga axiom ay tinatawag ding mga axiom.

Halimbawa, sa tinatawag na Syntax ng Manchester para sa OWL notation isang axiom na alam na natin Semantic Web at Naka-link na Data. Mga pagwawasto at pagdaragdag ay isusulat na ganito:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Mayroong iba pang mga syntax para sa pagsulat ng OWL, tulad ng functional syntax, ginamit sa opisyal na detalye, at OWL/XML. Bukod pa rito, maaaring i-serialize ang OWL sa abstract RDF syntax at higit pa - sa alinman sa mga partikular na syntax.

Ang OWL ay may dalawahang relasyon sa RDF. Sa isang banda, maaari itong ituring bilang isang uri ng diksyunaryo na nagpapalawak ng RDFS. Sa kabilang banda, ito ay isang mas makapangyarihang pormalismo kung saan ang RDF ay isang serialization format lamang. Hindi lahat ng elementarya na OWL construct ay maaaring isulat gamit ang isang triplet ng RDF.

Depende sa kung aling subset ng OWL construct ang pinapayagang gamitin, tinutukoy nila ang tinatawag na Mga profile ng OWL. Ang standardized at pinakasikat ay ang OWL EL, OWL RL at OWL QL. Ang pagpili ng profile ay nakakaapekto sa computational complexity ng mga tipikal na problema. Isang kumpletong hanay ng mga konstruksyon ng OWL na naaayon sa Semantic Web at Naka-link na Data. Mga pagwawasto at pagdaragdag, tinatawag na OWL DL. Minsan pinag-uusapan din nila ang tungkol sa OWL Full, kung saan pinapayagan ang mga OWL construct na gamitin nang may buong kalayaan na likas sa RDF, nang walang semantic at computational na mga paghihigpit Semantic Web at Naka-link na Data. Mga pagwawasto at pagdaragdag. Halimbawa, ang isang bagay ay maaaring parehong isang klase at isang ari-arian. Ang OWL Full ay hindi mapagpasyahan.

Ang mga pangunahing prinsipyo para sa paglakip ng mga kahihinatnan sa OWL ay ang pag-aampon ng open world assumption. O.W.A.) at pagtanggi sa pagpapalagay ng mga natatanging pangalan (natatanging pagpapalagay ng pangalan, ONE). Sa ibaba makikita natin kung saan maaaring humantong ang mga prinsipyong ito at magpakilala ng ilang konstruksyon ng OWL.

Hayaang maglaman ang ontology ng sumusunod na fragment (sa Manchester syntax):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Susundan kaya ito sa sinabi na maraming anak si John? Ang pagtanggi sa UNA ay pipilitin ang inference engine na sagutin ang tanong na ito sa negatibo, dahil maaaring parehong tao sina Alice at Bob. Upang maganap ang mga sumusunod, kinakailangang idagdag ang sumusunod na axiom:

DifferentIndividuals: Alice, Bob, Carol, John

Hayaang magkaroon ng sumusunod na anyo ang fragment ng ontology (idineklara si John na maraming anak, ngunit dalawa lang ang anak niya):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Magiging hindi pare-pareho ba ang ontolohiyang ito (na maaaring bigyang-kahulugan bilang ebidensya ng di-wastong data)? Ang pagtanggap sa OWA ay magiging dahilan upang tumugon ang inference engine sa negatibong: "sa ibang lugar" (sa ibang ontology) maaaring sabihin na si Carol ay anak din ni John.

Upang maalis ang posibilidad nito, magdagdag tayo ng bagong katotohanan tungkol kay John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Upang ibukod ang hitsura ng ibang mga bata, sabihin natin na ang lahat ng mga halaga ng ari-arian na "may anak" ay mga tao, kung saan mayroon kaming apat lamang:

ObjectProperty: hasChild
   Domain: Human
   Π‘haracteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Ngayon ang ontolohiya ay magiging magkasalungat, na hindi mabibigo sa pag-uulat ng inference engine. Sa huling mga axiom na mayroon tayo, sa isang kahulugan, "isinara" ang mundo, at pansinin kung paano hindi kasama ang posibilidad na si John ay kanyang sariling anak.

Pag-uugnay ng Data ng Enterprise

Ang Linked Data set ng mga diskarte at teknolohiya ay orihinal na nilayon para sa pag-publish ng data sa Web. Ang kanilang paggamit sa isang panloob na kapaligiran ng korporasyon ay nahaharap sa isang bilang ng mga paghihirap.

Halimbawa, sa isang closed corporate environment, ang deductive power ng OWL batay sa pag-ampon ng OWA at ang pagtanggi sa UNA, mga desisyon dahil sa bukas at distributed na kalikasan ng Web, ay masyadong mahina. At dito posible ang mga sumusunod na solusyon.

  • Ang pagbibigay ng OWL ng mga semantika, na nagpapahiwatig ng pag-abandona sa OWA at pag-ampon ng UNA, ang pagpapatupad ng kaukulang output engine. - Sa daan na ito pupunta Imbakan ng Stardog RDF.
  • Ang pag-abandona sa mga deductive na kakayahan ng OWL pabor sa mga rule engine. β€” Sinusuportahan ng Stardog SWRL; Nag-aalok ang Jena at GraphDB nagmamay-ari mga wika mga tuntunin
  • Ang pagtanggi sa mga deductive na kakayahan ng OWL, paggamit ng isa o isa pang subset na malapit sa RDFS para sa pagmomodelo. - Tingnan ang higit pa tungkol dito sa ibaba.

Ang isa pang isyu ay ang mas malaking pagtuon na maaaring mayroon ang mundo ng kumpanya sa mga isyu sa kalidad ng data at ang kakulangan ng mga tool sa pagpapatunay ng data sa stack ng Linked Data. Ang mga output dito ay ang mga sumusunod.

  • Muli, gamitin para sa pagpapatunay ng mga construct ng OWL na may mga closed world semantics at mga natatanging pangalan kung may available na naaangkop na inference engine.
  • Gamitin SHACL, na-standardize pagkatapos maayos ang listahan ng mga layer ng Semantic Web Layer Cake (gayunpaman, maaari rin itong gamitin bilang rules engine), o ShEx.
  • Pag-unawa na ang lahat ay ganap na tapos na sa mga query sa SPARQL, na lumilikha ng iyong sariling simpleng mekanismo ng pagpapatunay ng data gamit ang mga ito.

Gayunpaman, kahit na ang isang kumpletong pagtanggi sa mga deductive na kakayahan at mga tool sa pagpapatunay ay nag-iiwan sa Linked Data stack ng kumpetisyon sa mga gawain na katulad ng landscape sa bukas at ipinamamahaging web - sa mga gawain sa pagsasama ng data.

Paano naman ang isang regular na sistema ng impormasyon ng negosyo?

Posible ito, ngunit dapat, siyempre, magkaroon ng kamalayan sa kung anong mga problema ang kailangang lutasin ng kaukulang mga teknolohiya. Ilalarawan ko dito ang isang tipikal na reaksyon ng mga kalahok sa pag-unlad upang ipakita kung ano ang hitsura ng stack ng teknolohiyang ito mula sa punto ng view ng conventional IT. Ipinaalala sa akin ng kaunti ang talinghaga ng elepante:

  • Analyst ng negosyo: Ang RDF ay parang isang direktang nakaimbak na lohikal na modelo.
  • Sistema ng Analyst: Ang RDF ay parang extension ng EAV, na may isang grupo ng mga index at isang maginhawang wika ng query.
  • Developer: well, lahat ito ay nasa diwa ng mga konsepto ng rich model at low code, ay nagbabasa kamakailan tungkol dito.
  • Tagapamahala ng proyekto: oo pareho lang pagbagsak ng stack!

Ipinapakita ng pagsasanay na ang stack ay kadalasang ginagamit sa mga gawaing nauugnay sa pamamahagi at heterogeneity ng data, halimbawa, kapag bumubuo ng mga sistema ng klase ng MDM (Master Data Management) o DWH (Data Warehouse). Ang ganitong mga problema ay umiiral sa anumang industriya.

Sa mga tuntunin ng mga application na partikular sa industriya, ang mga teknolohiya ng Linked Data ay kasalukuyang pinakasikat sa mga sumusunod na industriya.

  • biomedical na teknolohiya (kung saan ang kanilang kasikatan ay tila nauugnay sa pagiging kumplikado ng domain);

kasalukuyang

Ang "Boiling Point" ay nag-host kamakailan ng isang kumperensya na inorganisa ng "National Medical Knowledge Base" association "Pinagsasama-sama ang ontologies. Mula sa teorya hanggang sa praktikal na aplikasyon'.

  • produksyon at pagpapatakbo ng mga kumplikadong produkto (malaking mechanical engineering, produksyon ng langis at gas; kadalasang pinag-uusapan natin ang pamantayan ISO 15926);

kasalukuyang

Dito rin, ang dahilan ay ang pagiging kumplikado ng lugar ng paksa, kapag, halimbawa, sa upstream na yugto, kung pinag-uusapan natin ang industriya ng langis at gas, ang simpleng accounting ay nangangailangan ng ilang mga function ng CAD.

Noong 2008, naganap ang isang kinatawan na kaganapan sa pag-install, na inayos ng Chevron pagpupulong.

Ang ISO 15926, sa huli, ay tila medyo mabigat sa industriya ng langis at gas (at natagpuan marahil ang mas malaking aplikasyon sa mechanical engineering). Tanging ang Statoil (Equinor) lamang ang na-hook dito; sa Norway, isang buo ecosystem. Sinusubukan ng iba na gawin ang kanilang sariling bagay. Halimbawa, ayon sa mga alingawngaw, ang domestic Ministry of Energy ay nagnanais na lumikha ng isang "conceptual ontological model ng fuel at energy complex," katulad, tila, sa nilikha para sa industriya ng kuryente.

  • mga organisasyong pinansyal (kahit ang XBRL ay maaaring ituring na isang uri ng hybrid ng SDMX at ang RDF Data Cube ontology);

kasalukuyang

Sa simula ng taon, aktibong na-spam ng LinkedIn ang may-akda ng mga bakante mula sa halos lahat ng mga higante ng industriya ng pananalapi, na kilala niya mula sa serye sa TV na "Force Majeure": Goldman Sachs, JPMorgan Chase at/o Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Marahil ang lahat ay naghahanap ng isang taong maaari nilang ipadala Kumperensya ng Graph ng Kaalaman. Medyo marami ang nakahanap: kinuha ng mga organisasyong pinansyal ang lahat umaga ng unang araw.

Sa HeadHunter, tanging ang Sberbank ang nakatagpo ng isang bagay na kawili-wili; ito ay tungkol sa "EAV storage na may isang modelo ng data na tulad ng RDF."

Marahil, ang pagkakaiba sa antas ng pagmamahal para sa mga kaukulang teknolohiya ng domestic at Western financial institutions ay dahil sa transnational na katangian ng mga aktibidad ng huli. Tila, ang pagsasama-sama sa mga hangganan ng estado ay nangangailangan ng magkakaibang mga solusyong pang-organisasyon at teknikal.

  • mga sistema ng tanong-sagot na may mga komersyal na aplikasyon (IBM Watson, Apple Siri, Google Knowledge Graph);

kasalukuyang

Siyanga pala, ang lumikha ng Siri, si Thomas Gruber, ay ang may-akda ng mismong kahulugan ng ontology (sa kahulugan ng IT) bilang isang "espesipikasyon ng conceptualization." Sa aking palagay, ang muling pagsasaayos ng mga salita sa kahulugang ito ay hindi nagbabago ng kahulugan nito, na marahil ay nagpapahiwatig na wala ito.

  • paglalathala ng nakabalangkas na data (na may higit na katwiran ay maiuugnay ito sa Linked Open Data).

kasalukuyang

Ang mga malalaking tagahanga ng Linked Data ay ang tinatawag na GLAM: Mga Galeriya, Aklatan, Archive, at Museo. Sapat na sabihin na ang Aklatan ng Kongreso ay nagsusulong ng isang kapalit para sa MARC21 BIBFRAMEAlin nagbibigay ng pundasyon para sa hinaharap ng paglalarawan ng bibliograpiko at, siyempre, batay sa RDF.

Ang Wikidata ay madalas na binabanggit bilang isang halimbawa ng isang matagumpay na proyekto sa larangan ng Linked Open Data - isang uri ng nababasa ng makina na bersyon ng Wikipedia, ang nilalaman nito, sa kaibahan sa DBPedia, ay hindi nabuo sa pamamagitan ng pag-import mula sa mga infobox ng artikulo, ngunit ito ay ginawa nang higit pa o mas kaunti nang manu-mano (at pagkatapos ay naging isang mapagkukunan ng impormasyon para sa parehong mga infobox).

Inirerekomenda din namin na suriin mo ito listahan mga gumagamit ng imbakan ng Stardog RDF sa website ng Stardog sa seksyong "Mga Customer."

Maging ganoon man, sa Gartner Hype Cycle para sa mga Umuusbong na Teknolohiya 2016 Ang "Enterprise Taxonomy and Ontology Management" ay inilalagay sa gitna ng pagbaba sa lambak ng pagkabigo na may pag-asang maabot ang isang "productivity plateau" nang hindi mas maaga kaysa sa 10 taon.

Pagkonekta ng Data ng Enterprise

Mga hula, hula, hula...

Dahil sa makasaysayang interes, nag-tabulate ako sa ibaba ng mga pagtataya ni Gartner sa iba't ibang taon sa mga teknolohiyang interesado sa amin.

Taon ВСхнология Iulat Posisyon Taon hanggang talampas
2001 Semantiko Web Umuusbong na teknolohiya Trigger ng Innovation 5-10
2006 Corporate Semantic Web Umuusbong na teknolohiya Peak of Inflated Expectations 5-10
2012 Semantiko Web Big Data Peak of Inflated Expectations > 10
2015 Naka-link na Data Advanced na Analytics at Data Science Paghupa ng Disillusionment 5-10
2016 Pamamahala ng Enterprise Ontology Umuusbong na teknolohiya Paghupa ng Disillusionment > 10
2018 Mga Kaalaman ng Kaalaman Umuusbong na teknolohiya Trigger ng Innovation 5-10

Gayunpaman, nakapasok na "Hype Cycle..." 2018 isa pang pataas na kalakaran ang lumitaw - Mga Graph ng Kaalaman. Ang isang tiyak na reinkarnasyon ay naganap: graph DBMS, kung saan ang atensyon ng mga gumagamit at ang mga pagsisikap ng mga developer ay lumipat, sa ilalim ng impluwensya ng mga kahilingan ng una at ang mga gawi ng huli, ay nagsimulang kumuha ng mga contour at pagpoposisyon. ng kanilang mga naunang katunggali.

Halos lahat ng graph DBMS ay nagdedeklara na ngayon ng sarili bilang isang angkop na platform para sa pagbuo ng isang corporate "knowledge graph" ("naka-link na data" kung minsan ay pinapalitan ng "nakakonektang data"), ngunit gaano katuwiran ang mga naturang claim?

Ang mga database ng graph ay asemantic pa rin; ang data sa isang graph na DBMS ay pareho pa rin ng data silo. Ginagawa ng mga string identifier sa halip na mga URI ang gawain ng pagsasama ng dalawang graph na DBMS na isang gawain pa rin sa pagsasama, habang ang pagsasama ng dalawang RDF store ay kadalasang bumababa sa simpleng pagsasama ng dalawang RDF graph. Ang isa pang aspeto ng asemanticity ay ang hindi reflexivity ng LPG graph model, na nagpapahirap sa pamamahala ng metadata gamit ang parehong platform.

Sa wakas, ang mga graph DBMS ay walang inference engine o rule engine. Ang mga resulta ng naturang mga makina ay maaaring kopyahin sa pamamagitan ng kumplikadong mga query, ngunit ito ay posible kahit na sa SQL.

Gayunpaman, ang nangungunang mga sistema ng imbakan ng RDF ay walang kahirapan sa pagsuporta sa modelo ng LPG. Ang pinakamatibay na diskarte ay itinuturing na ang isa na iminungkahi sa isang pagkakataon sa Blazegraph: ang RDF* na modelo, na pinagsasama ang RDF at LPG.

pa

Maaari kang magbasa nang higit pa tungkol sa suporta sa imbakan ng RDF para sa modelo ng LPG sa nakaraang artikulo sa HabrΓ©: "Ano ang nangyayari sa imbakan ng RDF ngayon". Umaasa ako na isang araw ay isang hiwalay na artikulo ang isusulat tungkol sa Mga Graph ng Kaalaman at Data Fabric. Ang huling seksyon, na madaling maunawaan, ay isinulat nang nagmamadali, gayunpaman, kahit na anim na buwan mamaya, ang lahat ay hindi mas malinaw sa mga konseptong ito.

Panitikan

  1. Halpin, H., Monnin, A. (eds.) (2014). Philosophical Engineering: Tungo sa Pilosopiya ng Web
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2nd ed.)
  3. Staab, S., Studer, R. (eds.) (2009) Handbook on Ontologies (2nd ed.)
  4. Wood, D. (ed.). (2011) Pag-uugnay ng Data ng Enterprise
  5. Keet, M. (2018) Isang Panimula sa Ontology Engineering

Pinagmulan: www.habr.com

Magdagdag ng komento