Ueb semantik dhe të dhëna të lidhura. Korrigjime dhe shtesa

Dëshiroj t'i prezantoj publikut një fragment të këtij libri të botuar së fundmi:

Modelimi ontologjik i një ndërmarrje: metoda dhe teknologji [Teksti]: monografi / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak e të tjerë; redaktori ekzekutiv S.V. Gorshkov]. - Ekaterinburg: Shtëpia Botuese e Universitetit Ural, 2019. - 234 f.: ill., tabela; 20 cm - Autor. tregohet në gjizën e pasme. Me. - Bibliografi në fund të kapitullit. — ISBN 978-5-7996-2580-1: 200 kopje.

Qëllimi i postimit të këtij fragmenti në Habré është i katërfishtë:

  • Nuk ka gjasa që dikush të jetë në gjendje ta mbajë këtë libër në duar nëse ai nuk është klient i një të respektuari SergeIndex; Sigurisht që nuk është në shitje.
  • Teksti janë bërë korrigjime (nuk janë theksuar më poshtë) dhe janë bërë shtesa që nuk përputhen fort me formatin e një monografie të printuar: shënime për temën (nën spoiler) dhe lidhje hiperlidhjesh.
  • unë dua të mbledhin pyetje dhe komente, në mënyrë që të merren parasysh kur përfshihet ky tekst në formë të rishikuar në çdo botim tjetër.
  • Shumë adhurues të Uebit Semantik dhe të Dhënave të Lidhura ende besojnë se rrethi i tyre është kaq i ngushtë, kryesisht sepse publikut të gjerë ende nuk i është shpjeguar siç duhet se sa e mrekullueshme është të jesh një aderues i Uebit Semantik dhe të Dhënave të Lidhura. Autori i fragmentit, ndonëse i përket këtij rrethi, nuk mban këtë mendim, por, megjithatë, e konsideron veten të detyruar të bëjë një përpjekje tjetër.

Pra,

Rrjet semantik

Evolucioni i Internetit mund të përfaqësohet si më poshtë (ose të flasim për segmentet e tij që u formuan në rendin e treguar më poshtë):

  1. Dokumentet në internet. Teknologjitë kryesore - Gopher, FTP, etj.
    Interneti është një rrjet global për shkëmbimin e burimeve lokale.
  2. Dokumentet e internetit. Teknologjitë kryesore janë HTML dhe HTTP.
    Natyra e burimeve të ekspozuara merr parasysh karakteristikat e mjetit të transmetimit të tyre.
  3. Të dhënat e internetit. Teknologjitë kryesore - REST dhe SOAP API, XHR, etj.
    Epoka e aplikacioneve të internetit, jo vetëm njerëzit bëhen konsumatorë të burimeve.
  4. Të dhënat e internetit. Teknologjitë kryesore janë teknologjitë e të dhënave të lidhura.
    Kjo fazë e katërt, e parashikuar nga Berners-Lee, krijuesi i teknologjive të dytë bazë dhe drejtori i W3C, quhet Uebi Semantik; Teknologjitë e të dhënave të lidhura janë krijuar për t'i bërë të dhënat në ueb jo vetëm të lexueshme nga makineritë, por edhe "të kuptueshme nga makina".

Nga sa vijon, lexuesi do të kuptojë korrespondencën midis koncepteve kryesore të fazës së dytë dhe të katërt:

  • URL-të janë analoge me URI-të,
  • analogu i HTML është RDF,
  • Hiperlidhjet HTML janë të ngjashme me dukuritë URI në dokumentet RDF.

Semantic Web është më shumë një vizion sistematik i së ardhmes së internetit sesa një prirje specifike spontane ose e lobuar, megjithëse mund t'i marrë parasysh këto të fundit. Për shembull, një karakteristikë e rëndësishme e asaj që quhet Web 2.0 konsiderohet të jetë "përmbajtja e krijuar nga përdoruesit". Në veçanti, rekomandimi i W3C kërkohet ta marrë parasysh atë "Ontologjia e shënimeve në ueb"dhe një sipërmarrje të tillë si I fortë.

A është i vdekur Ueb-i Semantik?

Nëse refuzoni pritjet joreale, situata me rrjetin semantik është afërsisht e njëjtë si me komunizmin në kohët e socializmit të zhvilluar (dhe nëse respektohet besnikëria ndaj porosive të kushtëzuara të Ilyich-it, le të vendosë secili vetë). Motorë kërkimi me mjaft sukses detyrojnë faqet e internetit të përdorin RDFa dhe JSON-LD dhe vetë përdorin teknologji që lidhen me ato të përshkruara më poshtë (Grafiku i njohurive të Google, Grafiku i njohurive Bing).

Në përgjithësi, autori nuk mund të thotë se çfarë e pengon përhapjen më të madhe, por mund të flasë në bazë të përvojës personale. Ka probleme që mund të zgjidheshin “jashtë kutisë” në kushtet e ofensivës së SW, megjithëse nuk janë shumë të përhapura. Si rezultat, ata që përballen me këto detyra nuk kanë asnjë mjet shtrëngimi ndaj atyre që janë në gjendje të japin një zgjidhje, ndërkohë që dhënia e pavarur e zgjidhjes nga këta të fundit bie ndesh me modelet e tyre të biznesit. Pra, ne vazhdojmë të analizojmë HTML dhe të ngjitim API-të e ndryshme, njëri-tjetrin më keq.

Megjithatë, teknologjitë e të dhënave të lidhura janë përhapur përtej Uebit të zakonshëm; Libri, në fakt, u kushtohet këtyre aplikacioneve. Aktualisht, komuniteti i të dhënave të lidhura pret që këto teknologji të bëhen edhe më të përhapura falë regjistrimit (ose shpalljes, sipas dëshirës) nga Gartner të tendencave si p.sh. Grafikët e njohurive и Pëlhurë e të dhënave. Unë do të doja të besoja se nuk do të jenë zbatimet me "biçikletë" të këtyre koncepteve që do të jenë të suksesshme, por ato që lidhen me standardet e W3C të diskutuara më poshtë.

Të dhëna të lidhura

Berners-Lee përcaktoi të Dhënat e Lidhura si rrjetin semantik "të bërë siç duhet": një grup qasjesh dhe teknologjish që i lejojnë të arrijë qëllimet e tij përfundimtare. Parimet themelore të të dhënave të lidhura Berners-Lee të theksuara në vijim.

Parimi 1. Përdorimi i URI-ve për të emërtuar entitete.

URI-të janë identifikues global të entitetit në krahasim me identifikuesit lokal të vargut për hyrjet. Më pas, ky parim u shpreh më së miri në sloganin Google Knowledge Graph "gjëra, jo vargje'.

Parimi 2. Përdorimi i URI-ve në skemën HTTP në mënyrë që ato të mund të çreferencohen.

Duke hyrë në një URI, duhet të jetë e mundur të merret shenja pas atij shenjuesi (analogjia me emrin e operatorit është e qartë këtu).*"në C); më saktësisht, për të marrë një përfaqësim të kësaj të theksuar - në varësi të vlerës së kokës HTTP Accept:. Ndoshta, me ardhjen e epokës AR/VR, do të jetë e mundur të merret vetë burimi, por tani për tani, ka shumë të ngjarë, do të jetë një dokument RDF, i cili është rezultat i ekzekutimit të një pyetjeje SPARQL DESCRIBE.

Parimi 3. Përdorimi i standardeve W3C - kryesisht RDF(S) dhe SPARQL - në veçanti kur çreferencohen URI-të.

Këto "shtresa" individuale të grumbullit të teknologjisë së të dhënave të lidhura, të njohura gjithashtu si Tortë me shtresa semantike në ueb, do të përshkruhet më poshtë.

Parimi 4. Përdorimi i referencave ndaj URI-ve të tjera kur përshkruajnë entitetet.

RDF ju lejon të kufizoni veten në një përshkrim verbal të një burimi në gjuhën natyrore, dhe parimi i katërt kërkon të mos e bëni këtë. Nëse parimi i parë respektohet universalisht, bëhet e mundur kur përshkruani një burim t'u referoheni të tjerëve, duke përfshirë ato "të huaja", prandaj të dhënat quhen të lidhura. Në fakt, është pothuajse e pashmangshme përdorimi i URI-ve të emërtuara në fjalorin RDFS.

RDF

RDF (Resource Description Framework) është një formalizëm për përshkrimin e entiteteve të ndërlidhura.

Deklaratat e tipit “subjekt-kallëzues-objekt”, të quajtura treshe, bëhen për entitetet dhe marrëdhëniet e tyre. Në rastin më të thjeshtë, subjekti, kallëzuesi dhe objekti janë të gjitha URI. E njëjta URI mund të jetë në pozicione të ndryshme në treshe të ndryshme: të jetë një subjekt, një kallëzues dhe një objekt; Kështu, treshe formojnë një lloj grafiku të quajtur graf RDF.

Subjektet dhe objektet mund të jenë jo vetëm URI, por edhe të ashtuquajturat nyje boshe, dhe objektet mund të jenë gjithashtu fjalë për fjalë. Literalet janë shembuj të llojeve primitive që përbëhen nga një paraqitje e vargut dhe një tregues tipi.

Shembuj të shkrimit literal (në sintaksën Turtle, më shumë rreth saj më poshtë): "5.0"^^xsd:float и "five"^^xsd:string. Literale me tip rdf:langString mund të pajiset edhe me një etiketë gjuhësore; në Turtle shkruhet kështu: "five"@en и "пять"@ru.

Nyjet e zbrazëta janë burime "anonime" pa identifikues globalë, për të cilat megjithatë mund të bëhen deklarata; lloj variablash ekzistenciale.

Pra (kjo është, në fakt, e gjithë pika e RDF):

  • subjekti është një URI ose një nyje boshe,
  • kallëzuesi është një URI,
  • objekti është një URI, një nyje boshe ose një literale.

Pse kallëzuesit nuk mund të jenë nyje boshe?

Arsyeja e mundshme është dëshira për të kuptuar dhe përkthyer joformalisht treshe në gjuhën e logjikës së kallëzuesit të rendit të parë s p o si diçka si Ueb semantik dhe të dhëna të lidhura. Korrigjime dhe shtesaKu Ueb semantik dhe të dhëna të lidhura. Korrigjime dhe shtesa - kallëzues, Ueb semantik dhe të dhëna të lidhura. Korrigjime dhe shtesa и Ueb semantik dhe të dhëna të lidhura. Korrigjime dhe shtesa - konstante. Gjurmët e këtij kuptimi janë në dokumentin "LBase: Semantika për Gjuhët e Uebit Semantik", e cila ka statusin e një shënimi të grupit të punës W3C. Me këtë kuptim, treshe s p []Ku [] - nyja e zbrazët, do të përkthehet si Ueb semantik dhe të dhëna të lidhura. Korrigjime dhe shtesaKu Ueb semantik dhe të dhëna të lidhura. Korrigjime dhe shtesa - variabël, por si të përkthehet pastaj s [] o? Dokument me statusin e rekomandimit të W3C "RDF 1.1 Semantika” ofron një metodë tjetër përkthimi, por ende nuk e konsideron mundësinë që kallëzuesit të jenë nyje boshe.

Megjithatë, Manu Sporni lejohet.

RDF është një model abstrakt. RDF mund të shkruhet (i serializuar) në sintaksa të ndryshme: RDF/XML, Breshkë (më i lexueshëm nga njeriu), JSON-LD, HDT (binare).

I njëjti RDF mund të serializohet në RDF/XML në mënyra të ndryshme, kështu që, për shembull, nuk ka kuptim të vërtetoni XML-në që rezulton duke përdorur XSD ose të përpiqeni të nxjerrni të dhëna duke përdorur XPath. Po kështu, JSON-LD nuk ka gjasa të kënaqë dëshirën e zhvilluesit mesatar të Javascript për të punuar me RDF duke përdorur shënimin e pikës dhe të kllapave katrore të Javascript (megjithëse JSON-LD lëviz në atë drejtim duke ofruar një mekanizëm inkuadrimi).

Shumica e sintaksave ofrojnë mënyra për të shkurtuar URI-të e gjata. Për shembull, një reklamë @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> në Turtle do t'ju lejojë të shkruani në vend të kësaj <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> просто rdf:type.

RDFS

RDFS (RDF Schema) - një fjalor bazë modelimi, prezanton konceptet e pronës dhe klasës dhe vetitë si p.sh. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Duke përdorur fjalorin RDFS, për shembull, mund të shkruhen shprehjet e vlefshme të mëposhtme:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS është një fjalor përshkrimi dhe modelimi, por nuk është një gjuhë kufizimi (edhe pse specifikimi zyrtar dhe gjethet mundësia e një përdorimi të tillë). Fjala "Skema" nuk duhet kuptuar në të njëjtin kuptim si në shprehjen "Skema XML". Për shembull, :author rdfs:range foaf:Person do të thotë se rdf:type të gjitha vlerat e pasurisë :author - foaf:Person, por nuk do të thotë se kjo duhet thënë paraprakisht.

SPARQL

SPARQL (SPARQL Protocol dhe RDF Query Language) - një gjuhë për kërkimin e të dhënave RDF. Në një rast të thjeshtë, një pyetje SPARQL është një grup mostrash me të cilat përputhen treshe të grafikut që kërkohet. Modelet mund të përmbajnë variabla në pozicionet e temës, kallëzuesit dhe objektit.

Kërkesa do të kthejë vlera të tilla të ndryshueshme që, kur zëvendësohen në mostra, mund të rezultojnë në një nëngraf të grafikut RDF të kërkuar (një nëngrup i treshave të tij). Variablat me të njëjtin emër në mostra të ndryshme të trinjakëve duhet të kenë të njëjtat vlera.

Për shembull, duke pasur parasysh grupin e mësipërm të shtatë aksiomave RDFS, pyetja e mëposhtme do të kthehet rdfs:domain и rdfs:range si vlera ?s и ?p përkatësisht:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Vlen të përmendet se SPARQL është deklarativ dhe nuk është një gjuhë për të përshkruar kalimin e grafikëve (megjithatë, disa depo RDF ofrojnë mënyra për të rregulluar planin e ekzekutimit të pyetjeve). Prandaj, disa probleme standarde të grafikut, për shembull, gjetja e rrugës më të shkurtër, nuk mund të zgjidhen në SPARQL, duke përfshirë përdorimin e shtigjet e pronës (por, përsëri, depot individuale RDF ofrojnë zgjerime të veçanta për të zgjidhur këto probleme).

SPARQL nuk ndan prezumimin e hapjes së botës dhe ndjek qasjen "negimi si dështim", në të cilin të mundshme dizajne të tilla si FILTER NOT EXISTS {…}. Shpërndarja e të dhënave merret parasysh duke përdorur mekanizmin pyetjet e federuara.

Pika e hyrjes SPARQL - një ruajtje RDF e aftë për të përpunuar pyetjet SPARQL - nuk ka analoge të drejtpërdrejta nga faza e dytë (shih fillimin e këtij paragrafi). Mund të krahasohet me një bazë të dhënash, bazuar në përmbajtjen e së cilës janë krijuar faqet HTML, por të aksesueshme nga jashtë. Pika e hyrjes SPARQL është më analoge me pikën e hyrjes API nga faza e tretë, por me dy dallime kryesore. Së pari, është e mundur të kombinohen disa pyetje "atomike" në një (që konsiderohet një karakteristikë kryesore e GraphQL), dhe së dyti, një API e tillë është plotësisht e vetë-dokumentuar (gjë që u përpoq të arrinte HATEOAS).

Vërejtje polemike

RDF është një mënyrë për të publikuar të dhënat në ueb, kështu që ruajtja RDF duhet të konsiderohet si një DBMS dokumentesh. Vërtetë, meqenëse RDF është një grafik dhe jo një pemë, ato gjithashtu rezultuan të jenë të bazuara në grafik. Është e mahnitshme që funksionoi fare. Kush do ta kishte menduar se do të kishte njerëz të zgjuar që do të zbatonin nyjet bosh. Codd është këtu nuk funksionoi.

Ekzistojnë gjithashtu mënyra më pak të plota për të organizuar aksesin në të dhënat RDF, për shembull, Fragmente të lidhura të të dhënave (LDF) dhe Platforma e të dhënave të lidhura (LDP).

OWL

OWL (Gjuha e ontologjisë në internet) - një formalizëm për përfaqësimin e njohurive, një version sintaksor i logjikës së përshkrimit Ueb semantik dhe të dhëna të lidhura. Korrigjime dhe shtesa (kudo më poshtë është më e saktë të thuhet OWL 2, versioni i parë i OWL u bazua në Ueb semantik dhe të dhëna të lidhura. Korrigjime dhe shtesa).

Konceptet e logjikës përshkruese në OWL korrespondojnë me klasat, rolet korrespondojnë me vetitë, individët ruajnë emrin e tyre të mëparshëm. Aksiomat quhen edhe aksioma.

Për shembull, në të ashtuquajturat Sintaksa e Mançesterit për shënimin OWL një aksiomë tashmë e njohur për ne Ueb semantik dhe të dhëna të lidhura. Korrigjime dhe shtesa do të shkruhet kështu:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Ka sintaksa të tjera për të shkruar OWL, si p.sh sintaksë funksionale, e përdorur në specifikimet zyrtare, dhe OWL/XML. Për më tepër, OWL mund të serializohet për të abstraktuar sintaksën RDF dhe më tej - në ndonjë nga sintaksat specifike.

OWL ka një marrëdhënie të dyfishtë me RDF. Nga njëra anë, ai mund të konsiderohet si një lloj fjalori që shtrin RDFS. Nga ana tjetër, është një formalizëm më i fuqishëm për të cilin RDF është thjesht një format serializimi. Jo të gjitha konstruktet elementare OWL mund të shkruhen duke përdorur një treshe të vetme RDF.

Varësisht se cili nëngrup i konstrukteve OWL lejohet të përdoret, ato flasin për të ashtuquajturat Profilet e OWL. Të standardizuarat dhe më të famshmit janë OWL EL, OWL RL dhe OWL QL. Zgjedhja e profilit ndikon në kompleksitetin llogaritës të problemeve tipike. Një grup i plotë konstruksionesh OWL që korrespondojnë me Ueb semantik dhe të dhëna të lidhura. Korrigjime dhe shtesa, i quajtur OWL DL. Ndonjëherë ata flasin edhe për OWL Full, në të cilën konstruktet OWL lejohen të përdoren me lirinë e plotë të natyrshme në RDF, pa kufizime semantike dhe llogaritëse. Ueb semantik dhe të dhëna të lidhura. Korrigjime dhe shtesa. Për shembull, diçka mund të jetë njëkohësisht një klasë dhe një pronë. OWL Full është i pavendosur.

Parimet kryesore për bashkëngjitjen e pasojave në OWL janë miratimi i supozimit të botës së hapur. O.W.A.) dhe refuzimi i supozimit të emrave unikë (supozimi i emrit unik, A). Më poshtë do të shohim se ku mund të çojnë këto parime dhe do të prezantojmë disa konstruksione OWL.

Lëreni ontologjinë të përmbajë fragmentin e mëposhtëm (në sintaksën Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

A do të rrjedhë nga ajo që u tha se Gjoni ka shumë fëmijë? Refuzimi i UNA do të detyrojë motorin e konkluzionit t'i përgjigjet kësaj pyetjeje negativisht, pasi Alice dhe Bob mund të jenë i njëjti person. Që të ndodhë sa më poshtë, është e nevojshme të shtoni aksiomën e mëposhtme:

DifferentIndividuals: Alice, Bob, Carol, John

Tani fragmenti ontologjik të ketë formën e mëposhtme (Gjoni deklarohet se ka shumë fëmijë, por ai ka vetëm dy fëmijë):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

A do të jetë kjo ontologji jokonsistente (e cila mund të interpretohet si dëshmi e të dhënave të pavlefshme)? Pranimi i OWA do të bëjë që motori i konkluzionit të përgjigjet negativisht: "diku" tjetër (në një ontologji tjetër) mund të thuhet fare mirë se Carol është gjithashtu fëmija i Gjonit.

Për të përjashtuar mundësinë e kësaj, le të shtojmë një fakt të ri për Gjonin:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Për të përjashtuar pamjen e fëmijëve të tjerë, le të themi se të gjitha vlerat e pronës “të kesh një fëmijë” janë njerëz, nga të cilët kemi vetëm katër:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Tani ontologjia do të bëhet kontradiktore, të cilën motori i konkluzionit nuk do të dështojë ta raportojë. Me aksiomat e fundit ne e kemi “mbyllur” botën në njëfarë mënyre dhe vërejmë se si përjashtohet mundësia që Gjoni të jetë fëmija i tij.

Lidhja e të dhënave të ndërmarrjes

Grupi i qasjeve dhe teknologjive të të dhënave të lidhura fillimisht ishte menduar për publikimin e të dhënave në ueb. Përdorimi i tyre në një mjedis të brendshëm të korporatës përballet me një sërë vështirësish.

Për shembull, në një mjedis të mbyllur korporativ, fuqia deduktive e OWL bazuar në miratimin e OWA dhe refuzimin e UNA, vendime për shkak të natyrës së hapur dhe të shpërndarë të Uebit, është shumë e dobët. Dhe këtu janë të mundshme zgjidhjet e mëposhtme.

  • Pajisja e OWL me semantikë, që nënkupton braktisjen e OWA dhe miratimin e UNA, zbatimin e motorit përkatës të daljes. - Në këtë rrugë shkon Ruajtja e Stardog RDF.
  • Braktisja e aftësive deduktive të OWL në favor të motorëve të rregullave. - Stardog mbështet SWRL; Oferta Jena dhe GraphDB vet Gjuhë rregullat
  • Refuzimi i aftësive deduktive të OWL, përdorimi i një ose një nëngrupi tjetër afër RDFS për modelim. - Shihni më shumë rreth kësaj më poshtë.

Një çështje tjetër është fokusi më i madh që bota e korporatave mund të ketë në çështjet e cilësisë së të dhënave dhe mungesa e mjeteve të vërtetimit të të dhënave në grupin e të dhënave të lidhura. Rezultatet këtu janë si më poshtë.

  • Përsëri, përdorni për vërtetimin e konstruksioneve OWL me semantikë të botës së mbyllur dhe emra unikë nëse disponohet një motor i përshtatshëm konkluzionesh.
  • Përdorim SHACL, i standardizuar pasi të jetë fiksuar lista e shtresave të tortës së shtresave të uebit Semantic (megjithatë, mund të përdoret gjithashtu si një motor rregullash), ose ShEx.
  • Të kuptuarit se gjithçka në fund të fundit bëhet me pyetjet SPARQL, duke krijuar mekanizmin tuaj të thjeshtë të vërtetimit të të dhënave duke i përdorur ato.

Megjithatë, edhe një refuzim i plotë i aftësive deduktive dhe mjeteve të vlefshmërisë e lë të dhënat e lidhura jashtë konkurrencës në detyra që janë të ngjashme në peizazh me detyrat e uebit të hapur dhe të shpërndarë - në detyrat e integrimit të të dhënave.

Po në lidhje me një sistem të rregullt informacioni të ndërmarrjes?

Kjo është e mundur, por sigurisht që duhet të jeni të vetëdijshëm se cilat probleme do të duhet të zgjidhin teknologjitë përkatëse. Unë do të përshkruaj këtu një reagim tipik të pjesëmarrësve të zhvillimit për të treguar se si duket kjo grumbull teknologjie nga pikëpamja e TI-së konvencionale. Më kujton pak shëmbëlltyrën e elefantit:

  • ANALIST Biznesi: RDF është diçka si një model logjik i ruajtur drejtpërdrejt.
  • Analist i Sistemeve: RDF është si Zgjatja EAV, vetëm me një mori indeksesh dhe një gjuhë të përshtatshme pyetjesh.
  • Zhvilluesi: Epo, kjo është e gjitha në frymën e koncepteve të modelit të pasur dhe kodit të ulët, lexoj kohët e fundit për këtë.
  • Menaxheri i projektit: po njesoj eshte duke shembur pirgun!

Praktika tregon se pirgja përdoret më shpesh në detyrat që lidhen me shpërndarjen dhe heterogjenitetin e të dhënave, për shembull, kur ndërtoni sisteme të klasës MDM (Master Data Management) ose DWH (Data Warehouse). Probleme të tilla ekzistojnë në çdo industri.

Për sa i përket aplikacioneve specifike të industrisë, teknologjitë e të dhënave të lidhura janë aktualisht më të njohura në industritë e mëposhtme.

  • teknologjitë biomjekësore (ku popullariteti i tyre duket se lidhet me kompleksitetin e domenit);

aktuale

“Pika e vlimit” së fundi priti një konferencë të organizuar nga shoqata “National Medical Knowledge Base”Kombinimi i ontologjive. Nga teoria në zbatimin praktik'.

  • prodhimi dhe funksionimi i produkteve komplekse (inxhinieri e madhe mekanike, prodhimi i naftës dhe gazit; më shpesh po flasim për standarde ISO 15926);

aktuale

Edhe këtu, arsyeja është kompleksiteti i fushës së lëndës, kur, për shembull, në fazën e sipërme, nëse flasim për industrinë e naftës dhe gazit, kontabiliteti i thjeshtë kërkon disa funksione CAD.

Në vitin 2008, u zhvillua një ngjarje përfaqësuese e instalimit, e organizuar nga Chevron konferenca.

ISO 15926, në fund, dukej paksa e rëndë për industrinë e naftës dhe gazit (dhe gjeti ndoshta aplikim më të madh në inxhinierinë mekanike). Vetëm Statoil (Equinor) u lidh plotësisht me të; në Norvegji, një e tërë ekosistemit. Të tjerët po përpiqen të bëjnë gjënë e tyre. Për shembull, sipas thashethemeve, Ministria e brendshme e Energjisë synon të krijojë një "model konceptual ontologjik të kompleksit të karburantit dhe energjisë", i ngjashëm, me sa duket, me krijuar për industrinë e energjisë elektrike.

  • organizatat financiare (edhe XBRL mund të konsiderohet si një lloj hibridi i SDMX dhe ontologjisë RDF Data Cube);

aktuale

Në fillim të vitit, LinkedIn e spamoi në mënyrë aktive autorin me vende të lira pune nga pothuajse të gjithë gjigantët e industrisë financiare, të cilët ai i njeh nga seritë televizive "Force Majeure": Goldman Sachs, JPMorgan Chase dhe/ose Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Ndoshta të gjithë po kërkonin dikë që mund t'i dërgonin Konferenca e Grafikut të Njohurive. Shumë pak arritën të gjenin: organizatat financiare morën gjithçka mëngjesin e ditës së parë.

Në HeadHunter, vetëm Sberbank hasi në diçka interesante; ishte për "ruajtjen EAV me një model të dhënash të ngjashme me RDF".

Ndoshta, ndryshimi në shkallën e dashurisë për teknologjitë përkatëse të institucioneve financiare vendase dhe perëndimore është për shkak të natyrës transnacionale të aktiviteteve të këtyre të fundit. Me sa duket, integrimi përtej kufijve shtetërorë kërkon zgjidhje cilësore të ndryshme organizative dhe teknike.

  • sisteme pyetje-përgjigje me aplikacione komerciale (IBM Watson, Apple Siri, Google Knowledge Graph);

aktuale

Nga rruga, krijuesi i Siri, Thomas Gruber, është autori i vetë përkufizimit të ontologjisë (në kuptimin e IT) si një "specifikim konceptualizimi". Sipas mendimit tim, rirregullimi i fjalëve në këtë përkufizim nuk e ndryshon kuptimin e tij, gjë që ndoshta tregon se ai nuk është aty.

  • publikimi i të dhënave të strukturuara (me arsyetim më të madh kjo mund t'i atribuohet të dhënave të hapura të lidhura).

aktuale

Adhuruesit e mëdhenj të të dhënave të lidhura janë të ashtuquajturat GLAM: Galeritë, Bibliotekat, Arkivat dhe Muzetë. Mjafton të thuhet se Biblioteka e Kongresit po promovon një zëvendësim për MARC21 BIBFRAMECila ofron një bazë për të ardhmen e përshkrimit bibliografik dhe, natyrisht, bazuar në RDF.

Wikidata përmendet shpesh si një shembull i një projekti të suksesshëm në fushën e të dhënave të hapura të lidhura - një lloj versioni i Wikipedia-s i lexueshëm nga makineri, përmbajtja e së cilës, ndryshe nga DBPedia, nuk gjenerohet nga importi nga kutitë e informacionit të artikujve, por është krijuar pak a shumë manualisht (dhe më pas bëhet burim informacioni për të njëjtat kuti informacioni).

Ne ju rekomandojmë gjithashtu që ta kontrolloni listë përdoruesit e ruajtjes së Stardog RDF në faqen e internetit të Stardog në seksionin "Klientë".

Sido që të jetë, në Gartner Cikli i Hipe për teknologjitë në zhvillim 2016 "Taksonomia e Ndërmarrjeve dhe Menaxhimi i Ontologjisë" vendoset në mes të një zbritjeje në luginën e zhgënjimit me perspektivën për të arritur një "pllajë produktiviteti" jo më herët se në 10 vjet.

Lidhja e të dhënave të ndërmarrjes

Parashikime, parashikime, parashikime...

Për shkak të interesit historik, unë kam renditur më poshtë parashikimet e Gartner për vite të ndryshme mbi teknologjitë që na interesojnë.

Vit Технология Raporti Pozicion Vite në pllajë
2001 Rrjet semantik Teknologjitë në zhvillim Shkasja e inovacionit 5-10
2006 Ueb semantik i korporatës Teknologjitë në zhvillim Kulmi i pritjeve të fryra 5-10
2012 Rrjet semantik Të dhënat Big Kulmi i pritjeve të fryra > 10
2015 Të dhëna të lidhura Analiza e avancuar dhe Shkenca e të Dhënave Lugina e zhgënjimit 5-10
2016 Menaxhimi i Ontologjisë së Ndërmarrjeve Teknologjitë në zhvillim Lugina e zhgënjimit > 10
2018 Grafikët e njohurive Teknologjitë në zhvillim Shkasja e inovacionit 5-10

Megjithatë, tashmë në "Hype Cycle..." 2018 është shfaqur një trend tjetër rritës - Grafikët e njohurive. U zhvillua një rimishërim i caktuar: DBMS-të e grafikut, tek të cilët rezultoi se u zhvendos vëmendja e përdoruesve dhe përpjekjet e zhvilluesve, nën ndikimin e kërkesave të të parëve dhe zakoneve të të dytëve, filluan të marrin konturet dhe pozicionimin. të konkurrentëve të tyre paraardhës.

Pothuajse çdo grafik DBMS tani e deklaron veten një platformë të përshtatshme për ndërtimin e një "grafi njohurish" të korporatës ("të dhënat e lidhura" ndonjëherë zëvendësohen nga "të dhënat e lidhura"), por sa të justifikuara janë pretendime të tilla?

Bazat e të dhënave të grafikëve janë ende asmantike; të dhënat në një DBMS grafike janë ende i njëjti silos i të dhënave. Identifikuesit e vargut në vend të URI-ve e bëjnë detyrën e integrimit të dy DBMS-ve grafike ende një detyrë integrimi, ndërsa integrimi i dy dyqaneve RDF shpesh zbret në bashkimin e thjeshtë të dy grafëve RDF. Një aspekt tjetër i asmanticitetit është mosrefleksiviteti i modelit të grafikut LPG, gjë që e bën të vështirë menaxhimin e meta të dhënave duke përdorur të njëjtën platformë.

Së fundi, DBMS-të grafike nuk kanë motorë konkluzionesh ose motorë rregullash. Rezultatet e motorëve të tillë mund të riprodhohen duke komplikuar pyetjet, por kjo është e mundur edhe në SQL.

Megjithatë, sistemet kryesore të ruajtjes RDF nuk e kanë të vështirë të mbështesin modelin LPG. Qasja më solide konsiderohet të jetë ajo e propozuar në një kohë në Blazegraph: modeli RDF*, duke kombinuar RDF dhe LPG.

më shumë

Mund të lexoni më shumë rreth mbështetjes së ruajtjes RDF për modelin LPG në artikullin e mëparshëm në Habré: "Çfarë po ndodh me ruajtjen RDF tani". Shpresoj se një ditë do të shkruhet një artikull i veçantë për Grafikët e Njohurive dhe Fabrikën e të Dhënave. Pjesa e fundit, siç është e lehtë për t'u kuptuar, u shkrua me nxitim, megjithatë, edhe gjashtë muaj më vonë, gjithçka nuk është shumë më e qartë me këto koncepte.

Letërsi

  1. Halpin, H., Monnin, A. (red.) (2014). Inxhinieria Filozofike: Drejt një Filozofie të Uebit
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (editimi i dytë)
  3. Staab, S., Studer, R. (eds.) (2009) Manual mbi Ontologjitë (botim i 2-të)
  4. Wood, D. (red.). (2011) Lidhja e të dhënave të ndërmarrjes
  5. Keet, M. (2018) Një hyrje në inxhinierinë ontologjike

Burimi: www.habr.com

Shto një koment