Merkingarvefur og tengd gögn. Leiðréttingar og viðbætur

Mig langar að kynna fyrir almenningi brot af þessari nýútkomnu bók:

Verufræðileg líkan fyrirtækis: aðferðir og tækni [Texti]: monograph / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak og fleiri; framkvæmdastjóri S.V. Gorshkov]. - Ekaterinburg: Ural University Publishing House, 2019. - 234 s.: ill., table; 20 cm - Höfundur. tilgreint á aftari titlinum. Með. — Heimildaskrá í lok kap. — ISBN 978-5-7996-2580-1: 200 eintök.

Tilgangurinn með því að birta þetta brot á Habré er fjórþættur:

  • Það er ólíklegt að nokkur geti haldið þessari bók í höndunum ef hann er ekki skjólstæðingur virts SergeIndex; Það er örugglega ekki til sölu.
  • Leiðréttingar hafa verið gerðar á textanum (þær eru ekki auðkenndar hér að neðan) og viðbætur hafa verið gerðar sem eru ekki mjög samhæfðar sniði prentaðrar einrits: málefnalegar athugasemdir (undir spillingarmyndum) og tenglar.
  • Ég vil safna spurningum og athugasemdum, til að taka tillit til þeirra þegar þessi texti er tekinn upp á endurskoðuðu formi í öðrum ritum.
  • Margir fylgjendur merkingarvefs og tengdra gagna telja enn að hringur þeirra sé svo þröngur, aðallega vegna þess að almenningi hefur ekki enn verið útskýrt almennilega hversu frábært það er að vera fylgismaður merkingarvefsins og tengdra gagna. Höfundur brotsins, þótt hann tilheyri þessum hring, er ekki þessarar skoðunar, en telur sig þó skylt að gera aðra tilraun.

Svo,

Merkingavefur

Þróun internetsins er hægt að tákna sem hér segir (eða talaðu um hluti þess sem voru myndaðir í þeirri röð sem tilgreind er hér að neðan):

  1. Skjöl á Netinu. Lykiltækni - Gopher, FTP osfrv.
    Netið er alþjóðlegt net til að skiptast á staðbundnum auðlindum.
  2. Internet skjöl. Lykiltækni eru HTML og HTTP.
    Eðli óvarinna auðlinda tekur mið af eiginleikum flutningsmiðils þeirra.
  3. Internet gögn. Lykiltækni - REST og SOAP API, XHR osfrv.
    Tímabil internetforrita, ekki aðeins fólk verða neytendur auðlinda.
  4. Internet gögn. Lykiltækni er tengd gagnatækni.
    Þetta fjórða stig, spáð af Berners-Lee, skapara annarrar kjarnatækni og forstöðumaður W3C, er kallaður merkingarvefurinn; Tengd gagnatækni er hönnuð til að gera gögn á vefnum ekki aðeins véllesanleg heldur einnig „vélskiljanleg“.

Af því sem hér fer á eftir mun lesandinn skilja samsvörun milli lykilhugtaka annars og fjórða stigs:

  • Vefslóðir eru hliðstæðar URI,
  • hliðstæða HTML er RDF,
  • HTML tenglar eru svipaðir URI tilvik í RDF skjölum.

Merkingarvefurinn er meira kerfisbundin sýn á framtíð internetsins en tiltekin sjálfsprottinn eða álagður straumur, þó hann geti tekið tillit til þessara síðarnefndu. Til dæmis er mikilvægur eiginleiki þess sem kallast Web 2.0 talinn vera „notendamyndað efni“. Sérstaklega er beðið eftir tilmælum W3C að taka tillit til þeirra "Verufræði fyrir vefskýringar„og slíkt fyrirtæki eins og Solid.

Er merkingarvefurinn dauður?

Ef þú neitar óraunhæfar væntingar, staðan með merkingarvefinn er nokkurn veginn sú sama og með kommúnisma á tímum þróaðs sósíalisma (og hvort tryggð sé við skilyrtar fyrirmæli Ilyich, skulu allir ráða fyrir sig). Leitarvél nokkuð vel þvinga vefsíður til að nota RDFa og JSON-LD og nota sjálfar tækni sem tengist þeim sem lýst er hér að neðan (Google Knowledge Graph, Bing Knowledge Graph).

Almennt séð getur höfundur ekki sagt hvað kemur í veg fyrir meiri útbreiðslu en hann getur talað út frá persónulegri reynslu. Það eru vandamál sem hægt væri að leysa „út úr kassanum“ við aðstæður í sókn SV, þó þau séu ekki mjög útbreidd. Þar af leiðandi hafa þeir sem standa frammi fyrir þessum verkefnum engin þvingunartæki gegn þeim sem geta veitt lausn á meðan sjálfstæð lausn þeirra síðarnefndu stangast á við viðskiptamódel þeirra. Svo við höldum áfram að flokka HTML og líma saman ýmis API, hvert annað skítlegra.

Hins vegar hefur tengd gagnatækni breiðst út fyrir almennan vef; Bókin er í raun tileinkuð þessum forritum. Eins og er býst samfélag tengd gögnum við að þessi tækni verði enn útbreiddari þökk sé skráningu Gartner (eða boðun, eins og þú vilt) á straumum eins og Þekkingarmyndir и Gagnaefni. Ég vil trúa því að það verði ekki „hjóla“ útfærslur þessara hugmynda sem ná árangri, heldur þær sem tengjast W3C stöðlunum sem fjallað er um hér að neðan.

Tengd gögn

Berners-Lee skilgreindi tengd gögn sem merkingarvefinn „gert rétt“: safn aðferða og tækni sem gerir honum kleift að ná endanlegum markmiðum sínum. Grunnreglur tengdra gagna Berners-Lee auðkenndur eftirfarandi.

Meginregla 1. Notkun URI til að nefna einingar.

URI eru alþjóðleg einingaauðkenni öfugt við staðbundin strengaauðkenni fyrir færslur. Í kjölfarið kom þessi regla best fram í Google Knowledge Graph slagorðinu „hlutir, ekki strengir'.

Meginregla 2. Notkun URIs í HTTP kerfinu þannig að hægt sé að afvísa þeim.

Með því að fá aðgang að URI ætti að vera hægt að fá táknið á bak við þann táknara (líkingin við nafn rekstraraðilans er skýr hér).*"í C); nánar tiltekið, til að fá einhverja framsetningu á þessu merkta - allt eftir gildi HTTP haussins Accept:. Kannski, með tilkomu AR/VR tímabilsins, verður hægt að fá auðlindina sjálfa, en í bili mun það líklegast vera RDF skjal, sem er afleiðing af því að framkvæma SPARQL fyrirspurn DESCRIBE.

Meginregla 3. Notkun W3C staðla - fyrst og fremst RDF(S) og SPARQL - sérstaklega þegar URI er vísað frá.

Þessi einstöku „lög“ af tengdum gagnatæknistafla, einnig þekktur sem Merkingarfræðileg veflagkaka, verður lýst hér að neðan.

Meginregla 4. Notkun tilvísana í önnur URI þegar einingar eru lýst.

RDF gerir þér kleift að takmarka þig við munnlega lýsingu á auðlind á náttúrulegu máli og fjórða reglan kallar á að gera þetta ekki. Ef fyrstu meginreglunni er fylgt almennt, verður mögulegt þegar auðlind er lýst að vísa til annarra, þar á meðal „erlendra“, þess vegna eru gögnin kölluð tengd. Reyndar er nánast óhjákvæmilegt að nota URI sem nefnd eru í RDFS orðaforða.

RDF

RDF (Resource Description Framework) er formalismi til að lýsa innbyrðis tengdum aðilum.

Yfirlýsingar af gerðinni „subject-predicate-object“, kallaðar þríburar, eru settar fram um einingar og tengsl þeirra. Í einfaldasta tilvikinu eru viðfangsefnið, forsögnin og hluturinn öll URI. Sama URI getur verið á mismunandi stöðum í mismunandi þríburum: verið myndefni, forsaga og hlutur; Þannig mynda þríburarnir eins konar línurit sem kallast RDF línurit.

Viðfangsefni og hlutir geta ekki aðeins verið URI, heldur einnig svokölluð tómir hnútar, og hlutir geta líka verið bókstaflega. Bókstafir eru dæmi um frumstæðar gerðir sem samanstanda af strengjaframsetningu og tegundarvísi.

Dæmi um að skrifa bókstaflega (í Turtle setningafræði, meira um það hér að neðan): "5.0"^^xsd:float и "five"^^xsd:string. Bókstafir með leturgerð rdf:langString Einnig er hægt að útbúa tungumálamerki; í Turtle er það skrifað svona: "five"@en и "пять"@ru.

Tómir hnútar eru „nafnlausar“ auðlindir án alþjóðlegra auðkenna, sem þó er hægt að gera fullyrðingar um; eins konar tilvistarbreytur.

Svo (þetta er í rauninni allur tilgangurinn með RDF):

  • efni er URI eða tómur hnútur,
  • forlagið er URI,
  • hlutur er URI, tómur hnútur eða bókstafur.

Af hverju geta forsendur ekki verið tómir hnútar?

Líkleg ástæða er löngunin til að skilja óformlega og þýða þrískiptingu yfir á tungumál fyrsta stigs forsagnarrökfræði s p o eins og eitthvað eins og Merkingarvefur og tengd gögn. Leiðréttingar og viðbæturhvar Merkingarvefur og tengd gögn. Leiðréttingar og viðbætur - forsögn, Merkingarvefur og tengd gögn. Leiðréttingar og viðbætur и Merkingarvefur og tengd gögn. Leiðréttingar og viðbætur - fastar. Ummerki um þennan skilning eru í skjalinu “LBase: Merkingarfræði fyrir tungumál merkingarvefsins“, sem hefur stöðu athugasemdar W3C vinnuhóps. Með þessum skilningi, þríburinn s p []hvar [] - tómur hnútur, verður þýddur sem Merkingarvefur og tengd gögn. Leiðréttingar og viðbæturhvar Merkingarvefur og tengd gögn. Leiðréttingar og viðbætur - breytilegt, en hvernig á þá að þýða s [] o? Skjal með W3C meðmælastöðu "RDF 1.1 Merkingarfræði” býður upp á aðra þýðingaraðferð, en telur samt ekki möguleikann á því að forföll séu tómir hnútar.

Hins vegar Manu Sporni leyfilegt.

RDF er abstrakt líkan. RDF er hægt að skrifa (serialized) í ýmsum setningafræði: RDF/XML, Skjaldbaka (mest læsileg), JSON-LD, HDT (tvíundir).

Sama RDF er hægt að raðgreina í RDF/XML á mismunandi vegu, svo til dæmis er ekkert vit í að sannreyna XML sem myndast með XSD eða reyna að vinna út gögn með XPath. Sömuleiðis er ólíklegt að JSON-LD fullnægi löngun meðal Javascript þróunaraðila til að vinna með RDF með punkta- og hornklofa (þótt JSON-LD færist í þá átt með því að bjóða upp á vélbúnað innrömmun).

Flestar setningafræði bjóða upp á leiðir til að stytta langar URIs. Til dæmis auglýsing @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> í Turtle mun þá leyfa þér að skrifa í staðinn <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> bara rdf:type.

RDFS

RDFS (RDF Schema) - grunnorðaforði líkanagerðar, kynnir hugtökin eign og stétt og eiginleika eins og rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Með því að nota RDFS orðabókina, til dæmis, er hægt að skrifa eftirfarandi gild orð:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS er lýsingar- og líkanorðaforði, en er ekki þvingunartungumál (þó að opinbera forskriftin og laufblöð möguleiki á slíkri notkun). Orðið „Skema“ ætti ekki að skilja í sömu merkingu og í orðatiltækinu „XML Schema“. Til dæmis, :author rdfs:range foaf:Person þýðir að rdf:type allt fasteignaverð :author - foaf:Person, en þýðir ekki að þetta eigi að segja fyrirfram.

SPARQL

SPARQL (SPARQL Protocol og RDF Query Language) - tungumál til að spyrjast fyrir um RDF gögn. Í einföldu tilviki er SPARQL fyrirspurn safn sýnishorna sem þrír af línuritinu sem spurt er um eru pöruð saman við. Mynstur geta innihaldið breytur í myndefni, forsögn og hlutstöðu.

Fyrirspurnin mun skila slíkum breytugildum sem, þegar þau eru sett í sýnin, geta leitt til undirrits á RDF línuritinu sem leitað er að (undirmengi þríliða þess). Breytur með sama nafni í mismunandi sýnum þríliða verða að hafa sömu gildi.

Til dæmis, miðað við ofangreint sett af sjö RDFS meginreglum, mun eftirfarandi fyrirspurn koma aftur rdfs:domain и rdfs:range sem gildi ?s и ?p hver um sig:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Rétt er að taka fram að SPARQL er lýsandi og er ekki tungumál til að lýsa yfirferð á línuritum (sumar RDF geymslur bjóða hins vegar upp á leiðir til að stilla framkvæmdaráætlun fyrirspurna). Þess vegna er ekki hægt að leysa sum venjuleg grafvandamál, til dæmis að finna stystu leiðina, í SPARQL, þar á meðal með því að nota eignaleiðir (en aftur, einstakar RDF geymslur bjóða upp á sérstakar viðbætur til að leysa þessi vandamál).

SPARQL deilir ekki þeirri forsendu um opnun heimsins og fylgir nálguninni „neikun sem bilun“, þar sem mögulegt hönnun eins og FILTER NOT EXISTS {…}. Gagnadreifing er tekin með í reikninginn með því að nota vélbúnaðinn sambandsfyrirspurnir.

SPARQL aðgangsstaðurinn - RDF geymsla sem getur unnið úr SPARQL fyrirspurnum - hefur engar beinar hliðstæður frá öðru stigi (sjá upphaf þessarar málsgreinar). Það má líkja því við gagnagrunn, byggt á innihaldi sem HTML-síður voru búnar til, en aðgengilegur að utan. SPARQL aðgangsstaðurinn er hliðstæðari API aðgangsstaðnum frá þriðja stigi, en með tvennum meginmun. Í fyrsta lagi er hægt að sameina nokkrar „atomic“ fyrirspurnir í eina (sem er talið lykileinkenni GraphQL), og í öðru lagi er slíkt API algjörlega sjálfsskjalandi (sem er það sem HATEOAS reyndi að ná).

Polemísk athugasemd

RDF er leið til að birta gögn á vefnum, þannig að RDF geymsla ætti að teljast DBMS skjal. Að vísu, þar sem RDF er graf en ekki tré, reyndust þeir einnig byggjast á línuriti. Það er ótrúlegt að þetta hafi gengið eftir. Hverjum hefði dottið í hug að það væri til klárt fólk sem myndi útfæra auða hnúta. Codd er hér það gekk ekki upp.

Það eru líka ófullkomnar leiðir til að skipuleggja aðgang að RDF gögnum, til dæmis, Tengd gagnabrot (LDF) og Tengdur gagnavettvangur (LDP).

OWL

OWL (Web Ontology Language) - formalismi til að tákna þekkingu, setningafræðileg útgáfa af lýsingarrökfræði Merkingarvefur og tengd gögn. Leiðréttingar og viðbætur (alls staðar fyrir neðan er réttara að segja OWL 2, fyrsta útgáfan af OWL var byggð á Merkingarvefur og tengd gögn. Leiðréttingar og viðbætur).

Hugtök lýsandi rökfræði í OWL samsvara flokkum, hlutverk samsvara eiginleikum, einstaklingar halda fyrra nafni sínu. Axiom eru einnig kölluð axiom.

Til dæmis, í svokölluðu Manchester setningafræði fyrir UGLU nótnasetningu er axiom sem þegar er þekkt fyrir okkur Merkingarvefur og tengd gögn. Leiðréttingar og viðbætur verður skrifað svona:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Það eru önnur setningafræði til að skrifa OWL, svo sem starfræn setningafræði, notað í opinberu forskriftinni, og UGLA/XML. Að auki er hægt að raðgreina OWL til að draga úr RDF setningafræði og ennfremur - í hvaða tilteknu setningafræði sem er.

OWL hefur tvöfalt samband við RDF. Annars vegar má líta á hana sem eins konar orðabók sem framlengir RDFS. Aftur á móti er það öflugri formalismi sem RDF er bara raðgerðarsnið fyrir. Ekki er hægt að skrifa allar grunnbyggingar OWL með því að nota einn RDF þríliða.

Það fer eftir því hvaða undirmengi OWL smíða er leyft að nota, tala þeir um svokallaða OWL snið. Stöðluðu og frægustu eru OWL EL, OWL RL og OWL QL. Val á sniði hefur áhrif á flókið útreikninga dæmigerðra vandamála. Fullkomið sett af OWL smíðum sem samsvarar Merkingarvefur og tengd gögn. Leiðréttingar og viðbætur, sem heitir OWL DL. Stundum tala þeir líka um OWL Full, þar sem leyft er að nota OWL smíði með öllu frelsi sem felst í RDF, án merkingar- og reiknitakmarkana Merkingarvefur og tengd gögn. Leiðréttingar og viðbætur. Til dæmis getur eitthvað verið bæði flokkur og eign. OWL Full er óákveðið.

Lykilreglurnar til að festa afleiðingar í OWL eru innleiðing opna heimsins forsendu. O.W.A.) og höfnun á forsendu um einstök nöfn (einstök heiti, ONE). Hér að neðan munum við sjá hvert þessar meginreglur geta leitt og kynna nokkrar OWL smíðar.

Látum verufræðina innihalda eftirfarandi brot (í Manchester setningafræði):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Mun það leiða af því sem sagt hefur verið að Jóhannes eigi mörg börn? Að hafna UNA mun neyða ályktunarvélina til að svara þessari spurningu neitandi, þar sem Alice og Bob gætu vel verið sama manneskjan. Til þess að eftirfarandi geti átt sér stað er nauðsynlegt að bæta við eftirfarandi aðalatriði:

DifferentIndividuals: Alice, Bob, Carol, John

Látum nú verufræðibrotið hafa eftirfarandi form (Jón er sagður eiga mörg börn, en hann á aðeins tvö börn):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Verður þessi verufræði ósamræmi (sem má túlka sem vísbendingu um ógild gögn)? Að samþykkja OWA mun valda því að ályktunarvélin svarar neikvætt: „einhvers staðar“ annars staðar (í annarri verufræði) má vel segja að Carol sé líka barn Johns.

Til að útiloka möguleikann á þessu skulum við bæta við nýrri staðreynd um John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Til að útiloka útlit annarra barna skulum við segja að öll verðmæti eignarinnar „að eignast barn“ séu fólk, af þeim höfum við aðeins fjögur:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Nú mun verufræðin verða mótsagnakennd, sem ályktunarvélin mun ekki láta hjá líða að segja frá. Með síðasta axíóminu höfum við í vissum skilningi „lokað“ heiminum og tökum eftir því hvernig möguleikinn á að John sé sitt eigið barn er útilokaður.

Að tengja fyrirtækisgögn

Tengd gagnasafn nálgana og tækni var upphaflega ætlað til að birta gögn á vefnum. Notkun þeirra í innra fyrirtækjaumhverfi stendur frammi fyrir ýmsum erfiðleikum.

Til dæmis, í lokuðu fyrirtækjaumhverfi, er frádráttarvald OWL sem byggist á samþykkt OWA og höfnun UNA, ákvarðana vegna opins og dreifðs eðlis vefsins, of veik. Og hér eru eftirfarandi lausnir mögulegar.

  • Að gefa OWL merkingarfræði, sem gefur til kynna að OWA sé hætt og UNA verði samþykkt, útfærsla samsvarandi framleiðsluvélar. — Eftir þessari braut er að fara Stardog RDF geymsla.
  • Að yfirgefa frádráttargetu OWL í þágu regluvéla. — Stardog styður SWRL; Jena og GraphDB bjóða eiga tungumálum reglum
  • Neitun á frádráttargetu OWL, notkun á einu eða öðru undirmengi nálægt RDFS fyrir líkanagerð. - Sjá nánar um þetta hér að neðan.

Annað mál er meiri áhersla sem fyrirtækjaheimurinn kann að hafa á gagnagæðamálum og skortur á gagnaprófunarverkfærum í tengdum gagnastaflanum. Úttakið hér er sem hér segir.

  • Aftur, notaðu til að sannprófa OWL smíði með merkingarfræði í lokuðum heimi og einstökum nöfnum ef viðeigandi ályktunarvél er tiltæk.
  • Nota SHACL, staðlað eftir að búið er að laga lista yfir merkingarfræðileg veflagkaka (þó er einnig hægt að nota hann sem regluvél), eða ShEx.
  • Að skilja að allt er að lokum gert með SPARQL fyrirspurnum, búið til þitt eigið einfalda gagnaprófunarkerfi með því að nota þær.

Hins vegar, jafnvel alger höfnun á frádráttargetu og löggildingartækjum skilur tengda gagnastaflann úr samkeppni í verkefnum sem eru svipuð í landslagi og opinn og dreifður vefur - í gagnasamþættingarverkefnum.

Hvað með venjulegt upplýsingakerfi fyrirtækja?

Þetta er mögulegt, en þú ættir að sjálfsögðu að vera meðvitaður um nákvæmlega hvaða vandamál samsvarandi tækni þarf að leysa. Ég mun lýsa hér dæmigerðum viðbrögðum þátttakenda í þróun til að sýna hvernig þessi tæknistafla lítur út frá sjónarhóli hefðbundins upplýsingatækni. Minnir mig svolítið á dæmisöguna um fílinn:

  • Viðskiptafræðingur: RDF er eitthvað eins og beint geymt rökrétt líkan.
  • Kerfisfræðingur: RDF er eins og EAV framlenging, aðeins með fullt af vísitölum og þægilegu fyrirspurnartungumáli.
  • Hönnuður: Jæja, þetta er allt í anda hugmyndanna um ríkt líkan og lágan kóða, var að lesa nýlega um þetta.
  • Verkefnastjóri: já það er það sama hrynja saman stafla!

Æfingin sýnir að staflinn er oftast notaður í verkefnum sem tengjast dreifingu og misleitni gagna, til dæmis við smíði MDM (Master Data Management) eða DWH (Data Warehouse) bekkjakerfi. Slík vandamál eru í hvaða atvinnugrein sem er.

Hvað varðar iðnaðarsértæk forrit er tengd gagnatækni sem stendur vinsælust í eftirfarandi atvinnugreinum.

  • lífeðlisfræðileg tækni (þar sem vinsældir þeirra virðast tengjast því hversu flókið lénið er);

núverandi

„Boiling Point“ stóð nýlega fyrir ráðstefnu á vegum „National Medical Knowledge Base“ samtakanna „Að sameina verufræði. Frá kenningu til hagnýtingar'.

  • framleiðsla og rekstur flókinna vara (stór vélaverkfræði, olíu- og gasframleiðsla; oftast erum við að tala um staðlaða ISO 15926);

núverandi

Hér er ástæðan líka hversu flókið viðfangsefnið er, þegar til dæmis á uppstreymisstigi, ef við tölum um olíu- og gasiðnaðinn, krefst einfalt bókhald sumra CAD-aðgerða.

Árið 2008 fór fram fulltrúi uppsetningarviðburður, skipulagður af Chevron ráðstefnunni.

ISO 15926, á endanum, virtist dálítið þungur fyrir olíu- og gasiðnaðinn (og fann kannski meiri notkun í vélaverkfræði). Aðeins Statoil (Equinor) varð rækilega hrifinn af því; í Noregi, allt vistkerfi. Aðrir eru að reyna að gera sitt. Til dæmis, samkvæmt orðrómi, ætlar innlenda orkumálaráðuneytið að búa til „hugmyndalegt verufræðilegt líkan af eldsneytis- og orkusamstæðunni,“ svipað, að því er virðist, og búin til fyrir raforkuiðnaðinn.

  • fjármálastofnanir (jafnvel XBRL getur talist eins konar blendingur af SDMX og RDF Data Cube verufræðinni);

núverandi

Í byrjun árs spammaði LinkedIn virkan höfundinn með lausum störfum frá næstum öllum risum fjármálageirans, sem hann þekkir úr sjónvarpsþáttunum „Force Majeure“: Goldman Sachs, JPMorgan Chase og/eða Morgan Stanley, Wells Fargo, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Sennilega voru allir að leita að einhverjum sem þeir gætu sent til Þekkingargrafráðstefna. Nokkrum tókst að finna: fjármálastofnanir tóku allt morgun fyrsta dags.

Á HeadHunter rakst aðeins Sberbank á eitthvað áhugavert; það var um „EAV geymslu með RDF-líku gagnalíkani.

Líklega er munurinn á ást til samsvarandi tækni innlendra og vestrænna fjármálastofnana vegna þverþjóðlegrar starfsemi þeirra síðarnefndu. Svo virðist sem samþætting þvert á landamæri ríkisins krefst eigindlegra mismunandi skipulags- og tæknilausna.

  • spurninga-svarakerfi með viðskiptaforritum (IBM Watson, Apple Siri, Google Knowledge Graph);

núverandi

Við the vegur, skapari Siri, Thomas Gruber, er höfundur sjálfrar skilgreiningar á verufræði (í upplýsingatækni skilningi) sem „hugtakslýsing“. Að mínu mati breytir það ekki merkingu þess að endurraða orðum í þessari skilgreiningu, sem gefur kannski til kynna að hún sé ekki til staðar.

  • birtingu skipulögðra gagna (með meiri rökstuðningi má rekja þetta til tengdra opinna gagna).

núverandi

Stórir aðdáendur tengdra gagna eru svokölluð GLAM: Gallerí, Bókasöfn, Skjalasafn og Söfn. Það er nóg að segja að Library of Congress er að stuðla að því að MARC21 komi í staðinn BIBFRAMEHvaða leggur grunn að framtíð bókfræðilegrar lýsingar og að sjálfsögðu byggt á RDF.

Wikidata er oft nefnt sem dæmi um vel heppnað verkefni á sviði tengdra opinna gagna - eins konar véllesanleg útgáfa af Wikipedia, en efni hennar, öfugt við DBPedia, er ekki búið til með innflutningi úr upplýsingaboxum greina, en er búin til meira og minna handvirkt (og verður í kjölfarið upplýsingaveita fyrir sömu upplýsingakassa).

Við mælum líka með því að þú skoðir það lista notendur Stardog RDF geymslunnar á Stardog vefsíðunni í hlutanum „Viðskiptavinir“.

Hvað sem því líður, í Gartner Hype Cycle for Emerging Technologies 2016 „Enterprise Taxonomy and Ontology Management“ er komið fyrir á miðjum niðurleið í vonbrigðadalinn með horfur á að ná „framleiðnihásléttu“ ekki fyrr en eftir 10 ár.

Að tengja fyrirtækisgögn

Spár, spár, spár...

Af sögulegum áhuga hef ég sett saman spár Gartner í mörg ár fyrir neðan um þá tækni sem vekur áhuga okkar.

Ár Технология Skýrsla Staða Ár til hásléttu
2001 Merkingavefur Nýjar tækni Nýsköpunarkveikja 5-10
2006 Merkingarvefur fyrirtækja Nýjar tækni Hámark uppblásinna væntinga 5-10
2012 Merkingavefur Big Data Hámark uppblásinna væntinga > 10
2015 Tengd gögn Ítarleg greining og gagnafræði Trog vonbrigða 5-10
2016 Enterprise Ontology Management Nýjar tækni Trog vonbrigða > 10
2018 Þekkingarmyndir Nýjar tækni Nýsköpunarkveikja 5-10

Hins vegar, þegar í „Hype Cycle...“ 2018 önnur hækkun hefur birst - Þekkingargraf. Ákveðin endurholdgun átti sér stað: graf DBMS, sem athygli notenda og viðleitni þróunaraðila reyndist vera skipt yfir á, undir áhrifum beiðna hins fyrrnefnda og venja þess síðarnefnda, fóru að taka á sig útlínur og staðsetningu af forvera keppinautum sínum.

Næstum hvert graf DBMS lýsir því yfir að það sé hentugur vettvangur til að byggja upp „þekkingargraf“ fyrirtækja („tengd gögn“ er stundum skipt út fyrir „tengd gögn“), en hversu réttlætanlegar eru slíkar fullyrðingar?

Línuritsgagnagrunnar eru enn óbreyttir; gögnin í grafi DBMS eru enn sama gagnasílóið. Strengjaauðkenni í stað URI gera verkefnið að samþætta tvö graf DBMS enn að samþættingarverkefni, á meðan að samþætta tvær RDF birgðir kemur oft niður á einfaldlega að sameina tvö RDF línurit. Annar þáttur ójafnvægis er að LPG graflíkanið er ekki endurspeglun, sem gerir það erfitt að stjórna lýsigögnum með því að nota sama vettvang.

Að lokum hafa graf DBMS ekki ályktunarvélar eða regluvélar. Hægt er að endurskapa niðurstöður slíkra véla með flóknum fyrirspurnum, en það er jafnvel mögulegt í SQL.

Hins vegar eiga leiðandi RDF geymslukerfi ekki í erfiðleikum með að styðja LPG líkanið. Sterkasta nálgunin er talin vera sú sem var lögð til í einu í Blazegraph: RDF* líkanið, sem sameinar RDF og LPG.

meira

Þú getur lesið meira um RDF geymslustuðning fyrir LPG líkanið í fyrri grein um Habré: „Hvað er að gerast með RDF geymslu núna“. Ég vona að einn daginn verði skrifuð sérstök grein um Knowledge Graphs og Data Fabric. Lokakaflinn, eins og auðskiljanlegur er, var skrifaður í flýti, en jafnvel hálfu ári síðar er ekki allt miklu skýrara með þessi hugtök.

Bókmenntir

  1. Halpin, H., Monnin, A. (ritstj.) (2014). Heimspekileg verkfræði: Í átt að heimspeki vefsins
  2. Allemang, D., Hendler, J. (2011) Merkingarvefur fyrir starfandi verufræðinginn (2. útgáfa)
  3. Staab, S., Studer, R. (ritstj.) (2009) Handbook on Ontologies (2. útgáfa)
  4. Wood, D. (ritstj.). (2011) Að tengja fyrirtækisgögn
  5. Keet, M. (2018) An Introduction to Ontology Engineering

Heimild: www.habr.com

Bæta við athugasemd