Семантикалық веб және байланыстырылған деректер. Түзетулер мен толықтырулар

Жақында жарық көрген кітаптың бір үзіндісін көпшілік назарына ұсынғым келеді:

Кәсіпорынды онтологиялық модельдеу: әдістер мен технологиялар [Мәтін]: монография / [С. В.Горшков, С.С.Кралин, О.И.Муштак және т.б.; жауапты редакторы С.В.Горшков]. - Екатеринбург: Орал университеті баспасы, 2019. - 234 б.: илл., кесте; 20 см.- Автор. артқы жағында көрсетілген. бірге. - Библиография б. соңында. — ISBN 978-5-7996-2580-1: 200 дана.

Бұл фрагментті Хабреге орналастырудың мақсаты төрт:

  • Егер ол құрметті адамның клиенті болмаса, бұл кітапты қолына ұстай алмасы екіталай SergeIndex; Бұл міндетті түрде сатылмайды.
  • Мәтінге түзетулер енгізілді (олар төменде ерекшеленбейді) және баспа монографиясының форматына аса сәйкес келмейтін толықтырулар енгізілді: өзекті жазбалар (спойлерлердің астында) және гиперсілтемелер.
  • Мен тілеймін сұрақтар мен пікірлерді жинау, осы мәтінді кез келген басқа жарияланымдарға түзетілген түрде енгізу кезінде оларды ескеру үшін.
  • Көптеген семантикалық веб және байланыстырылған деректерді ұстанушылар әлі күнге дейін олардың шеңбері соншалықты тар деп санайды, себебі көпшілікке семантикалық веб пен байланыстырылған деректердің ұстануы қаншалықты керемет екендігі әлі дұрыс түсіндірілмеген. Фрагменттің авторы, ол осы шеңберге жататын болса да, бұл пікірді ұстанбайды, бірақ соған қарамастан, өзін тағы бір әрекет жасауға міндетті деп санайды.

Осылайша,

Семантикалық веб

Интернеттің эволюциясын келесідей көрсетуге болады (немесе төменде көрсетілген ретпен құрылған оның сегменттері туралы айту):

  1. Интернеттегі құжаттар. Негізгі технологиялар – Gopher, FTP және т.б.
    Интернет – жергілікті ресурстармен алмасуға арналған ғаламдық желі.
  2. Интернеттегі құжаттар. Негізгі технологиялар HTML және HTTP болып табылады.
    Ашық ресурстардың табиғаты оларды тасымалдау ортасының сипаттамаларын ескереді.
  3. Интернет деректері. Негізгі технологиялар – REST және SOAP API, XHR және т.б.
    Интернет-қосымшалардың дәуірі тек адамдар ғана емес ресурстарды тұтынушыға айналады.
  4. Интернет деректері. Негізгі технологиялар байланыстырылған деректер технологиялары болып табылады.
    Екінші негізгі технологияларды жасаушы және W3C директоры Бернерс-Ли болжаған бұл төртінші кезең семантикалық веб деп аталады; Байланыстырылған деректер технологиялары интернеттегі деректерді тек машинада оқуға ғана емес, сонымен қатар «машинаға түсінікті» етуге арналған.

Бұдан әрі оқырман екінші және төртінші кезеңдердің негізгі ұғымдарының сәйкестігін түсінеді:

  • URL мекенжайлары URI мекенжайларына ұқсас,
  • HTML аналогы - RDF,
  • HTML гиперсілтемелері RDF құжаттарындағы URI көріністеріне ұқсас.

Семантикалық веб белгілі бір стихиялық немесе лоббилік тенденцияға қарағанда Интернеттің болашағына жүйелі көзқарас болып табылады, бірақ ол осы соңғыларды ескере алады. Мысалы, Web 2.0 деп аталатын маңызды сипаттама «пайдаланушы жасаған мазмұн» болып саналады. Атап айтқанда, W3C ұсынысы оны ескеруге шақырылады «Веб-аннотация онтологиясы«және осындай міндеттеме қатты.

Семантикалық веб өлі ме?

Егер сіз бас тартсаңыз шындыққа жанаспайтын үміттер, семантикалық тордың жағдайы дамыған социализм кезіндегі коммунизммен шамамен бірдей (және Ильичтің шартты өсиеттеріне адалдық сақталды ма, оны әркім өзі шешсін). Іздеу жүйелері айтарлықтай сәтті веб-сайттарды RDFa және JSON-LD пайдалануға мәжбүрлейді және өздері төменде сипатталғандарға қатысты технологияларды пайдаланады (Google Knowledge Graph, Bing Knowledge Graph).

Жалпы алғанда, автор неғұрлым кең тарауға не кедергі болатынын айта алмайды, бірақ ол жеке тәжірибе негізінде айта алады. SW шабуылы жағдайында «қораптан тыс» шешілетін мәселелер бар, бірақ олар өте кең таралмаған. Нәтижесінде, бұл міндеттерге тап болғандар шешімді ұсына алатындарға қарсы мәжбүрлеу құралы жоқ, ал соңғысының шешімді тәуелсіз ұсынуы олардың бизнес үлгілеріне қайшы келеді. Сонымен, біз HTML-ді талдауды және әртүрлі API интерфейстерін бір-біріне жабыстыруды жалғастырамыз.

Дегенмен, байланыстырылған деректер технологиялары негізгі желіден тыс тарады; Кітап, шын мәнінде, осы қолданбаларға арналған. Қазіргі уақытта байланыстырылған деректер қауымдастығы Gartner сияқты трендтерді тіркеуінің (немесе қалауыңызша жариялауының) арқасында бұл технологиялар одан да кеңірек таралады деп күтеді. Білім графикасы и Data Fabric. Мен бұл тұжырымдамалардың «велосипед» іске асыруы емес, төменде талқыланатын W3C стандарттарына қатысты болатынына сенгім келеді.

Байланыстырылған деректер

Бернерс-Ли байланыстырылған деректерді семантикалық веб- «дұрыс орындалды» деп анықтады: оның түпкілікті мақсаттарына жетуге мүмкіндік беретін тәсілдер мен технологиялар жиынтығы. Байланысты деректердің негізгі принциптері Бернерс-Ли ерекшеленген келесісі.

1-қағида. Нысандарды атау үшін URI пайдалану.

URI мекенжайлары жазбаларға арналған жергілікті жол идентификаторларына қарағанда жаһандық нысан идентификаторлары болып табылады. Кейіннен бұл принцип Google Knowledge Graph ұранында жақсы көрсетілді.жіптер емес, заттар«.

2-қағида. HTTP схемасында URI мекенжайларын пайдалану, осылайша олар сілтемеден бас тартуы мүмкін.

URI-ге сілтеме жасай отырып, сол таңбалауыштың артындағы таңбаны алуға мүмкіндік болуы керек (оператордың атымен ұқсастық мұнда түсінікті).*«С-де); дәлірек айтсақ, HTTP тақырыбының мәніне байланысты осы таңбаның кейбір көрінісін алу үшін Accept:. Мүмкін, AR/VR дәуірінің пайда болуымен ресурстың өзін алуға болады, бірақ әзірге бұл SPARQL сұрауын орындау нәтижесі болып табылатын RDF құжаты болуы мүмкін. DESCRIBE.

3-қағида. W3C стандарттарын пайдалану - ең алдымен RDF(S) және SPARQL - әсіресе URI сілтемелерін жою кезінде.

Байланыстырылған деректер технологиясы стекінің бұл жеке «қабаттары» деп те аталады Семантикалық веб-қабат торты, төменде сипатталатын болады.

4-қағида. Нысандарды сипаттау кезінде басқа URI сілтемелерін пайдалану.

RDF ресурсты табиғи тілде ауызша сипаттаумен шектелуге мүмкіндік береді, ал төртінші принцип мұны жасамауға шақырады. Егер бірінші принцип жалпыға бірдей сақталса, ресурсты сипаттау кезінде басқаларға, соның ішінде «шетелдіктерге» сілтеме жасау мүмкін болады, сондықтан деректер байланыстырылған деп аталады. Шындығында, RDFS сөздік қорында аталған URI-ді пайдалану сөзсіз дерлік.

РДФ

РДФ (Resource Description Framework) – өзара байланысты нысандарды сипаттауға арналған формализм.

Субъектілер мен олардың қатынастары туралы үштік деп аталатын «субъект-предикат-объект» түріндегі мәлімдемелер жасалады. Ең қарапайым жағдайда, субъект, предикат және объект барлық URI болып табылады. Бір URI әртүрлі үштіктерде әртүрлі позицияларда болуы мүмкін: субъект, предикат және объект болу; Осылайша, үштіктер RDF графигі деп аталатын график түрін құрайды.

Субъектілер мен нысандар тек URI ғана емес, сонымен қатар деп аталатындар болуы мүмкін бос түйіндер, және нысандар да болуы мүмкін литералдар. Литералдар - жол көрінісі мен түр көрсеткішінен тұратын қарабайыр түрлердің даналары.

Литералдар жазу мысалдары (Тасбақа синтаксисінде, ол туралы төменде толығырақ): "5.0"^^xsd:float и "five"^^xsd:string. Түрі бар литералдар rdf:langString тілдік тегпен де жабдықталуы мүмкін; тасбақада ол былай жазылған: "five"@en и "пять"@ru.

Бос түйіндер жаһандық идентификаторсыз «анонимді» ресурстар болып табылады, бірақ олар туралы мәлімдемелер жасалуы мүмкін; экзистенциалды айнымалылар түрі.

Сонымен (бұл, шын мәнінде, RDF-тің барлық мәні):

  • тақырып URI немесе бос түйін,
  • предикат - URI,
  • нысан URI, бос түйін немесе литерал.

Неліктен предикаттар бос түйіндер бола алмайды?

Ықтимал себебі - бейресми түрде триплетті бірінші ретті предикат логикасы тіліне аударуға ұмтылу. s p o сияқты нәрсе сияқты Семантикалық веб және байланыстырылған деректер. Түзетулер мен толықтыруларқайда Семантикалық веб және байланыстырылған деректер. Түзетулер мен толықтырулар - предикат, Семантикалық веб және байланыстырылған деректер. Түзетулер мен толықтырулар и Семантикалық веб және байланыстырылған деректер. Түзетулер мен толықтырулар - тұрақтылар. Бұл түсініктің іздері құжатта «LBase: семантикалық веб тілдеріне арналған семантика", ол W3C жұмыс тобының ескертуі мәртебесіне ие. Осы түсінікпен үштік s p []қайда [] - бос түйін, ретінде аударылады Семантикалық веб және байланыстырылған деректер. Түзетулер мен толықтыруларқайда Семантикалық веб және байланыстырылған деректер. Түзетулер мен толықтырулар - айнымалы, бірақ қалай аудару керек s [] o? W3C ұсыныс күйі бар құжатRDF 1.1 Семантика” басқа аударма әдісін ұсынады, бірақ әлі де предикаттардың бос түйіндер болу мүмкіндігін қарастырмайды.

Дегенмен, Ману Спорни рұқсат етілген.

RDF абстрактілі модель болып табылады. RDF әртүрлі синтаксисте жазылуы мүмкін (серияланған): RDF/XML, Тасбақа (адам оқи алатын ең көп), JSON-LD, HDT (екілік).

Бірдей RDF әртүрлі жолдармен RDF/XML-ге сериялануы мүмкін, сондықтан, мысалы, XSD арқылы алынған XML-ді тексеру немесе XPath арқылы деректерді шығаруға тырысудың мағынасы жоқ. Сол сияқты, JSON-LD орташа Javascript әзірлеушісінің Javascript-тің нүктелік және төртбұрышты жақша белгілерін пайдаланып RDF-мен жұмыс істеу тілегін қанағаттандыруы екіталай (бірақ JSON-LD механизмді ұсына отырып, осы бағытта қозғалады. жақтау).

Синтаксистердің көпшілігі ұзақ URI мекенжайларын қысқарту жолдарын ұсынады. Мысалы, жарнама @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> тасбақада орнына жазуға мүмкіндік береді <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> жай ғана rdf:type.

RDFS

RDFS (RDF схемасы) – негізгі модельдеу лексикасы, қасиет және класс ұғымдарын және сияқты қасиеттерді енгізеді. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. RDFS сөздігін пайдаланып, мысалы, келесі жарамды өрнектерді жазуға болады:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS сипаттау және модельдеу сөздік болып табылады, бірақ шектеу тілі емес (ресми спецификация және жапырақтары пайдалану мүмкіндігі). «Схема» сөзін «XML схемасы» өрнекіндегідей мағынада түсінуге болмайды. Мысалы, :author rdfs:range foaf:Person дегенді білдіреді rdf:type барлық меншік мәндері :author - foaf:Person, бірақ мұны алдын ала айту керек дегенді білдірмейді.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) – RDF деректерін сұрауға арналған тіл. Қарапайым жағдайда SPARQL сұрауы сұралатын графиктің үштіктері сәйкес келетін үлгілер жиынтығы болып табылады. Үлгілер тақырып, предикат және нысан позицияларында айнымалыларды қамтуы мүмкін.

Сұрау үлгілерге ауыстырылған кезде сұралған RDF графигінің ішкі графасына (оның үштіктерінің ішкі жиыны) әкелуі мүмкін айнымалы мәндерді қайтарады. Триплеттердің әртүрлі үлгілеріндегі бір атаудағы айнымалылар бірдей мәндерге ие болуы керек.

Мысалы, жоғарыдағы жеті RDFS аксиомасының жиынын ескере отырып, келесі сұрау қайтарылады rdfs:domain и rdfs:range құндылықтар ретінде ?s и ?p тиісінше:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Айта кету керек, SPARQL декларативті болып табылады және графикалық өтуді сипаттайтын тіл емес (бірақ кейбір RDF репозиторийлері сұрауды орындау жоспарын реттеу жолдарын ұсынады). Сондықтан кейбір стандартты графиктік есептерді, мысалы, ең қысқа жолды табуды SPARQL-де шешу мүмкін емес, соның ішінде меншік жолдары (бірақ, тағы да жеке RDF репозиторийлері осы мәселелерді шешу үшін арнайы кеңейтімдерді ұсынады).

SPARQL әлемнің ашықтығы презумпциясымен бөліспейді және «терістеу сәтсіздік ретінде» тәсілін ұстанады. мүмкін сияқты дизайн FILTER NOT EXISTS {…}. Мәліметтерді тарату механизмнің көмегімен есепке алынады федеративті сұраулар.

SPARQL кіру нүктесі - SPARQL сұрауларын өңдеуге қабілетті RDF қоймасы - екінші кезеңнен бастап тікелей аналогтары жоқ (осы тармақтың басын қараңыз). Оны мазмұнына қарай HTML беттері жасалған, бірақ сырттан қол жеткізуге болатын дерекқормен салыстыруға болады. SPARQL кіру нүктесі үшінші кезеңдегі API кіру нүктесіне анағұрлым ұқсас, бірақ екі негізгі айырмашылығы бар. Біріншіден, бірнеше «атомдық» сұрауларды біреуіне біріктіруге болады (бұл GraphQL-тің негізгі сипаттамасы болып саналады), екіншіден, мұндай API толығымен өзін-өзі құжаттайды (HATEOAS қол жеткізуге тырысты).

Полемикалық ескерту

RDF – бұл деректерді интернетте жариялау тәсілі, сондықтан RDF қоймасын ДҚБЖ құжаты ретінде қарастырған жөн. Рас, RDF ағаш емес, график болғандықтан, олар да графикке негізделген болып шықты. Мұның бәрі сәтті болғаны таңқаларлық. Бос түйіндерді жүзеге асыратын ақылды адамдар болады деп кім ойлаған. Код осында ол нәтиже бермеді.

Сондай-ақ RDF деректеріне қол жеткізуді ұйымдастырудың азырақ толық мүмкіндіктері бар, мысалы, Байланыстырылған деректер фрагменттері (LDF) және Байланыстырылған деректер платформасы (LDP).

OWL

OWL (Web Ontology Language) – білімді көрсетуге арналған формализм, сипаттау логикасының синтаксистік нұсқасы Семантикалық веб және байланыстырылған деректер. Түзетулер мен толықтырулар (төменде барлық жерде OWL 2 деп айту дұрысырақ, OWL бірінші нұсқасы негізделген Семантикалық веб және байланыстырылған деректер. Түзетулер мен толықтырулар).

OWL-дегі сипаттама логикасының концепциялары класстарға, рөлдер қасиеттерге сәйкес келеді, индивидтер бұрынғы атауын сақтайды. Аксиомаларды аксиома деп те атайды.

Мысалы, деп аталатын жерде Манчестер синтаксисі OWL жазуы үшін бізге бұрыннан белгілі аксиома Семантикалық веб және байланыстырылған деректер. Түзетулер мен толықтырулар былай жазылады:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

OWL жазудың басқа синтаксистері бар, мысалы функционалдық синтаксис, ресми спецификацияда пайдаланылады және OWL/XML. Сонымен қатар, OWL сериялануы мүмкін абстрактілі RDF синтаксисіне және одан әрі – нақты синтаксистердің кез келгенінде.

OWL-тің RDF-пен қосарлы қатынасы бар. Бір жағынан, оны RDFS кеңейтетін сөздіктің бір түрі ретінде қарастыруға болады. Екінші жағынан, бұл RDF тек сериялау пішімі болып табылатын неғұрлым күшті формализм. Барлық қарапайым OWL құрылымдарын бір RDF триплетті пайдаланып жазуға болмайды.

OWL конструкцияларының қандай ішкі жиынын пайдалануға рұқсат етілгеніне байланысты олар деп аталатындар туралы айтады OWL профильдері. Стандартталған және ең танымал OWL EL, OWL RL және OWL QL. Профильді таңдау типтік есептердің есептеу күрделілігіне әсер етеді. Сәйкес келетін OWL конструкцияларының толық жиынтығы Семантикалық веб және байланыстырылған деректер. Түзетулер мен толықтырулар, OWL DL деп аталады. Кейде олар сонымен қатар OWL Full туралы айтады, онда OWL конструкцияларын семантикалық және есептеу шектеулерісіз RDF-ге тән толық еркіндікпен пайдалануға рұқсат етіледі. Семантикалық веб және байланыстырылған деректер. Түзетулер мен толықтырулар. Мысалы, бір нәрсе класс та, сипат та болуы мүмкін. OWL Толық дегенді шешу мүмкін емес.

OWL салдарын бекітудің негізгі принциптері ашық әлем болжамын қабылдау болып табылады. О.В.А.) және бірегей атаулар презумпциясын қабылдамау (бірегей атау болжамы, ONE). Төменде біз бұл принциптердің қайда әкелетінін және кейбір OWL конструкцияларын енгізетінін көреміз.

Онтологияда келесі фрагмент бар болсын (Манчестер синтаксисінде):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Бұл Джонның көп балалы екендігі туралы айтылғандардан шығады ма? UNA-дан бас тарту қорытынды қозғалтқышты бұл сұраққа теріс жауап беруге мәжбүр етеді, өйткені Алиса мен Боб бір адам болуы мүмкін. Төмендегілер орын алу үшін келесі аксиоманы қосу керек:

DifferentIndividuals: Alice, Bob, Carol, John

Енді онтологиялық фрагмент келесі формада болсын (Джон көп балалы деп жарияланды, бірақ оның екі баласы бар):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Бұл онтология сәйкес келмей ме (оны жарамсыз деректердің дәлелі ретінде түсіндіруге болады)? OWA-ны қабылдау қорытынды қозғалтқыштың теріс жауап беруіне әкеледі: «бір жерде» (басқа онтологияда) Кэрол да Джонның баласы деп айтуға болады.

Мұның мүмкіндігін жоққа шығару үшін Джон туралы жаңа фактіні қосайық:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Басқа балалардың пайда болуын болдырмас үшін, «балалы болу» мүліктің барлық құндылықтары адамдар болып табылады, олардың тек төртеуі бар:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Енді онтология қарама-қайшылыққа айналады, оны қорытындылау қозғалтқышы хабарлаудан бас тартпайды. Соңғы аксиомалармен бізде белгілі бір мағынада әлемді «жабдық» және Джонның өз баласы болу мүмкіндігі қалай алынып тасталғанын байқаймыз.

Кәсіпорын деректерін байланыстыру

Тәсілдер мен технологиялардың байланыстырылған деректер жинағы бастапқыда Интернетте деректерді жариялауға арналған. Оларды ішкі корпоративтік ортада пайдалану бірқатар қиындықтарға тап болады.

Мысалы, жабық корпоративтік ортада OWA қабылдауға және UNA-дан бас тартуға, Интернеттің ашық және таратылған сипатына байланысты шешімдерге негізделген OWL дедуктивтік күші тым әлсіз. Және бұл жерде келесі шешімдер мүмкін.

  • OWL-ді семантикамен қамтамасыз ету, OWA-дан бас тартуды және UNA-ны қабылдауды, сәйкес шығу қозғалтқышын жүзеге асыруды білдіреді. – Осы жолда барады Stardog RDF қоймасы.
  • Ереже қозғалтқыштарының пайдасына OWL дедуктивті мүмкіндіктерінен бас тарту. — Stardog қолдайды SWRL; Jena және GraphDB ұсынады меншікті тілдері ережелер
  • OWL дедуктивті мүмкіндіктерінен бас тарту, модельдеу үшін RDFS-ке жақын бір немесе басқа ішкі жиынды пайдалану. - Бұл туралы толығырақ төменде қараңыз.

Тағы бір мәселе - корпоративтік әлемнің деректер сапасы мәселелеріне көбірек назар аударуы және байланыстырылған деректер стекіндегі деректерді тексеру құралдарының болмауы. Мұндағы нәтижелер келесідей.

  • Қайтадан, сәйкес қорытынды қозғалтқышы бар болса, жабық әлем семантикасы және бірегей атаулары бар OWL құрылымдарын тексеру үшін пайдаланыңыз.
  • Пайдаланыңыз SHACL, семантикалық веб-қабат торт қабаттарының тізімі бекітілгеннен кейін стандартталған (бірақ оны ережелер механизмі ретінде де пайдалануға болады) немесе ShEx.
  • Барлығы, сайып келгенде, SPARQL сұрауларымен жасалатынын түсіну, оларды пайдалана отырып, өзіңіздің қарапайым деректерді тексеру механизмін жасау.

Дегенмен, тіпті дедуктивті мүмкіндіктер мен тексеру құралдарын толығымен қабылдамау Байланысқан деректер стегін ландшафты түрде ашық және таратылған вебке ұқсас тапсырмалардағы бәсекелестіктен тыс қалдырады - деректерді біріктіру тапсырмаларында.

Кәдімгі кәсіпорынның ақпараттық жүйесі туралы не деуге болады?

Бұл мүмкін, бірақ сіз, әрине, сәйкес технологиялар қандай мәселелерді шешуге тура келетінін білуіңіз керек. Мен бұл жерде кәдімгі АТ тұрғысынан бұл технологиялық стек қалай көрінетінін көрсету үшін әзірлеуге қатысушылардың әдеттегі реакциясын сипаттаймын. Піл туралы астарлы әңгімені еске түсіреді:

  • Бизнес талдаушы: RDF - бұл тікелей сақталған логикалық үлгі сияқты.
  • РЎРёСЃС‚РµРјРЅС ‹Р№ Р ° РЅР ° Р» итик: RDF сияқты EAV, тек индекстер тобымен және ыңғайлы сұрау тілімен.
  • әзірлеуші: жақсы, мұның бәрі бай модель және төмен код тұжырымдамаларының рухында, оқып жатты бұл туралы жақында.
  • Жоба менеджері: иә дәл солай стекті құлату!

Тәжірибе көрсеткендей, стек көбінесе деректердің таралуы мен біркелкі еместігіне байланысты тапсырмаларда, мысалы, MDM (Master Data Management) немесе DWH (Data Warehouse) класс жүйелерін құру кезінде қолданылады. Мұндай мәселелер кез келген салада бар.

Салаға тән қолданбалар тұрғысынан байланыстырылған деректер технологиялары қазіргі уақытта келесі салаларда ең танымал.

  • биомедициналық технологиялар (олардың танымалдылығы доменнің күрделілігімен байланысты сияқты);

ток

Жақында «Қайнау нүктесінде» «Ұлттық медициналық білім қоры» бірлестігінің ұйымдастыруымен конференция өтті.Онтологияларды біріктіру. Теориядан практикалық қолдануға дейін«.

  • күрделі өнімдерді өндіру және пайдалану (ірі машина жасау, мұнай және газ өндіру; көбінесе стандарт туралы айтып отырмыз ISO 15926);

ток

Мұнда да себеп, мәселен, мұнай-газ өнеркәсібі туралы айтатын болсақ, жоғары сатыда, қарапайым бухгалтерлік есеп кейбір АЖЖ функцияларын қажет ететін кезде, пәндік аймақтың күрделілігі.

2008 жылы Chevron компаниясы ұйымдастырған инсталляция бойынша өкілдік іс-шара өтті конференция.

ISO 15926, сайып келгенде, мұнай және газ өнеркәсібі үшін біршама ауыр болып көрінді (және машина жасауда көбірек қолдануы мүмкін). Тек Statoil (Equinor) оған толықтай қосылды; Норвегияда тұтас экожүйе. Басқалары өз істерімен айналысуға тырысады. Мысалы, қауесеттерге сәйкес, отандық Энергетика министрлігі «отын-энергетикалық кешеннің концептуалды онтологиялық моделін» құруға ниетті, шамасы, электр энергетикасы үшін құрылған.

  • қаржылық ұйымдар (тіпті XBRL SDMX және RDF Data Cube онтологиясының гибридті түрі деп санауға болады);

ток

Жылдың басында LinkedIn авторды «Форс-мажор» телехикаясынан білетін қаржы индустриясының барлық дерлік алыптарының бос орындарымен белсенді түрде спам жасады: Голдман Сакс, JPMorgan Чейз және/немесе Морган Стэнли, Уэллс Фарго, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Барлығы жіберетін біреуді іздеген шығар. Білім графигі конференциясы. Кейбіреулері таба алды: қаржы ұйымдары бәрін алды бірінші күннің таңы.

HeadHunter-де тек Сбербанк қызықты нәрсеге тап болды, ол «RDF-тәрізді деректер үлгісі бар EAV сақтау орны» туралы болды.

Отандық және батыстық қаржы институттарының сәйкес технологияларына деген сүйіспеншілік дәрежесінің айырмашылығы соңғысының қызметінің трансұлттық сипатына байланысты болса керек. Шамасы, мемлекеттік шекаралар арқылы интеграция сапалы түрде әртүрлі ұйымдастырушылық және техникалық шешімдерді қажет етеді.

  • коммерциялық қосымшалары бар сұрақ-жауап жүйелері (IBM Watson, Apple Siri, Google Knowledge Graph);

ток

Айтпақшы, Siri құрушысы Томас Грубер онтологияның (IT мағынасында) «концептуализация спецификациясы» ретіндегі анықтамасының авторы болып табылады. Менің ойымша, бұл анықтамадағы сөздерді қайта орналастыру оның мағынасын өзгертпейді, бұл оның жоқтығын көрсетеді.

  • құрылымдық деректерді жариялау (көбірек негіздемемен оны байланыстырылған ашық деректерге жатқызуға болады).

ток

Байланыстырылған деректердің үлкен жанкүйерлері GLAM деп аталады: галереялар, кітапханалар, мұрағаттар және мұражайлар. Конгресс кітапханасы MARC21 ауыстыруды насихаттап жатқанын айтсақ та жеткілікті BIBFRAMEсол библиографиялық сипаттаманың болашағына негіз болады және, әрине, RDF негізінде.

Wikidata жиі байланыстырылған ашық деректер саласындағы сәтті жобаның мысалы ретінде келтіріледі - Wikipedia-ның машинада оқылатын нұсқасының бір түрі, оның мазмұны DBPedia-дан айырмашылығы мақаланың ақпараттық жәшіктерінен импорттау арқылы жасалмайды, бірақ азды-көпті қолмен жасалған (және кейіннен сол ақпарат жәшіктері үшін ақпарат көзіне айналады).

Оны тексеруге де кеңес береміз тізім Stardog веб-сайтындағы «Тұтынушылар» бөліміндегі Stardog RDF қоймасының пайдаланушылары.

Қалай болғанда да, Гартнерде 2016 жылы дамып келе жатқан технологиялар үшін Hype циклі «Кәсіпорын таксономиясы және онтология менеджменті» 10 жылдан ерте емес, «өнімділік үстіртіне» жету перспективасымен көңілсіздік аңғарына түсудің ортасында орналасқан.

Кәсіпорын деректерін қосу

Болжамдар, болжамдар, болжамдар...

Тарихи қызығушылық үшін мен Gartner компаниясының бізді қызықтыратын технологиялар бойынша әртүрлі жылдардағы болжамдарын төменде келтірдім.

Жыл Технология Есеп Ереже Үстіртке дейін жылдар
2001 Семантикалық веб Дамушы технологиялар Инновациялық триггер 5-10
2006 Корпоративтік семантикалық веб Дамушы технологиялар Күтудің шыңы 5-10
2012 Семантикалық веб Үлкен деректер Күтудің шыңы > 10
2015 Байланыстырылған деректер Жетілдірілген аналитика және деректер ғылымы Көңілсіздік шұңқыры 5-10
2016 Кәсіпорынның онтологиясын басқару Дамушы технологиялар Көңілсіздік шұңқыры > 10
2018 Білім графикасы Дамушы технологиялар Инновациялық триггер 5-10

Дегенмен, қазірдің өзінде «Хайп цикл...» 2018 ж жоғарылаудың тағы бір тенденциясы пайда болды - Knowledge Graphs. Белгілі бір реинкарнация болды: пайдаланушылардың назары мен әзірлеушілердің күш-жігері аударылған ДҚБЖ графигі, біріншілердің сұраныстары мен соңғысының әдеттерінің әсерінен контурлар мен позицияларды ала бастады. олардың алдындағы бәсекелестерінің.

Әрбір дерлік графикалық ДҚБЖ енді өзін корпоративтік «білім графигін» құру үшін қолайлы платформа деп жариялайды («байланысты деректер» кейде «қосылған деректермен» ауыстырылады), бірақ мұндай шағымдар қаншалықты негізделген?

Графикалық дерекқорлар әлі де асемантикалық болып табылады; ДҚБЖ диаграммасындағы деректер бұрынғысынша бірдей деректер силосы болып табылады. URI орнына жол идентификаторлары екі графтық ДҚБЖ біріктіру міндетін әлі де интеграциялық тапсырмаға айналдырады, ал екі RDF дүкенін біріктіру көбінесе екі RDF графигін біріктіруге келеді. Асемантиканың тағы бір аспектісі LPG графикалық моделінің рефлексивті еместігі болып табылады, бұл бір платформаны пайдаланып метадеректерді басқаруды қиындатады.

Ақырында, графиктік ДҚБЖ-да қорытындылау қозғалтқыштары немесе ереже қозғалтқыштары жоқ. Мұндай қозғалтқыштардың нәтижелерін күрделі сұраулар арқылы шығаруға болады, бірақ бұл тіпті SQL-де де мүмкін.

Дегенмен, жетекші RDF сақтау жүйелері LPG үлгісін қолдауда қиындықтар туғызбайды. Ең сенімді тәсіл Blazegraph-те бір уақытта ұсынылған әдіс болып саналады: RDF және LPG біріктіретін RDF* моделі.

көбірек

LPG моделіне арналған RDF сақтауды қолдау туралы қосымша ақпаратты Habré туралы алдыңғы мақаладан оқи аласыз: «Қазір RDF жадымен не болып жатыр». Бір күні Knowledge Graphs және Data Fabric туралы жеке мақала жазылады деп үміттенемін. Қорытынды бөлім, түсінуге оңай, асығыс жазылған, дегенмен, алты айдан кейін де, бұл ұғымдармен бәрі анық емес.

Әдебиет

  1. Халпин, Х., Моннин, А. (ред.) (2014). Философиялық инженерия: Интернет философиясына қарай
  2. Аллеманг, Д., Хендлер, Дж. (2011) Жұмыс істейтін онтологқа арналған семантикалық веб (2-ші басылым)
  3. Staab, S., Studer, R. (eds.) (2009) Анықтамалық онтологиялар (2-ші басылым)
  4. Вуд, D. (ред.). (2011) Кәсіпорын деректерін байланыстыру
  5. Кит, М. (2018) Онтология инженериясына кіріспе

Ақпарат көзі: www.habr.com

пікір қалдыру