Семантикалык желе жана байланышкан маалыматтар. Түзөтүүлөр жана толуктоолор

Жакында жарык көргөн бул китептин бир үзүндүсүн коомчулукка тартуулагым келет:

Ишкананы онтологиялык моделдөө: методдор жана технологиялар [Текст]: монография / [С. В.Горшков, С.С.Кралин, О.И.Муштак жана башкалар; жооптуу редактору С.В.Горшков]. - Екатеринбург: Урал университетинин басмасы, 2019. - 234 б.: илл., таблица; 20 см.- Автор. арткы титте көрсөтүлгөн. менен. — Библиография ч-нын аягында. — ISBN 978-5-7996-2580-1: 200 нуска.

Бул үзүндүнү Хабреге жайгаштыруунун максаты төрт:

  • Бул китепти кимдир бирөө колуна кармата албайт, эгер ал кадырлуу адамдын кардары болбосо SergeIndex; Бул, албетте, сатууда эмес.
  • Текстке оңдоолор киргизилген (алар төмөндө көрсөтүлгөн эмес) жана басылып чыккан монографиянын форматына анча туура келбеген толуктоолор киргизилген: актуалдуу эскертүүлөр (спойлерлердин астында) жана гипершилтемелер.
  • мен каалайм суроолорду жана комментарийлерди чогултуу, бул текстти башка басылмаларга такталган түрдө киргизүүдө аларды эске алуу үчүн.
  • Көптөгөн Semantic Web жана Linked Data жактоочулары дагы эле алардын чөйрөсү ушунчалык тар деп эсептешет, анткени, негизинен, жалпы коомчулук Semantic Web жана Шилтемеленген маалыматтардын жактоочусу болуу канчалык сонун экенин туура түшүндүрө элек. Фрагменттин автору, ал бул чөйрөгө таандык болсо да, бул пикирди карманбайт, бирок, ошентсе да, өзүн дагы бир аракет кылууга милдеттүү деп эсептейт.

Ошентип,

Семантикалык желе

Интернеттин эволюциясы төмөнкүчө чагылдырууга болот (же төмөндө көрсөтүлгөн тартипте түзүлгөн анын сегменттери жөнүндө сөз):

  1. Документтер интернетте. Негизги технологиялар - Gopher, FTP ж.б.
    Интернет - бул жергиликтүү ресурстарды алмашуу үчүн глобалдык тармак.
  2. Интернет документтер. Негизги технологиялар HTML жана HTTP болуп саналат.
    Ачык ресурстардын мүнөзү аларды өткөрүү чөйрөсүнүн өзгөчөлүктөрүн эске алат.
  3. Интернет маалыматтары. Негизги технологиялар - REST жана SOAP API, XHR ж.б.
    Интернет-тиркемелердин доору, адамдар гана эмес, ресурстардын керектөөчүлөрү болуп калышат.
  4. Интернет маалыматтары. Негизги технологиялар Linked Data технологиялары болуп саналат.
    Экинчи негизги технологиялардын жаратуучусу жана W3C директору Бернерс-Ли тарабынан алдын ала айтылган бул төртүнчү этап Семантикалык желе деп аталат; Байланышкан маалыматтар технологиялары интернеттеги маалыматтарды машинада окула турган гана эмес, ошондой эле "машинага түшүнүктүү" кылуу үчүн иштелип чыккан.

Андан ары окурман экинчи жана төртүнчү этаптын негизги түшүнүктөрүнүн ортосундагы дал келүүнү түшүнөт:

  • URL'дер URIларга окшош,
  • HTML аналогу RDF,
  • HTML гипершилтемелери RDF документтериндеги URI көрүнүштөрүнө окшош.

Семантикалык желе белгилүү бир стихиялуу же лоббилүү тенденцияга караганда Интернеттин келечегине системалуу көз караш болуп саналат, бирок бул акыркыларды эске алат. Мисалы, Web 2.0 деп аталган нерсенин маанилүү мүнөздөмөсү "колдонуучу тарабынан түзүлгөн мазмун" болуп эсептелет. Атап айтканда, W3C сунушу аны эске алууга чакырылган "Веб аннотация онтологиясы"жана ушундай милдеттенме катуу.

Семантикалык желе өлдүбү?

Эгер баш тартсаңыз реалдуу эмес күтүүлөр, семантикалык тордун абалы болжол менен енуккен социализмдин мезгилиндеги коммунизмдин абалына окшош (жана Ильичтин шарттуу осуяттарына берилгендик сакталып жатабы, ар ким езу чечсин). Издөө системалары абдан ийгиликтүү веб-сайттарды RDFa жана JSON-LD колдонууга мажбурлап, өздөрү төмөндө сүрөттөлгөн технологияларга (Google Knowledge Graph, Bing Knowledge Graph) тиешелүү технологияларды колдонушат.

Жалпысынан алганда, автор көбүрөөк жайылууга эмне тоскоол болуп жатканын айта албайт, бирок жеке тажрыйбасынын негизинде сүйлөй алат. SW чабуулунун шарттарында "кутудан тышкары" чечиле турган көйгөйлөр бар, бирок алар өтө кеңири таралбаса да. Натыйжада, бул милдеттерге туш болгондор чечимди камсыз кыла алгандарга каршы эч кандай мажбурлоочу каражаттарга ээ эмес, ал эми экинчисинин чечимди өз алдынча камсыз кылуусу алардын бизнес моделдерине карама-каршы келет. Ошентип, биз HTMLди талдоону улантып, ар кандай API'лерди бири-бирине жабыштыра беребиз, бири-бирибизден жаман.

Бирок, Linked Data технологиялары негизги Вебдин чегинен чыгып кетти; Китеп, чынында, бул колдонмолорго арналган. Учурда, Linked Data коомчулугу бул технологиялар Gartnerдин жазуусу (же сиз каалагандай жарыялоо) аркасында дагы кеңири жайылышын күтүүдө. Билим Графиктери и Data Fabric. Мен бул концепциялардын “велосипедди” ишке ашыруусу эмес, төмөндө талкууланган W3C стандарттарына тиешелүү болгондор ийгиликтүү болот деп ишенгим келет.

Байланышкан маалыматтар

Бернерс-Ли Байланышкан маалыматтарды семантикалык желе "туура жасалган" катары аныктаган: анын түпкү максаттарына жетүү үчүн мүмкүндүк берүүчү ыкмалардын жана технологиялардын жыйындысы. Байланышкан маалыматтар Бернерс-Линин негизги принциптери баса белгилеген кийинки.

1-принцип. Объекттерге ат коюу үчүн URIларды колдонуу.

URI'лер жазуулар үчүн жергиликтүү сап идентификаторлорунан айырмаланган глобалдык объекттин идентификаторлору. Кийинчерээк, бул принцип Google Knowledge Graph ураанында эң жакшы чагылдырылган "нерселер, жип эмес«.

2-принцип. URI'лерди HTTP схемасында колдонуу, алар шилтемеден чыгуу үчүн.

URIга шилтеме кылуу менен, ошол белгилөөчүнүн артындагы белгини алууга мүмкүн болушу керек (оператордун аты менен окшоштук бул жерде ачык көрүнүп турат).*"С менен); тагыраак айтканда, бул белгинин кандайдыр бир өкүлчүлүгүн алуу үчүн - HTTP башынын маанисине жараша Accept:. Балким, AR/VR доорунун пайда болушу менен ресурстун өзүн алуу мүмкүн болушу мүмкүн, бирок азыр, сыягы, бул SPARQL сурамынын аткарылышынын натыйжасы болгон RDF документи болот. DESCRIBE.

3-принцип. W3C стандарттарын колдонуу - биринчи кезекте RDF(S) жана SPARQL - өзгөчө URI шилтемелерин жокко чыгарууда.

Байланышкан маалыматтар технология стекинин бул жеке "катмарлары", ошондой эле белгилүү Семантикалык Web Layer Cake, төмөндө сүрөттөлөт.

4-принцип. Объекттерди сүрөттөөдө башка URIларга шилтемелерди колдонуу.

RDF ресурсту табигый тилде оозеки сүрөттөп берүү менен чектелүүгө мүмкүндүк берет, ал эми төртүнчү принцип муну кылбоого чакырат. Эгерде биринчи принцип универсалдуу түрдө сакталса, ресурсту сыпаттоодо башкаларга, анын ичинде “чет элдиктерге” кайрылууга мүмкүн болот, ошондуктан маалыматтар шилтемеленген деп аталат. Чынында, RDFS лексикасында аталган URIларды колдонуу дээрлик сөзсүз болот.

RDF

RDF (Ресурстарды сүрөттөмө алкактары) - бул өз ара байланышкан объекттерди сүрөттөө үчүн формализм.

Субъект-предикат-объект тибиндеги үчилтиктер деп аталган билдирүүлөр субъекттер жана алардын мамилелери жөнүндө айтылат. Эң жөнөкөй учурда, субъект, предикат жана объект бардык URI болуп саналат. Бир эле URI ар кандай үчилтиктерде ар кандай абалда болушу мүмкүн: субъект, предикат жана объект болуу; Ошентип, үчилтиктер RDF графиги деп аталган графиктин түрүн түзөт.

Субъекттер жана объекттер URI гана эмес, ошондой эле деп аталган болушу мүмкүн бош түйүндөр, жана объекттер да болушу мүмкүн литералдар. Литералдар - сап көрсөтүүдөн жана тип көрсөткүчүнөн турган примитивдүү типтердин инстанциялары.

Литералдарды жазуу мисалдары (Ташбака синтаксисинде, төмөндө ал жөнүндө көбүрөөк): "5.0"^^xsd:float и "five"^^xsd:string. Түрү менен литералдар rdf:langString ошондой эле тил теги менен жабдылышы мүмкүн; Turtle ал мындайча жазылган: "five"@en и "пять"@ru.

Бош түйүндөр - бул глобалдык идентификаторлору жок "анонимдүү" ресурстар, алар жөнүндө билдирүүлөрдү жасоого болот; экзистенциалдык өзгөрмөлөрдүн бир түрү.

Ошентип (бул, чындыгында, RDFтин бүткүл максаты):

  • тема URI же бош түйүн,
  • предикат - бул URI,
  • объект URI, бош түйүн же литерал.

Эмне үчүн предикаттар бош түйүндөр боло албайт?

Ыктымал себеби формалдуу эмес түшүнүү жана триплетти биринчи даражадагы предикат логикасынын тилине которуу каалоосу. s p o сыяктуу бир нерсе сыяктуу Семантикалык желе жана байланышкан маалыматтар. Түзөтүүлөр жана толуктоолоркайда Семантикалык желе жана байланышкан маалыматтар. Түзөтүүлөр жана толуктоолор - предикат, Семантикалык желе жана байланышкан маалыматтар. Түзөтүүлөр жана толуктоолор и Семантикалык желе жана байланышкан маалыматтар. Түзөтүүлөр жана толуктоолор - константалар. Бул түшүнүктүн издери документте бар "LBase: Семантикалык желе тилдери үчүн семантика", ал W3C жумушчу тобунун эскертүүсү статусуна ээ. Бул түшүнүк менен, үчилтик s p []кайда [] - бош түйүн, катары которулат Семантикалык желе жана байланышкан маалыматтар. Түзөтүүлөр жана толуктоолоркайда Семантикалык желе жана байланышкан маалыматтар. Түзөтүүлөр жана толуктоолор - өзгөрмө, бирок кантип которуу керек s [] o? W3C Рекомендация статусу бар документ "RDF 1.1 Семантика” башка котормо ыкмасын сунуштайт, бирок дагы эле предикаттардын бош түйүндөр болуу мүмкүнчүлүгүн эске албайт.

Бирок, Manu Sporni жол.

RDF абстракттуу модель болуп саналат. RDF ар кандай синтаксисте жазылышы мүмкүн (сериялаштырылган): RDF/XML, таш бака (адам окуй алат), JSON-LD, HDT (экилик).

Ошол эле RDF ар кандай жолдор менен RDF/XMLге сериялаштырылышы мүмкүн, ошондуктан, мисалы, XSD аркылуу XMLди текшерүү же XPath аркылуу маалыматтарды чыгарууга аракет кылуунун мааниси жок. Ошо сыяктуу эле, JSON-LD орточо Javascript иштеп чыгуучунун RDF менен Javascriptтин чекит жана чарчы кашаа нотасын колдонуу менен иштөө каалоосун канааттандыра албайт (бирок JSON-LD механизмди сунуштоо менен ошол багытта жылат. рамкалоо).

Көпчүлүк синтаксистер узун URIларды кыскартуунун жолдорун сунуштайт. Мисалы, жарнама @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> Turtle анда ордуна жазууга уруксат берет <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> так rdf:type.

RDFS

RDFS (RDF схемасы) - негизги моделдөө лексикасы, менчик жана класс жана касиеттери сыяктуу түшүнүктөрдү киргизет. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. RDFS сөздүгүн колдонуу менен, мисалы, төмөнкү жарактуу сөз айкаштарын жазууга болот:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS - бул сүрөттөмө жана моделдөө лексикасы, бирок чектөө тили эмес (расмий спецификация жана жалбырактары Мындай колдонуу мүмкүнчүлүгү). "Схема" деген сөздү "XML схемасы" сөз айкашындагыдай эле түшүнүүгө болбойт. Мисалы, :author rdfs:range foaf:Person дегенди билдирет rdf:type бардык мүлк баалуулуктары :author - foaf:Person, бирок муну алдын ала айтуу керек дегенди билдирбейт.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) - RDF маалыматтарын суроо үчүн тил. Жөнөкөй учурда, SPARQL суроосу суралып жаткан графиктин үч эселенген бөлүгү дал келген үлгүлөрдүн жыйындысы. Үлгүлөр субъект, предикат жана объект позицияларында өзгөрмөлөрдү камтышы мүмкүн.

Сурам үлгүлөргө алмаштырылганда суралган RDF графигинин субграфына (анын үчилтиктеринин бир бөлүгү) алып келиши мүмкүн болгон өзгөрмө маанилерди кайтарат. Үч эгиздердин ар кандай үлгүлөрүндөгү бир эле аталыштагы өзгөрмөлөр бирдей мааниге ээ болушу керек.

Мисалы, жогорудагы жети RDFS аксиомасынын топтомун эске алганда, төмөнкү суроо кайтып келет rdfs:domain и rdfs:range баалуулуктар катары ?s и ?p тиешелүүлүгүнө жараша:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Белгилей кетчү нерсе, SPARQL декларативдик жана графикалык өтүүнү сүрөттөө үчүн тил эмес (бирок, кээ бир RDF репозиторийлери суроону аткаруу планын тууралоо жолдорун сунуш кылат). Ошондуктан, кээ бир стандарттуу график маселелери, мисалы, кыска жолду табуу, SPARQLде чечилбейт, анын ичинде менчик жолдору (бирок, дагы бир жолу, жеке RDF репозиторийлери бул көйгөйлөрдү чечүү үчүн атайын кеңейтүүлөрдү сунуш кылат).

SPARQL дүйнөнүн ачыктыгы презумпциясын бөлүшпөйт жана “жокко чыгаруу ийгиликсиздик” ыкмасын карманат, мында мүмкүн сыяктуу конструкциялар FILTER NOT EXISTS {…}. Маалыматтарды бөлүштүрүү механизмин колдонуу менен эске алынат федеративдүү суроолор.

SPARQL кирүү чекити - SPARQL сурамдарын иштетүүгө жөндөмдүү RDF сактагычы - экинчи этаптын түз аналогдору жок (бул абзацтын башын караңыз). Аны HTML барактары түзүлгөн, бирок сырттан жеткиликтүү болгон мазмунуна негизделген маалымат базасына салыштырууга болот. SPARQL кирүү чекити үчүнчү этаптагы API кирүү чекитине көбүрөөк окшош, бирок эки негизги айырмасы бар. Биринчиден, бир нече "атомдук" сурамдарды бирине айкалыштырууга болот (бул GraphQLдин негизги мүнөздөмөсү болуп эсептелет), экинчиден, мындай API толугу менен өзүн-өзү документтештирет (HATEOAS жетишүүгө аракет кылган).

Полемикалык эскертүү

RDF интернетте маалыматтарды жарыялоо жолу болуп саналат, ошондуктан RDF сактоо документ DBMS каралышы керек. Ырас, RDF дарак эмес, график болгондуктан, алар да графикке негизделген болуп чыкты. Дегеле анын ишке ашканы таң калыштуу. Бош түйүндөрдү ишке ашыра турган акылдуу адамдар болот деп ким ойлогон. Код бул жерде андан майнап чыккан жок.

Ошондой эле RDF маалыматтарына жетүүнү уюштуруунун азыраак толук мүмкүнчүлүктөрү бар, мисалы, Байланышкан маалымат фрагменттери (LDF) жана Байланышкан маалымат платформасы (ЛДП).

ак куу

ак куу (Web Ontology Language) - билимди чагылдыруу үчүн формализм, сыпаттоо логикасынын синтаксистик версиясы Семантикалык желе жана байланышкан маалыматтар. Түзөтүүлөр жана толуктоолор (Төмөндө бардык жерде OWL 2 деп айтуу туурараак, OWLдин биринчи версиясы негизделген Семантикалык желе жана байланышкан маалыматтар. Түзөтүүлөр жана толуктоолор).

OWLдеги сыпаттоо логикасынын концепциялары класстарга, ролдор касиеттерге туура келет, индивиддер мурунку атын сактап калышат. Аксиомалар аксиомалар деп да аталат.

Мисалы, деп аталган Манчестер синтаксиси OWL белгилөө үчүн бизге мурунтан эле белгилүү болгон аксиома Семантикалык желе жана байланышкан маалыматтар. Түзөтүүлөр жана толуктоолор мындайча жазылат:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

OWL жазуу үчүн башка синтаксистер бар, мисалы функционалдык синтаксис, расмий спецификацияда колдонулган жана OWL/XML. Мындан тышкары, OWL сериялаштырылышы мүмкүн абстракттуу RDF синтаксисине жана андан ары - кандайдыр бир конкреттүү синтаксисте.

OWL RDF менен кош мамиледе. Бир жагынан алганда, аны RDFS кеңейткен сөздүктүн бир түрү катары кароого болот. Башка жагынан алганда, бул RDF жөн гана сериялаштыруу форматы болгон күчтүү формализм. Бардык эле элементардык OWL конструкцияларын бир RDF триплетинин жардамы менен жазууга болбойт.

OWL конструкцияларынын кайсы бөлүгүн колдонууга уруксат берилгенине жараша, алар деп аталгандар жөнүндө сүйлөшөт OWL профилдери. Стандартташтырылган жана эң атактуулары OWL EL, OWL RL жана OWL QL. Профилди тандоо типтүү маселелердин эсептөө татаалдыгына таасирин тийгизет. тиешелүү OWL конструкцияларынын толук топтому Семантикалык желе жана байланышкан маалыматтар. Түзөтүүлөр жана толуктоолор, OWL DL деп аталат. Кээде алар OWL Full жөнүндө да айтышат, мында OWL конструкцияларын семантикалык жана эсептөө чектөөлөрү жок, RDFге мүнөздүү толук эркиндик менен колдонууга уруксат берилет. Семантикалык желе жана байланышкан маалыматтар. Түзөтүүлөр жана толуктоолор. Мисалы, бир нерсе класс жана менчик болушу мүмкүн. OWL Full - чечүүгө мүмкүн эмес.

OWL кесепеттерин тиркөө үчүн негизги принциптери ачык дүйнө божомолун кабыл алуу болуп саналат. О.В.А.) жана уникалдуу ысымдардын презумпциясын четке кагуу (уникалдуу ат болжолу, А). Төмөндө биз бул принциптер кайда алып барарын жана кээ бир OWL конструкцияларын киргизе аларын көрөбүз.

Онтология төмөнкү фрагментти камтысын (Манчестер синтаксисинде):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Жакандын көп балалуу экени айтылгандардан келип чыгабы? UNAдан баш тартуу тыянак чыгаруучу механизмди бул суроого терс жооп берүүгө мажбурлайт, анткени Алиса менен Боб бир эле адам болушу мүмкүн. Төмөнкүлөр ишке ашуусу үчүн төмөнкү аксиоманы кошуу керек:

DifferentIndividuals: Alice, Bob, Carol, John

Эми онтологиялык фрагмент төмөнкү формага ээ болсун (Жакан көп балалуу деп жарыяланган, бирок анын эки гана баласы бар):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Бул онтология шайкеш келбейби (бул жараксыз маалыматтардын далили катары чечмелениши мүмкүн)? OWAны кабыл алуу тыянак чыгаруучу кыймылдаткычтын терс жооп беришине алып келет: башка "бир жерде" (башка онтологияда) Кэрол дагы Жондун баласы деп айтууга болот.

Мунун мүмкүндүгүн жокко чыгаруу үчүн, Жакан жөнүндө жаңы фактыны кошолу:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Башка балдардын көрүнүшүн жокко чыгаруу үчүн, "балалуу болуу" мүлктүн бардык баалуулуктары адамдар деп айталы, алардын ичинен бизде төртөө гана бар:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Эми онтология карама-каршылыктуу болуп калат, аны чыгаруу кыймылдаткычы билдирбей койбойт. Аксиомалардын акыркысы менен биз кандайдыр бир мааниде дүйнөнү “жабдык” жана Жакандын өз баласы болуу мүмкүнчүлүгү кандайча жокко чыгарылганын байкайбыз.

Ишкана маалыматтарын байланыштыруу

Байланышкан маалыматтар топтому ыкмалардын жана технологиялардын башында Интернетте маалыматтарды жарыялоо үчүн арналган. Аларды ички корпоративдик чөйрөдө колдонуу бир катар кыйынчылыктарга дуушар болот.

Мисалы, жабык корпоративдик чөйрөдө OWAнын кабыл алынышына жана UNAнын четке кагылышына негизделген OWL дедуктивдүү күчү, Вебдин ачык жана бөлүштүрүлгөн мүнөзүнө байланыштуу чечимдер өтө алсыз. Ал эми бул жерде төмөнкү чечимдер мүмкүн.

  • OWLди семантика менен камсыз кылуу, OWAдан баш тартууну жана UNAны кабыл алууну, тиешелүү чыгаруу кыймылдаткычын ишке ашырууну билдирет. - Ушул жол менен болуп саналат Stardog RDF сактагычы.
  • Эреже кыймылдаткычтарынын пайдасына OWL дедуктивдүү мүмкүнчүлүктөрүнөн баш тартуу. — Stardog колдойт SWRL; Jena жана GraphDB сунуш өз тилдер эрежелер
  • OWL дедуктивдүү мүмкүнчүлүктөрүнөн баш тартуу, моделдөө үчүн RDFSге жакын тигил же бул бөлүмдү колдонуу. - Бул тууралуу төмөндө караңыз.

Дагы бир маселе - бул корпоративдик дүйнөдөгү маалыматтардын сапаты маселелерине көбүрөөк басым жасоо жана Байланышкан маалыматтар стекинде маалыматтарды текшерүү куралдарынын жоктугу. Бул жерде жыйынтыктар төмөнкүдөй.

  • Дагы бир жолу, эгерде тиешелүү жыйынтык кыймылдаткычы бар болсо, жабык дүйнөлүк семантикасы жана уникалдуу аталыштары бар OWL конструкцияларын текшерүү үчүн колдонуңуз.
  • пайдалануунун SHACL, Semantic Web Layer Cake катмарларынын тизмеси бекитилгенден кийин стандартташтырылган (бирок, аны эрежелер кыймылдаткычы катары да колдонсо болот) же ShEx.
  • Баары акыры SPARQL сурамдары менен аткарыларын түшүнүү, аларды колдонуу менен өзүңүздүн жөнөкөй маалыматтарды текшерүү механизмиңизди түзүңүз.

Бирок, дедуктивдүү мүмкүнчүлүктөрдү жана валидация куралдарын толугу менен четке кагуу да Байланышкан маалыматтар стекин пейзажы боюнча ачык жана бөлүштүрүлгөн интернетке окшош тапшырмалардагы атаандаштыктан чыгарып салат - маалыматтарды интеграциялоо тапшырмаларында.

Кадимки ишкананын маалымат системасы жөнүндө эмне айтууга болот?

Бул мүмкүн, бирок, албетте, тиешелүү технологиялар кандай көйгөйлөрдү чечиши керек экенин билишиңиз керек. Мен бул жерде бул технологиялык стек кадимки IT көз карашынан алганда кандай болоорун көрсөтүү үчүн иштеп чыгуучулардын типтүү реакциясын сүрөттөп берем. Пил жөнүндөгү мисалды бир аз эске салат:

  • Бизнес аналитик: RDF түздөн-түз сакталган логикалык модель сыяктуу нерсе.
  • Системалык аналитик: RDF окшош EAV, бир топ индекстер жана ыңгайлуу суроо тили менен гана.
  • иштеп: жакшы, мунун баары бай моделдин жана төмөн коддун концепцияларынын духунда, окуп жатты жакында бул тууралуу.
  • долбоордун жетекчиси: ооба ошол эле стекти кыйратуу!

Практика көрсөткөндөй, стек көбүнчө маалыматтардын бөлүштүрүлүшү жана гетерогендүүлүгү менен байланышкан тапшырмаларда колдонулат, мисалы, MDM (Master Data Management) же DWH (Data Warehouse) класс системаларын курууда. Мындай көйгөйлөр кайсы гана тармакта болбосун бар.

Тармакка тиешелүү колдонмолор боюнча, Linked Data технологиялары азыркы учурда төмөнкү тармактарда эң популярдуу.

  • биомедициналык технологиялар (алардын популярдуулугу домендин татаалдыгына байланыштуу көрүнөт);

ток

Жакында «Кайнаган чекитте» «Улуттук медициналык билимдер базасы» бирикмеси уюштурган конференция болуп өттү.Онтологияларды айкалыштыруу. Теориядан практикалык колдонууга«.

  • татаал буюмдарды өндүрүү жана эксплуатациялоо (ири машина куруу, мунай жана газ өндүрүү; көбүнчө стандарт жөнүндө сөз болуп жатат ISO 15926);

ток

Бул жерде да себеп предметтик аймактын татаалдыгы болуп саналат, мисалы, жогорку баскычта, эгерде мунай жана газ өнөр жайы жөнүндө айтсак, жөнөкөй эсепке алуу кээ бир CAD функцияларын талап кылат.

2008-жылы Chevron тарабынан уюштурулган өкүлчүлүктүү орнотуу иш-чарасы болуп өттү жыйындар.

ISO 15926, акырында, мунай жана газ өнөр жайы үчүн бир аз оор көрүнгөн (жана, балким, машина курууда көбүрөөк колдонуу табылган). Бир гана Statoil (Equinor) ага кылдат илинди; Норвегияда, бүтүндөй экосистемасын. Башкалар өз иштерин жасаганга аракет кылып жатышат. Мисалы, имиштерге караганда, атамекендик Энергетика министрлиги «отун-энергетикалык комплекстин концептуалдык онтологиялык моделин» түзүүгө ниеттенүүдө, сыягы, электр энергетикасы үчүн түзүлгөн.

  • каржы уюмдары (ал тургай XBRL SDMX жана RDF Data Cube онтологиясынын гибридинин түрү катары каралышы мүмкүн);

ток

Жылдын башында LinkedIn авторун "Форс-мажор" телесериалынан тааныган каржы индустриясынын дээрлик бардык гиганттарынын бош орундары менен активдүү спам жасаган: Голдман Сакс, JPMorgan Чейз жана/же Морган Стэнли, Уэллс Фарго, SWIFT/Visa/Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank... Балким, ар бир адам жөнөтө турган адамды издеп жүрсө керек. Билим графиги конференциясы. Бир нечеси таба алышкан: каржы уюмдары баарын алып кетишти биринчи күнү эртең менен.

HeadHunterде Сбербанк гана кызыктуу нерсеге туш болду; ал "RDF сыяктуу маалымат модели менен EAV сактагычы" жөнүндө болду.

Балким, ата мекендик жана батыш каржы институттарынын тиешелүү технологияларды сүйүү даражасынын айырмасы акыркы ишмердүүлүгүнүн трансулуттук мүнөзү менен шартталган. Сыягы, мамлекеттик чек аралар аркылуу интеграция сапаттык жактан башка уюштуруучулук жана техникалык чечимдерди талап кылат.

  • коммерциялык тиркемелери бар суроо-жооп системалары (IBM Watson, Apple Siri, Google Knowledge Graph);

ток

Айтмакчы, Сиринин жаратуучусу Томас Грубер онтологиянын (IT маанисинде) “концептуалдаштыруунун спецификациясы” катары аныктамасынын автору. Менимче, бул аныктамадагы сөздөрдү кайра иретке келтирүү анын маанисин өзгөртпөйт, бул балким, анын жок экенин көрсөтүп турат.

  • структураланган маалыматтарды жарыялоо (бул көбүрөөк негиздеме менен Байланышкан ачык маалыматтарга таандык кылынышы мүмкүн).

ток

Шилтемеленген маалыматтардын чоң күйөрмандары GLAM деп аталган: Галереялар, китепканалар, архивдер жана музейлер. Конгресстин китепканасы MARC21ди алмаштырууну жактап жатканын айтсак жетиштүү болот BIBFRAMEошол библиографиялык сүрөттөлүштүн келечеги үчүн негиз түзөт жана, албетте, RDF негизинде.

Wikidata көп учурда Шилтемеленген ачык маалыматтар чөйрөсүндөгү ийгиликтүү долбоордун мисалы катары келтирилет - Википедиянын машина окуй турган версиясынын бир түрү, анын мазмуну DBPediaдан айырмаланып, макаланын инфобоксторунан импорттоо аркылуу түзүлбөйт, бирок аздыр-көптүр кол менен түзүлөт (жана кийинчерээк ошол эле инфобокстор үчүн маалымат булагы болуп калат).

Биз дагы текшерип көрүүнү сунуштайбыз тизме Stardog RDF сактагычынын колдонуучулары Stardog веб-сайтындагы "Кардарлар" бөлүмүндө.

Кандай болбосун, Гартнерде Өнүгүп келе жаткан технологиялар үчүн Hype Cycle 2016 "Ишкананын таксономиясы жана онтологиясын башкаруу" 10 жылдан эрте эмес "өндүрүмдүүлүк платосуна" жетүү перспективасы менен көңүл калуу өрөөнүнө түшүүнүн ортосунда жайгашкан.

Ишкана берилиштерин туташтыруу

Прогноз, прогноз, прогноз...

Тарыхый кызыкчылыктан улам, мен Gartnerдин бизди кызыктырган технологиялар боюнча ар кандай жылдардагы божомолдорун төмөндө келтирдим.

жыл технология билдирүү абал Платого жылдар
2001 Семантикалык желе өнүгүп келе жаткан Technologies Innovation Trigger 5-10
2006 Корпоративдик семантикалык желе өнүгүп келе жаткан Technologies Көбөйтүлгөн күтүүлөрдүн туу чокусу 5-10
2012 Семантикалык желе Big маалыматтар Көбөйтүлгөн күтүүлөрдүн туу чокусу > 10
2015 Байланышкан маалыматтар Өркүндөтүлгөн аналитика жана маалымат илими Көңүл калуу 5-10
2016 Ишкананын онтологиясын башкаруу өнүгүп келе жаткан Technologies Көңүл калуу > 10
2018 Билим Графиктери өнүгүп келе жаткан Technologies Innovation Trigger 5-10

Бирок, мурунтан эле "Хайп цикл..." 2018 дагы бир жогорулоо тенденциясы пайда болду - Knowledge Graphs. Белгилүү бир реинкарнация болуп өттү: колдонуучулардын көңүлү жана иштеп чыгуучулардын аракети бурулган DBMS графтары, мурункулардын суроо-талаптарынын жана акыркыларынын адаттарынын таасири астында контурларды жана позицияларды ала баштады. алардын мурдагы атаандаштарынын.

Дээрлик ар бир График DBMS азыр өзүн корпоративдик “билим графигин” куруу үчүн ылайыктуу платформа деп жарыялайт (“байланышкан маалыматтар” кээде “байланышкан маалыматтар” менен алмаштырылат), бирок мындай дооматтар канчалык негиздүү?

График маалымат базалары дагы эле асемантикалык; График DBMSдеги маалыматтар мурдагыдай эле маалымат силосу. URIлардын ордуна сап идентификаторлору эки графтык DBMSти интеграциялоо милдети болуп саналат, ал эми эки RDF дүкөнүн интеграциялоо көбүнчө эки RDF графиктерин бириктирүү менен аяктайт. Асемантиканын дагы бир аспектиси - LPG графигинин моделинин рефлексивдүү эместиги, бул бир эле платформаны колдонуу менен метаберилиштерди башкарууну кыйындатат.

Акыр-аягы, график DBMSs жыйынтык кыймылдаткычтары же эреже кыймылдаткычтары жок. Мындай кыймылдаткычтардын натыйжаларын татаалдаштырган суроолор аркылуу чыгарууга болот, бирок бул SQLде да мүмкүн.

Бирок, алдыңкы RDF сактоо тутумдары LPG моделин колдоодо эч кандай кыйынчылык жок. Эң бекем ыкма Blazegraphте бир убакта сунушталган ыкма болуп эсептелет: RDF жана LPGди айкалыштырган RDF* модели.

More

LPG модели үчүн RDF сактагычын колдоо жөнүндө көбүрөөк маалыматты Habréдеги мурунку макаладан окуй аласыз: "RDF сактагычы азыр эмне болуп жатат". Мен бир күнү өзүнчө макала Knowledge Graphs жана Data Fabric жөнүндө жазылат деп үмүттөнөм. Акыркы бөлүм, түшүнүктүү болгондой, шашылыш жазылган, бирок, алты ай өткөндөн кийин, баары бул түшүнүктөр менен анчалык так эмес.

адабият

  1. Халпин, Х., Моннин, А. (ред.) (2014). Философиялык инженерия: Интернеттин философиясына карай
  2. Аллеманг, Д., Хендлер, Дж. (2011) Жумушчу онтолог үчүн семантикалык желе (2-бас.)
  3. Staab, S., Studer, R. (eds.) (2009) Handbook ontologies (2nd ed.)
  4. Вуд, Д. (ред.). (2011) Enterprise маалыматтарын байланыштыруу
  5. Keet, M. (2018) An Introduction to Ontology Engineering

Source: www.habr.com

Комментарий кошуу