وب معنایی و داده های پیوندی اصلاحات و اضافات

بخشی از این کتاب اخیراً منتشر شده را به عموم مردم تقدیم می کنم:

مدل‌سازی هستی‌شناختی یک شرکت: روش‌ها و فناوری‌ها [متن]: مونوگراف / [S. V. Gorshkov، S. S. Kralin، O. I. Mushtak و دیگران؛ سردبیر اجرایی S.V. Gorshkov]. - اکاترینبورگ: انتشارات دانشگاه اورال، 2019. - 234 ص: ill., جدول; 20 سانتی متر - نویسنده. روی تیغه پشت نشان داده شده است. با. - کتابشناسی - فهرست کتب در پایان فصل — ISBN 978-5-7996-2580-1: 200 نسخه.

هدف از ارسال این قطعه در هابره چهار چیز است:

  • بعید است کسی بتواند این کتاب را در دست بگیرد اگر مشتری یک محترم نباشد SergeIndex; قطعا در فروش نیست
  • تصحیحاتی در متن انجام شده است (آنها در زیر برجسته نشده اند) و اضافاتی ایجاد شده است که با قالب یک تک نگاری چاپی سازگار نیست: یادداشت های موضوعی (زیر اسپویل) و لینک ها.
  • من می خواهم جمع آوری سوالات و نظرات، به منظور در نظر گرفتن آنها هنگام گنجاندن این متن به صورت اصلاح شده در هر نشریه دیگری.
  • بسیاری از طرفداران وب معنایی و داده های پیوندی هنوز معتقدند که دایره آنها بسیار باریک است، عمدتاً به این دلیل که عموم مردم هنوز به درستی توضیح داده نشده اند که چقدر عالی است که طرفدار وب معنایی و داده های پیوندی باشید. نویسنده قطعه، اگرچه متعلق به این حلقه است، این نظر را ندارد، اما، با این وجود، خود را موظف به تلاش دیگری می داند.

بنابراین،

وب معنایی

تکامل اینترنت را می توان به صورت زیر نشان داد (یا در مورد بخش های آن صحبت کنید که به ترتیب نشان داده شده در زیر شکل گرفته اند):

  1. اسناد در اینترنت. فن آوری های کلیدی - Gopher، FTP و غیره
    اینترنت یک شبکه جهانی برای تبادل منابع محلی است.
  2. اسناد اینترنتی. فناوری های کلیدی HTML و HTTP هستند.
    ماهیت منابع در معرض، ویژگی های رسانه انتقال آنها را در نظر می گیرد.
  3. داده های اینترنتی. فناوری‌های کلیدی - REST و SOAP API، XHR و غیره.
    عصر کاربردهای اینترنتی، نه تنها مردم مصرف کننده منابع می شوند.
  4. داده های اینترنتی. فناوری‌های کلیدی، فناوری‌های داده‌های پیوندی هستند.
    این مرحله چهارم که توسط برنرز لی، خالق فناوری های کلیدی دوم و مدیر W3C پیش بینی شده است، وب معنایی نامیده می شود. فن‌آوری‌های داده‌های پیوندی به گونه‌ای طراحی شده‌اند که داده‌های موجود در وب را نه تنها برای ماشین قابل خواندن، بلکه برای ماشین نیز قابل درک کنند.

از آنچه در ادامه می آید، خواننده مطابقت بین مفاهیم کلیدی مرحله دوم و چهارم را درک خواهد کرد:

  • URL ها مشابه URI ها هستند،
  • آنالوگ HTML RDF است،
  • لینک های HTML شبیه به URI در اسناد RDF هستند.

وب معنایی بیشتر یک چشم انداز سیستماتیک از آینده اینترنت است تا یک روند خاص خودانگیخته یا لابی شده، اگرچه می تواند این موارد اخیر را در نظر بگیرد. به عنوان مثال، یکی از ویژگی های مهم آنچه وب 2.0 نامیده می شود، «محتوای تولید شده توسط کاربر» در نظر گرفته می شود. به ویژه، توصیه W3C باید آن را در نظر بگیرد.هستی شناسی حاشیه نویسی وب"و چنین تعهدی مانند جامد.

آیا وب معنایی مرده است؟

اگر امتناع کنید انتظارات غیرواقعی، وضعیت وب معنایی تقریباً مانند کمونیسم در دوران سوسیالیسم توسعه یافته است (و اینکه آیا وفاداری به دستورات مشروط ایلیچ رعایت می شود ، بگذارید هرکس خودش تصمیم بگیرد). موتورهای جستجو بسیار موفق وب سایت ها را مجبور به استفاده از RDFa و JSON-LD می کنند و خودشان از فناوری های مرتبط با مواردی که در زیر توضیح داده شده است (Google Knowledge Graph، Bing Knowledge Graph) استفاده می کنند.

به طور کلی، نویسنده نمی تواند بگوید چه چیزی مانع گسترش بیشتر است، اما می تواند بر اساس تجربه شخصی صحبت کند. مشکلاتی وجود دارد که می توان آنها را "خارج از جعبه" در شرایط تهاجمی SW حل کرد ، اگرچه بسیار گسترده نیستند. در نتیجه، کسانی که با این وظایف روبه‌رو می‌شوند، هیچ ابزار اجباری علیه کسانی که قادر به ارائه راه‌حل هستند، ندارند، در حالی که ارائه مستقل راه‌حل توسط دومی‌ها با مدل‌های کسب‌وکارشان در تضاد است. بنابراین ما به تجزیه HTML و چسباندن API های مختلف به یکدیگر ادامه می دهیم.

با این حال، فناوری‌های داده‌های پیوندی فراتر از جریان اصلی وب گسترش یافته‌اند. این کتاب در واقع به این کاربردها اختصاص دارد. در حال حاضر، جامعه داده‌های پیوندی انتظار دارد که این فناوری‌ها به لطف ثبت (یا اعلامیه‌های گارتنر) از روندهایی مانند نمودارهای دانش и دیتا فابریک. من مایلم باور کنم که اجرای "دوچرخه" این مفاهیم موفقیت آمیز نخواهد بود، بلکه موارد مربوط به استانداردهای W3C هستند که در زیر مورد بحث قرار می گیرند.

داده های مرتبط

برنرز لی داده های پیوندی را به عنوان وب معنایی «درست انجام شده» تعریف کرد: مجموعه ای از رویکردها و فناوری هایی که به آن اجازه می دهد به اهداف نهایی خود دست یابد. اصول اولیه داده های پیوندی برنرز لی برجسته شده است به شرح زیر.

اصل 1. استفاده از URI برای نامگذاری موجودیت ها.

URI ها در مقابل شناسه های رشته محلی برای ورودی ها، شناسه های موجودیت جهانی هستند. پس از آن، این اصل به بهترین وجه در شعار Google Knowledge Graph بیان شد.چیزها، نه رشته ها'.

اصل 2. استفاده از URI ها در طرح HTTP برای اینکه بتوان آنها را ارجاع داد.

با مراجعه به یک URI، باید بتوان مدلول پشت آن دال را به دست آورد (قیاس با نام عملگر "در اینجا واضح است).*"در C)؛ به طور دقیق تر، برای به دست آوردن مقداری نمایش از این نشانه - بسته به مقدار هدر HTTP Accept:. شاید با ظهور عصر AR/VR بتوان خود منبع را به دست آورد، اما در حال حاضر، به احتمال زیاد، یک سند RDF خواهد بود که نتیجه اجرای یک کوئری SPARQL است. DESCRIBE.

اصل 3. استفاده از استانداردهای W3C - در درجه اول RDF(S) و SPARQL - به ویژه هنگام عدم ارجاع به URI ها.

این «لایه‌های» منفرد از پشته فناوری داده‌های پیوندی که به نام‌های دیگر نیز شناخته می‌شوند کیک لایه وب معنایی، در زیر توضیح داده خواهد شد.

اصل 4. استفاده از ارجاع به سایر URI ها هنگام توصیف موجودیت ها.

RDF به شما این امکان را می دهد که خود را به توصیف شفاهی یک منبع به زبان طبیعی محدود کنید و اصل چهارم این است که این کار را انجام ندهید. اگر اصل اول به طور جهانی رعایت شود، هنگام توصیف یک منبع، ارجاع به منابع دیگر، از جمله منابع "خارجی" امکان پذیر می شود، به همین دلیل است که داده ها پیوند خورده نامیده می شوند. در واقع، استفاده از URI های نامگذاری شده در واژگان RDFS تقریبا اجتناب ناپذیر است.

RDF

RDF (چارچوب توصیف منابع) یک فرمالیسم برای توصیف موجودیت های مرتبط با یکدیگر است.

جملاتی از نوع "موضوع - محمول - مفعول" که سه گانه نامیده می شوند، در مورد موجودات و روابط آنها ساخته می شوند. در ساده ترین حالت، موضوع، محمول و مفعول همگی URI هستند. یک URI می تواند در موقعیت های مختلف در سه گانه های مختلف باشد: یک موضوع، یک محمول و یک مفعول باشد. بنابراین، سه قلوها نوعی گراف به نام گراف RDF را تشکیل می دهند.

سوژه ها و اشیاء می توانند نه تنها URI، بلکه به اصطلاح نیز باشند گره های خالی، و اشیاء نیز می توانند باشند به معنای واقعی کلمه. Literal ها نمونه هایی از انواع اولیه هستند که از یک نمایش رشته و یک نشان نوع تشکیل شده اند.

نمونه هایی از نوشتن لفظ (در نحو لاک پشت، در زیر بیشتر در مورد آن) "5.0"^^xsd:float и "five"^^xsd:string. حروف با نوع rdf:langString همچنین می تواند به یک برچسب زبان مجهز شود؛ در Turtle به این صورت نوشته شده است: "five"@en и "пять"@ru.

گره‌های خالی منابع «ناشناس» بدون شناسه‌های سراسری هستند، اما می‌توان در مورد آن‌ها اظهاراتی ارائه کرد. نوع متغیرهای وجودی

بنابراین (این در واقع کل نکته RDF است):

  • موضوع یک URI یا یک گره خالی است،
  • محمول یک URI است،
  • شی یک URI، یک گره خالی یا یک حرف است.

چرا محمول ها نمی توانند گره های خالی باشند؟

دلیل احتمالی، تمایل به درک غیر رسمی و ترجمه سه گانه به زبان منطق محمول مرتبه اول است. s p o مثل چیزی شبیه وب معنایی و داده های پیوندی اصلاحات و اضافاتجایی که وب معنایی و داده های پیوندی اصلاحات و اضافات - محمول، وب معنایی و داده های پیوندی اصلاحات و اضافات и وب معنایی و داده های پیوندی اصلاحات و اضافات - ثابت ها ردپای این درک در سند استLBase: معناشناسی برای زبان های وب معنایی"، که وضعیت یادداشت کارگروه W3C را دارد. با این درک، سه قلو s p []جایی که [] - گره خالی، به عنوان ترجمه خواهد شد وب معنایی و داده های پیوندی اصلاحات و اضافاتجایی که وب معنایی و داده های پیوندی اصلاحات و اضافات - متغیر، اما چگونه باید ترجمه شود s [] o? سند با وضعیت توصیه W3C "RDF 1.1 معناشناسی” روش ترجمه دیگری را ارائه می دهد، اما هنوز احتمال خالی بودن گره های محمول را در نظر نمی گیرد.

با این حال، مانو اسپورنی مجاز.

RDF یک مدل انتزاعی است. RDF را می توان در نحوهای مختلف نوشت (سریالی) کرد: RDF / XML, لاک پشت (خواندنی ترین انسان)، JSON-LD, HDT (دودویی).

همان RDF را می توان به روش های مختلف به RDF/XML سریال کرد، بنابراین، برای مثال، اعتبارسنجی XML حاصل با استفاده از XSD یا تلاش برای استخراج داده ها با استفاده از XPath منطقی نیست. به همین ترتیب، بعید است که JSON-LD میل متوسط ​​توسعه دهندگان جاوا اسکریپت را برای کار با RDF با استفاده از علامت نقطه و براکت مربع جاوا اسکریپت برآورده کند (اگرچه JSON-LD با ارائه مکانیزمی در آن جهت حرکت می کند. کادر بندی).

اکثر نحوها راههایی برای کوتاه کردن URIهای طولانی ارائه می دهند. مثلا یک تبلیغ @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> در Turtle به شما اجازه می دهد به جای آن بنویسید <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> تنها rdf:type.

RDFS

RDFS (RDF Schema) - یک واژگان مدل سازی پایه، مفاهیم ویژگی و کلاس و ویژگی هایی مانند rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. برای مثال، با استفاده از فرهنگ لغت RDFS، عبارات معتبر زیر را می توان نوشت:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS یک واژگان توصیف و مدل سازی است، اما یک زبان محدودیت نیست (اگرچه مشخصات رسمی و برگها امکان چنین استفاده ای). کلمه "Schema" را نباید به همان معنایی که در عبارت "XML Schema" درک کرد. مثلا، :author rdfs:range foaf:Person یعنی که rdf:type تمام ارزش های دارایی :author - foaf:Person، اما به این معنی نیست که این باید از قبل گفته شود.

SPARQL

SPARQL (پروتکل SPARQL و زبان پرس و جو RDF) - زبانی برای استعلام داده های RDF. در یک مورد ساده، یک پرس و جو SPARQL مجموعه ای از نمونه ها است که سه تایی از نمودار مورد نظر با آنها مطابقت داده می شود. الگوها می توانند دارای متغیرهایی در موقعیت موضوع، محمول و مفعول باشند.

پرس‌وجو مقادیر متغیری را برمی‌گرداند که وقتی در نمونه‌ها جایگزین می‌شود، می‌تواند منجر به زیرگرافی از گراف RDF مورد پرسش (زیرمجموعه‌ای از سه‌گانه‌های آن) شود. متغیرهای همنام در نمونه های مختلف سه قلوها باید مقادیر یکسانی داشته باشند.

به عنوان مثال، با توجه به مجموعه هفت بدیهی RDFS بالا، پرس و جو زیر برمی گردد rdfs:domain и rdfs:range به عنوان ارزش ها ?s и ?p به ترتیب:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

شایان ذکر است که SPARQL اعلانی است و زبانی برای توصیف پیمایش گراف نیست (با این حال، برخی از مخازن RDF راه هایی برای تنظیم طرح اجرای پرس و جو ارائه می دهند). بنابراین، برخی از مشکلات نمودار استاندارد، به عنوان مثال، یافتن کوتاه ترین مسیر، در SPARQL قابل حل نیستند، از جمله با استفاده از مسیرهای دارایی (اما، دوباره، مخازن RDF منفرد افزونه های ویژه ای را برای حل این مشکلات ارائه می دهند).

SPARQL با فرض باز بودن جهان موافق نیست و از رویکرد "نفی به عنوان شکست" پیروی می کند که در آن ممکن است طرح هایی مانند FILTER NOT EXISTS {…}. توزیع داده ها با استفاده از مکانیزم در نظر گرفته می شود پرس و جوهای فدرال.

نقطه دسترسی SPARQL - یک ذخیره سازی RDF که قادر به پردازش پرس و جوهای SPARQL است - هیچ آنالوگ مستقیمی از مرحله دوم ندارد (به ابتدای این پاراگراف مراجعه کنید). می توان آن را به یک پایگاه داده تشبیه کرد که بر اساس محتوای آن صفحات HTML تولید شده است، اما برای خارج قابل دسترسی است. نقطه دسترسی SPARQL بیشتر شبیه به نقطه دسترسی API از مرحله سوم است، اما با دو تفاوت اصلی. اولاً، ممکن است چندین پرس‌وجو «اتمی» را در یک پرس‌وجو ترکیب کرد (که یکی از ویژگی‌های کلیدی GraphQL در نظر گرفته می‌شود)، و ثانیاً، چنین API کاملاً مستندسازی می‌شود (این همان چیزی است که HATEOAS سعی کرد به آن دست یابد).

تذکر جدلی

RDF راهی برای انتشار داده ها در وب است، بنابراین ذخیره سازی RDF باید یک DBMS سند در نظر گرفته شود. درست است، از آنجایی که RDF یک گراف است و نه یک درخت، آنها نیز مبتنی بر گراف هستند. این شگفت انگیز است که اصلاً نتیجه داده است. چه کسی فکرش را می کرد که افراد باهوشی وجود داشته باشند که گره های خالی را پیاده سازی کنند. کاد اینجاست نتیجه نداد.

همچنین روش‌های کم‌تری برای سازماندهی دسترسی به داده‌های RDF وجود دارد، برای مثال، قطعات داده مرتبط (LDF) و پلت فرم داده های مرتبط (LDP).

OWL

OWL (زبان هستی شناسی وب) - یک فرمالیسم برای نشان دادن دانش، یک نسخه نحوی از منطق توصیف وب معنایی و داده های پیوندی اصلاحات و اضافات (در همه جا زیر درست تر است که بگوییم OWL 2، اولین نسخه OWL بر اساس وب معنایی و داده های پیوندی اصلاحات و اضافات).

مفاهیم منطق توصیفی در OWL با کلاس ها مطابقت دارد، نقش ها با ویژگی ها مطابقت دارند، افراد نام قبلی خود را حفظ می کنند. بدیهیات را بدیهیات نیز می گویند.

به عنوان مثال، در به اصطلاح نحو منچستر برای نماد OWL بدیهی است که قبلاً برای ما شناخته شده است وب معنایی و داده های پیوندی اصلاحات و اضافات به این صورت نوشته خواهد شد:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

سینتکس های دیگری برای نوشتن OWL وجود دارد، مانند نحو عملکردی، در مشخصات رسمی استفاده می شود و OWL/XML. علاوه بر این، OWL را می توان سریال کرد برای انتزاع نحو RDF و بیشتر - در هر یک از نحوهای خاص.

OWL یک رابطه دوگانه با RDF دارد. از یک طرف می توان آن را نوعی دیکشنری در نظر گرفت که RDFS را گسترش می دهد. از سوی دیگر، فرمالیسم قدرتمندتری است که RDF برای آن فقط یک قالب سریال سازی است. همه ساختارهای اولیه OWL را نمی توان با استفاده از یک سه گانه RDF نوشت.

بسته به اینکه کدام زیر مجموعه از ساختارهای OWL مجاز به استفاده هستند، به اصطلاح صحبت می کنند پروفایل های جغد. استاندارد و معروف ترین آنها OWL EL، OWL RL و OWL QL هستند. انتخاب نمایه بر پیچیدگی محاسباتی مسائل معمولی تأثیر می گذارد. مجموعه کاملی از ساختارهای OWL مربوط به وب معنایی و داده های پیوندی اصلاحات و اضافات، به نام OWL DL. گاهی اوقات آنها همچنین در مورد OWL Full صحبت می کنند، که در آن ساختارهای OWL مجاز به استفاده با آزادی کامل ذاتی در RDF، بدون محدودیت معنایی و محاسباتی هستند. وب معنایی و داده های پیوندی اصلاحات و اضافات. برای مثال، چیزی می تواند هم کلاس و هم ویژگی باشد. OWL Full غیرقابل تصمیم گیری است.

اصول کلیدی برای پیوست کردن پیامدها در OWL، پذیرش فرضیه جهان باز است. O.W.A.) و رد فرض اسامی منحصر به فرد (فرض یک نام، یکی). در زیر خواهیم دید که این اصول به کجا می‌تواند منجر شود و برخی از ساختارهای OWL را معرفی خواهیم کرد.

اجازه دهید هستی شناسی شامل قطعه زیر باشد (در نحو منچستر):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

آیا از آنچه گفته شد نتیجه می شود که جان فرزندان زیادی دارد؟ امتناع UNA موتور استنتاج را مجبور می کند که به این سوال پاسخ منفی بدهد، زیرا ممکن است آلیس و باب همان شخص باشند. برای انجام موارد زیر، باید اصل زیر را اضافه کنید:

DifferentIndividuals: Alice, Bob, Carol, John

اکنون قطعه هستی شناسی شکل زیر را داشته باشد (اعلام شده است که جان فرزندان زیادی دارد، اما او فقط دو فرزند دارد):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

آیا این هستی شناسی ناسازگار خواهد بود (که می تواند به عنوان شواهدی از داده های نامعتبر تفسیر شود)؟ پذیرش OWA باعث می شود که موتور استنتاج منفی پاسخ دهد: "در جایی دیگر" (در هستی شناسی دیگری) به خوبی می توان گفت که کارول نیز فرزند جان است.

برای رد احتمال این، اجازه دهید یک واقعیت جدید در مورد جان اضافه کنیم:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

برای حذف ظاهر سایر فرزندان، بیایید بگوییم که تمام ارزش های دارایی "دارای فرزند" افرادی هستند که ما فقط چهار نفر از آنها را داریم:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

اکنون هستی شناسی متناقض خواهد شد، که موتور استنتاج در گزارش آن کوتاهی نخواهد کرد. با آخرین بدیهیات، ما به یک معنا جهان را «بسته‌ایم» و متوجه می‌شویم که چگونه احتمال اینکه جان فرزند خودش باشد منتفی است.

پیوند داده های سازمانی

مجموعه داده های پیوندی از رویکردها و فناوری ها در ابتدا برای انتشار داده ها در وب در نظر گرفته شده بود. استفاده از آنها در محیط داخلی شرکت با تعدادی از مشکلات مواجه است.

به عنوان مثال، در یک محیط بسته شرکتی، قدرت قیاسی OWL بر اساس پذیرش OWA و رد UNA، تصمیمات به دلیل ماهیت باز و توزیع شده وب، بسیار ضعیف است. و در اینجا راه حل های زیر امکان پذیر است.

  • اعطای OWL به معناشناسی، به معنای کنار گذاشتن OWA و پذیرش UNA، اجرای موتور خروجی مربوطه. - در این مسیر می رود ذخیره سازی RDF Stardog.
  • کنار گذاشتن قابلیت های قیاسی OWL به نفع موتورهای قانون. - Stardog پشتیبانی می کند SWRL; Jena و GraphDB پیشنهاد می دهند مال خود языки قوانین
  • امتناع از قابلیت‌های قیاسی OWL، استفاده از یک یا آن زیر مجموعه نزدیک به RDFS برای مدل‌سازی. - بیشتر در این مورد در زیر ببینید.

موضوع دیگر تمرکز بیشتر دنیای شرکت‌ها بر مسائل کیفیت داده و فقدان ابزار اعتبارسنجی داده در پشته داده‌های پیوندی است. خروجی ها در اینجا به شرح زیر است.

  • در صورت وجود موتور استنتاج مناسب، مجدداً برای اعتبار سنجی ساختارهای OWL با معنای جهان بسته و نام‌های منحصربه‌فرد استفاده کنید.
  • استفاده SHACL، پس از اینکه لیست لایه های کیک لایه وب معنایی ثابت شد (با این حال، می تواند به عنوان موتور قوانین نیز استفاده شود) استاندارد شده است. ShEx.
  • درک اینکه همه چیز در نهایت با پرس و جوهای SPARQL انجام می شود، مکانیسم اعتبارسنجی داده ساده خود را با استفاده از آنها ایجاد کنید.

با این حال، حتی رد کامل قابلیت‌های قیاسی و ابزارهای اعتبارسنجی، داده‌های پیوندی را از رقابت در وظایفی که از نظر چشم‌انداز شبیه به وب باز و توزیع شده هستند - در وظایف یکپارچه‌سازی داده‌ها، خارج می‌کند.

در مورد یک سیستم اطلاعات سازمانی معمولی چطور؟

این امکان پذیر است، اما مطمئناً باید بدانید که فناوری های مربوطه باید دقیقاً چه مشکلاتی را حل کنند. من در اینجا یک واکنش معمولی از شرکت کنندگان در توسعه را توضیح خواهم داد تا نشان دهم این پشته فناوری از دیدگاه فناوری اطلاعات معمولی چگونه به نظر می رسد. من را کمی به یاد تمثیل فیل می اندازد:

  • تحلیلگر کسب و کار: RDF چیزی شبیه یک مدل منطقی مستقیم ذخیره شده است.
  • تحلیلگر سیستم ها: RDF مانند است EAV، فقط با یک دسته از نمایه ها و یک زبان پرس و جو مناسب.
  • توسعه دهنده: خوب، این همه در روح مفاهیم مدل غنی و کد پایین است، می خواند اخیرا در این مورد
  • مدیر پروژه: بله همینطوره در حال فروپاشی پشته!

تمرین نشان می دهد که پشته اغلب در وظایف مربوط به توزیع و ناهمگونی داده ها استفاده می شود، به عنوان مثال، هنگام ساختن سیستم های کلاس MDM (مدیریت داده های اصلی) یا DWH (انبار داده). چنین مشکلاتی در هر صنعتی وجود دارد.

از نظر کاربردهای خاص صنعت، فناوری های داده های پیوندی در حال حاضر در صنایع زیر محبوب ترین هستند.

  • فن آوری های زیست پزشکی (جایی که به نظر می رسد محبوبیت آنها به پیچیدگی دامنه مربوط می شود).

جاری

«نقطه جوش» اخیراً میزبان کنفرانسی بود که توسط انجمن «پایگاه دانش پزشکی ملی» برگزار شد.ترکیب هستی شناسی ها از تئوری تا کاربرد عملی'.

  • تولید و بهره برداری از محصولات پیچیده (مهندسی مکانیک بزرگ، تولید نفت و گاز؛ اغلب ما در مورد استاندارد صحبت می کنیم. ISO 15926);

جاری

در اینجا نیز دلیل آن پیچیدگی حوزه موضوعی است، زمانی که مثلاً در مرحله بالادستی، اگر در مورد صنعت نفت و گاز صحبت کنیم، حسابداری ساده نیازمند برخی توابع CAD است.

در سال 2008، یک رویداد نصب نماینده، سازماندهی شده توسط شورون، برگزار شد کنفرانس.

ISO 15926، در نهایت، برای صنعت نفت و گاز کمی سنگین به نظر می رسید (و شاید کاربرد بیشتری در مهندسی مکانیک پیدا کرد). فقط Statoil (Equinor) به طور کامل به آن وابسته شد؛ در نروژ، یک کل زیست بوم. دیگران سعی می کنند کار خودشان را انجام دهند. به عنوان مثال، طبق شایعات، وزارت نیرو داخلی در نظر دارد یک "مدل هستی شناختی مفهومی مجموعه سوخت و انرژی" ایجاد کند، ظاهراً مشابه برای صنعت برق ایجاد شده است.

  • سازمان های مالی (حتی XBRL را می توان نوعی ترکیبی از SDMX و هستی شناسی مکعب داده RDF در نظر گرفت).

جاری

در ابتدای سال، لینکدین به طور فعال پست های خالی نویسنده را از تقریباً همه غول های صنعت مالی، که او آنها را از مجموعه تلویزیونی "Force Majeure" می شناسد، ارسال کرد: گلدمن ساکس، جی پی مورگان چیس و/یا مورگان استنلی، ولز فارگو، SWIFT/Visa/Mastercard، Bank of America، Citigroup، Fed، Deutsche Bank... احتمالاً همه به دنبال شخصی بودند که بتوانند به او بفرستند. کنفرانس نمودار دانش. تعداد کمی از آنها موفق شدند پیدا کنند: سازمان های مالی همه چیز را گرفتند صبح روز اول.

در HeadHunter، فقط Sberbank با چیز جالبی برخورد کرد؛ آن در مورد "ذخیره سازی EAV با یک مدل داده مانند RDF" بود.

احتمالاً تفاوت در میزان عشق به فناوری های مربوطه مؤسسات مالی داخلی و غربی به دلیل ماهیت فراملی فعالیت های این مؤسسه است. ظاهراً ادغام در فراسوی مرزهای ایالتی نیازمند راهکارهای کیفی سازمانی و فنی متفاوتی است.

  • سیستم های پرسش و پاسخ با برنامه های تجاری (IBM Watson، Apple Siri، Google Knowledge Graph)؛

جاری

به هر حال، خالق سیری، توماس گروبر، نویسنده همان تعریف هستی شناسی (در مفهوم فناوری اطلاعات) به عنوان "مشخصات مفهوم سازی" است. به نظر من، تنظیم مجدد کلمات در این تعریف، معنای آن را تغییر نمی دهد، که شاید نشان دهنده عدم وجود آن باشد.

  • انتشار داده های ساختاریافته (با توجیه بیشتر می توان این موضوع را به داده های باز پیوندی نسبت داد).

جاری

طرفداران بزرگ داده های پیوندی به اصطلاح GLAM هستند: گالری ها، کتابخانه ها، آرشیوها و موزه ها. کافی است بگوییم که کتابخانه کنگره در حال تبلیغ جایگزینی برای MARC21 است BIBFRAMEکه پایه ای برای آینده توصیف کتابشناختی فراهم می کند و البته بر اساس RDF.

ویکی داده اغلب به عنوان نمونه ای از پروژه موفق در زمینه داده های باز پیوندی ذکر می شود - نوعی نسخه قابل خواندن ماشینی ویکی پدیا، که محتوای آن، بر خلاف DBPedia، با واردات از جعبه اطلاعات مقاله تولید نمی شود، بلکه کم و بیش به صورت دستی ایجاد می شود (و متعاقباً به منبع اطلاعاتی برای همان جعبه های اطلاعات تبدیل می شود).

همچنین توصیه می کنیم آن را بررسی کنید فهرست کاربران ذخیره سازی RDF Stardog در وب سایت Stardog در بخش "مشتریان".

همانطور که ممکن است، در گارتنر چرخه هایپ برای فناوری های نوظهور 2016 «مدیریت تاکسونومی و هستی‌شناسی سازمانی» با چشم‌انداز رسیدن به «فلات بهره‌وری» زودتر از 10 سال دیگر در میانه نزولی به دره ناامیدی قرار می‌گیرد.

اتصال داده های سازمانی

پیش بینی ها، پیش بینی ها، پیش بینی ها ...

به دلیل علاقه تاریخی، پیش‌بینی‌های گارتنر برای سال‌های مختلف در مورد فناوری‌های مورد علاقه ما را در زیر جدول‌بندی کرده‌ام.

سال Технология گزارش موقعیت سالها به فلات
2001 وب معنایی فن آوری های نوظهور محرک نوآوری 5-10
2006 وب معنایی شرکتی فن آوری های نوظهور اوج انتظارات باد 5-10
2012 وب معنایی بزرگ داده اوج انتظارات باد > 10
2015 داده های مرتبط تجزیه و تحلیل پیشرفته و علم داده از طریق تخریب 5-10
2016 مدیریت هستی شناسی سازمانی فن آوری های نوظهور از طریق تخریب > 10
2018 نمودارهای دانش فن آوری های نوظهور محرک نوآوری 5-10

با این حال، در حال حاضر در "چرخه هایپ..." 2018 یک روند صعودی دیگر ظاهر شده است - نمودارهای دانش. تناسخ خاصی اتفاق افتاد: DBMS های گراف که توجه کاربران و تلاش های توسعه دهندگان به آنها معطوف شد، تحت تأثیر درخواست های اولی و عادات دومی، شروع به گرفتن خطوط و موقعیت یابی کردند. از رقبای قبلی خود.

تقریباً هر DBMS نموداری اکنون خود را پلتفرمی مناسب برای ایجاد یک «گراف دانش» شرکتی اعلام می‌کند («داده‌های مرتبط» گاهی اوقات با «داده‌های متصل» جایگزین می‌شوند)، اما چنین ادعاهایی چقدر موجه هستند؟

پایگاه‌های داده گراف هنوز هم اسمانتیک هستند؛ داده‌های موجود در یک DBMS گراف هنوز همان سیلو داده است. شناسه‌های رشته‌ای به جای URI، وظیفه ادغام دو DBMS گراف را همچنان یک کار یکپارچه‌سازی می‌کنند، در حالی که ادغام دو ذخیره‌گاه RDF اغلب به ادغام دو نمودار RDF ختم می‌شود. یکی دیگر از جنبه‌های اسمانتیسیت، عدم بازتاب مدل نمودار LPG است که مدیریت ابرداده را با استفاده از پلتفرم یکسان دشوار می‌کند.

در نهایت، DBMS های گراف موتورهای استنتاج یا موتورهای قانون ندارند. نتایج چنین موتورهایی را می توان با پیچیدگی پرس و جوها بازتولید کرد، اما این حتی در SQL نیز امکان پذیر است.

با این حال، سیستم های ذخیره سازی پیشرو RDF هیچ مشکلی در پشتیبانی از مدل LPG ندارند. محکم‌ترین رویکرد در نظر گرفته می‌شود که در یک زمان در Blazegraph پیشنهاد شده است: مدل RDF*، ترکیبی از RDF و LPG.

بیشتر

می‌توانید در مقاله قبلی در Habré درباره پشتیبانی از ذخیره‌سازی RDF برای مدل LPG بیشتر بخوانید: "در حال حاضر با ذخیره سازی RDF چه اتفاقی می افتد". امیدوارم روزی مقاله جداگانه ای در مورد Graphs دانش و Data Fabric نوشته شود. بخش پایانی، همانطور که به راحتی قابل درک است، با عجله نوشته شد، با این حال، حتی شش ماه بعد، همه چیز با این مفاهیم واضح تر نیست.

ادبیات

  1. Halpin, H., Monnin, A. (ویرایش‌ها) (2014). مهندسی فلسفی: به سوی فلسفه وب
  2. Allemang, D., Hendler, J. (2011) وب معنایی برای هستی شناسان کار (ویرایش دوم)
  3. Staab, S., Studer, R. (eds.) (2009) Handbook on Ontologies (ویرایش دوم)
  4. Wood, D. (ویرایش). (2011) پیوند داده های سازمانی
  5. Keet, M. (2018) مقدمه ای بر مهندسی هستی شناسی

منبع: www.habr.com

اضافه کردن نظر