الويب الدلالي والبيانات المرتبطة. التصحيحات والإضافات

وأود أن أقدم للجمهور جزءًا من هذا الكتاب الذي صدر مؤخرًا:

النمذجة الوجودية للمؤسسة: الأساليب والتقنيات [النص]: دراسة / [S. V. Gorshkov، S. S. Kralin، O. I. Mushtak وآخرون؛ المحرر التنفيذي S. V. جورشكوف]. - إيكاترينبرج: دار النشر بجامعة الأورال، 2019. - 234 ص: مريض، الجدول؛ 20 سم - المؤلف. المشار إليها على الحلمة الخلفية. مع. - الببليوغرافيا في نهاية الفصل. — ISBN 978-5-7996-2580-1: 200 نسخة.

الغرض من نشر هذه القطعة على حبري هو أربعة أمور:

  • من غير المحتمل أن يتمكن أي شخص من حمل هذا الكتاب بين يديه إذا لم يكن عميلاً محترمًا مؤشر سيرجي; انها بالتأكيد ليست للبيع.
  • تم إجراء تصحيحات على النص (لم يتم إبرازها أدناه) وتم إجراء إضافات غير متوافقة تمامًا مع تنسيق الدراسة المطبوعة: ملاحظات موضوعية (تحت المفسدين) والارتباطات التشعبية.
  • أريد أن جمع الأسئلة والتعليقاتوذلك لأخذها بعين الاعتبار عند إدراج هذا النص بصيغته المعدلة في أي منشورات أخرى.
  • لا يزال العديد من أتباع الويب الدلالي والبيانات المرتبطة يعتقدون أن دائرتهم ضيقة جدًا، ويرجع ذلك أساسًا إلى أن عامة الناس لم يتم شرحهم بشكل صحيح بعد لمدى روعة أن تكون مناصرًا للويب الدلالي والبيانات المرتبطة. ومؤلف القطعة، رغم انتمائه إلى هذه الدائرة، لا يحمل هذا الرأي، لكنه مع ذلك يعتبر نفسه مضطرا إلى القيام بمحاولة أخرى.

وهكذا،

الويب الدلالي

يمكن تمثيل تطور الإنترنت على النحو التالي (أو الحديث عن شرائحها التي تشكلت بالترتيب الموضح أدناه):

  1. الوثائق على شبكة الإنترنت. التقنيات الرئيسية - Gopher، FTP، إلخ.
    الإنترنت هي شبكة عالمية لتبادل الموارد المحلية.
  2. وثائق الإنترنت. التقنيات الرئيسية هي HTML وHTTP.
    وتأخذ طبيعة الموارد المكشوفة بعين الاعتبار خصائص وسط الإرسال الخاص بها.
  3. بيانات الإنترنت. التقنيات الرئيسية - REST وSOAP API وXHR وما إلى ذلك.
    عصر تطبيقات الإنترنت، ليس فقط الناس يصبحون مستهلكين للموارد.
  4. بيانات الإنترنت. التقنيات الرئيسية هي تقنيات البيانات المرتبطة.
    هذه المرحلة الرابعة، التي تنبأ بها بيرنرز لي، مبتكر التقنيات الأساسية الثانية ومدير W3C، تسمى الويب الدلالي؛ تم تصميم تقنيات البيانات المرتبطة لجعل البيانات الموجودة على الويب ليس فقط قابلة للقراءة آليًا، ولكن أيضًا "يمكن فهمها آليًا".

ومما يلي سوف يفهم القارئ التطابق بين المفاهيم الأساسية للمرحلتين الثانية والرابعة:

  • عناوين URL مشابهة لعناوين URI،
  • التناظرية لـ HTML هي RDF،
  • تشبه الارتباطات التشعبية بتنسيق HTML تكرارات URI في مستندات RDF.

تعد الويب الدلالي بمثابة رؤية نظامية لمستقبل الإنترنت أكثر من كونها اتجاهًا عفويًا أو ضغطًا محددًا، على الرغم من أنها يمكن أن تأخذ هذه الاتجاهات الأخيرة في الاعتبار. على سبيل المثال، تعتبر إحدى الخصائص المهمة لما يسمى ويب 2.0 هي "المحتوى الذي ينشئه المستخدم". على وجه الخصوص، توصية W3C مدعوة لأخذها بعين الاعتبار "علم الوجود على شبكة الإنترنت"ومثل هذا التعهد سوليد.

هل ماتت الويب الدلالي؟

إذا رفضت توقعات غير واقعية، فإن الوضع مع الشبكة الدلالية هو نفسه تقريبًا كما هو الحال مع الشيوعية في أوقات الاشتراكية المتقدمة (وسوف يتم ملاحظة الولاء لأوامر إيليتش المشروطة، دع الجميع يقررون بأنفسهم). محركات البحث ناجح جدا إجبار مواقع الويب على استخدام RDFa وJSON-LD واستخدام التقنيات ذات الصلة بتلك الموضحة أدناه (الرسم البياني المعرفي لـ Google، والرسم البياني للمعرفة لـ Bing).

بشكل عام، لا يستطيع المؤلف أن يقول ما الذي يمنع انتشارًا أكبر، لكنه يستطيع التحدث على أساس التجربة الشخصية. هناك مشاكل يمكن حلها "خارج الصندوق" في ظروف الهجوم الجنوبي، على الرغم من أنها ليست منتشرة على نطاق واسع. ونتيجة لذلك، فإن أولئك الذين يواجهون هذه المهام ليس لديهم أي وسيلة للإكراه ضد أولئك القادرين على تقديم الحل، في حين أن تقديم الأخير للحل بشكل مستقل يتناقض مع نماذج أعمالهم. لذلك نستمر في تحليل HTML ولصق واجهات برمجة التطبيقات المختلفة معًا، بعضها أكثر غموضًا.

ومع ذلك، فقد انتشرت تقنيات البيانات المرتبطة إلى ما هو أبعد من شبكة الويب السائدة؛ والكتاب في الواقع مخصص لهذه التطبيقات. حاليًا، يتوقع مجتمع البيانات المرتبطة أن تصبح هذه التقنيات أكثر انتشارًا بفضل تسجيل Gartner (أو إعلانها، كما تريد) لاتجاهات مثل الرسوم البيانية المعرفية и نسيج البيانات. أود أن أصدق أنه لن تكون تطبيقات "الدراجة" لهذه المفاهيم هي التي ستكون ناجحة، ولكن تلك المتعلقة بمعايير W3C التي تمت مناقشتها أدناه.

البيانات المرتبطة

عرّف بيرنرز لي البيانات المرتبطة بأنها شبكة دلالية "مُصممة بشكل صحيح": مجموعة من الأساليب والتقنيات التي تسمح لها بتحقيق أهدافها النهائية. المبادئ الأساسية للبيانات المرتبطة بيرنرز لي انتهاء العزوبية الأتى.

المبدأ 1. استخدام URIs لتسمية الكيانات.

معرفات URI هي معرفات كيانات عامة بدلاً من معرفات السلسلة المحلية للإدخالات. وفي وقت لاحق، تم التعبير عن هذا المبدأ بشكل أفضل في شعار Google Knowledge Graph “الأشياء، وليس السلاسل".

المبدأ 2. استخدام معرفات URI في نظام HTTP بحيث يمكن إلغاء الرجوع إليها.

من خلال الإشارة إلى URI، يجب أن يكون من الممكن الحصول على المدلول خلف ذلك الدال (القياس مع اسم العامل " واضح هنا).*" شركة)؛ بتعبير أدق، للحصول على بعض التمثيل لهذا المدلول - اعتمادا على قيمة رأس HTTP Accept:. ربما، مع قدوم عصر AR/VR، سيكون من الممكن الحصول على المورد نفسه، ولكن في الوقت الحالي، على الأرجح، سيكون مستند RDF، وهو نتيجة تنفيذ استعلام SPARQL DESCRIBE.

المبدأ 3. استخدام معايير W3C - في المقام الأول RDF(S) وSPARQL - خاصة عند إلغاء مرجعية عناوين URI.

هذه "الطبقات" الفردية من مكدس تكنولوجيا البيانات المرتبطة، والمعروفة أيضًا باسم كعكة طبقة الويب الدلالية، سيتم وصفها أدناه.

المبدأ 4. استخدام المراجع لعناوين URI الأخرى عند وصف الكيانات.

يتيح لك RDF أن تقتصر على الوصف اللفظي للمورد باللغة الطبيعية، والمبدأ الرابع يدعو إلى عدم القيام بذلك. إذا تم ملاحظة المبدأ الأول عالميًا، يصبح من الممكن عند وصف مورد الإشارة إلى مصادر أخرى، بما في ذلك الموارد "الأجنبية"، ولهذا السبب تسمى البيانات مرتبطة. في الواقع، يكاد يكون من المحتم استخدام عناوين URI المذكورة في مفردات RDFS.

RDF

RDF (إطار وصف الموارد) هي شكلية لوصف الكيانات المترابطة.

تصريحات من نوع "الموضوع-المسند-الكائن"، تسمى "ثلاثية"، يتم إجراؤها حول الكيانات والعلاقات فيما بينها. في أبسط الحالات، يكون الموضوع والمسند والكائن عبارة عن عناوين URI. يمكن أن يكون نفس URI في مواضع مختلفة في ثلاثة توائم مختلفة: يكون موضوعًا ومسندًا وكائنًا؛ وبالتالي، فإن التوائم الثلاثة تشكل نوعًا من الرسم البياني يسمى رسم بياني RDF.

لا يمكن للموضوعات والكائنات أن تكون عناوين URI فحسب، بل يمكن أن تُسمى أيضًا العقد الفارغة، ويمكن أن تكون الكائنات أيضًا حرفية. الحروف الحرفية هي أمثلة للأنواع البدائية التي تتكون من تمثيل سلسلة وإشارة إلى النوع.

أمثلة على كتابة الأحرف الحرفية (في بناء جملة السلحفاة، المزيد عنها أدناه): "5.0"^^xsd:float и "five"^^xsd:string. الحروف مع النوع rdf:langString يمكن أيضًا أن تكون مجهزة بعلامة لغة؛ في Turtle يتم كتابتها على النحو التالي: "five"@en и "пять"@ru.

العقد الفارغة هي موارد "مجهولة" بدون معرفات عالمية، ومع ذلك، يمكن إصدار بيانات عنها؛ نوع من المتغيرات الوجودية.

لذا (هذا، في الواقع، بيت القصيد من RDF):

  • الموضوع عبارة عن URI أو عقدة فارغة،
  • المسند هو URI،
  • الكائن عبارة عن URI، أو عقدة فارغة، أو حرفي.

لماذا لا يمكن أن تكون المسندات عقدًا فارغة؟

السبب المحتمل هو الرغبة في الفهم والترجمة الثلاثية بشكل غير رسمي إلى لغة المنطق الأصلي من الدرجة الأولى s p o مثل شيء من هذا القبيل الويب الدلالي والبيانات المرتبطة. التصحيحات والإضافاتحيث الويب الدلالي والبيانات المرتبطة. التصحيحات والإضافات - فاعل، الويب الدلالي والبيانات المرتبطة. التصحيحات والإضافات и الويب الدلالي والبيانات المرتبطة. التصحيحات والإضافات - ثوابت. آثار هذا الفهم موجودة في الوثيقة "LBase: دلالات لغات الويب الدلالي"، والتي تتمتع بحالة مذكرة مجموعة عمل W3C. وبهذا الفهم الثلاثي s p []حيث [] - العقدة الفارغة، سيتم ترجمتها كـ الويب الدلالي والبيانات المرتبطة. التصحيحات والإضافاتحيث الويب الدلالي والبيانات المرتبطة. التصحيحات والإضافات - متغير، ولكن كيف بعد ذلك للترجمة s [] o؟ مستند بحالة توصية W3C "قوات الدفاع الرواندية 1.1 دلالات" يقدم طريقة ترجمة أخرى، لكنه لا يأخذ في الاعتبار إمكانية أن تكون المسندات عقدًا فارغة.

ومع ذلك، مانو سبورني سمح.

RDF هو نموذج مجردة. يمكن كتابة RDF (تسلسلها) في تركيبات مختلفة: RDF / XML, سلحفاة (الأكثر قراءة للإنسان)، JSON-LD, HDT (الثنائية).

يمكن إجراء تسلسل لـ RDF نفسه في RDF/XML بطرق مختلفة، لذلك، على سبيل المثال، ليس من المنطقي التحقق من صحة XML الناتج باستخدام XSD أو محاولة استخراج البيانات باستخدام XPath. وبالمثل، من غير المرجح أن يرضي JSON-LD رغبة مطور جافا سكريبت العادي في العمل مع RDF باستخدام نقطة جافا سكريبت وترميز الأقواس المربعة (على الرغم من أن JSON-LD يتحرك في هذا الاتجاه من خلال تقديم آلية تأطير).

تقدم معظم صيغ الجملة طرقًا لتقصير عناوين URI الطويلة. على سبيل المثال، إعلان @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> في Turtle سيسمح لك بالكتابة بدلاً من ذلك <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> فقط rdf:type.

ردفس

ردفس (RDF Schema) - مفردات النمذجة الأساسية، تقدم مفاهيم الملكية والطبقة والخصائص مثل rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. باستخدام قاموس RDFS، على سبيل المثال، يمكن كتابة التعبيرات الصحيحة التالية:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

RDFS عبارة عن مفردات وصف ونمذجة، ولكنها ليست لغة تقييد (على الرغم من أن المواصفات الرسمية و أوراق إمكانية مثل هذا الاستخدام). لا ينبغي فهم كلمة "Schema" بنفس المعنى كما في عبارة "XML Schema". على سبيل المثال، :author rdfs:range foaf:Person يعني أن rdf:type جميع قيم الممتلكات :author - foaf:Personولكن لا يعني ذلك أن هذا ينبغي أن يقال مقدما.

سباركل

سباركل (بروتوكول SPARQL ولغة استعلام RDF) - لغة للاستعلام عن بيانات RDF. في حالة بسيطة، استعلام SPARQL عبارة عن مجموعة من العينات التي تتم مطابقة ثلاثة توائم من الرسم البياني الذي يتم الاستعلام عنه. يمكن أن تحتوي الأنماط على متغيرات في مواضع الموضوع والمسند والكائن.

سيُرجع الاستعلام هذه القيم المتغيرة التي، عند استبدالها في العينات، يمكن أن تؤدي إلى رسم بياني فرعي للرسم البياني RDF الذي تم الاستعلام عنه (مجموعة فرعية من ثلاثة توائم). يجب أن يكون للمتغيرات التي تحمل نفس الاسم في عينات مختلفة من الثلاثة توائم نفس القيم.

على سبيل المثال، بالنظر إلى المجموعة المذكورة أعلاه المكونة من سبع بديهيات RDFS، سيعود الاستعلام التالي rdfs:domain и rdfs:range كقيم ?s и ?p على التوالي:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

تجدر الإشارة إلى أن SPARQL هي لغة تعريفية وليست لغة لوصف اجتياز الرسم البياني (ومع ذلك، توفر بعض مستودعات RDF طرقًا لضبط خطة تنفيذ الاستعلام). ولذلك، فإن بعض المسائل البيانية القياسية، على سبيل المثال، العثور على أقصر مسار، لا يمكن حلها في سباركل، بما في ذلك استخدام مسارات الملكية (ولكن، مرة أخرى، توفر مستودعات RDF الفردية امتدادات خاصة لحل هذه المشكلات).

سباركل لا تشترك في افتراض انفتاح العالم وتتبع منهج "النفي كفشل"، حيث ممكن تصاميم مثل FILTER NOT EXISTS {…}. ويؤخذ في الاعتبار توزيع البيانات باستخدام الآلية الاستعلامات الموحدة.

نقطة الوصول SPARQL - مخزن RDF قادر على معالجة استعلامات SPARQL - ليس لها نظائرها المباشرة من المرحلة الثانية (انظر بداية هذه الفقرة). يمكن تشبيهها بقاعدة بيانات، بناءً على محتويات صفحات HTML التي تم إنشاؤها، ولكن يمكن الوصول إليها من الخارج. تعتبر نقطة الوصول SPARQL أكثر تشابهًا مع نقطة الوصول API من المرحلة الثالثة، ولكن مع وجود اختلافين رئيسيين. أولاً، من الممكن دمج العديد من الاستعلامات "الذرية" في استعلام واحد (وهو ما يعتبر سمة أساسية لـ GraphQL)، وثانيًا، واجهة برمجة التطبيقات هذه ذاتية التوثيق بالكامل (وهو ما حاول HATEOAS تحقيقه).

ملاحظة جدلية

RDF هي وسيلة لنشر البيانات على الويب، لذلك يجب اعتبار تخزين RDF بمثابة مستند DBMS. صحيح، نظرًا لأن RDF عبارة عن رسم بياني وليس شجرة، فقد تبين أيضًا أنها تعتمد على الرسم البياني. إنه لأمر مدهش أن الأمر نجح على الإطلاق. من كان يظن أنه سيكون هناك أشخاص أذكياء يقومون بتنفيذ العقد الفارغة. كود هنا لم ينجح الأمر.

هناك أيضًا طرق أقل اكتمالاً لتنظيم الوصول إلى بيانات RDF، على سبيل المثال، أجزاء البيانات المرتبطة (لدف) و منصة البيانات المرتبطة (الحزب الديمقراطي الليبرالي).

OWL

OWL (لغة ​​أنطولوجيا الويب) - شكلية لتمثيل المعرفة، ونسخة نحوية من منطق الوصف الويب الدلالي والبيانات المرتبطة. التصحيحات والإضافات (في كل مكان أدناه من الأصح أن نقول OWL 2، كان الإصدار الأول من OWL يعتمد على الويب الدلالي والبيانات المرتبطة. التصحيحات والإضافات).

تتوافق مفاهيم المنطق الوصفي في OWL مع الفئات، وتتوافق الأدوار مع الخصائص، ويحتفظ الأفراد بأسمائهم السابقة. البديهيات تسمى أيضًا البديهيات.

على سبيل المثال، في ما يسمى بناء الجملة مانشستر لتدوين OWL بديهية معروفة لنا بالفعل الويب الدلالي والبيانات المرتبطة. التصحيحات والإضافات سيتم كتابتها مثل هذا:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

هناك صيغ أخرى لكتابة OWL، مثل بناء الجملة الوظيفي، المستخدمة في المواصفات الرسمية، و البومة/XML. بالإضافة إلى ذلك، يمكن إجراء تسلسل OWL لتجريد بناء جملة RDF وأكثر من ذلك - في أي من بناء الجملة المحدد.

لدى OWL علاقة مزدوجة مع RDF. من ناحية، يمكن اعتباره نوعًا من القاموس الذي يمتد إلى RDFS. من ناحية أخرى، فهي شكلية أكثر قوة حيث يكون RDF مجرد تنسيق تسلسلي. لا يمكن كتابة جميع بنيات OWL الأولية باستخدام ثلاثية RDF واحدة.

اعتمادًا على المجموعة الفرعية المسموح باستخدامها من تصميمات OWL، يتحدثون عما يسمى الملفات الشخصية لـ OWL. المعيار والأكثر شهرة هو OWL EL، OWL RL وOWL QL. يؤثر اختيار ملف التعريف على التعقيد الحسابي للمشكلات النموذجية. مجموعة كاملة من بنيات OWL المقابلة لـ الويب الدلالي والبيانات المرتبطة. التصحيحات والإضافات، تسمى OWL DL. في بعض الأحيان يتحدثون أيضًا عن OWL Full، حيث يُسمح باستخدام بنيات OWL بالحرية الكاملة المتأصلة في RDF، دون قيود دلالية وحسابية الويب الدلالي والبيانات المرتبطة. التصحيحات والإضافات. على سبيل المثال، يمكن أن يكون شيء ما فئة وممتلكات. OWL Full غير قابل للتقرير.

المبادئ الأساسية لربط العواقب في OWL هي اعتماد افتراض العالم المفتوح. OWA) ورفض افتراض الأسماء الفريدة (افتراض الاسم الفريد، A). أدناه سنرى إلى أين يمكن أن تؤدي هذه المبادئ ونقدم بعض بنيات OWL.

دع الأنطولوجيا تحتوي على الجزء التالي (في بناء جملة مانشستر):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

هل يستنتج مما قيل أن يوحنا لديه أبناء كثيرون؟ سيؤدي رفض UNA إلى إجبار محرك الاستدلال على الإجابة على هذا السؤال بالنفي، نظرًا لأن أليس وبوب قد يكونان نفس الشخص. ولكي يحدث ما يلي، لا بد من إضافة البديهية التالية:

DifferentIndividuals: Alice, Bob, Carol, John

دع الآن جزء الأنطولوجيا يكون بالشكل التالي (يُعلن أن جون لديه العديد من الأطفال، لكن لديه طفلان فقط):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

هل سيكون هذا الوجود غير متسق (والذي يمكن تفسيره كدليل على بيانات غير صالحة)؟ سيؤدي قبول OWA إلى استجابة محرك الاستدلال بالنفي: "في مكان ما" آخر (في علم وجودي آخر) يمكن القول أن كارول هي أيضًا طفلة جون.

ولاستبعاد احتمال ذلك، دعونا نضيف حقيقة جديدة عن يوحنا:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

لاستبعاد ظهور أطفال آخرين، لنفترض أن جميع قيم خاصية "إنجاب طفل" هي أشخاص، لدينا أربعة منهم فقط:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

الآن سوف تصبح الأنطولوجيا متناقضة، والتي لن يفشل محرك الاستدلال في الإبلاغ عنها. مع آخر البديهيات، فقد "أغلقنا" العالم، إلى حد ما، ولاحظ كيف تم استبعاد إمكانية أن يكون يوحنا ابنه.

ربط بيانات المؤسسة

كانت مجموعة الأساليب والتقنيات الخاصة بالبيانات المرتبطة تهدف في الأصل إلى نشر البيانات على الويب. ويواجه استخدامها في بيئة الشركة الداخلية عددًا من الصعوبات.

على سبيل المثال، في بيئة الشركة المغلقة، تكون القوة الاستنتاجية لـ OWL بناءً على اعتماد OWA ورفض UNA، والقرارات بسبب الطبيعة المفتوحة والموزعة للويب، ضعيفة جدًا. وهنا الحلول التالية ممكنة.

  • منح OWL دلالات، مما يعني التخلي عن OWA واعتماد UNA، وتنفيذ محرك الإخراج المقابل. - على هذا الطريق قادم تخزين Stardog RDF.
  • التخلي عن قدرات OWL الاستنتاجية لصالح محركات القاعدة. - يدعم ستاردوج سورلي; عرض Jena وGraphDB خاص اللغات قواعد
  • رفض القدرات الاستنتاجية لـ OWL، واستخدام مجموعة فرعية أو أخرى قريبة من RDFS للنمذجة. - انظر المزيد حول هذا أدناه.

هناك مشكلة أخرى وهي التركيز الأكبر الذي قد يكون لدى عالم الشركات على مشكلات جودة البيانات ونقص أدوات التحقق من صحة البيانات في مكدس البيانات المرتبطة. المخرجات هنا هي كما يلي.

  • مرة أخرى، استخدم للتحقق من صحة بنيات OWL ذات دلالات العالم المغلق والأسماء الفريدة إذا كان محرك الاستدلال المناسب متاحًا.
  • استخدام شاكل، تم توحيدها بعد إصلاح قائمة طبقات كعكة طبقة الويب الدلالية (ومع ذلك، يمكن استخدامها أيضًا كمحرك قواعد)، أو شيكس.
  • فهم أن كل شيء يتم في النهاية باستخدام استعلامات SPARQL، وإنشاء آلية بسيطة للتحقق من صحة البيانات باستخدامها.

ومع ذلك، حتى الرفض الكامل للقدرات الاستنتاجية وأدوات التحقق من الصحة يترك مجموعة البيانات المرتبطة خارج المنافسة في المهام المشابهة في المناظر الطبيعية للويب المفتوح والموزع - في مهام تكامل البيانات.

ماذا عن نظام معلومات المؤسسة العادي؟

هذا ممكن، لكن يجب عليك بالطبع أن تكون على دراية بالمشكلات التي سيتعين على التقنيات المقابلة حلها. سأصف هنا رد الفعل النموذجي للمشاركين في التطوير لإظهار كيف تبدو مجموعة التكنولوجيا هذه من وجهة نظر تكنولوجيا المعلومات التقليدية. يذكرني قليلاً بمثل الفيل:

  • محلل الأعمال: RDF يشبه النموذج المنطقي المخزن مباشرة.
  • محلل أنظمة: قوات الدفاع الرواندية مثل EAV، فقط مع مجموعة من الفهارس ولغة استعلام ملائمة.
  • المطور: حسنًا، كل هذا يتماشى مع مفاهيم النموذج الغني والرمز المنخفض، قرأت مؤخرا حول هذا الموضوع.
  • قائد مشروع: نعم انه نفس الشيء انهيار المكدس!

توضح الممارسة أن المكدس يستخدم غالبًا في المهام المتعلقة بتوزيع البيانات وعدم تجانسها، على سبيل المثال، عند إنشاء أنظمة فئة MDM (إدارة البيانات الرئيسية) أو DWH (مستودع البيانات). مثل هذه المشاكل موجودة في أي صناعة.

فيما يتعلق بالتطبيقات الخاصة بالصناعة، تعد تقنيات البيانات المرتبطة حاليًا الأكثر شيوعًا في الصناعات التالية.

  • التقنيات الطبية الحيوية (حيث يبدو أن شعبيتها مرتبطة بتعقيد المجال)؛

حاضِر

استضافت «نقطة الغليان» مؤخراً مؤتمراً نظمته جمعية «قاعدة المعرفة الطبية الوطنية»الجمع بين الأنطولوجيا. من النظرية إلى التطبيق العملي".

  • إنتاج وتشغيل المنتجات المعقدة (الهندسة الميكانيكية الكبيرة، إنتاج النفط والغاز؛ في أغلب الأحيان نتحدث عن المعيار إعتماد ISO-15926);

حاضِر

هنا أيضا، السبب هو تعقيد مجال الموضوع، عندما، على سبيل المثال، في مرحلة المنبع، إذا تحدثنا عن صناعة النفط والغاز، تتطلب المحاسبة البسيطة بعض وظائف CAD.

في عام 2008، أقيم حدث تركيب تمثيلي نظمته شركة شيفرون مؤتمر.

في النهاية، بدا ISO 15926 ثقيلًا بعض الشيء بالنسبة لصناعة النفط والغاز (وربما وجد تطبيقًا أكبر في الهندسة الميكانيكية). فقط شركة ستات أويل (إكوينور) أصبحت مدمنة عليها تمامًا، وفي النرويج ككل النظام البيئي. يحاول الآخرون القيام بأشياءهم الخاصة. على سبيل المثال، وفقًا للشائعات، تعتزم وزارة الطاقة المحلية إنشاء "نموذج وجودي مفاهيمي لمجمع الوقود والطاقة"، مشابهًا، على ما يبدو، لـ تم إنشاؤها لصناعة الطاقة الكهربائية.

  • المنظمات المالية (حتى XBRL يمكن اعتبارها نوعًا من الهجين من SDMX وRDF Data Cube)؛

حاضِر

في بداية العام، قام موقع LinkedIn بإرسال رسائل غير مرغوب فيها إلى المؤلف تقريبًا بوظائف شاغرة من جميع عمالقة الصناعة المالية تقريبًا، الذين يعرفهم من المسلسل التلفزيوني "القوة القاهرة": Goldman Sachs وJPMorgan Chase و/أو Morgan Stanley وWells Fargo و/أو سويفت/فيزا/ماستركارد، بنك أوف أمريكا، سيتي جروب، بنك الاحتياطي الفيدرالي، دويتشه بنك... ربما كان الجميع يبحثون عن شخص يمكنهم إرساله إليه مؤتمر الرسم البياني المعرفي. تمكن عدد غير قليل من العثور على: أخذت المنظمات المالية كل شيء صباح اليوم الأول.

في HeadHunter، لم يجد سوى Sberbank شيئًا مثيرًا للاهتمام؛ كان الأمر يتعلق بـ "تخزين EAV باستخدام نموذج بيانات يشبه RDF."

ربما يرجع الاختلاف في درجة الحب للتقنيات المقابلة للمؤسسات المالية المحلية والغربية إلى الطبيعة العابرة للحدود الوطنية لأنشطة الأخيرة. ومن الواضح أن التكامل عبر حدود الدولة يتطلب حلولاً تنظيمية وتقنية مختلفة نوعياً.

  • أنظمة الأسئلة والأجوبة مع التطبيقات التجارية (IBM Watson، Apple Siri، Google Knowledge Graph)؛

حاضِر

بالمناسبة، فإن مبتكر سيري، توماس جروبر، هو مؤلف تعريف علم الوجود (بمعنى تكنولوجيا المعلومات) باعتباره "مواصفات مفاهيمية". وفي رأيي أن إعادة ترتيب الكلمات في هذا التعريف لا يغير معناه، وربما يدل على عدم وجوده.

  • نشر البيانات المنظمة (مع وجود مبرر أكبر يمكن أن يعزى ذلك إلى البيانات المفتوحة المرتبطة).

حاضِر

كبار المعجبين بالبيانات المرتبطة هم ما يسمى بـ GLAM: المعارض والمكتبات والأرشيفات والمتاحف. ويكفي أن نقول إن مكتبة الكونجرس تروج لبديل لمارك 21 إطار بيبفريمالتي يوفر الأساس لمستقبل الوصف الببليوغرافي وبطبيعة الحال، على أساس RDF.

غالبا ما يتم الاستشهاد بـ ويكي بيانات كمثال لمشروع ناجح في مجال البيانات المفتوحة المرتبطة - وهو نوع من نسخة ويكيبيديا القابلة للقراءة آليا، والتي لا يتم إنشاء محتواها، على عكس DBPedia، عن طريق الاستيراد من صناديق معلومات المقالات، ولكن يتم يتم إنشاؤها يدويًا بشكل أو بآخر (وتصبح فيما بعد مصدرًا للمعلومات لنفس صناديق المعلومات).

ننصحك أيضًا بالتحقق من ذلك قائمة مستخدمي مخزن Stardog RDF على موقع Stardog في قسم "العملاء".

مهما كان الأمر، في جارتنر دورة الضجيج للتكنولوجيات الناشئة 2016 يتم وضع "تصنيف المؤسسات وإدارة الوجود" في منتصف الانحدار إلى وادي خيبة الأمل مع احتمال الوصول إلى "هضبة الإنتاجية" في موعد لا يتجاوز 10 سنوات.

ربط بيانات المؤسسة

توقعات، توقعات، توقعات...

ومن منطلق الاهتمام التاريخي، فقد قمت بتدوين توقعات شركة جارتنر لسنوات مختلفة حول التقنيات التي تهمنا.

عام Технология تقرير موقف سنوات إلى الهضبة
2001 الويب الدلالي تقنيات ناشئة مشغل الابتكار 5-10
2006 الويب الدلالي للشركات تقنيات ناشئة ذروة التوقعات المضخمة 5-10
2012 الويب الدلالي البيانات الكبيرة ذروة التوقعات المضخمة > 10
2015 البيانات المرتبطة التحليلات المتقدمة وعلوم البيانات أدنى من خيبة الأمل 5-10
2016 إدارة الوجود المؤسسي تقنيات ناشئة أدنى من خيبة الأمل > 10
2018 الرسوم البيانية المعرفية تقنيات ناشئة مشغل الابتكار 5-10

ومع ذلك، بالفعل في "دورة الضجيج..." 2018 ظهر اتجاه تصاعدي آخر - الرسوم البيانية المعرفية. حدث تناسخ معين: بدأت أنظمة إدارة قواعد البيانات البيانية، التي تم تحويل انتباه المستخدمين وجهود المطورين إليها، تحت تأثير طلبات الأول وعادات الأخير، في اتخاذ الخطوط العريضة وتحديد المواقع من منافسيهم السابقين.

تعلن كل أنظمة إدارة قواعد البيانات (DBMS) تقريبًا عن نفسها الآن كمنصة مناسبة لبناء "الرسم البياني المعرفي" للشركات (يتم أحيانًا استبدال "البيانات المرتبطة" بـ "البيانات المتصلة")، ولكن ما مدى تبرير مثل هذه الادعاءات؟

لا تزال قواعد بيانات الرسم البياني أسيمانتيك؛ البيانات الموجودة في الرسم البياني لنظام إدارة قواعد البيانات (DBMS) لا تزال هي نفس صومعة البيانات. معرفات السلسلة بدلاً من معرفات URI تجعل مهمة دمج اثنين من أنظمة إدارة قواعد البيانات البيانية لا تزال مهمة تكامل، في حين أن دمج اثنين من متاجر RDF غالبًا ما يتلخص في دمج اثنين من الرسوم البيانية لـ RDF. جانب آخر من اللارمزية هو عدم انعكاس نموذج الرسم البياني لغاز البترول المسال، مما يجعل من الصعب إدارة البيانات الوصفية باستخدام نفس المنصة.

أخيرًا، لا تحتوي أنظمة إدارة قواعد البيانات البيانية على محركات استدلال أو محركات قواعد. يمكن إعادة إنتاج نتائج هذه المحركات عن طريق الاستعلامات المعقدة، ولكن هذا ممكن حتى في SQL.

ومع ذلك، فإن أنظمة تخزين RDF الرائدة لا تواجه صعوبة في دعم نموذج غاز البترول المسال. يعتبر النهج الأكثر صلابة هو النهج المقترح في وقت واحد في Blazegraph: نموذج RDF*، الذي يجمع بين RDF وLPG.

أكثر

يمكنك قراءة المزيد حول دعم تخزين RDF لنموذج غاز البترول المسال في المقالة السابقة عن حبري: "ما الذي يحدث مع تخزين RDF الآن". آمل أن يتم كتابة مقالة منفصلة يومًا ما عن الرسوم البيانية المعرفية ونسيج البيانات. القسم الأخير، كما هو واضح، تمت كتابته على عجل، ومع ذلك، حتى بعد ستة أشهر، مع هذه المفاهيم، كل شيء ليس أكثر وضوحا.

أدب

  1. هالبين، هـ، مونين، أ. (محرران) (2014). الهندسة الفلسفية: نحو فلسفة الويب
  2. Allemang، D.، Hendler، J. (2011) الويب الدلالي لعلم الوجود العامل (الطبعة الثانية)
  3. Staab, S., Studer, R. (eds.) (2009) دليل الأنطولوجيا (الطبعة الثانية)
  4. وود، د. (محرر). (2011) ربط بيانات المؤسسة
  5. كيت، م. (2018) مقدمة في هندسة الوجود

المصدر: www.habr.com

إضافة تعليق