Σημασιολογικός Ιστός και Συνδεδεμένα Δεδομένα. Διορθώσεις και προσθήκες

Θέλω να παρουσιάσω στην προσοχή του κοινού ένα απόσπασμα αυτού του βιβλίου που εκδόθηκε πρόσφατα:

Οντολογική μοντελοποίηση της επιχείρησης: μέθοδοι και τεχνολογίες [Κείμενο]: μονογραφία / [Σ. V. Gorshkov, S. S. Kralin, O. I. Mushtak, και άλλοι; εκτελεστικός συντάκτης S. V. Gorshkov]. - Yekaterinburg: Publishing House of the Ural University, 2019. - 234 p.: ill., tab.; 20 cm - Auth. αναγράφεται στο πίσω μέρος του tit. Με. — Βιβλιογράφος. στο τέλος του κεφ. - ISBN 978-5-7996-2580-1: 200 αντίτυπα.

Ο σκοπός της τοποθέτησης αυτού του θραύσματος στο Habré είναι τετραπλός:

  • Είναι απίθανο κάποιος να μπορέσει να κρατήσει αυτό το βιβλίο στα χέρια του αν δεν είναι πελάτης ενός σεβαστού SergeIndex; Σίγουρα δεν είναι προς πώληση.
  • Έχουν γίνει διορθώσεις στο κείμενο (δεν επισημαίνονται παρακάτω) και έχουν γίνει προσθήκες που δεν είναι πολύ συμβατές με τη μορφή της έντυπης μονογραφίας: σημειώσεις επικαιρότητας (κάτω από spoilers) και υπερσύνδεσμοι.
  • θέλω να συλλέξτε ερωτήσεις και σχόλιανα τα λάβει υπόψη όταν αυτό το κείμενο περιλαμβάνεται σε αναθεωρημένη μορφή σε οποιεσδήποτε άλλες εκδόσεις.
  • Πολλοί οπαδοί του Σημασιολογικού Ιστού και των Συνδεδεμένων Δεδομένων εξακολουθούν να πιστεύουν ότι ο κύκλος τους είναι τόσο στενός, κυρίως επειδή το ευρύ κοινό δεν έχει ακόμη εξηγηθεί σωστά πόσο σπουδαίο είναι να είσαι οπαδός του Σημασιολογικού Ιστού και των Συνδεδεμένων Δεδομένων. Ο συγγραφέας του αποσπάσματος, αν και ανήκει σε αυτόν τον κύκλο, δεν εμμένει σε μια τέτοια άποψη, αλλά, ωστόσο, θεωρεί τον εαυτό του υποχρεωμένο να κάνει άλλη μια προσπάθεια.

Ετσι,

Σημασιολογικό Ιστό

Η εξέλιξη του Διαδικτύου μπορεί να αναπαρασταθεί ως εξής (ή να μιλήσουμε για τα τμήματα του που σχηματίζονται με την ακόλουθη σειρά):

  1. Έγγραφα στο Διαδίκτυο. Βασικές τεχνολογίες - Gopher, FTP, κ.λπ.
    Το Διαδίκτυο είναι ένα παγκόσμιο δίκτυο για την ανταλλαγή τοπικών πόρων.
  2. Έγγραφα Διαδικτύου. Βασικές τεχνολογίες είναι η HTML και η HTTP.
    Η φύση των εκτεθειμένων πόρων λαμβάνει υπόψη τα χαρακτηριστικά του μέσου για τη μετάδοσή τους.
  3. Δεδομένα Διαδικτύου. Βασικές τεχνολογίες είναι το REST και το SOAP API, το XHR κ.λπ.
    Στην εποχή των εφαρμογών του Διαδικτύου, όχι μόνο οι άνθρωποι γίνονται καταναλωτές πόρων.
  4. δεδομένα διαδικτύου. Οι βασικές τεχνολογίες είναι τεχνολογίες Συνδεδεμένων Δεδομένων.
    Αυτό το τέταρτο στάδιο, που προβλέφθηκε από τον Berners-Lee, δημιουργό των βασικών τεχνολογιών του δεύτερου και διευθυντή του W3C, ονομάζεται Σημασιολογικός Ιστός. Οι τεχνολογίες Συνδεδεμένων Δεδομένων έχουν σχεδιαστεί για να κάνουν τα δεδομένα στον Ιστό όχι μόνο αναγνώσιμα από μηχανή, αλλά και «κατανόητα από μηχανή».

Από τα ακόλουθα, θα γίνει σαφές στον αναγνώστη ότι οι βασικές έννοιες του δεύτερου και του τέταρτου σταδίου αντιστοιχούν:

  • τα ανάλογα της διεύθυνσης URL είναι τα URI,
  • Το HTML είναι ανάλογο με το RDF,
  • Οι υπερσύνδεσμοι HTML είναι παρόμοιες με τις καταχωρήσεις URI σε έγγραφα RDF.

Ο Σημασιολογικός Ιστός είναι περισσότερο ένα συστηματικό όραμα για το μέλλον του Διαδικτύου παρά μια συγκεκριμένη αυθόρμητη ή υπό πίεση τάση, αν και μπορεί να λάβει υπόψη και αυτές τις τελευταίες. Για παράδειγμα, το "περιεχόμενο που δημιουργείται από χρήστες" θεωρείται σημαντικό χαρακτηριστικό αυτού που ονομάζεται Web 2.0. Καλείται να το λάβει υπόψη, ιδίως, τη σύσταση του W3C "Οντολογία Web Annotation«και ένα τέτοιο εγχείρημα όπως Στερεά.

Είναι νεκρός ο Σημασιολογικός Ιστός;

Αν αρνηθείς μη ρεαλιστικές προσδοκίες, η κατάσταση με τον σημασιολογικό ιστό είναι περίπου η ίδια με τον κομμουνισμό στις ημέρες του ανεπτυγμένου σοσιαλισμού (και ας αποφασίσει ο καθένας μόνος του αν τηρείται η πίστη στις υπό όρους εντολές του Ίλιτς). Μηχανές αναζήτησης αρκετά επιτυχημένη αναγκάζουν τους ιστότοπους να χρησιμοποιούν RDFa και JSON-LD και οι ίδιοι χρησιμοποιούν τεχνολογίες που σχετίζονται με αυτές που περιγράφονται παρακάτω (Γράφημα Γνώσης Google, Γράφημα Γνώσης Bing).

Σε γενικές γραμμές, ο συγγραφέας δεν μπορεί να πει τι εμποδίζει τη μεγαλύτερη διάδοση, αλλά μπορεί να μιλήσει με βάση την προσωπική του εμπειρία. Υπάρχουν εργασίες που θα λύνονταν «εκτός» στις συνθήκες της επίθεσης της ΝΔ, αν και όχι πολύ μαζικές. Κατά συνέπεια, όσοι έχουν αυτά τα καθήκοντα δεν έχουν τα μέσα εξαναγκασμού εναντίον εκείνων που είναι σε θέση να δώσουν μια λύση, και οι ίδιοι που παρέχουν μια λύση από τους τελευταίους είναι αντίθετη με τα επιχειρηματικά τους μοντέλα. Συνεχίζουμε λοιπόν να αναλύουμε το HTML και να κολλάμε διάφορα API, το ένα πιο χαζό μετά το άλλο.

Ωστόσο, οι τεχνολογίες Συνδεδεμένων Δεδομένων έχουν εξαπλωθεί πέρα ​​από τον μαζικό ιστό. Το βιβλίο είναι, στην πραγματικότητα, αφιερωμένο στις εφαρμογές τους. Επί του παρόντος, η κοινότητα των Συνδεδεμένων Δεδομένων αναμένει ότι αυτές οι τεχνολογίες θα γίνουν ακόμη πιο διαδεδομένες με την επιδιόρθωση (ή την ανακήρυξη, όποια θέλετε) της Gartner, όπως π.χ. Γραφήματα γνώσης и Ύφασμα δεδομένων. Θα ήθελα να πιστεύω ότι όχι οι υλοποιήσεις «ποδήλατο» αυτών των εννοιών θα είναι επιτυχείς, αλλά αυτές που σχετίζονται με τα πρότυπα του W3C που συζητούνται παρακάτω.

Συνδεδεμένα δεδομένα

Ο Berners-Lee όρισε τα Συνδεδεμένα Δεδομένα ως τον Σημασιολογικό Ιστό που γίνεται σωστά: ένα σύνολο προσεγγίσεων και τεχνολογιών για την επίτευξη των τελικών στόχων του. Βασικές Αρχές Συνδεδεμένων Δεδομένων Berners-Lee ξεχώρισε ΕΠΟΜΕΝΟ.

Αρχή 1. Χρήση URI για την ονομασία οντοτήτων.

Τα URI είναι καθολικά αναγνωριστικά οντοτήτων σε αντίθεση με τα τοπικά αναγνωριστικά συμβολοσειρών καταχωρήσεων. Στη συνέχεια, αυτή η αρχή βρήκε την καλύτερη έκφρασή της στο σύνθημα Google Knowledge Graph "πράγματα, όχι χορδές».

Αρχή 2. Χρήση URI στο σχήμα HTTP, ώστε να μπορούν να κάνουν αποαναφορά.

Αναφερόμενοι σε ένα URI, θα πρέπει να είναι δυνατό να βρεθεί το σημαίνον πίσω από αυτό το σημαίνον (η αναλογία με το όνομα του τελεστή "*» σε C); πιο συγκεκριμένα, για να λάβετε κάποια αναπαράσταση αυτού του σημαίνοντος - ανάλογα με την τιμή της κεφαλίδας HTTP Accept:. Ίσως με την έλευση της εποχής AR / VR, θα είναι δυνατή η λήψη του ίδιου του πόρου, αλλά προς το παρόν, πιθανότατα, θα είναι ένα έγγραφο RDF που είναι το αποτέλεσμα ενός ερωτήματος SPARQL DESCRIBE.

Αρχή 3. Χρήση προτύπων W3C - κυρίως RDF(S) και SPARQL - ιδιαίτερα κατά την αποαναφορά URI.

Αυτά τα μεμονωμένα «επίπεδα» της στοίβας τεχνολογίας Συνδεδεμένων Δεδομένων, γνωστά και ως Τούρτα στρώματος Σημασιολογικού Ιστού, θα περιγραφεί παρακάτω.

Αρχή 4. Χρήση αναφορών σε άλλα URI κατά την περιγραφή οντοτήτων.

Το RDF σάς επιτρέπει να περιοριστείτε σε μια λεκτική περιγραφή ενός πόρου στη φυσική γλώσσα και η τέταρτη αρχή απαιτεί να μην το κάνετε αυτό. Με την καθολική τήρηση της πρώτης αρχής, καθίσταται δυνατή η αναφορά σε άλλους, συμπεριλαμβανομένων των «εξωγήινων», κατά την περιγραφή ενός πόρου, γι' αυτό και τα δεδομένα ονομάζονται συνδεδεμένα. Στην πραγματικότητα, είναι σχεδόν αναπόφευκτο να χρησιμοποιηθούν URI που ονομάζονται στο λεξικό RDFS.

RDF

RDF (Πλαίσιο Περιγραφής Πόρων) - ένας φορμαλισμός για την περιγραφή αλληλένδετων οντοτήτων.

Σχετικά με τις οντότητες και τις σχέσεις τους, γίνονται δηλώσεις της μορφής «υποκείμενο-κατηγόρημα-αντικείμενο», που ονομάζονται τριπλέτες. Στην απλούστερη περίπτωση, το υποκείμενο, το κατηγόρημα και το αντικείμενο είναι και τα δύο URI. Το ίδιο URI μπορεί να βρίσκεται σε διαφορετικές τρίδυμες σε διαφορετικές θέσεις: να είναι υποκείμενο, κατηγόρημα και αντικείμενο. τα τρίδυμα σχηματίζουν έτσι ένα είδος γραφήματος που ονομάζεται γράφημα RDF.

Τα θέματα και τα αντικείμενα μπορεί να είναι όχι μόνο URI, αλλά και τα λεγόμενα κενοί κόμβοι, και τα αντικείμενα μπορούν επίσης να είναι κυριολεκτικά. Τα κυριολεκτικά είναι περιπτώσεις πρωτόγονων τύπων, που αποτελούνται από μια παράσταση συμβολοσειράς και μια προδιαγραφή τύπου.

Παραδείγματα γραφής κυριολεκτικών (στη σύνταξη Turtle, περισσότερα για αυτό παρακάτω): "5.0"^^xsd:float и "five"^^xsd:string. Κυριολεκτικά με τύπο rdf:langString μπορεί επίσης να παρέχεται με ετικέτα γλώσσας, στο Turtle γράφεται ως εξής: "five"@en и "пять"@ru.

Οι κενοί κόμβοι είναι «ανώνυμοι» πόροι χωρίς καθολικά αναγνωριστικά, τα οποία, ωστόσο, μπορούν να επιβεβαιωθούν. είδος υπαρξιακών μεταβλητών.

Έτσι (αυτή, στην πραγματικότητα, είναι η όλη ουσία του RDF):

  • το θέμα είναι ένα URI ή ένας κενός κόμβος,
  • το κατηγόρημα είναι ένα URI,
  • Το αντικείμενο είναι ένα URI, ένας κενός κόμβος ή ένα κυριολεκτικό.

Γιατί τα κατηγορήματα δεν μπορούν να είναι κενοί κόμβοι;

Ο πιθανός λόγος είναι η επιθυμία άτυπης κατανόησης και μετάφρασης της τριπλέτας στη γλώσσα της πρώτης τάξης κατηγορηματικής λογικής. s p o σαν κάτι σαν Σημασιολογικός Ιστός και Συνδεδεμένα Δεδομένα. Διορθώσεις και προσθήκεςΌπου Σημασιολογικός Ιστός και Συνδεδεμένα Δεδομένα. Διορθώσεις και προσθήκες - κατηγόρημα, Σημασιολογικός Ιστός και Συνδεδεμένα Δεδομένα. Διορθώσεις και προσθήκες и Σημασιολογικός Ιστός και Συνδεδεμένα Δεδομένα. Διορθώσεις και προσθήκες - σταθερές. Υπάρχουν ίχνη μιας τέτοιας κατανόησης στο έγγραφο "LBase: Semantics for Languages ​​of the Semantic Web”, το οποίο έχει την ιδιότητα του σημειώματος της ομάδας εργασίας του W3C. Με αυτή την κατανόηση, το τρίδυμο s p []Όπου [] - ένας κενός κόμβος, θα μεταφραστεί ως Σημασιολογικός Ιστός και Συνδεδεμένα Δεδομένα. Διορθώσεις και προσθήκεςΌπου Σημασιολογικός Ιστός και Συνδεδεμένα Δεδομένα. Διορθώσεις και προσθήκες - μεταβλητή, αλλά πώς στη συνέχεια να μεταφραστεί s [] o? Το έγγραφο συστάσεων του W3C "RDF 1.1 Σημασιολογία” προτείνει έναν άλλο τρόπο μετάφρασης, αλλά εξακολουθεί να μην εξετάζει την πιθανότητα τα κατηγορήματα να είναι κενοί κόμβοι.

Ωστόσο, ο Manu Sporny επιτρέπεται.

Το RDF είναι ένα αφηρημένο μοντέλο. Το RDF μπορεί να γραφτεί (σειριακά) σε διάφορες συντακτικές: RDF/XML, Χελώνα (το πιο ευανάγνωστο από τον άνθρωπο) JSON-LD, HDT (δυάδικος).

Το ίδιο RDF μπορεί να σειριοποιηθεί σε RDF/XML με διαφορετικούς τρόπους, επομένως δεν έχει νόημα, για παράδειγμα, να επικυρώσετε το XML που προκύπτει με XSD ή να προσπαθήσετε να εξαγάγετε δεδομένα με το XPath. Ομοίως, το JSON-LD είναι απίθανο να ικανοποιήσει την επιθυμία του μέσου προγραμματιστή Javascript να εργαστεί με RDF χρησιμοποιώντας σημειογραφία Javascript με κουκκίδες και αγκύλες (αν και το JSON-LD κινείται προς αυτή την κατεύθυνση προσφέροντας έναν μηχανισμό πλαισίωση).

Οι περισσότερες συντάξεις προσφέρουν τρόπους συντόμευσης των μεγάλων URI. Για παράδειγμα, ad @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> στο Turtle θα σας επιτρέψει να γράψετε αντ' αυτού <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> просто rdf:type.

RDFS

RDFS (RDF Schema) - βασικό λεξιλόγιο μοντελοποίησης, εισάγει τις έννοιες της ιδιότητας και της κλάσης και ιδιότητες όπως π.χ. rdf:type, rdfs:subClassOf, rdfs:domain и rdfs:range. Χρησιμοποιώντας το λεξικό RDFS, για παράδειγμα, μπορούν να γραφούν οι ακόλουθες έγκυρες εκφράσεις:

rdf:type         rdf:type         rdf:Property .
rdf:Property     rdf:type         rdfs:Class .
rdfs:Class       rdfs:subClassOf  rdfs:Resource .
rdfs:subClassOf  rdfs:domain      rdfs:Class .
rdfs:domain      rdfs:domain      rdf:Property .
rdfs:domain      rdfs:range       rdfs:Class .
rdfs:label       rdfs:range       rdfs:Literal .

Το RDFS είναι ένα λεξιλόγιο περιγραφής και μοντελοποίησης, αλλά δεν αποτελεί γλώσσα περιορισμού (αν και οι επίσημες προδιαγραφές και φύλλα τη δυνατότητα μιας τέτοιας χρήσης). Η λέξη "Σχήμα" δεν πρέπει να κατανοηθεί με την ίδια έννοια όπως στην έκφραση "Σχήμα XML". Για παράδειγμα, :author rdfs:range foaf:Person σημαίνει ότι rdf:type όλες τις αξίες των ακινήτων :author - foaf:Person, αλλά δεν σημαίνει ότι αυτό πρέπει να ειπωθεί εκ των προτέρων.

SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) είναι μια γλώσσα ερωτημάτων για δεδομένα RDF. Σε μια απλή περίπτωση, ένα ερώτημα SPARQL είναι ένα σύνολο δειγμάτων με τα οποία αντιστοιχίζονται οι τριπλέτες του ερωτούμενου γραφήματος. Οι μεταβλητές μπορούν να τοποθετηθούν στις θέσεις των υποκειμένων, των κατηγορημάτων και των αντικειμένων σε μοτίβα.

Το ερώτημα θα επιστρέψει τέτοιες μεταβλητές τιμές που, όταν αντικατασταθούν στα δείγματα, μπορεί να έχουν ως αποτέλεσμα την αναζήτηση ενός υπογράφου του γραφήματος RDF (ένα υποσύνολο των τριπλών του). Οι μεταβλητές με το ίδιο όνομα σε διαφορετικά δείγματα τριδύμων πρέπει να έχουν τις ίδιες τιμές.

Για παράδειγμα, στο παραπάνω σύνολο επτά αξιωμάτων RDFS, θα επιστρέψει το ακόλουθο ερώτημα rdfs:domain и rdfs:range ως αξίες ?s и ?p αντίστοιχα:

SELECT * WHERE {
 ?s ?p rdfs:Class .
 ?p ?p rdf:Property .
}

Αξίζει να σημειωθεί ότι η SPARQL είναι δηλωτική και δεν είναι γλώσσα διέλευσης γραφήματος (ωστόσο, ορισμένα αποθετήρια RDF προσφέρουν τρόπους προσαρμογής του σχεδίου εκτέλεσης ερωτημάτων). Επομένως, ορισμένα τυπικά προβλήματα γραφήματος, όπως η εύρεση της συντομότερης διαδρομής, δεν μπορούν να επιλυθούν στο SPARQL, συμπεριλαμβανομένης της χρήσης του μηχανισμού μονοπάτια ιδιοκτησίας (αλλά, και πάλι, τα μεμονωμένα αποθετήρια RDF προσφέρουν ειδικές επεκτάσεις για αυτές τις εργασίες).

Η SPARQL δεν συμμερίζεται το τεκμήριο του ανοιχτού κόσμου και ακολουθεί την προσέγγιση της «άρνησης ως αποτυχίας», στην οποία δυνατόν δομές όπως FILTER NOT EXISTS {…}. Η διανομή δεδομένων λαμβάνεται υπόψη χρησιμοποιώντας τον μηχανισμό ομοσπονδιακά ερωτήματα.

Το σημείο πρόσβασης SPARQL, ένα κατάστημα RDF με δυνατότητα επεξεργασίας ερωτημάτων SPARQL, δεν έχει άμεσα ανάλογα από το δεύτερο στάδιο (δείτε την αρχή αυτής της παραγράφου). Μπορεί να παρομοιαστεί με μια βάση δεδομένων, με βάση το περιεχόμενο της οποίας δημιουργήθηκαν σελίδες HTML, αλλά προσβάσιμη στο εξωτερικό. Το σημείο πρόσβασης SPARQL μοιάζει περισσότερο με ένα σημείο πρόσβασης API από το τρίτο στάδιο, αλλά με δύο κύριες διαφορές. Πρώτον, είναι δυνατός ο συνδυασμός πολλών «ατομικών» ερωτημάτων σε ένα (το οποίο θεωρείται βασικό χαρακτηριστικό του GraphQL) και δεύτερον, ένα τέτοιο API είναι εντελώς αυτο-τεκμηριωμένο (κάτι που προσπάθησε να επιτύχει η HATEOAS).

Πολεμική παρατήρηση

Το RDF είναι ένας τρόπος δημοσίευσης δεδομένων στον Ιστό, επομένως τα αποθετήρια RDF θα πρέπει να θεωρούνται DBMS εγγράφων. Είναι αλήθεια ότι, δεδομένου ότι το RDF είναι ένα γράφημα, όχι ένα δέντρο, αποδείχθηκε ότι ήταν και γράφημα ταυτόχρονα. Είναι εκπληκτικό που λειτούργησε καθόλου. Ποιος θα το φανταζόταν ότι θα υπήρχαν έξυπνοι άνθρωποι που θα εφαρμόζουν κενούς κόμβους. Εδώ είναι ο Codd δεν λειτούργησε.

Υπάρχουν επίσης τρόποι με λιγότερο πλήρεις δυνατότητες οργάνωσης της πρόσβασης σε δεδομένα RDF, για παράδειγμα, Συνδεδεμένα τμήματα δεδομένων (LDF) και Συνδεδεμένη πλατφόρμα δεδομένων (LDP).

ΚΟΥΚΟΥΒΑΓΙΑ

ΚΟΥΚΟΥΒΑΓΙΑ (Web Ontology Language) - ένας φορμαλισμός αναπαράστασης γνώσης, μια συντακτική εκδοχή της περιγραφικής λογικής Σημασιολογικός Ιστός και Συνδεδεμένα Δεδομένα. Διορθώσεις και προσθήκες (παντού παρακάτω είναι πιο σωστό να πούμε OWL 2, η πρώτη έκδοση του OWL βασίστηκε σε Σημασιολογικός Ιστός και Συνδεδεμένα Δεδομένα. Διορθώσεις και προσθήκες).

Οι έννοιες των λογικών περιγραφής στο OWL αντιστοιχούν σε κλάσεις, ρόλους σε ιδιότητες, τα άτομα διατηρούν το προηγούμενο όνομά τους. Τα αξιώματα ονομάζονται επίσης αξιώματα.

Για παράδειγμα, στο λεγόμενο Σύνταξη Μάντσεστερ για τον συμβολισμό OWL, το αξίωμα που ήδη γνωρίζουμε Σημασιολογικός Ιστός και Συνδεδεμένα Δεδομένα. Διορθώσεις και προσθήκες θα γραφτεί ως εξής:

Class: Human
Class: Parent
   EquivalentClass: Human and (inverse hasParent) some Human
ObjectProperty: hasParent

Υπάρχουν και άλλες συντακτικές για τη γραφή OWL, όπως π.χ λειτουργική σύνταξη, που χρησιμοποιείται στις επίσημες προδιαγραφές και OWL/XML. Επίσης, το OWL μπορεί να είναι σειριακό σε αφηρημένη σύνταξη RDF και στο μέλλον - σε οποιαδήποτε από τις συγκεκριμένες συντακτικές.

Το OWL είναι διπλό σε σχέση με το RDF. Από τη μία πλευρά, μπορεί να θεωρηθεί ως ένα είδος λεξικού που επεκτείνει το RDFS. Από την άλλη πλευρά, είναι ένας πιο ισχυρός φορμαλισμός για τον οποίο το RDF είναι απλώς μια μορφή σειριοποίησης. Δεν μπορούν να γραφτούν όλες οι στοιχειώδεις κατασκευές OWL με μία τριπλέτα RDF.

Ανάλογα με το υποσύνολο των δομών OWL που επιτρέπεται να χρησιμοποιηθούν, μιλάμε για τα λεγόμενα Προφίλ OWL. Τα τυποποιημένα και πιο γνωστά είναι τα OWL EL, OWL RL και OWL QL. Η επιλογή του προφίλ επηρεάζει την υπολογιστική πολυπλοκότητα των τυπικών προβλημάτων. Ένα πλήρες σετ σχεδίων OWL που ταιριάζουν Σημασιολογικός Ιστός και Συνδεδεμένα Δεδομένα. Διορθώσεις και προσθήκες, ονομάζεται OWL DL. Μερικές φορές κάποιος μιλάει επίσης για OWL Full, στο οποίο οι δομές OWL επιτρέπεται να χρησιμοποιούνται με την πλήρη ελευθερία που είναι εγγενής στο RDF, χωρίς σημασιολογικούς και υπολογιστικούς περιορισμούς. Σημασιολογικός Ιστός και Συνδεδεμένα Δεδομένα. Διορθώσεις και προσθήκες. Για παράδειγμα, κάτι μπορεί να είναι και κλάση και ιδιότητα. Το OWL Full δεν μπορεί να επιλυθεί.

Οι βασικές αρχές της προσκόλλησης συνεπειών στο OWL είναι η αποδοχή της υπόθεσης του ανοιχτού κόσμου (open world assumption, OWA) και την απόρριψη της υπόθεσης του μοναδικού ονόματος, Α). Παρακάτω θα δούμε σε τι μπορούν να οδηγήσουν αυτές οι αρχές και θα εισαγάγουμε μερικές από τις κατασκευές του OWL.

Αφήστε την οντολογία να περιέχει το ακόλουθο τμήμα (σε σύνταξη Manchester):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human
   Facts: hasChild Alice, hasChild Bob, hasChild Carol

Από όσα ειπώθηκαν προκύπτει ότι ο Γιάννης έχει πολλά παιδιά; Η απόρριψη του UNA θα ανάγκαζε τη μηχανή εξαγωγής συμπερασμάτων να απαντήσει αρνητικά σε αυτήν την ερώτηση, αφού η Αλίκη και ο Μπομπ θα μπορούσαν κάλλιστα να είναι το ίδιο άτομο. Για να πραγματοποιηθούν τα ακόλουθα, πρέπει να προσθέσουμε το ακόλουθο αξίωμα:

DifferentIndividuals: Alice, Bob, Carol, John

Τώρα αφήστε το τμήμα οντολογίας να έχει την ακόλουθη μορφή (ο Γιάννης δηλώνεται ότι έχει πολλά παιδιά, αλλά έχει μόνο δύο παιδιά):

Class: manyChildren
   EquivalentTo: Human that hasChild min 3
Individual: John
   Types: Human, manyChildren
   Facts: hasChild Alice, hasChild Bob
DifferentIndividuals: Alice, Bob, Carol, John

Θα είναι ασυνεπής αυτή η οντολογία (που μπορεί να ερμηνευθεί ως απόδειξη μη έγκυρων δεδομένων); Η αποδοχή του OWA θα κάνει τη μηχανή συμπερασμάτων να απαντήσει αρνητικά: "κάπου" αλλού (σε διαφορετική οντολογία) θα μπορούσε κάλλιστα να ειπωθεί ότι η Carol είναι επίσης το παιδί του John.

Για να εξαλείψουμε αυτήν την πιθανότητα, ας προσθέσουμε ένα νέο γεγονός για τον John:

Individual: John
   Facts: hasChild Alice, hasChild Bob, not hasChild Carol

Για να αποκλείσουμε την εμφάνιση άλλων παιδιών, ας πούμε ότι όλες οι αξίες του ακινήτου "έχω παιδί" είναι άνθρωποι, από τους οποίους έχουμε μόνο τέσσερις:

ObjectProperty: hasChild
   Domain: Human
   Сharacteristics: Irreflexive
Class: Human
EquivalentTo: { Alice, Bill, Carol, John }

Τώρα η οντολογία θα γίνει ασυνεπής, την οποία η μηχανή συμπερασμάτων δεν θα παραλείψει να αναφέρει. Με το τελευταίο από τα αξιώματα, κάπως «κλείσαμε» τον κόσμο, και παρατηρούμε πώς αποκλείεται η πιθανότητα ο Γιάννης να είναι δικό του παιδί.

Σύνδεση δεδομένων επιχείρησης

Ένα σύνολο προσεγγίσεων και τεχνολογιών Τα Συνδεδεμένα Δεδομένα προορίζονταν αρχικά για τη δημοσίευση δεδομένων στον Ιστό. Η χρήση τους σε ένα ενδοεταιρικό περιβάλλον αντιμετωπίζει μια σειρά από δυσκολίες.

Για παράδειγμα, σε ένα κλειστό εταιρικό περιβάλλον, η απαγωγική δύναμη του OWL που βασίζεται στην υιοθέτηση του OWA και την απόρριψη του UNA, λύσεις που οδηγούνται από την ανοιχτή και κατανεμημένη φύση του ιστού, είναι πολύ αδύναμη. Και εδώ είναι δυνατές οι ακόλουθες έξοδοι.

  • Προικίζοντας το OWL με σημασιολογία, που συνεπάγεται την απόρριψη του OWA και την υιοθέτηση του UNA, την εφαρμογή της αντίστοιχης μηχανής συμπερασμάτων. - σε αυτό το μονοπάτι πηγαίνει Αποθετήριο Stardog RDF.
  • Εγκαταλείποντας την απαγωγική ισχύ του OWL προς όφελος των κινητήρων κανόνων. - Το Stardog υποστηρίζει SWRL; Προσφορά Jena και GraphDB δικό Γλώσσες κανόνες.
  • Απόρριψη των απαγωγικών δυνατοτήτων του OWL, χρήση ενός ή άλλου υποσυνόλου κοντά στο RDFS για μοντελοποίηση. - Δείτε περισσότερα για αυτό παρακάτω.

Ένα άλλο πρόβλημα είναι η πιο σημαντική προσοχή που μπορεί να αφιερώσει ο εταιρικός κόσμος σε ζητήματα ποιότητας δεδομένων και η έλλειψη εργαλείων επικύρωσης δεδομένων στη στοίβα Συνδεδεμένων δεδομένων. Οι έξοδοι είναι οι εξής.

  • Και πάλι, χρησιμοποιώντας κατασκευές OWL με σημασιολογία κλειστού κόσμου και μοναδικότητα ονομάτων για επικύρωση εάν υπάρχει κατάλληλη μηχανή συμπερασμάτων.
  • Χρήση SHACL, τυποποιημένο μετά την επιδιόρθωση της λίστας των επιπέδων του Semantic Web Layer Cake (ωστόσο, μπορεί επίσης να χρησιμοποιηθεί ως μηχανή κανόνων) ή ShEx.
  • Συνειδητοποιώντας ότι όλα γίνονται τελικά από ερωτήματα SPARQL, δημιουργώντας τον δικό σας απλό μηχανισμό επικύρωσης δεδομένων χρησιμοποιώντας τα.

Ωστόσο, ακόμη και η πλήρης απόρριψη των παραγωγικών δυνατοτήτων και των εργαλείων επικύρωσης αφήνει τη στοίβα Συνδεδεμένων Δεδομένων εκτός ανταγωνισμού σε εργασίες που είναι παρόμοιες με τις εργασίες ενοποίησης δεδομένων ανοικτού και κατανεμημένου ιστού.

Τι θα λέγατε για ένα κανονικό εταιρικό σύστημα πληροφοριών;

Αυτό είναι δυνατό, αλλά θα πρέπει φυσικά να γνωρίζει κανείς ποια ακριβώς προβλήματα θα πρέπει να λύσουν οι κατάλληλες τεχνολογίες. Θα περιγράψω εδώ μια τυπική αντίδραση των συμμετεχόντων στην ανάπτυξη για να δείξω πώς μοιάζει αυτή η στοίβα τεχνολογίας από τη σκοπιά της συμβατικής πληροφορικής. Μου θυμίζει λίγο την παραβολή του ελέφαντα:

  • Επιχειρηματικός αναλυτής: Το RDF είναι κάτι σαν ένα απευθείας αποθηκευμένο λογικό μοντέλο.
  • Αναλυτής συστημάτων: Το RDF είναι σαν Επέκταση EAV, μόνο με ένα σωρό ευρετήρια και μια βολική γλώσσα ερωτημάτων.
  • Προγραμματιστής: Λοιπόν, όλα είναι στο πνεύμα των ιδεών πλούσιου μοντέλου και χαμηλού κώδικα, διάβαζα σχετικά πρόσφατα.
  • Διευθυντής έργου: ναι είναι καταρρέοντας τη στοίβα!

Η πρακτική δείχνει ότι η στοίβα χρησιμοποιείται συχνότερα σε εργασίες που σχετίζονται με τη διανομή και την ετερογένεια των δεδομένων, για παράδειγμα, κατά την κατασκευή συστημάτων της κατηγορίας MDM (Master Data Management) ή DWH (Data Warehouse). Τέτοια προβλήματα υπάρχουν σε κάθε κλάδο.

Όσον αφορά τις συγκεκριμένες εφαρμογές του κλάδου, οι τεχνολογίες Συνδεδεμένων Δεδομένων είναι αυτή τη στιγμή πιο δημοφιλείς στους ακόλουθους κλάδους.

  • βιοϊατρικές τεχνολογίες (όπου η δημοτικότητά τους φαίνεται να σχετίζεται με την πολυπλοκότητα της θεματικής περιοχής)·

ρεύμα

Στο «Σημείο βρασμού» τις προάλλες πραγματοποιήθηκε ημερίδα που διοργάνωσε ο σύλλογος «Εθνική Ιατρική Γνωσιακή Βάση»Ενοποίηση οντολογιών. Από τη θεωρία στην πρακτική εφαρμογή».

  • κατασκευή και λειτουργία σύνθετων προϊόντων (μεγάλη μηχανική, παραγωγή πετρελαίου και φυσικού αερίου· τις περισσότερες φορές είναι ένα πρότυπο ISO 15926);

ρεύμα

Και εδώ, ο λόγος είναι η πολυπλοκότητα της θεματικής περιοχής, όταν, για παράδειγμα, στο upstream στάδιο, αν μιλάμε για τη βιομηχανία πετρελαίου και φυσικού αερίου, μια απλή λογιστική χρειάζεται να έχει κάποιες λειτουργίες CAD.

Το 2008, η Chevron φιλοξένησε μια αντιπροσωπευτική εγκατάσταση διάσκεψη.

Το ISO 15926 τελικά φάνηκε λίγο βαρύ για τη βιομηχανία πετρελαίου και φυσικού αερίου (και βρήκε σχεδόν περισσότερη χρήση στη μηχανολογία). Μόνο ο Statoil (Equinor) αγκιστρώθηκε πάνω του καλά, στη Νορβηγία συνολικά οικοσύστημα. Άλλοι προσπαθούν να κάνουν το δικό τους. Για παράδειγμα, σύμφωνα με φήμες, το εγχώριο Υπουργείο Ενέργειας σκοπεύει να δημιουργήσει ένα «εννοιολογικό οντολογικό μοντέλο του συμπλέγματος καυσίμων και ενέργειας», παρόμοιο, προφανώς, με δημιουργήθηκε για τη βιομηχανία ηλεκτρικής ενέργειας.

  • χρηματοπιστωτικά ιδρύματα (ακόμη και το XBRL μπορεί να θεωρηθεί ως ένα υβρίδιο της οντολογίας SDMX και RDF Data Cube).

ρεύμα

Το LinkedIn στις αρχές του έτους έστειλε ενεργά ανεπιθύμητη αλληλογραφία στον συγγραφέα με κενές θέσεις από σχεδόν όλους τους κολοσσούς του χρηματοπιστωτικού κλάδου, τους οποίους γνωρίζει από την τηλεοπτική σειρά Suits: Goldman Sachs, JPMorgan Chase ή/και Morgan Stanley, Wells Fargo, SWIFT/Visa/ Mastercard, Bank of America, Citigroup, Fed, Deutsche Bank… Όλοι μάλλον έψαχναν κάποιον να στείλουν Συνέδριο Γράφημα Γνώσης. Αρκετοί κατάφεραν να βρουν: τα χρηματοπιστωτικά ιδρύματα κατέλαβαν τα πάντα πρώτη μέρα πρωί.

Στο HeadHunter, κάτι ενδιαφέρον συνάντησε μόνο η Sberbank, ήταν για "αποθήκευση EAV με μοντέλο δεδομένων που μοιάζει με RDF".

Πιθανώς, η διαφορά στον βαθμό αγάπης για τις αντίστοιχες τεχνολογίες των εγχώριων και δυτικών χρηματοπιστωτικών ιδρυμάτων οφείλεται στη διακρατική φύση των δραστηριοτήτων των τελευταίων. Προφανώς, η ενσωμάτωση πέραν των κρατικών συνόρων απαιτεί ποιοτικά διαφορετικές οργανωτικές και τεχνικές λύσεις.

  • συστήματα ερωτήσεων-απαντήσεων που έχουν εμπορικές εφαρμογές (IBM Watson, Apple Siri, Google Knowledge Graph).

ρεύμα

Παρεμπιπτόντως, ο δημιουργός του Siri, Thomas Gruber, είναι ο συγγραφέας του ίδιου του ορισμού της οντολογίας (με την έννοια της πληροφορικής) ως «προδιαγραφή εννοιοποίησης». Κατά τη γνώμη μου, η αναδιάταξη των λέξεων σε αυτόν τον ορισμό δεν αλλάζει τη σημασία του, κάτι που, ίσως, δείχνει ότι δεν υπάρχει.

  • δημοσίευση δομημένων δεδομένων (με βάσιμο λόγο αυτό μπορεί ήδη να αποδοθεί στα Συνδεδεμένα Ανοικτά Δεδομένα).

ρεύμα

Μεγάλοι θαυμαστές των Συνδεδεμένων Δεδομένων είναι τα λεγόμενα GLAM: Γκαλερί, Βιβλιοθήκες, Αρχεία και Μουσεία. Αρκεί να πούμε εδώ ότι για να αντικαταστήσει το MARC21, προωθεί η Βιβλιοθήκη του Κογκρέσου BIBFRAMEΟ οποίος παρέχει μια βάση για το μέλλον της βιβλιογραφικής περιγραφής και φυσικά με βάση το RDF.

Τα Wikidata αναφέρονται συχνά ως παράδειγμα επιτυχημένου έργου στον τομέα των Συνδεδεμένων Ανοικτών Δεδομένων - ένα είδος αναγνώσιμης από μηχανή έκδοσης της Wikipedia, το περιεχόμενο της οποίας, σε αντίθεση με το DBPedia, δεν δημιουργείται με εισαγωγή άρθρων από κουτιά πληροφοριών, αλλά δημιουργείται περισσότερο ή λιγότερο χειροκίνητα (και στη συνέχεια γίνεται πηγή πληροφοριών για τα ίδια κουτιά πληροφοριών).

Συνιστάται επίσης για αναθεώρηση λίστα χρήστες του αποθετηρίου Stardog RDF στον ιστότοπο του Stardog στην ενότητα "Πελάτες".

Όπως και να έχει, στη Gartner "Hype Cycle for Emerging Technologies" 2016 Το «Enterprise Taxonomy and Ontology Management» τοποθετείται στη μέση μιας κατάβασης στην κοιλάδα της απογοήτευσης με την προοπτική να φτάσει σε ένα «πλατό παραγωγικότητας» το νωρίτερο σε 10 χρόνια.

Σύνδεση εταιρικών δεδομένων

Προβλέψεις, προβλέψεις, προβλέψεις…

Από ιστορικό ενδιαφέρον, έχω συνοψίσει τις προβλέψεις της Gartner για διάφορα χρόνια για τις τεχνολογίες που μας ενδιαφέρουν στον παρακάτω πίνακα.

Έτος Технология Αναφορά Θέση Χρόνια στο οροπέδιο
2001 Σημασιολογικό Ιστό Αναδυόμενες τεχνολογίες Έναυσμα καινοτομίας 5-10
2006 Εταιρικός Σημασιολογικός Ιστός Αναδυόμενες τεχνολογίες Κορυφή των διογκωμένων προσδοκιών 5-10
2012 Σημασιολογικό Ιστό Big Data Κορυφή των διογκωμένων προσδοκιών > 10
2015 Συνδεδεμένα δεδομένα Advanced Analytics και Data Science Κοίτα της απογοήτευσης 5-10
2016 Διαχείριση οντολογίας επιχειρήσεων Αναδυόμενες τεχνολογίες Κοίτα της απογοήτευσης > 10
2018 Γραφήματα γνώσης Αναδυόμενες τεχνολογίες Έναυσμα καινοτομίας 5-10

Ωστόσο, ήδη μέσα "Hype Cycle..." 2018 εμφανίστηκε μια άλλη ανοδική τάση - Γραφήματα γνώσης. Έγινε μια ορισμένη μετενσάρκωση: το γραφικό DBMS, στο οποίο αποδείχθηκε ότι στράφηκε η προσοχή των χρηστών και των δυνάμεων των προγραμματιστών, υπό την επίδραση των αιτημάτων του πρώτου και των συνηθειών του δεύτερου, άρχισε να αποκτά τα περιγράμματα και τη θέση του ανταγωνιστές τους προκατόχους τους.

Σχεδόν κάθε DBMS γραφήματος ισχυρίζεται τώρα ότι είναι μια κατάλληλη πλατφόρμα για τη δημιουργία ενός εταιρικού «γραφήματος γνώσης» (τα «συνδεδεμένα δεδομένα» αντικαθίστανται μερικές φορές από τα «συνδεδεμένα δεδομένα»), αλλά πόσο δικαιολογημένοι είναι αυτοί οι ισχυρισμοί;

Οι βάσεις δεδομένων γραφημάτων εξακολουθούν να είναι ασημαντικές, τα δεδομένα σε ένα DBMS γραφήματος εξακολουθούν να είναι το ίδιο σιλό δεδομένων. Τα αναγνωριστικά συμβολοσειρών αντί για τα URI καθιστούν την εργασία της ενσωμάτωσης δύο DBMS γραφημάτων την ίδια εργασία ολοκλήρωσης, ενώ η ενοποίηση δύο αποθετηρίων RDF είναι συχνά απλώς θέμα συγχώνευσης δύο γραφημάτων RDF. Μια άλλη πτυχή της ασημαντικότητας είναι η μη ανακλαστικότητα του μοντέλου γραφήματος LPG, γεγονός που καθιστά δύσκολη τη διαχείριση των μεταδεδομένων χρησιμοποιώντας την ίδια πλατφόρμα.

Τέλος, τα DBMS γραφημάτων δεν έχουν μηχανές συμπερασμάτων ή μηχανές κανόνων. Τα αποτελέσματα τέτοιων μηχανών μπορούν να αναπαραχθούν περιπλέκοντας τα ερωτήματα, αλλά αυτό είναι δυνατό ακόμη και στην SQL.

Ωστόσο, τα κορυφαία αποθετήρια RDF δεν έχουν πρόβλημα να υποστηρίξουν το μοντέλο LPG. Η πιο σταθερή είναι η προσέγγιση που προτάθηκε κάποτε στο Blazegraph: το μοντέλο RDF*, το οποίο συνδυάζει RDF και LPG.

Περισσότερα

Μπορείτε να διαβάσετε περισσότερα για την υποστήριξη του μοντέλου υγραερίου από αποθηκευτικούς χώρους RDF στο προηγούμενο άρθρο στο Habré: "Τι συμβαίνει τώρα με τα αποθετήρια RDF". Σχετικά με τα Γραφήματα Γνώσης και το Σύστημα Δεδομένων, ελπίζω μια μέρα να γραφτεί ένα ξεχωριστό άρθρο. Η τελευταία ενότητα, όπως είναι εύκολο να γίνει κατανοητό, γράφτηκε βιαστικά, ωστόσο, ακόμη και έξι μήνες αργότερα, αυτές οι έννοιες δεν είναι πολύ πιο σαφείς.

Λογοτεχνία

  1. Halpin, H., Monnin, A. (επιμ.) (2014). Φιλοσοφική Μηχανική: Προς μια Φιλοσοφία του Ιστού
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2η έκδ.)
  3. Staab, S., Studer, R. (επιμ.) (2009) Handbook on Ontologies (2nd ed.)
  4. Wood, D. (επιμ.). (2011) Linking Enterprise Data
  5. Keet, M. (2018) An Introduction to Ontology Engineering

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο