సెమాంటిక్ వెబ్ మరియు లింక్డ్ డేటా బాహ్య అంతరిక్షం లాంటివి: అక్కడ జీవితం లేదు. ఎక్కువ లేదా తక్కువ సుదీర్ఘ కాలం పాటు అక్కడికి వెళ్లడానికి... “నేను వ్యోమగామిని కావాలనుకుంటున్నాను” అని సమాధానంగా వారు చిన్నప్పుడు మీకు ఏమి చెప్పారో నాకు తెలియదు. కానీ మీరు భూమిపై ఉన్నప్పుడు ఏమి జరుగుతుందో గమనించవచ్చు; ఔత్సాహిక ఖగోళ శాస్త్రవేత్త లేదా ప్రొఫెషనల్గా మారడం చాలా సులభం.
కథనం RDF నిల్వ ప్రపంచంలోని ఇటీవలి, చాలా నెలల కంటే పాత ట్రెండ్లపై దృష్టి పెడుతుంది. మొదటి పేరాలోని రూపకం కట్ కింద ఉన్న పురాణ-పరిమాణ ప్రకటన చిత్రం నుండి ప్రేరణ పొందింది.
పురాణ చిత్రం
I. RDF యాక్సెస్ కోసం GraphQL
వాళ్ళు చెప్తారుగ్రాఫ్క్యూఎల్ యూనివర్సల్ డేటాబేస్ యాక్సెస్ లాంగ్వేజ్గా మారాలని లక్ష్యంగా పెట్టుకుంది. GraphQLని ఉపయోగించి RDFని యాక్సెస్ చేయగల సామర్థ్యం గురించి ఏమిటి?
రిపోజిటరీ అటువంటి అవకాశాన్ని అందించకపోతే, తగిన "పరిష్కారాన్ని" వ్రాయడం ద్వారా స్వతంత్రంగా అమలు చేయవచ్చు. ఉదాహరణకు, ఫ్రెంచ్ ప్రాజెక్ట్లో వారు ఇదే చేసారు డేటా టూరిజం. లేదా మీరు ఇకపై ఏమీ వ్రాయలేరు, కానీ తీసుకోండి హైపర్గ్రాఫ్క్యూఎల్.
సెమాంటిక్ వెబ్ మరియు లింక్డ్ డేటా యొక్క సనాతన అనుచరుల దృక్కోణం నుండి, ఇవన్నీ విచారకరం, ఎందుకంటే ఇది తదుపరి డేటా సిలో చుట్టూ నిర్మించిన ఇంటిగ్రేషన్ల కోసం రూపొందించబడింది మరియు తగిన ప్లాట్ఫారమ్లు కాదు (RDF స్టోర్లు, కోర్సు) .
GraphQLని SPARQLతో పోల్చడం వల్ల కలిగే ప్రభావాలు రెండు రెట్లు.
ఒకవైపు, GraphQL SPARQLకి సుదూర బంధువులా కనిపిస్తుంది: ఇది RESTకి విలక్షణమైన ప్రశ్నల పునః నమూనా మరియు బహుళత్వం యొక్క సమస్యలను పరిష్కరిస్తుంది - ఇది లేకుండా, బహుశా, పరిగణించడం సాధ్యం కాదు. ప్రశ్న భాష, కనీసం వెబ్ కోసం;
మరోవైపు, GraphQL యొక్క దృఢమైన స్కీమా నిరాశపరిచింది. దీని ప్రకారం, RDF యొక్క పూర్తి రిఫ్లెక్సివిటీతో పోలిస్తే దాని "ఆత్మపరిశీలన" చాలా పరిమితంగా కనిపిస్తుంది. మరియు ఆస్తి మార్గాల యొక్క అనలాగ్ లేదు, కాబట్టి ఇది "గ్రాఫ్-" ఎందుకు అని కూడా స్పష్టంగా తెలియదు.
II. MongoDB కోసం ఎడాప్టర్లు
మునుపటి ధోరణికి పరిపూరకరమైన ధోరణి.
ఇప్పుడు స్టార్డాగ్లో ఉంది బహుశా - ప్రత్యేకించి, అన్నీ ఒకే GraphQLలో - MongoDB డేటా యొక్క మ్యాపింగ్ను వర్చువల్ RDF గ్రాఫ్లుగా కాన్ఫిగర్ చేయండి;
Ontotext GraphDB ఇటీవలే ఉంది ఇది అనుమతిస్తుంది MongoDB ప్రశ్నలో SPARQL లోకి శకలాలు చొప్పించండి.
మేము JSON మూలాధారాలకు అడాప్టర్ల గురించి మరింత విస్తృతంగా మాట్లాడినట్లయితే, ఈ మూలాల్లో RDFగా నిల్వ చేయబడిన JSONని సూచించడానికి ఎక్కువ లేదా తక్కువ "ఫ్లైలో" అనుమతించడం ద్వారా, మేము చాలా కాలంగా ఉన్న వాటిని గుర్తుకు తెచ్చుకోవచ్చు. SPARQL ఉత్పత్తి, ఇది సర్దుబాటు చేయవచ్చు, ఉదాహరణకు, అపాచీ జెనాకు.
మొదటి రెండు ధోరణులను సంగ్రహించి, RDF నిల్వలు "పాలీగ్లాట్ పెర్సిస్టెన్స్" పరిస్థితుల్లో ఏకీకరణ మరియు ఆపరేషన్ కోసం పూర్తి సంసిద్ధతను ప్రదర్శిస్తాయని మేము చెప్పగలం. ఏది ఏమైనప్పటికీ, ఈ రెండోది చాలా కాలంగా ఫ్యాషన్ నుండి బయటపడిందని మరియు దాని ద్వారా భర్తీ చేయబడుతుందని తెలిసింది వస్తున్నారు బహుళ మోడల్. RDF నిల్వ ప్రపంచంలో బహుళ-మోడలింగ్ గురించి ఏమిటి?
సంక్షిప్తంగా, మార్గం లేదు. నేను మల్టీ-మోడల్ DBMSల అంశానికి ఒక ప్రత్యేక కథనాన్ని అంకితం చేయాలనుకుంటున్నాను, కానీ ప్రస్తుతానికి గ్రాఫ్ మోడల్పై “ఆధారిత” బహుళ-మోడల్ DBMSలు లేవని గమనించవచ్చు (RDF దాని రకంగా పరిగణించబడుతుంది) . కొన్ని చిన్న బహుళ-మోడలింగ్ - ప్రత్యామ్నాయ LPG గ్రాఫ్ మోడల్ కోసం RDF నిల్వ మద్దతు - చర్చించబడుతుంది విభాగం V.
III. OLTP vs. OLAP
అయితే, అదే గార్ట్నర్ అతను వ్రాస్తూమల్టీమోడల్ అనేది ప్రాథమికంగా ఒక షరతు కాదు ఆపరేటింగ్ గదులు DBMS. ఇది అర్థమయ్యేలా ఉంది: "మల్టీవియారిట్ స్టోరేజ్" పరిస్థితిలో, లావాదేవీలతో ప్రధాన సమస్యలు తలెత్తుతాయి.
అయితే OLTP-OLAP స్కేల్లో RDF నిల్వలు ఎక్కడ ఉన్నాయి? నేను ఈ విధంగా సమాధానం ఇస్తాను: అక్కడ లేదా ఇక్కడ కాదు. అవి దేని కోసం ఉద్దేశించబడ్డాయో సూచించడానికి, కొన్ని మూడవ సంక్షిప్తీకరణ అవసరం. ఒక ఎంపికగా నేను సూచిస్తాను OLIP - ఆన్లైన్ ఇంటెలెక్చువల్ ప్రాసెసింగ్.
అయితే, ఇప్పటికీ:
గ్రాఫ్డిబిలో అమలు చేయబడిన మొంగోడిబితో ఏకీకరణ విధానాలు తక్కువ కాదు ఉద్దేశించబడింది పనితీరు సమస్యలను వ్రాయడం చుట్టూ పని చేయడానికి;
స్టార్డాగ్ మరింత ముందుకు మరియు పూర్తిగా వెళ్తుంది తిరిగి వ్రాస్తాడు ఇంజిన్, మళ్లీ రికార్డింగ్ పనితీరును మెరుగుపరిచే లక్ష్యంతో.
ఇప్పుడు మార్కెట్కి కొత్త ప్లేయర్ని పరిచయం చేస్తాను. IBM Netezza మరియు Amazon Redshift సృష్టికర్తల నుండి - అంజోగ్రాఫ్™. దాని ఆధారంగా ఉత్పత్తి కోసం ఒక ప్రకటన నుండి చిత్రం వ్యాసం ప్రారంభంలో పోస్ట్ చేయబడింది. అంజోగ్రాఫ్ GOLAP సొల్యూషన్గా ఉంటుంది. విండో ఫంక్షన్లతో మీరు SPARQLని ఎలా ఇష్టపడతారు? —
SELECT ?month (COUNT(?event) OVER (PARTITION BY ?month) AS ?events) WHERE { … }
IV. రాక్స్ డిబి
ఇప్పటికే ఎక్కువ ఒక లింక్ ఉంది స్టార్డాగ్ 7 బీటా యొక్క ప్రకటనకు, స్టార్డాగ్ RocksDBని అంతర్లీన నిల్వ వ్యవస్థగా ఉపయోగించబోతోందని పేర్కొంది - కీ-వాల్యూ స్టోర్, Google LevelDB యొక్క Facebook ఫోర్క్. ఒక నిర్దిష్ట ధోరణి గురించి మాట్లాడటం ఎందుకు విలువైనది?
ముందుగా, నిర్ణయించడం వికీపీడియా వ్యాసం, RDF నిల్వలు మాత్రమే కాకుండా RocksDBకి "మార్పిడి" చేయబడ్డాయి. ArangoDB, MongoDB, MySQL మరియు MariaDB, Cassandraలో RocksDBని స్టోరేజ్ ఇంజిన్గా ఉపయోగించడానికి ప్రాజెక్ట్లు ఉన్నాయి.
రెండవది, సంబంధిత అంశాలపై ప్రాజెక్ట్లు (అంటే ఉత్పత్తులు కాదు) RocksDBలో సృష్టించబడతాయి.
ఉదాహరణకు, eBay RocksDBని ఉపయోగిస్తుంది వేదిక మీ "నాలెడ్జ్ గ్రాఫ్" కోసం. మార్గం ద్వారా, ఇది చదవడానికి తమాషాగా ఉంది: ప్రశ్న భాష హోమ్ గ్రోన్ ఫార్మాట్గా ప్రారంభమైంది, కానీ ఇటీవల అది SPARQL లాగా మారుతోంది. జోక్లో వలె: మనం ఎంత నాలెడ్జ్ గ్రాఫ్ చేసినా, మనం ఇంకా RDFతో ముగుస్తుంది.
మరొక ఉదాహరణ - కొన్ని నెలల క్రితం కనిపించినది వికీడేటా చరిత్ర ప్రశ్న సేవ. దీనిని ప్రవేశపెట్టడానికి ముందు, వికీడేటా చారిత్రక సమాచారాన్ని దీని ద్వారా యాక్సెస్ చేయాలి MWAPI ప్రామాణిక మీడియావికీ APIకి. ఇప్పుడు స్వచ్ఛమైన SPARQLతో చాలా సాధ్యమే. "అండర్ ది హుడ్" కూడా RocksDB ఉంది. చెప్పాలంటే, Google నాలెడ్జ్ గ్రాఫ్లోకి Freebaseని దిగుమతి చేసుకున్న వ్యక్తి WDHQSని రూపొందించినట్లు తెలుస్తోంది.
V. LPG మద్దతు
LPG గ్రాఫ్లు మరియు RDF గ్రాఫ్ల మధ్య ఉన్న ప్రధాన వ్యత్యాసాన్ని నేను మీకు గుర్తు చేస్తాను.
LPGలో, స్కేలార్ ప్రాపర్టీలను ఎడ్జ్ ఇన్స్టాన్స్లకు కేటాయించవచ్చు, అయితే RDFలో అవి ఎడ్జ్ “టైప్లకు” మాత్రమే కేటాయించబడతాయి (కానీ స్కేలార్ ప్రాపర్టీస్ మాత్రమే కాదు, సాధారణ కనెక్షన్లు కూడా). LPGతో పోలిస్తే RDF యొక్క ఈ పరిమితి అధిగమించటం ఒకటి లేదా మరొక మోడలింగ్ టెక్నిక్. RDFతో పోలిస్తే LPG యొక్క పరిమితులను అధిగమించడం చాలా కష్టం, అయితే LPG గ్రాఫ్లు RDF గ్రాఫ్ల కంటే హరారీ పాఠ్యపుస్తకంలోని చిత్రాలను పోలి ఉంటాయి, అందుకే ప్రజలు వాటిని కోరుకుంటున్నారు.
సహజంగానే, "LPG మద్దతు" యొక్క పని రెండు భాగాలుగా ఉంటుంది:
RDF మోడల్లో మార్పులు చేయడం, దానిలో LPG నిర్మాణాలను అనుకరించడం సాధ్యమవుతుంది;
ఈ సవరించిన మోడల్లో డేటాను యాక్సెస్ చేయడాన్ని సాధ్యం చేసే RDF ప్రశ్న భాషలో మార్పులు చేయడం లేదా ప్రసిద్ధ LPG ప్రశ్న భాషలలో ఈ మోడల్కు ప్రశ్నలు చేసే సామర్థ్యాన్ని అమలు చేయడం.
V.1. డేటా మోడల్
ఇక్కడ అనేక సాధ్యమైన విధానాలు ఉన్నాయి.
V.1.1. సింగిల్టన్ ఆస్తి
RDF మరియు LPGలను సమన్వయం చేయడానికి అత్యంత సాహిత్య విధానం బహుశా సింగిల్టన్ ఆస్తి:
బదులుగా, ఉదాహరణకు, ప్రిడికేట్ :isMarriedTo అంచనాలు ఉపయోగించబడతాయి :isMarriedTo1, :isMarriedTo2 మరియు అందువలన న.
ఈ అంచనాలు కొత్త ట్రిపుల్ల సబ్జెక్ట్లుగా మారతాయి: :isMarriedTo1 :since "2013-09-13"^^xsd:date మరియు ఇతరులు.
ఒక సాధారణ ప్రిడికేట్తో ఈ ప్రిడికేట్ల సందర్భాల కనెక్షన్ రూపం యొక్క త్రిపాది ద్వారా స్థాపించబడింది :isMarriedTo1 rdf:singletonPropertyOf :isMarriedTo.
ఇది స్పష్టంగా ఉంటుంది rdf:singletonPropertyOf rdfs:subPropertyOf rdf:type, కానీ మీరు ఎందుకు వ్రాయకూడదో ఆలోచించండి :isMarriedTo1 rdf:type :isMarriedTo.
"LPG మద్దతు" సమస్య ఇక్కడ RDFS స్థాయిలో పరిష్కరించబడుతుంది. అటువంటి నిర్ణయం సముచితంగా చేర్చడం అవసరం ప్రామాణిక. అటాచ్ చేసే పరిణామాలకు మద్దతిచ్చే RDF స్టోర్ల కోసం కొన్ని మార్పులు అవసరం కావచ్చు, కానీ ప్రస్తుతానికి, సింగిల్టన్ ప్రాపర్టీని మరొక మోడలింగ్ టెక్నిక్గా భావించవచ్చు.
V.1.2. రీఫికేషన్ సరిగ్గా జరిగింది
తక్కువ అమాయక విధానాలు ట్రిపుల్స్ ద్వారా ఆస్తి ఉదంతాలు పూర్తిగా తక్షణమే అని గ్రహించడం నుండి ఉత్పన్నమవుతాయి. త్రిగుణాల గురించి ఏదైనా చెప్పగలగడం ద్వారా, మేము ఆస్తి సందర్భాల గురించి మాట్లాడగలుగుతాము.
ఈ విధానాలలో అత్యంత బలమైనది RDF*, అకా RDR, పుట్టింది బ్లేజ్గ్రాఫ్ లోతుల్లో. ఇది చాలా మొదటి నుండి ఎన్నికయ్యారు మీ కోసం మరియు అంజోగ్రాఫ్ కోసం. విధానం యొక్క దృఢత్వం దాని ఫ్రేమ్వర్క్లోని వాస్తవం ద్వారా నిర్ణయించబడుతుంది ఇచ్చింది లో సంబంధిత మార్పులు RDF సెమాంటిక్స్. అయితే, పాయింట్ చాలా సులభం. RDF యొక్క తాబేలు సీరియలైజేషన్లో మీరు ఇప్పుడు ఇలా వ్రాయవచ్చు:
మీరు ఫార్మల్ సెమాంటిక్స్తో ఇబ్బంది పడలేరు, కానీ ట్రిపుల్స్కు నిర్దిష్ట ఐడెంటిఫైయర్లు ఉన్నాయని ఊహించుకోండి, అవి URIలు మరియు ఈ URIలతో కొత్త ట్రిపుల్లను సృష్టించండి. SPARQLలో ఈ URIలకు యాక్సెస్ ఇవ్వడమే మిగిలి ఉంది. కాబట్టి వస్తాడు స్టార్ డాగ్.
అల్లెగ్రోగ్రాఫ్లో వెళ్లిన ఇంటర్మీడియట్ మార్గంలో. అల్లెగ్రోగ్రాఫ్లో ట్రిపుల్ ఐడెంటిఫైయర్లు అని తెలుసు ఉంది, కానీ ట్రిపుల్ అట్రిబ్యూట్లను అమలు చేస్తున్నప్పుడు అవి బయటకు రావు. అయినప్పటికీ, ఇది ఇప్పటికీ ఫార్మల్ సెమాంటిక్స్ నుండి చాలా దూరంగా ఉంది. ట్రిపుల్ అట్రిబ్యూట్లు URIలు కావు మరియు ఈ లక్షణాల విలువలు కూడా అక్షరాలా మాత్రమే కావచ్చు. LPG అనుచరులు వారు కోరుకున్నది ఖచ్చితంగా పొందుతారు. ప్రత్యేకంగా కనిపెట్టబడిన NQX ఆకృతిలో, RDF* కోసం పైన ఉన్న ఉదాహరణకి సారూప్యమైన ఉదాహరణ ఇలా కనిపిస్తుంది:
:bob :marriedTo :alice {"since" : "2013-09-13"}
V.2. ప్రశ్న భాషలు
మోడల్ స్థాయిలో ఒక విధంగా లేదా మరొక విధంగా LPGకి మద్దతునిస్తూ, అటువంటి మోడల్లో డేటాపై ప్రశ్నలను మీరు చేయడాన్ని సాధ్యం చేయాలి.
RDF* ప్రశ్నలకు బ్లేజ్గ్రాఫ్ మద్దతు ఇస్తుంది స్పార్క్ల్* и Gremlin. SPARQL* ప్రశ్న ఇలా కనిపిస్తుంది:
అంజోగ్రాఫ్ కూడా సపోర్ట్ చేస్తుంది స్పార్క్ల్* మరియు మద్దతు ఇవ్వబోతోంది శూన్యం, Neo4jలో ఒక ప్రశ్న భాష.
స్టార్డాగ్ దాని స్వంత మద్దతునిస్తుంది расширение SPARQL మరియు మళ్ళీ గ్రెమ్లిన్. మీరు ఇలాంటి వాటిని ఉపయోగించి SPARQLలో ట్రిపుల్ URI మరియు “మెటా-ఇన్ఫర్మేషన్” పొందవచ్చు:
మార్గం ద్వారా, గ్రాఫ్డిబి ఒక సమయంలో ఎల్పిజికి మద్దతు ఇవ్వకుండా టింకర్పాప్/గ్రెమ్లిన్కు మద్దతు ఇచ్చింది, అయితే ఇది వెర్షన్ 8.0 లేదా 8.1లో ఆగిపోయింది.
VI. లైసెన్సుల కఠినతరం
"ట్రిపుల్స్టోర్ ఆఫ్ చాయిస్" మరియు "ఓపెన్ సోర్స్ ట్రిపుల్స్టోర్" సెట్ల ఖండనకు ఇటీవలి జోడింపులు ఏవీ లేవు. కొత్త ఓపెన్ సోర్స్ RDF స్టోర్లు రోజువారీ వినియోగానికి మంచి ఎంపిక కావడానికి చాలా దూరంగా ఉన్నాయి మరియు నేను ఉపయోగించాలనుకుంటున్న కొత్త ట్రిపుల్ స్టోర్లు (AnzoGraph వంటివి) క్లోజ్డ్ సోర్స్. బదులుగా, మేము తగ్గుదల గురించి మాట్లాడవచ్చు ...
అయితే, గతంలో ఓపెన్ సోర్స్ షట్ డౌన్ కాలేదు, కానీ కొన్ని ఓపెన్ సోర్స్ రిపోజిటరీలు నెమ్మదిగా ఎన్నుకోదగినవిగా కనిపించవు. ఓపెన్సోర్స్ ఎడిషన్ని కలిగి ఉన్న వర్చుసో, నా అభిప్రాయం ప్రకారం, బగ్లలో మునిగిపోయింది. Blazegraph AWS ద్వారా కొనుగోలు చేయబడింది మరియు అమెజాన్ నెప్ట్యూన్ ఆధారంగా రూపొందించబడింది; ఇప్పుడు కనీసం మరో విడుదల ఉంటుందా అనేది అస్పష్టంగా ఉంది. జెనా మాత్రమే మిగిలి ఉంది...
ఓపెన్ సోర్స్ చాలా ముఖ్యమైనది కానప్పటికీ, మీరు దీన్ని ప్రయత్నించాలనుకుంటే, ప్రతిదీ కూడా మునుపటి కంటే తక్కువగా ఉంటుంది. ఉదాహరణకి:
స్టార్ డాగ్ ఆగిపోతుంది ఉచిత సంస్కరణను పంపిణీ చేయండి (అయితే, సాధారణ వెర్షన్ యొక్క ట్రయల్ వ్యవధి రెట్టింపు చేయబడింది);
в గ్రాఫ్డిబి క్లౌడ్, ఇంతకు ముందు మీరు ఉచిత ప్రాథమిక ప్లాన్ని ఎంచుకోవచ్చు, కొత్త వినియోగదారు రిజిస్ట్రేషన్లు నిలిపివేయబడ్డాయి.
సాధారణంగా, సగటు IT వ్యక్తికి, స్థలం అంతకంతకూ అందుబాటులో లేకుండా పోతోంది; దాని అభివృద్ధి సంస్థలకు సంబంధించినది.