RDF రిపోజిటరీలతో ఇప్పుడు ఏమి జరుగుతోంది?

సెమాంటిక్ వెబ్ మరియు లింక్డ్ డేటా బాహ్య అంతరిక్షం లాంటివి: అక్కడ జీవితం లేదు. ఎక్కువ లేదా తక్కువ సుదీర్ఘ కాలం పాటు అక్కడికి వెళ్లడానికి... “నేను వ్యోమగామిని కావాలనుకుంటున్నాను” అని సమాధానంగా వారు చిన్నప్పుడు మీకు ఏమి చెప్పారో నాకు తెలియదు. కానీ మీరు భూమిపై ఉన్నప్పుడు ఏమి జరుగుతుందో గమనించవచ్చు; ఔత్సాహిక ఖగోళ శాస్త్రవేత్త లేదా ప్రొఫెషనల్‌గా మారడం చాలా సులభం.

కథనం RDF నిల్వ ప్రపంచంలోని ఇటీవలి, చాలా నెలల కంటే పాత ట్రెండ్‌లపై దృష్టి పెడుతుంది. మొదటి పేరాలోని రూపకం కట్ కింద ఉన్న పురాణ-పరిమాణ ప్రకటన చిత్రం నుండి ప్రేరణ పొందింది.


పురాణ చిత్రం

RDF రిపోజిటరీలతో ఇప్పుడు ఏమి జరుగుతోంది?

I. RDF యాక్సెస్ కోసం GraphQL

వాళ్ళు చెప్తారుగ్రాఫ్‌క్యూఎల్ యూనివర్సల్ డేటాబేస్ యాక్సెస్ లాంగ్వేజ్‌గా మారాలని లక్ష్యంగా పెట్టుకుంది. GraphQLని ఉపయోగించి RDFని యాక్సెస్ చేయగల సామర్థ్యం గురించి ఏమిటి?

బాక్స్ వెలుపల ఈ అవకాశం వీరిచే అందించబడింది:

రిపోజిటరీ అటువంటి అవకాశాన్ని అందించకపోతే, తగిన "పరిష్కారాన్ని" వ్రాయడం ద్వారా స్వతంత్రంగా అమలు చేయవచ్చు. ఉదాహరణకు, ఫ్రెంచ్ ప్రాజెక్ట్‌లో వారు ఇదే చేసారు డేటా టూరిజం. లేదా మీరు ఇకపై ఏమీ వ్రాయలేరు, కానీ తీసుకోండి హైపర్‌గ్రాఫ్‌క్యూఎల్.

సెమాంటిక్ వెబ్ మరియు లింక్డ్ డేటా యొక్క సనాతన అనుచరుల దృక్కోణం నుండి, ఇవన్నీ విచారకరం, ఎందుకంటే ఇది తదుపరి డేటా సిలో చుట్టూ నిర్మించిన ఇంటిగ్రేషన్‌ల కోసం రూపొందించబడింది మరియు తగిన ప్లాట్‌ఫారమ్‌లు కాదు (RDF స్టోర్‌లు, కోర్సు) .

GraphQLని SPARQLతో పోల్చడం వల్ల కలిగే ప్రభావాలు రెండు రెట్లు.

  • ఒకవైపు, GraphQL SPARQLకి సుదూర బంధువులా కనిపిస్తుంది: ఇది RESTకి విలక్షణమైన ప్రశ్నల పునః నమూనా మరియు బహుళత్వం యొక్క సమస్యలను పరిష్కరిస్తుంది - ఇది లేకుండా, బహుశా, పరిగణించడం సాధ్యం కాదు. ప్రశ్న భాష, కనీసం వెబ్ కోసం;
  • మరోవైపు, GraphQL యొక్క దృఢమైన స్కీమా నిరాశపరిచింది. దీని ప్రకారం, RDF యొక్క పూర్తి రిఫ్లెక్సివిటీతో పోలిస్తే దాని "ఆత్మపరిశీలన" చాలా పరిమితంగా కనిపిస్తుంది. మరియు ఆస్తి మార్గాల యొక్క అనలాగ్ లేదు, కాబట్టి ఇది "గ్రాఫ్-" ఎందుకు అని కూడా స్పష్టంగా తెలియదు.

II. MongoDB కోసం ఎడాప్టర్‌లు

మునుపటి ధోరణికి పరిపూరకరమైన ధోరణి.

  • ఇప్పుడు స్టార్‌డాగ్‌లో ఉంది బహుశా - ప్రత్యేకించి, అన్నీ ఒకే GraphQLలో - MongoDB డేటా యొక్క మ్యాపింగ్‌ను వర్చువల్ RDF గ్రాఫ్‌లుగా కాన్ఫిగర్ చేయండి;
  • Ontotext GraphDB ఇటీవలే ఉంది ఇది అనుమతిస్తుంది MongoDB ప్రశ్నలో SPARQL లోకి శకలాలు చొప్పించండి.

మేము JSON మూలాధారాలకు అడాప్టర్‌ల గురించి మరింత విస్తృతంగా మాట్లాడినట్లయితే, ఈ మూలాల్లో RDFగా నిల్వ చేయబడిన JSONని సూచించడానికి ఎక్కువ లేదా తక్కువ "ఫ్లైలో" అనుమతించడం ద్వారా, మేము చాలా కాలంగా ఉన్న వాటిని గుర్తుకు తెచ్చుకోవచ్చు. SPARQL ఉత్పత్తి, ఇది సర్దుబాటు చేయవచ్చు, ఉదాహరణకు, అపాచీ జెనాకు.

మొదటి రెండు ధోరణులను సంగ్రహించి, RDF నిల్వలు "పాలీగ్లాట్ పెర్సిస్టెన్స్" పరిస్థితుల్లో ఏకీకరణ మరియు ఆపరేషన్ కోసం పూర్తి సంసిద్ధతను ప్రదర్శిస్తాయని మేము చెప్పగలం. ఏది ఏమైనప్పటికీ, ఈ రెండోది చాలా కాలంగా ఫ్యాషన్ నుండి బయటపడిందని మరియు దాని ద్వారా భర్తీ చేయబడుతుందని తెలిసింది వస్తున్నారు బహుళ మోడల్. RDF నిల్వ ప్రపంచంలో బహుళ-మోడలింగ్ గురించి ఏమిటి?

సంక్షిప్తంగా, మార్గం లేదు. నేను మల్టీ-మోడల్ DBMSల అంశానికి ఒక ప్రత్యేక కథనాన్ని అంకితం చేయాలనుకుంటున్నాను, కానీ ప్రస్తుతానికి గ్రాఫ్ మోడల్‌పై “ఆధారిత” బహుళ-మోడల్ DBMSలు లేవని గమనించవచ్చు (RDF దాని రకంగా పరిగణించబడుతుంది) . కొన్ని చిన్న బహుళ-మోడలింగ్ - ప్రత్యామ్నాయ LPG గ్రాఫ్ మోడల్ కోసం RDF నిల్వ మద్దతు - చర్చించబడుతుంది విభాగం V.

III. OLTP vs. OLAP

అయితే, అదే గార్ట్‌నర్ అతను వ్రాస్తూమల్టీమోడల్ అనేది ప్రాథమికంగా ఒక షరతు కాదు ఆపరేటింగ్ గదులు DBMS. ఇది అర్థమయ్యేలా ఉంది: "మల్టీవియారిట్ స్టోరేజ్" పరిస్థితిలో, లావాదేవీలతో ప్రధాన సమస్యలు తలెత్తుతాయి.

అయితే OLTP-OLAP స్కేల్‌లో RDF నిల్వలు ఎక్కడ ఉన్నాయి? నేను ఈ విధంగా సమాధానం ఇస్తాను: అక్కడ లేదా ఇక్కడ కాదు. అవి దేని కోసం ఉద్దేశించబడ్డాయో సూచించడానికి, కొన్ని మూడవ సంక్షిప్తీకరణ అవసరం. ఒక ఎంపికగా నేను సూచిస్తాను OLIP - ఆన్‌లైన్ ఇంటెలెక్చువల్ ప్రాసెసింగ్.

అయితే, ఇప్పటికీ:

  • గ్రాఫ్‌డిబిలో అమలు చేయబడిన మొంగోడిబితో ఏకీకరణ విధానాలు తక్కువ కాదు ఉద్దేశించబడింది పనితీరు సమస్యలను వ్రాయడం చుట్టూ పని చేయడానికి;
  • స్టార్‌డాగ్ మరింత ముందుకు మరియు పూర్తిగా వెళ్తుంది తిరిగి వ్రాస్తాడు ఇంజిన్, మళ్లీ రికార్డింగ్ పనితీరును మెరుగుపరిచే లక్ష్యంతో.

ఇప్పుడు మార్కెట్‌కి కొత్త ప్లేయర్‌ని పరిచయం చేస్తాను. IBM Netezza మరియు Amazon Redshift సృష్టికర్తల నుండి - అంజోగ్రాఫ్™. దాని ఆధారంగా ఉత్పత్తి కోసం ఒక ప్రకటన నుండి చిత్రం వ్యాసం ప్రారంభంలో పోస్ట్ చేయబడింది. అంజోగ్రాఫ్ GOLAP సొల్యూషన్‌గా ఉంటుంది. విండో ఫంక్షన్‌లతో మీరు SPARQLని ఎలా ఇష్టపడతారు? —

SELECT ?month (COUNT(?event) OVER (PARTITION BY ?month) AS ?events) WHERE {  …  }

IV. రాక్స్ డిబి

ఇప్పటికే ఎక్కువ ఒక లింక్ ఉంది స్టార్‌డాగ్ 7 బీటా యొక్క ప్రకటనకు, స్టార్‌డాగ్ RocksDBని అంతర్లీన నిల్వ వ్యవస్థగా ఉపయోగించబోతోందని పేర్కొంది - కీ-వాల్యూ స్టోర్, Google LevelDB యొక్క Facebook ఫోర్క్. ఒక నిర్దిష్ట ధోరణి గురించి మాట్లాడటం ఎందుకు విలువైనది?

ముందుగా, నిర్ణయించడం వికీపీడియా వ్యాసం, RDF నిల్వలు మాత్రమే కాకుండా RocksDBకి "మార్పిడి" చేయబడ్డాయి. ArangoDB, MongoDB, MySQL మరియు MariaDB, Cassandraలో RocksDBని స్టోరేజ్ ఇంజిన్‌గా ఉపయోగించడానికి ప్రాజెక్ట్‌లు ఉన్నాయి.

రెండవది, సంబంధిత అంశాలపై ప్రాజెక్ట్‌లు (అంటే ఉత్పత్తులు కాదు) RocksDBలో సృష్టించబడతాయి.

ఉదాహరణకు, eBay RocksDBని ఉపయోగిస్తుంది వేదిక మీ "నాలెడ్జ్ గ్రాఫ్" కోసం. మార్గం ద్వారా, ఇది చదవడానికి తమాషాగా ఉంది: ప్రశ్న భాష హోమ్ గ్రోన్ ఫార్మాట్‌గా ప్రారంభమైంది, కానీ ఇటీవల అది SPARQL లాగా మారుతోంది. జోక్‌లో వలె: మనం ఎంత నాలెడ్జ్ గ్రాఫ్ చేసినా, మనం ఇంకా RDFతో ముగుస్తుంది.

మరొక ఉదాహరణ - కొన్ని నెలల క్రితం కనిపించినది వికీడేటా చరిత్ర ప్రశ్న సేవ. దీనిని ప్రవేశపెట్టడానికి ముందు, వికీడేటా చారిత్రక సమాచారాన్ని దీని ద్వారా యాక్సెస్ చేయాలి MWAPI ప్రామాణిక మీడియావికీ APIకి. ఇప్పుడు స్వచ్ఛమైన SPARQLతో చాలా సాధ్యమే. "అండర్ ది హుడ్" కూడా RocksDB ఉంది. చెప్పాలంటే, Google నాలెడ్జ్ గ్రాఫ్‌లోకి Freebaseని దిగుమతి చేసుకున్న వ్యక్తి WDHQSని రూపొందించినట్లు తెలుస్తోంది.

V. LPG మద్దతు

LPG గ్రాఫ్‌లు మరియు RDF గ్రాఫ్‌ల మధ్య ఉన్న ప్రధాన వ్యత్యాసాన్ని నేను మీకు గుర్తు చేస్తాను.

LPGలో, స్కేలార్ ప్రాపర్టీలను ఎడ్జ్ ఇన్‌స్టాన్స్‌లకు కేటాయించవచ్చు, అయితే RDFలో అవి ఎడ్జ్ “టైప్‌లకు” మాత్రమే కేటాయించబడతాయి (కానీ స్కేలార్ ప్రాపర్టీస్ మాత్రమే కాదు, సాధారణ కనెక్షన్‌లు కూడా). LPGతో పోలిస్తే RDF యొక్క ఈ పరిమితి అధిగమించటం ఒకటి లేదా మరొక మోడలింగ్ టెక్నిక్. RDFతో పోలిస్తే LPG యొక్క పరిమితులను అధిగమించడం చాలా కష్టం, అయితే LPG గ్రాఫ్‌లు RDF గ్రాఫ్‌ల కంటే హరారీ పాఠ్యపుస్తకంలోని చిత్రాలను పోలి ఉంటాయి, అందుకే ప్రజలు వాటిని కోరుకుంటున్నారు.

సహజంగానే, "LPG మద్దతు" యొక్క పని రెండు భాగాలుగా ఉంటుంది:

  1. RDF మోడల్‌లో మార్పులు చేయడం, దానిలో LPG నిర్మాణాలను అనుకరించడం సాధ్యమవుతుంది;
  2. ఈ సవరించిన మోడల్‌లో డేటాను యాక్సెస్ చేయడాన్ని సాధ్యం చేసే RDF ప్రశ్న భాషలో మార్పులు చేయడం లేదా ప్రసిద్ధ LPG ప్రశ్న భాషలలో ఈ మోడల్‌కు ప్రశ్నలు చేసే సామర్థ్యాన్ని అమలు చేయడం.

V.1. డేటా మోడల్

ఇక్కడ అనేక సాధ్యమైన విధానాలు ఉన్నాయి.

V.1.1. సింగిల్టన్ ఆస్తి

RDF మరియు LPGలను సమన్వయం చేయడానికి అత్యంత సాహిత్య విధానం బహుశా సింగిల్టన్ ఆస్తి:

  • బదులుగా, ఉదాహరణకు, ప్రిడికేట్ :isMarriedTo అంచనాలు ఉపయోగించబడతాయి :isMarriedTo1, :isMarriedTo2 మరియు అందువలన న.
  • ఈ అంచనాలు కొత్త ట్రిపుల్‌ల సబ్జెక్ట్‌లుగా మారతాయి: :isMarriedTo1 :since "2013-09-13"^^xsd:date మరియు ఇతరులు.
  • ఒక సాధారణ ప్రిడికేట్‌తో ఈ ప్రిడికేట్‌ల సందర్భాల కనెక్షన్ రూపం యొక్క త్రిపాది ద్వారా స్థాపించబడింది :isMarriedTo1 rdf:singletonPropertyOf :isMarriedTo.
  • ఇది స్పష్టంగా ఉంటుంది rdf:singletonPropertyOf rdfs:subPropertyOf rdf:type, కానీ మీరు ఎందుకు వ్రాయకూడదో ఆలోచించండి :isMarriedTo1 rdf:type :isMarriedTo.

"LPG మద్దతు" సమస్య ఇక్కడ RDFS స్థాయిలో పరిష్కరించబడుతుంది. అటువంటి నిర్ణయం సముచితంగా చేర్చడం అవసరం ప్రామాణిక. అటాచ్ చేసే పరిణామాలకు మద్దతిచ్చే RDF స్టోర్‌ల కోసం కొన్ని మార్పులు అవసరం కావచ్చు, కానీ ప్రస్తుతానికి, సింగిల్‌టన్ ప్రాపర్టీని మరొక మోడలింగ్ టెక్నిక్‌గా భావించవచ్చు.

V.1.2. రీఫికేషన్ సరిగ్గా జరిగింది

తక్కువ అమాయక విధానాలు ట్రిపుల్స్ ద్వారా ఆస్తి ఉదంతాలు పూర్తిగా తక్షణమే అని గ్రహించడం నుండి ఉత్పన్నమవుతాయి. త్రిగుణాల గురించి ఏదైనా చెప్పగలగడం ద్వారా, మేము ఆస్తి సందర్భాల గురించి మాట్లాడగలుగుతాము.

ఈ విధానాలలో అత్యంత బలమైనది RDF*, అకా RDR, పుట్టింది బ్లేజ్‌గ్రాఫ్ లోతుల్లో. ఇది చాలా మొదటి నుండి ఎన్నికయ్యారు మీ కోసం మరియు అంజోగ్రాఫ్ కోసం. విధానం యొక్క దృఢత్వం దాని ఫ్రేమ్‌వర్క్‌లోని వాస్తవం ద్వారా నిర్ణయించబడుతుంది ఇచ్చింది లో సంబంధిత మార్పులు RDF సెమాంటిక్స్. అయితే, పాయింట్ చాలా సులభం. RDF యొక్క తాబేలు సీరియలైజేషన్‌లో మీరు ఇప్పుడు ఇలా వ్రాయవచ్చు:

<<:bob :isMarriedTo :alice>> :since "2013-09-13"^^xsd:date .

V.1.3. ఇతర విధానాలు

మీరు ఫార్మల్ సెమాంటిక్స్‌తో ఇబ్బంది పడలేరు, కానీ ట్రిపుల్స్‌కు నిర్దిష్ట ఐడెంటిఫైయర్‌లు ఉన్నాయని ఊహించుకోండి, అవి URIలు మరియు ఈ URIలతో కొత్త ట్రిపుల్‌లను సృష్టించండి. SPARQLలో ఈ URIలకు యాక్సెస్ ఇవ్వడమే మిగిలి ఉంది. కాబట్టి వస్తాడు స్టార్ డాగ్.

అల్లెగ్రోగ్రాఫ్‌లో వెళ్లిన ఇంటర్మీడియట్ మార్గంలో. అల్లెగ్రోగ్రాఫ్‌లో ట్రిపుల్ ఐడెంటిఫైయర్‌లు అని తెలుసు ఉంది, కానీ ట్రిపుల్ అట్రిబ్యూట్‌లను అమలు చేస్తున్నప్పుడు అవి బయటకు రావు. అయినప్పటికీ, ఇది ఇప్పటికీ ఫార్మల్ సెమాంటిక్స్ నుండి చాలా దూరంగా ఉంది. ట్రిపుల్ అట్రిబ్యూట్‌లు URIలు కావు మరియు ఈ లక్షణాల విలువలు కూడా అక్షరాలా మాత్రమే కావచ్చు. LPG అనుచరులు వారు కోరుకున్నది ఖచ్చితంగా పొందుతారు. ప్రత్యేకంగా కనిపెట్టబడిన NQX ఆకృతిలో, RDF* కోసం పైన ఉన్న ఉదాహరణకి సారూప్యమైన ఉదాహరణ ఇలా కనిపిస్తుంది:

:bob :marriedTo :alice {"since" : "2013-09-13"}

V.2. ప్రశ్న భాషలు

మోడల్ స్థాయిలో ఒక విధంగా లేదా మరొక విధంగా LPGకి మద్దతునిస్తూ, అటువంటి మోడల్‌లో డేటాపై ప్రశ్నలను మీరు చేయడాన్ని సాధ్యం చేయాలి.

  • RDF* ప్రశ్నలకు బ్లేజ్‌గ్రాఫ్ మద్దతు ఇస్తుంది స్పార్క్ల్* и Gremlin. SPARQL* ప్రశ్న ఇలా కనిపిస్తుంది:

 SELECT * { <<:bob :isMarriedTo ?wife>> :since ?since }

  • అంజోగ్రాఫ్ కూడా సపోర్ట్ చేస్తుంది స్పార్క్ల్* మరియు మద్దతు ఇవ్వబోతోంది శూన్యం, Neo4jలో ఒక ప్రశ్న భాష.
  • స్టార్‌డాగ్ దాని స్వంత మద్దతునిస్తుంది расширение SPARQL మరియు మళ్ళీ గ్రెమ్లిన్. మీరు ఇలాంటి వాటిని ఉపయోగించి SPARQLలో ట్రిపుల్ URI మరియు “మెటా-ఇన్ఫర్మేషన్” పొందవచ్చు:

SELECT * {
    BIND (stardog:identifier(:bob, :isMarriedTo, ?wife) AS ?id)
    ?id :since ?since
}

  • అల్లెగ్రోగ్రాఫ్ కూడా దాని స్వంతదానికి మద్దతు ఇస్తుంది расширение SPARQL:

 SELECT * { ("since" ?since)  franz:attributesNameValue  ( :bob :marriedTo ?wife ) }

మార్గం ద్వారా, గ్రాఫ్‌డిబి ఒక సమయంలో ఎల్‌పిజికి మద్దతు ఇవ్వకుండా టింకర్‌పాప్/గ్రెమ్లిన్‌కు మద్దతు ఇచ్చింది, అయితే ఇది వెర్షన్ 8.0 లేదా 8.1లో ఆగిపోయింది.

VI. లైసెన్సుల కఠినతరం

"ట్రిపుల్‌స్టోర్ ఆఫ్ చాయిస్" మరియు "ఓపెన్ సోర్స్ ట్రిపుల్‌స్టోర్" సెట్‌ల ఖండనకు ఇటీవలి జోడింపులు ఏవీ లేవు. కొత్త ఓపెన్ సోర్స్ RDF స్టోర్‌లు రోజువారీ వినియోగానికి మంచి ఎంపిక కావడానికి చాలా దూరంగా ఉన్నాయి మరియు నేను ఉపయోగించాలనుకుంటున్న కొత్త ట్రిపుల్ స్టోర్‌లు (AnzoGraph వంటివి) క్లోజ్డ్ సోర్స్. బదులుగా, మేము తగ్గుదల గురించి మాట్లాడవచ్చు ...

అయితే, గతంలో ఓపెన్ సోర్స్ షట్ డౌన్ కాలేదు, కానీ కొన్ని ఓపెన్ సోర్స్ రిపోజిటరీలు నెమ్మదిగా ఎన్నుకోదగినవిగా కనిపించవు. ఓపెన్‌సోర్స్ ఎడిషన్‌ని కలిగి ఉన్న వర్చుసో, నా అభిప్రాయం ప్రకారం, బగ్‌లలో మునిగిపోయింది. Blazegraph AWS ద్వారా కొనుగోలు చేయబడింది మరియు అమెజాన్ నెప్ట్యూన్ ఆధారంగా రూపొందించబడింది; ఇప్పుడు కనీసం మరో విడుదల ఉంటుందా అనేది అస్పష్టంగా ఉంది. జెనా మాత్రమే మిగిలి ఉంది...

ఓపెన్ సోర్స్ చాలా ముఖ్యమైనది కానప్పటికీ, మీరు దీన్ని ప్రయత్నించాలనుకుంటే, ప్రతిదీ కూడా మునుపటి కంటే తక్కువగా ఉంటుంది. ఉదాహరణకి:

  • స్టార్ డాగ్ ఆగిపోతుంది ఉచిత సంస్కరణను పంపిణీ చేయండి (అయితే, సాధారణ వెర్షన్ యొక్క ట్రయల్ వ్యవధి రెట్టింపు చేయబడింది);
  • в గ్రాఫ్‌డిబి క్లౌడ్, ఇంతకు ముందు మీరు ఉచిత ప్రాథమిక ప్లాన్‌ని ఎంచుకోవచ్చు, కొత్త వినియోగదారు రిజిస్ట్రేషన్‌లు నిలిపివేయబడ్డాయి.

సాధారణంగా, సగటు IT వ్యక్తికి, స్థలం అంతకంతకూ అందుబాటులో లేకుండా పోతోంది; దాని అభివృద్ధి సంస్థలకు సంబంధించినది.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి