ఏ ఇతర ప్రక్రియలను ఆటోమేట్ చేయవచ్చనే ఆలోచనలు మరియు సమావేశాలు ప్రతిరోజూ వివిధ పరిమాణాల వ్యాపారాలలో తలెత్తుతాయి. కానీ మోడల్ను రూపొందించడానికి చాలా సమయం గడపవచ్చు అనే వాస్తవంతో పాటు, మీరు దానిని మూల్యాంకనం చేయడానికి మరియు పొందిన ఫలితం యాదృచ్ఛికంగా లేదని తనిఖీ చేయడానికి ఖర్చు చేయాలి. అమలు చేసిన తర్వాత, ఏదైనా మోడల్ తప్పనిసరిగా పర్యవేక్షించబడాలి మరియు క్రమానుగతంగా తనిఖీ చేయాలి.
మరియు ఇవి ఏ కంపెనీలో అయినా దాని పరిమాణంతో సంబంధం లేకుండా పూర్తి చేయవలసిన అన్ని దశలు. మేము స్బేర్బ్యాంక్ యొక్క స్థాయి మరియు వారసత్వం గురించి మాట్లాడినట్లయితే, ఫైన్-ట్యూనింగ్ సంఖ్య గణనీయంగా పెరుగుతుంది. 2019 చివరి నాటికి, Sber ఇప్పటికే 2000 కంటే ఎక్కువ మోడళ్లను ఉపయోగించింది. మోడల్ను అభివృద్ధి చేయడం మాత్రమే సరిపోదు; పారిశ్రామిక వ్యవస్థలతో ఏకీకృతం చేయడం, మోడల్లను రూపొందించడానికి డేటా మార్ట్లను అభివృద్ధి చేయడం మరియు క్లస్టర్పై దాని ఆపరేషన్ నియంత్రణను నిర్ధారించడం అవసరం.
మా బృందం Sber.DS ప్లాట్ఫారమ్ను అభివృద్ధి చేస్తోంది. ఇది మెషీన్ లెర్నింగ్ సమస్యలను పరిష్కరించడానికి మిమ్మల్ని అనుమతిస్తుంది, పరికల్పనలను పరీక్షించే ప్రక్రియను వేగవంతం చేస్తుంది, సూత్రప్రాయంగా మోడల్లను అభివృద్ధి చేసే మరియు ధృవీకరించే ప్రక్రియను సులభతరం చేస్తుంది మరియు PROMలో మోడల్ ఫలితాన్ని కూడా నియంత్రిస్తుంది.
మీ అంచనాలను మోసగించకుండా ఉండటానికి, ఈ పోస్ట్ ఒక పరిచయమని నేను ముందుగానే చెప్పాలనుకుంటున్నాను మరియు కట్ కింద, స్టార్టర్స్ కోసం, మేము సూత్రప్రాయంగా, Sber.DS ప్లాట్ఫారమ్ యొక్క హుడ్ కింద ఉన్న దాని గురించి మాట్లాడుతాము. సృష్టి నుండి అమలు వరకు మోడల్ యొక్క జీవిత చక్రం గురించి మేము కథను విడిగా చెబుతాము.
Sber.DS అనేక భాగాలను కలిగి ఉంటుంది, వాటిలో ముఖ్యమైనవి లైబ్రరీ, డెవలప్మెంట్ సిస్టమ్ మరియు మోడల్ ఎగ్జిక్యూషన్ సిస్టమ్.
లైబ్రరీ మోడల్ యొక్క జీవిత చక్రాన్ని అభివృద్ధి చేయాలనే ఆలోచన కనిపించిన క్షణం నుండి PROM, పర్యవేక్షణ మరియు ఉపసంహరణలో దాని అమలు వరకు నియంత్రిస్తుంది. అనేక లైబ్రరీ సామర్థ్యాలు రెగ్యులేటర్ నియమాల ద్వారా నిర్దేశించబడతాయి, ఉదాహరణకు, శిక్షణ మరియు ధ్రువీకరణ నమూనాలను నివేదించడం మరియు నిల్వ చేయడం. నిజానికి, ఇది మా అన్ని మోడళ్ల రిజిస్టర్.
డెవలప్మెంట్ సిస్టమ్ నమూనాలు మరియు ధ్రువీకరణ పద్ధతుల దృశ్యమాన అభివృద్ధి కోసం రూపొందించబడింది. అభివృద్ధి చెందిన నమూనాలు ప్రారంభ ధ్రువీకరణకు లోనవుతాయి మరియు వాటి వ్యాపార విధులను నిర్వహించడానికి అమలు వ్యవస్థకు సరఫరా చేయబడతాయి. అలాగే, రన్టైమ్ సిస్టమ్లో, మోడల్ను దాని ఆపరేషన్ను పర్యవేక్షించడానికి క్రమానుగతంగా ధ్రువీకరణ పద్ధతులను ప్రారంభించడం కోసం మానిటర్పై ఉంచవచ్చు.
సిస్టమ్లో అనేక రకాల నోడ్లు ఉన్నాయి. కొన్ని వివిధ డేటా సోర్స్లకు కనెక్ట్ చేయడానికి రూపొందించబడ్డాయి, మరికొన్ని సోర్స్ డేటాను మార్చడానికి మరియు దానిని మెరుగుపరచడానికి (మార్కప్) రూపొందించబడ్డాయి. విభిన్న నమూనాలను నిర్మించడానికి అనేక నోడ్లు మరియు వాటిని ధృవీకరించడానికి నోడ్లు ఉన్నాయి. డెవలపర్ ఏదైనా మూలం నుండి డేటాను లోడ్ చేయవచ్చు, రూపాంతరం చేయవచ్చు, ఫిల్టర్ చేయవచ్చు, ఇంటర్మీడియట్ డేటాను దృశ్యమానం చేయవచ్చు మరియు భాగాలుగా విభజించవచ్చు.
ప్లాట్ఫారమ్లో రెడీమేడ్ మాడ్యూల్లు కూడా ఉన్నాయి, వీటిని డ్రాగ్ చేసి డిజైన్ ఏరియాపైకి వదలవచ్చు. అన్ని చర్యలు విజువలైజ్డ్ ఇంటర్ఫేస్ని ఉపయోగించి నిర్వహించబడతాయి. వాస్తవానికి, మీరు ఒకే లైన్ కోడ్ లేకుండా సమస్యను పరిష్కరించవచ్చు.
అంతర్నిర్మిత సామర్థ్యాలు సరిపోకపోతే, సిస్టమ్ మీ స్వంత మాడ్యూళ్ళను త్వరగా సృష్టించగల సామర్థ్యాన్ని అందిస్తుంది. మేము ఆధారంగా సమీకృత అభివృద్ధి మోడ్ను తయారు చేసాము
Sber.DS యొక్క ఆర్కిటెక్చర్ మైక్రోసర్వీస్పై నిర్మించబడింది. మైక్రోసర్వీస్ అంటే ఏమిటో అనేక అభిప్రాయాలు ఉన్నాయి. కొంతమంది వ్యక్తులు ఏకశిలా కోడ్ను భాగాలుగా విభజించడం సరిపోతుందని భావిస్తారు, కానీ అదే సమయంలో వారు ఇప్పటికీ అదే డేటాబేస్కు వెళతారు. మా మైక్రోసర్వీస్ తప్పనిసరిగా మరొక మైక్రోసర్వీస్తో REST API ద్వారా మాత్రమే కమ్యూనికేట్ చేయాలి. డేటాబేస్ను నేరుగా యాక్సెస్ చేయడానికి పరిష్కారాలు లేవు.
సేవలు చాలా పెద్దవిగా మరియు గజిబిజిగా మారకుండా చూసుకోవడానికి మేము ప్రయత్నిస్తున్నాము: ఒక సందర్భంలో 4-8 గిగాబైట్ల కంటే ఎక్కువ RAM వినియోగించకూడదు మరియు కొత్త సందర్భాలను ప్రారంభించడం ద్వారా అభ్యర్థనలను అడ్డంగా స్కేల్ చేసే సామర్థ్యాన్ని అందించాలి. ప్రతి సేవ REST API ద్వారా మాత్రమే ఇతరులతో కమ్యూనికేట్ చేస్తుంది (
అప్లికేషన్ యొక్క కోర్ స్ప్రింగ్ ఫ్రేమ్వర్క్ని ఉపయోగించి జావాలో వ్రాయబడింది. పరిష్కారం ప్రారంభంలో క్లౌడ్ ఇన్ఫ్రాస్ట్రక్చర్లో వేగవంతమైన విస్తరణ కోసం రూపొందించబడింది, కాబట్టి అప్లికేషన్ కంటైనర్ల వ్యవస్థను ఉపయోగించి నిర్మించబడింది
మా ప్లాట్ఫారమ్ యొక్క లక్షణాలలో ఒకటి ఏమిటంటే, మేము ఏదైనా స్బేర్బ్యాంక్ మోడల్ ఎగ్జిక్యూషన్ సిస్టమ్లో విజువల్ ఇంటర్ఫేస్లో అభివృద్ధి చేసిన కోడ్ని అమలు చేయవచ్చు. ఇప్పుడు వాటిలో రెండు ఇప్పటికే ఉన్నాయి: ఒకటి హడూప్లో, మరొకటి ఓపెన్షిఫ్ట్ (డాకర్). మేము అక్కడితో ఆగిపోము మరియు ఆవరణలో మరియు క్లౌడ్తో సహా ఏదైనా ఇన్ఫ్రాస్ట్రక్చర్లో కోడ్ని అమలు చేయడానికి ఇంటిగ్రేషన్ మాడ్యూల్లను సృష్టించము. స్బేర్బ్యాంక్ పర్యావరణ వ్యవస్థలో సమర్థవంతమైన ఏకీకరణ యొక్క అవకాశాలకు సంబంధించి, మేము ఇప్పటికే ఉన్న ఎగ్జిక్యూషన్ ఎన్విరాన్మెంట్లతో పనికి మద్దతు ఇవ్వాలని కూడా ప్లాన్ చేస్తున్నాము. భవిష్యత్తులో, ఏదైనా సంస్థ యొక్క ఏదైనా ల్యాండ్స్కేప్లో "అవుట్ ఆఫ్ ది బాక్స్" పరిష్కారాన్ని సరళంగా విలీనం చేయవచ్చు.
PROMలో హడూప్లో పైథాన్ను అమలు చేసే పరిష్కారానికి మద్దతు ఇవ్వడానికి ఎప్పుడైనా ప్రయత్నించిన వారికి, ప్రతి డేటానోడ్కు పైథాన్ వినియోగదారు వాతావరణాన్ని సిద్ధం చేసి అందించడం సరిపోదని తెలుసు. పైథాన్ మాడ్యూల్లను ఉపయోగించే మెషిన్ లెర్నింగ్ కోసం భారీ సంఖ్యలో C/C++ లైబ్రరీలు మిమ్మల్ని సులభంగా విశ్రాంతి తీసుకోవడానికి అనుమతించవు. కొత్త లైబ్రరీలు లేదా సర్వర్లను జోడించేటప్పుడు ప్యాకేజీలను అప్డేట్ చేయాలని గుర్తుంచుకోవాలి, అయితే ఇప్పటికే అమలు చేయబడిన మోడల్ కోడ్తో వెనుకబడిన అనుకూలతను కొనసాగిస్తుంది.
దీన్ని ఎలా చేయాలో అనేక విధానాలు ఉన్నాయి. ఉదాహరణకు, తరచుగా ఉపయోగించే అనేక లైబ్రరీలను ముందుగానే సిద్ధం చేయండి మరియు వాటిని PROMలో అమలు చేయండి. క్లౌడెరా యొక్క హడూప్ పంపిణీలో, వారు సాధారణంగా ఉపయోగిస్తారు
థర్డ్-పార్టీ కోడ్ని అమలు చేసే భద్రతను బ్యాంక్ చాలా సీరియస్గా తీసుకుంటుంది, కాబట్టి మేము Linux కెర్నల్ యొక్క కొత్త ఫీచర్లను ఎక్కువగా ఉపయోగించుకుంటాము, ఇక్కడ ఒక ప్రక్రియ వివిక్త వాతావరణంలో నడుస్తుంది
ఈ సంవత్సరం మేము హడూప్లో పైథాన్/ఆర్/జావాలో వ్రాసిన మోడల్లను ప్రారంభించే MVPని పూర్తి చేయాలని ప్లాన్ చేస్తున్నాము. మా ప్లాట్ఫారమ్ యొక్క వినియోగదారులను ఏ విధంగానూ పరిమితం చేయకుండా, హడూప్లో ఏదైనా అనుకూల వాతావరణాన్ని ఎలా అమలు చేయాలో నేర్చుకోవడం అనే ప్రతిష్టాత్మకమైన పనిని మేము సెట్ చేసుకున్నాము.
అదనంగా, ఇది ముగిసినట్లుగా, చాలా మంది DS నిపుణులు గణితం మరియు గణాంకాలలో అద్భుతమైనవారు, కూల్ మోడల్లను తయారు చేస్తారు, కానీ పెద్ద డేటా పరివర్తనలలో బాగా ప్రావీణ్యం కలిగి లేరు మరియు శిక్షణ నమూనాలను సిద్ధం చేయడానికి వారికి మా డేటా ఇంజనీర్ల సహాయం అవసరం. మేము మా సహోద్యోగులకు సహాయం చేయాలని నిర్ణయించుకున్నాము మరియు Spark ఇంజిన్లో మోడల్ల కోసం ప్రామాణిక పరివర్తన మరియు లక్షణాల తయారీ కోసం అనుకూలమైన మాడ్యూల్లను రూపొందించాము. ఇది మోడల్లను అభివృద్ధి చేయడానికి ఎక్కువ సమయాన్ని వెచ్చించడానికి మిమ్మల్ని అనుమతిస్తుంది మరియు డేటా ఇంజనీర్లు కొత్త డేటాసెట్ను సిద్ధం చేయడానికి వేచి ఉండకూడదు.
మేము వివిధ రంగాలలో పరిజ్ఞానం ఉన్న వ్యక్తులను నియమించుకుంటాము: Linux మరియు DevOps, Hadoop మరియు Spark, Java మరియు Spring, Scala మరియు Akka, OpenShift మరియు Kubernetes. తదుపరిసారి మేము మోడల్ లైబ్రరీ గురించి మాట్లాడుతాము, మోడల్ కంపెనీలో జీవిత చక్రంలో ఎలా వెళుతుంది, ధృవీకరణ మరియు అమలు ఎలా జరుగుతుంది.
మూలం: www.habr.com