పెద్ద మరియు చిన్న డేటా టెస్టర్: పోకడలు, సిద్ధాంతం, నా కథ

అందరికీ నమస్కారం, నా పేరు అలెగ్జాండర్, నేను డేటా క్వాలిటీ ఇంజనీర్‌ని, దాని నాణ్యత కోసం డేటాను తనిఖీ చేస్తుంది. ఈ కథనం నేను దీనికి ఎలా వచ్చాను మరియు 2020లో ఈ పరీక్షా ప్రాంతం అలల శిఖరంపై ఎందుకు ఉంది అనే దాని గురించి మాట్లాడుతుంది.

పెద్ద మరియు చిన్న డేటా టెస్టర్: పోకడలు, సిద్ధాంతం, నా కథ

గ్లోబల్ ట్రెండ్

నేటి ప్రపంచం మరొక సాంకేతిక విప్లవాన్ని ఎదుర్కొంటోంది, అన్ని రకాల కంపెనీలు తమ సొంత ఫ్లైవీల్ విక్రయాలు, లాభాలు మరియు PRని ప్రోత్సహించడానికి సేకరించిన డేటాను ఉపయోగించడం ఇందులో ఒక అంశం. మంచి (నాణ్యత) డేటా ఉండటం, అలాగే దాని నుండి డబ్బు సంపాదించగల నైపుణ్యం కలిగిన మెదళ్ళు (సరిగ్గా ప్రాసెస్ చేయడం, విజువలైజ్ చేయడం, మెషిన్ లెర్నింగ్ మోడల్‌లను రూపొందించడం మొదలైనవి) ఈ రోజు చాలా మందికి విజయానికి కీలకంగా మారాయి. 15-20 సంవత్సరాల క్రితం పెద్ద కంపెనీలు ప్రధానంగా డేటా సేకరణ మరియు మోనటైజేషన్‌తో ఇంటెన్సివ్ పనిలో నిమగ్నమై ఉంటే, నేడు ఇది దాదాపు అన్ని తెలివిగల వ్యక్తులకు సంబంధించినది.

ఈ విషయంలో, చాలా సంవత్సరాల క్రితం, ప్రపంచవ్యాప్తంగా ఉద్యోగ శోధనకు అంకితమైన అన్ని పోర్టల్‌లు డేటా సైంటిస్ట్‌ల కోసం ఖాళీలతో నింపడం ప్రారంభించాయి, ఎందుకంటే అలాంటి నిపుణుడిని నియమించుకోవడం ద్వారా, మెషిన్ లెర్నింగ్ యొక్క సూపర్ మోడల్‌ను నిర్మించడం సాధ్యమవుతుందని అందరికీ తెలుసు. , భవిష్యత్తును అంచనా వేయండి మరియు కంపెనీ కోసం "క్వాంటం లీప్" చేయండి. కాలక్రమేణా, ఈ విధానం దాదాపు ఎక్కడా పనిచేయదని ప్రజలు గ్రహించారు, ఎందుకంటే అటువంటి నిపుణుల చేతుల్లోకి వచ్చే మొత్తం డేటా శిక్షణ నమూనాలకు తగినది కాదు.

మరియు డేటా సైంటిస్టుల నుండి అభ్యర్థనలు ప్రారంభమయ్యాయి: “వీటి నుండి మరియు వాటి నుండి మరింత డేటాను కొనుగోలు చేద్దాం...”, “మా వద్ద తగినంత డేటా లేదు...”, “మాకు మరికొంత డేటా కావాలి, ప్రాధాన్యంగా అధిక నాణ్యత గలది...” . ఈ అభ్యర్థనల ఆధారంగా, ఒకటి లేదా మరొక డేటా సెట్‌ను కలిగి ఉన్న కంపెనీల మధ్య అనేక పరస్పర చర్యలు ప్రారంభించబడ్డాయి. సహజంగానే, దీనికి ఈ ప్రక్రియ యొక్క సాంకేతిక సంస్థ అవసరం - డేటా మూలానికి కనెక్ట్ చేయడం, డౌన్‌లోడ్ చేయడం, అది పూర్తిగా లోడ్ చేయబడిందో లేదో తనిఖీ చేయడం మొదలైనవి. అటువంటి ప్రక్రియల సంఖ్య పెరగడం ప్రారంభమైంది మరియు ఈ రోజు మనకు మరొక రకమైన అవసరం ఉంది. నిపుణులు - డేటా క్వాలిటీ ఇంజనీర్లు - సిస్టమ్‌లోని డేటా ప్రవాహాన్ని (డేటా పైప్‌లైన్‌లు), ఇన్‌పుట్ మరియు అవుట్‌పుట్ వద్ద డేటా నాణ్యతను పర్యవేక్షించేవారు మరియు వారి సమృద్ధి, సమగ్రత మరియు ఇతర లక్షణాల గురించి తీర్మానాలు చేస్తారు.

డేటా క్వాలిటీ ఇంజనీర్ల ధోరణి USA నుండి మాకు వచ్చింది, ఇక్కడ పెట్టుబడిదారీ విధానం యొక్క ఉగ్ర యుగంలో, డేటా కోసం యుద్ధంలో ఎవరూ కోల్పోవడానికి సిద్ధంగా లేరు. క్రింద నేను USలోని రెండు అత్యంత ప్రజాదరణ పొందిన ఉద్యోగ శోధన సైట్‌ల నుండి స్క్రీన్‌షాట్‌లను అందించాను: www.monster.com и www.dice.com — ఇది మార్చి 17, 2020 నాటికి కీలక పదాలను ఉపయోగించి పొందిన పోస్ట్ చేసిన ఖాళీల సంఖ్యపై డేటాను ప్రదర్శిస్తుంది: డేటా నాణ్యత మరియు డేటా సైంటిస్ట్.

www.monster.com

డేటా సైంటిస్ట్స్ - 21416 ఖాళీలు
డేటా నాణ్యత - 41104 ఖాళీలు

పెద్ద మరియు చిన్న డేటా టెస్టర్: పోకడలు, సిద్ధాంతం, నా కథ
పెద్ద మరియు చిన్న డేటా టెస్టర్: పోకడలు, సిద్ధాంతం, నా కథ

www.dice.com

డేటా సైంటిస్ట్స్ - 404 ఖాళీలు
డేటా నాణ్యత - 2020 ఖాళీలు

పెద్ద మరియు చిన్న డేటా టెస్టర్: పోకడలు, సిద్ధాంతం, నా కథ
పెద్ద మరియు చిన్న డేటా టెస్టర్: పోకడలు, సిద్ధాంతం, నా కథ

సహజంగానే, ఈ వృత్తులు ఏ విధంగానూ ఒకదానితో ఒకటి పోటీపడవు. స్క్రీన్‌షాట్‌లతో, డేటా క్వాలిటీ ఇంజనీర్ల కోసం అభ్యర్థనల పరంగా లేబర్ మార్కెట్లో ప్రస్తుత పరిస్థితిని వివరించాలనుకుంటున్నాను, వీరిలో డేటా సైంటిస్ట్‌ల కంటే ఇప్పుడు చాలా ఎక్కువ అవసరం.

జూన్ 2019లో, EPAM, ఆధునిక IT మార్కెట్ అవసరాలకు ప్రతిస్పందిస్తూ, డేటా నాణ్యతను ప్రత్యేక పద్ధతిగా విభజించింది. డేటా క్వాలిటీ ఇంజనీర్లు, వారి రోజువారీ పనిలో, డేటాను నిర్వహిస్తారు, కొత్త పరిస్థితులు మరియు సిస్టమ్‌లలో దాని ప్రవర్తనను తనిఖీ చేస్తారు, డేటా యొక్క ఔచిత్యం, దాని సమృద్ధి మరియు ఔచిత్యాన్ని పర్యవేక్షిస్తారు. వీటన్నింటితో, ప్రాక్టికల్ కోణంలో, డేటా క్వాలిటీ ఇంజనీర్లు నిజంగా క్లాసికల్ ఫంక్షనల్ టెస్టింగ్‌కు తక్కువ సమయాన్ని కేటాయిస్తారు, కానీ ఇది చాలా ప్రాజెక్ట్ మీద ఆధారపడి ఉంటుంది (నేను క్రింద ఒక ఉదాహరణ ఇస్తాను).

డేటా క్వాలిటీ ఇంజనీర్ యొక్క బాధ్యతలు డేటాబేస్ పట్టికలలో "శూన్యత, గణనలు మరియు మొత్తాలు" కోసం సాధారణ మాన్యువల్/ఆటోమేటిక్ తనిఖీలకు మాత్రమే పరిమితం కాదు, కానీ కస్టమర్ యొక్క వ్యాపార అవసరాలపై లోతైన అవగాహన మరియు తదనుగుణంగా అందుబాటులో ఉన్న డేటాను మార్చగల సామర్థ్యం అవసరం. ఉపయోగకరమైన వ్యాపార సమాచారం.

డేటా నాణ్యత సిద్ధాంతం

పెద్ద మరియు చిన్న డేటా టెస్టర్: పోకడలు, సిద్ధాంతం, నా కథ

అటువంటి ఇంజనీర్ పాత్రను మరింత పూర్తిగా ఊహించడానికి, సిద్ధాంతంలో డేటా నాణ్యత ఏమిటో గుర్తించండి.

డేటా నాణ్యత — డేటా మేనేజ్‌మెంట్ యొక్క దశలలో ఒకటి (మీ స్వంతంగా అధ్యయనం చేయడానికి మేము మొత్తం ప్రపంచాన్ని వదిలివేస్తాము) మరియు కింది ప్రమాణాల ప్రకారం డేటాను విశ్లేషించడానికి బాధ్యత వహిస్తుంది:

పెద్ద మరియు చిన్న డేటా టెస్టర్: పోకడలు, సిద్ధాంతం, నా కథ
ప్రతి పాయింట్‌ను అర్థంచేసుకోవలసిన అవసరం లేదని నేను భావిస్తున్నాను (సిద్ధాంతపరంగా వాటిని “డేటా కొలతలు” అని పిలుస్తారు), అవి చిత్రంలో బాగా వివరించబడ్డాయి. కానీ పరీక్షా ప్రక్రియ ఈ లక్షణాలను పరీక్ష కేసుల్లోకి ఖచ్చితంగా కాపీ చేసి వాటిని తనిఖీ చేయడాన్ని సూచించదు. డేటా నాణ్యతలో, ఇతర రకాల పరీక్షల మాదిరిగానే, వ్యాపార నిర్ణయాలు తీసుకునే ప్రాజెక్ట్‌లో పాల్గొనే వారితో ఏకీభవించిన డేటా నాణ్యత అవసరాలపై ముందుగా రూపొందించడం అవసరం.

డేటా నాణ్యత ప్రాజెక్ట్‌పై ఆధారపడి, ఒక ఇంజనీర్ విభిన్న విధులను నిర్వర్తించగలడు: డేటా నాణ్యత యొక్క ఉపరితల అంచనాతో ఒక సాధారణ ఆటోమేషన్ టెస్టర్ నుండి, పై ప్రమాణాల ప్రకారం డేటా యొక్క లోతైన ప్రొఫైలింగ్ నిర్వహించే వ్యక్తి వరకు.

డేటా మేనేజ్‌మెంట్, డేటా నాణ్యత మరియు సంబంధిత ప్రక్రియల గురించి చాలా వివరణాత్మక వర్ణన అనే పుస్తకంలో బాగా వివరించబడింది "DAMA-DMBOK: డేటా మేనేజ్‌మెంట్ బాడీ ఆఫ్ నాలెడ్జ్: 2వ ఎడిషన్". ఈ అంశానికి పరిచయంగా నేను ఈ పుస్తకాన్ని బాగా సిఫార్సు చేస్తున్నాను (వ్యాసం చివరిలో మీరు దాని లింక్‌ను కనుగొంటారు).

నా కథ

IT పరిశ్రమలో, నేను ఉత్పత్తి కంపెనీలలో జూనియర్ టెస్టర్ నుండి EPAMలో లీడ్ డేటా క్వాలిటీ ఇంజనీర్ స్థాయికి చేరుకున్నాను. టెస్టర్‌గా పనిచేసిన సుమారు రెండు సంవత్సరాల తర్వాత, నేను ఖచ్చితంగా అన్ని రకాల పరీక్షలను పూర్తి చేశానని నాకు గట్టి నమ్మకం ఉంది: రిగ్రెషన్, ఫంక్షనల్, స్ట్రెస్, స్టెబిలిటీ, సెక్యూరిటీ, UI, మొదలైనవి - మరియు పెద్ద సంఖ్యలో టెస్టింగ్ టూల్స్ ప్రయత్నించారు. జావా, స్కాలా, పైథాన్ అనే మూడు ప్రోగ్రామింగ్ భాషలలో ఒకే సమయంలో పనిచేశారు.

వెనక్కి తిరిగి చూస్తే, నా స్కిల్ సెట్ ఎందుకు చాలా వైవిధ్యంగా ఉందో నాకు అర్థమైంది—నేను పెద్దవి మరియు చిన్నవిగా డేటా ఆధారిత ప్రాజెక్ట్‌లలో పాల్గొన్నాను. ఇది నన్ను అనేక సాధనాలు మరియు వృద్ధి అవకాశాల ప్రపంచంలోకి తీసుకువచ్చింది.

కొత్త జ్ఞానం మరియు నైపుణ్యాలను సంపాదించడానికి వివిధ రకాల సాధనాలు మరియు అవకాశాలను అభినందించడానికి, దిగువ చిత్రాన్ని చూడండి, ఇది "డేటా & AI" ప్రపంచంలో అత్యంత ప్రజాదరణ పొందిన వాటిని చూపుతుంది.

పెద్ద మరియు చిన్న డేటా టెస్టర్: పోకడలు, సిద్ధాంతం, నా కథ
సాఫ్ట్‌వేర్ డెవలప్‌మెంట్ నుండి వచ్చిన ప్రసిద్ధ వెంచర్ క్యాపిటలిస్ట్‌లలో ఒకరైన మాట్ టర్క్ ఏటా ఈ రకమైన దృష్టాంతాన్ని సంకలనం చేస్తారు. ఇక్కడ ссылка అతని బ్లాగుకు మరియు వెంచర్ క్యాపిటల్ సంస్థ, అతను భాగస్వామిగా పనిచేసే చోట.

ప్రాజెక్ట్‌లో నేను మాత్రమే టెస్టర్‌గా ఉన్నప్పుడు లేదా కనీసం ప్రాజెక్ట్ ప్రారంభంలో అయినా నేను వృత్తిపరంగా త్వరగా పెరిగాను. అటువంటి తరుణంలో మీరు మొత్తం పరీక్ష ప్రక్రియకు బాధ్యత వహించాలి మరియు మీరు వెనుకకు వెళ్ళే అవకాశం లేదు, ముందుకు మాత్రమే. మొదట ఇది భయానకంగా ఉంది, కానీ ఇప్పుడు అలాంటి పరీక్ష యొక్క అన్ని ప్రయోజనాలు నాకు స్పష్టంగా ఉన్నాయి:

  • మీరు మునుపెన్నడూ లేని విధంగా మొత్తం బృందంతో కమ్యూనికేట్ చేయడం ప్రారంభిస్తారు, ఎందుకంటే కమ్యూనికేషన్ కోసం ప్రాక్సీ లేదు: టెస్ట్ మేనేజర్ లేదా తోటి టెస్టర్లు కాదు.
  • ప్రాజెక్ట్‌లో ఇమ్మర్షన్ చాలా లోతుగా మారుతుంది మరియు మీరు సాధారణంగా మరియు వివరంగా అన్ని భాగాల గురించి సమాచారాన్ని కలిగి ఉంటారు.
  • డెవలపర్‌లు మిమ్మల్ని "అతను ఏమి చేస్తున్నాడో తెలియని వ్యక్తిని పరీక్షించే వ్యక్తి"గా చూడరు, బదులుగా అతని స్వయంచాలక పరీక్షలు మరియు బగ్‌ల యొక్క నిర్దిష్ట భాగంలో కనిపించే బగ్‌ల అంచనాతో జట్టుకు అద్భుతమైన ప్రయోజనాలను అందించే సమానుడిగా చూడరు. ఉత్పత్తి.
  • ఫలితంగా, మీరు మరింత ప్రభావవంతంగా ఉంటారు, మరింత అర్హత కలిగి ఉంటారు మరియు మరింత డిమాండ్‌లో ఉంటారు.

ప్రాజెక్ట్ పెరిగేకొద్దీ, 100% కేసులలో నేను కొత్త పరీక్షకులకు గురువుగా మారాను, వారికి బోధించాను మరియు నేను స్వయంగా నేర్చుకున్న జ్ఞానాన్ని అందించాను. అదే సమయంలో, ప్రాజెక్ట్‌పై ఆధారపడి, నేను మేనేజ్‌మెంట్ నుండి అత్యున్నత స్థాయి ఆటో టెస్టింగ్ నిపుణులను అందుకోలేదు మరియు వారికి ఆటోమేషన్‌లో శిక్షణ ఇవ్వాల్సిన అవసరం ఉంది (ఆసక్తి ఉన్నవారి కోసం) లేదా రోజువారీ కార్యకలాపాలలో (ఉపకరణాలు) ఉపయోగించడానికి సాధనాలను రూపొందించాలి డేటాను రూపొందించడం మరియు సిస్టమ్‌లోకి లోడ్ చేయడం కోసం, లోడ్ టెస్టింగ్/స్టెబిలిటీ టెస్టింగ్ "త్వరగా" చేయడం కోసం ఒక సాధనం, మొదలైనవి).

నిర్దిష్ట ప్రాజెక్ట్ యొక్క ఉదాహరణ

దురదృష్టవశాత్తూ, బహిర్గతం చేయని బాధ్యతల కారణంగా, నేను పనిచేసిన ప్రాజెక్ట్‌ల గురించి వివరంగా మాట్లాడలేను, కానీ ప్రాజెక్ట్‌లలో ఒకదానిపై డేటా క్వాలిటీ ఇంజనీర్ యొక్క విలక్షణమైన పనుల ఉదాహరణలను నేను ఇస్తాను.

ప్రాజెక్ట్ యొక్క సారాంశం దాని ఆధారంగా శిక్షణ యంత్ర అభ్యాస నమూనాల కోసం డేటాను సిద్ధం చేయడానికి ఒక వేదికను అమలు చేయడం. USAకి చెందిన ఒక పెద్ద ఫార్మాస్యూటికల్ కంపెనీ కస్టమర్. సాంకేతికంగా ఇది ఒక క్లస్టర్ Kubernetes, వరకు పెరుగుతోంది AWS EC2 అనేక మైక్రోసర్వీస్‌లు మరియు EPAM యొక్క అంతర్లీన ఓపెన్ సోర్స్ ప్రాజెక్ట్‌తో ఉదాహరణలు - దండు, నిర్దిష్ట కస్టమర్ యొక్క అవసరాలకు అనుగుణంగా (ఇప్పుడు ప్రాజెక్ట్ పునర్జన్మ చేయబడింది ఒడహు) ETL ప్రక్రియలు ఉపయోగించి నిర్వహించబడ్డాయి అపాచీ ఎయిర్‌ఫ్లో మరియు నుండి డేటా తరలించబడింది సేల్స్ఫోర్స్ లో కస్టమర్ సిస్టమ్స్ AWS S3 బకెట్లు. తరువాత, మెషీన్ లెర్నింగ్ మోడల్ యొక్క డాకర్ ఇమేజ్ ప్లాట్‌ఫారమ్‌పైకి అమర్చబడింది, ఇది తాజా డేటాపై శిక్షణ పొందింది మరియు REST API ఇంటర్‌ఫేస్‌ని ఉపయోగించి, వ్యాపారానికి ఆసక్తిని కలిగించే అంచనాలను రూపొందించింది మరియు నిర్దిష్ట సమస్యలను పరిష్కరించింది.

దృశ్యమానంగా, ప్రతిదీ ఇలా కనిపిస్తుంది:

పెద్ద మరియు చిన్న డేటా టెస్టర్: పోకడలు, సిద్ధాంతం, నా కథ
ఈ ప్రాజెక్ట్‌లో ఫంక్షనల్ టెస్టింగ్ పుష్కలంగా ఉంది మరియు ఫీచర్ డెవలప్‌మెంట్ వేగం మరియు విడుదల సైకిల్ (రెండు వారాల స్ప్రింట్లు) యొక్క వేగాన్ని కొనసాగించాల్సిన అవసరం ఉన్నందున, అత్యంత కీలకమైన భాగాలను ఆటోమేట్ చేయడం గురించి వెంటనే ఆలోచించడం అవసరం. వ్యవస్థ. కుబెర్నెటీస్-ఆధారిత ప్లాట్‌ఫారమ్‌లో చాలా వరకు అమలు చేయబడిన ఆటోటెస్ట్‌ల ద్వారా కవర్ చేయబడింది రోబోట్ ఫ్రేమ్‌వర్క్ + పైథాన్, కానీ వాటికి మద్దతు ఇవ్వడం మరియు విస్తరించడం కూడా అవసరం. అదనంగా, కస్టమర్ సౌలభ్యం కోసం, క్లస్టర్‌కు అమర్చబడిన మెషీన్ లెర్నింగ్ మోడల్‌లను నిర్వహించడానికి GUI సృష్టించబడింది, అలాగే మోడల్‌లకు శిక్షణ ఇవ్వడానికి డేటా ఎక్కడ మరియు ఎక్కడ బదిలీ చేయబడాలో పేర్కొనే సామర్థ్యాన్ని కూడా కలిగి ఉంటుంది. ఈ విస్తృతమైన జోడింపు ఆటోమేటెడ్ ఫంక్షనల్ టెస్టింగ్ యొక్క విస్తరణను కలిగి ఉంది, ఇది ఎక్కువగా REST API కాల్‌లు మరియు తక్కువ సంఖ్యలో ఎండ్-2-ఎండ్ UI పరీక్షల ద్వారా చేయబడుతుంది. ఈ కదలికల భూమధ్యరేఖ చుట్టూ, ఉత్పత్తి సంస్కరణల అంగీకార పరీక్ష మరియు తదుపరి విడుదల ఆమోదానికి సంబంధించి కస్టమర్‌తో కమ్యూనికేట్ చేయడంలో అద్భుతమైన పనిని చేసిన మాన్యువల్ టెస్టర్‌తో మేము చేరాము. అదనంగా, కొత్త స్పెషలిస్ట్ రాక కారణంగా, మేము మా పనిని డాక్యుమెంట్ చేయగలిగాము మరియు వెంటనే ఆటోమేట్ చేయడం కష్టంగా ఉన్న అనేక ముఖ్యమైన మాన్యువల్ చెక్‌లను జోడించగలిగాము.

చివరకు, మేము ప్లాట్‌ఫారమ్ మరియు దానిపై GUI యాడ్-ఆన్ నుండి స్థిరత్వాన్ని సాధించిన తర్వాత, మేము Apache Airflow DAGలను ఉపయోగించి ETL పైప్‌లైన్‌లను నిర్మించడం ప్రారంభించాము. ETL ప్రక్రియ ఫలితాల ఆధారంగా డేటాను తనిఖీ చేసే ప్రత్యేక ఎయిర్‌ఫ్లో DAGలను వ్రాయడం ద్వారా ఆటోమేటెడ్ డేటా నాణ్యత తనిఖీ జరిగింది. ఈ ప్రాజెక్ట్‌లో భాగంగా, మేము అదృష్టవంతులం మరియు మేము పరీక్షించిన అనామక డేటా సెట్‌లకు కస్టమర్ మాకు యాక్సెస్ ఇచ్చారు. మేము రకాలు, విరిగిన డేటా ఉనికి, ముందు మరియు తర్వాత మొత్తం రికార్డుల సంఖ్య, అగ్రిగేషన్ కోసం ETL ప్రక్రియ ద్వారా చేసిన పరివర్తనల పోలిక, కాలమ్ పేర్లను మార్చడం మరియు ఇతర విషయాల కోసం మేము లైన్ వారీగా డేటాను తనిఖీ చేసాము. అదనంగా, ఈ తనిఖీలు వేర్వేరు డేటా మూలాధారాలకు స్కేల్ చేయబడ్డాయి, ఉదాహరణకు, సేల్స్‌ఫోర్స్‌తో పాటు, MySQLకి కూడా.

తుది డేటా నాణ్యత తనిఖీలు ఇప్పటికే S3 స్థాయిలో నిర్వహించబడ్డాయి, అక్కడ అవి నిల్వ చేయబడ్డాయి మరియు శిక్షణ యంత్ర అభ్యాస నమూనాల కోసం ఉపయోగించడానికి సిద్ధంగా ఉన్నాయి. S3 బకెట్‌లో ఉన్న చివరి CSV ఫైల్ నుండి డేటాను పొందేందుకు మరియు దానిని ధృవీకరించడానికి, కోడ్ ఉపయోగించి వ్రాయబడింది boto3 క్లయింట్లు.

కస్టమర్ డేటాలో కొంత భాగాన్ని ఒక S3 బకెట్‌లో మరియు కొంత భాగాన్ని మరొక బకెట్‌లో నిల్వ చేయాల్సిన అవసరం కూడా ఉంది. అటువంటి క్రమబద్ధీకరణ యొక్క విశ్వసనీయతను తనిఖీ చేయడానికి అదనపు తనిఖీలను కూడా వ్రాయడం అవసరం.

ఇతర ప్రాజెక్ట్‌ల నుండి సాధారణీకరించిన అనుభవం

డేటా క్వాలిటీ ఇంజనీర్ యొక్క అత్యంత సాధారణ కార్యకలాపాల జాబితాకు ఉదాహరణ:

  • స్వయంచాలక సాధనం ద్వారా పరీక్ష డేటాను (చెల్లుబాటు కాని పెద్ద చిన్నది) సిద్ధం చేయండి.
  • సిద్ధం చేసిన డేటా సెట్‌ను అసలు మూలానికి అప్‌లోడ్ చేయండి మరియు అది ఉపయోగం కోసం సిద్ధంగా ఉందో లేదో తనిఖీ చేయండి.
  • నిర్దిష్ట సెట్టింగులను (వీలైతే, ETL టాస్క్ కోసం కాన్ఫిగర్ చేయగల పారామితులను సెట్ చేయండి) ఉపయోగించి సోర్స్ స్టోరేజ్ నుండి తుది లేదా ఇంటర్మీడియట్ స్టోరేజ్‌కి డేటా సెట్‌ను ప్రాసెస్ చేయడానికి ETL ప్రక్రియలను ప్రారంభించండి.
  • ETL ప్రాసెస్ ద్వారా ప్రాసెస్ చేయబడిన డేటాను దాని నాణ్యత మరియు వ్యాపార అవసరాలకు అనుగుణంగా ధృవీకరించండి.

అదే సమయంలో, తనిఖీల యొక్క ప్రధాన దృష్టి సిస్టమ్‌లోని డేటా ప్రవాహం సూత్రప్రాయంగా పని చేసి పూర్తికి చేరుకుందనే వాస్తవంపై మాత్రమే కాకుండా (ఇది ఫంక్షనల్ టెస్టింగ్‌లో భాగం), కానీ ఎక్కువగా డేటాను తనిఖీ చేయడం మరియు ధృవీకరించడంపై ఉండాలి. ఆశించిన అవసరాలకు అనుగుణంగా, అసాధారణతలు మరియు ఇతర విషయాలను గుర్తించడం.

సాధన

అటువంటి డేటా నియంత్రణ కోసం సాంకేతికతలలో ఒకటి డేటా ప్రాసెసింగ్ యొక్క ప్రతి దశలో గొలుసు తనిఖీలను నిర్వహించడం, సాహిత్యంలో "డేటా చైన్" అని పిలవబడేది - మూలం నుండి తుది ఉపయోగం వరకు డేటా నియంత్రణ. ఈ రకమైన చెక్‌లు చాలా తరచుగా SQL ప్రశ్నలను తనిఖీ చేయడం ద్వారా అమలు చేయబడతాయి. అటువంటి ప్రశ్నలు వీలైనంత తేలికగా ఉండాలని మరియు డేటా నాణ్యత యొక్క వ్యక్తిగత భాగాలను (టేబుల్స్ మెటాడేటా, ఖాళీ పంక్తులు, NULLలు, సింటాక్స్‌లో లోపాలు - తనిఖీ చేయడానికి అవసరమైన ఇతర గుణాలు) తనిఖీ చేయాలని స్పష్టంగా ఉంది.

రిగ్రెషన్ టెస్టింగ్ విషయంలో, ఇది రెడీమేడ్ (మార్చలేని, కొద్దిగా మార్చదగిన) డేటా సెట్‌లను ఉపయోగిస్తుంది, ఆటోటెస్ట్ కోడ్ నాణ్యతకు అనుగుణంగా డేటాను తనిఖీ చేయడానికి సిద్ధంగా ఉన్న టెంప్లేట్‌లను నిల్వ చేయగలదు (అంచనా టేబుల్ మెటాడేటా యొక్క వివరణలు; వరుస నమూనా వస్తువులు పరీక్ష సమయంలో యాదృచ్ఛికంగా ఎంపిక చేయబడింది, మొదలైనవి ).

అలాగే, పరీక్ష సమయంలో, మీరు Apache Airflow వంటి ఫ్రేమ్‌వర్క్‌లను ఉపయోగించి ETL పరీక్ష ప్రక్రియలను వ్రాయాలి. అపాచీ స్పార్క్ లేదా బ్లాక్-బాక్స్ క్లౌడ్ రకం సాధనం కూడా GCP డేటాప్రెప్, GCP డేటాఫ్లో మరియు అందువలన న. ఈ పరిస్థితి టెస్ట్ ఇంజనీర్‌ను పై సాధనాల యొక్క ఆపరేషన్ సూత్రాలలో మునిగిపోయేలా బలవంతం చేస్తుంది మరియు మరింత ప్రభావవంతంగా ఫంక్షనల్ టెస్టింగ్ (ఉదాహరణకు, ప్రాజెక్ట్‌లో ఇప్పటికే ఉన్న ETL ప్రక్రియలు) మరియు డేటాను తనిఖీ చేయడానికి వాటిని ఉపయోగిస్తుంది. ప్రత్యేకించి, అపాచీ ఎయిర్‌ఫ్లో ప్రసిద్ధ విశ్లేషణాత్మక డేటాబేస్‌లతో పనిచేయడానికి సిద్ధంగా ఉన్న ఆపరేటర్‌లను కలిగి ఉంది, ఉదాహరణకు GCP BigQuery. దాని ఉపయోగం యొక్క అత్యంత ప్రాథమిక ఉదాహరణ ఇప్పటికే వివరించబడింది ఇక్కడ, కాబట్టి నేను పునరావృతం చేయను.

రెడీమేడ్ సొల్యూషన్స్ కాకుండా, మీ స్వంత పద్ధతులు మరియు సాధనాలను అమలు చేయడాన్ని ఎవరూ నిషేధించరు. ఇది ప్రాజెక్ట్‌కు మాత్రమే కాకుండా, డేటా క్వాలిటీ ఇంజనీర్‌కు కూడా ప్రయోజనకరంగా ఉంటుంది, తద్వారా అతని సాంకేతిక పరిధులు మరియు కోడింగ్ నైపుణ్యాలను మెరుగుపరుస్తారు.

నిజమైన ప్రాజెక్ట్‌లో ఇది ఎలా పని చేస్తుంది

"డేటా చైన్", ETL మరియు సర్వవ్యాప్త తనిఖీల గురించిన చివరి పేరాగ్రాఫ్‌ల యొక్క మంచి ఉదాహరణ నిజమైన ప్రాజెక్ట్‌లలో ఒకదాని నుండి క్రింది ప్రక్రియ:

పెద్ద మరియు చిన్న డేటా టెస్టర్: పోకడలు, సిద్ధాంతం, నా కథ

ఇక్కడ, వివిధ డేటా (సహజంగా, మేము తయారుచేసినది) మా సిస్టమ్ యొక్క ఇన్‌పుట్ “గరాటు”ను నమోదు చేయండి: చెల్లుబాటు అయ్యేవి, చెల్లనివి, మిశ్రమంగా మొదలైనవి, తర్వాత అవి ఫిల్టర్ చేయబడి ఇంటర్మీడియట్ స్టోరేజ్‌లో ముగుస్తాయి, తర్వాత అవి మళ్లీ వరుస మార్పులకు లోనవుతాయి. మరియు తుది నిల్వలో ఉంచబడతాయి, దీని నుండి, విశ్లేషణలు, డేటా మార్ట్‌లను నిర్మించడం మరియు వ్యాపార అంతర్దృష్టుల కోసం శోధించడం జరుగుతుంది. అటువంటి సిస్టమ్‌లో, ETL ప్రక్రియల ఆపరేషన్‌ను క్రియాత్మకంగా తనిఖీ చేయకుండా, మేము పరివర్తనలకు ముందు మరియు తర్వాత డేటా నాణ్యతపై అలాగే విశ్లేషణలకు అవుట్‌పుట్‌పై దృష్టి పెడతాము.

పైన పేర్కొన్న వాటిని క్లుప్తంగా చెప్పాలంటే, నేను పనిచేసిన ప్రదేశాలతో సంబంధం లేకుండా, కింది ఫీచర్‌లను షేర్ చేసే డేటా ప్రాజెక్ట్‌లలో నేను పాల్గొన్న ప్రతిచోటా:

  • ఆటోమేషన్ ద్వారా మాత్రమే మీరు కొన్ని కేసులను పరీక్షించగలరు మరియు వ్యాపారానికి ఆమోదయోగ్యమైన విడుదల చక్రాన్ని సాధించగలరు.
  • అటువంటి ప్రాజెక్ట్‌పై టెస్టర్ బృందంలోని అత్యంత గౌరవనీయమైన సభ్యులలో ఒకరు, ఎందుకంటే ఇది ప్రతి పాల్గొనేవారికి గొప్ప ప్రయోజనాలను తెస్తుంది (పరీక్ష యొక్క త్వరణం, డేటా సైంటిస్ట్ నుండి మంచి డేటా, ప్రారంభ దశల్లో లోపాలను గుర్తించడం).
  • మీరు మీ స్వంత హార్డ్‌వేర్‌పై లేదా క్లౌడ్‌లలో పని చేస్తున్నారా అనేది పట్టింపు లేదు - అన్ని వనరులు Hortonworks, Cloudera, Mesos, Kubernetes మొదలైన క్లస్టర్‌లోకి సంగ్రహించబడతాయి.
  • ప్రాజెక్ట్‌లు మైక్రోసర్వీస్ విధానంపై నిర్మించబడ్డాయి, పంపిణీ చేయబడతాయి మరియు సమాంతర కంప్యూటింగ్ ప్రధానంగా ఉంటాయి.

డేటా క్వాలిటీ రంగంలో టెస్టింగ్ చేస్తున్నప్పుడు, టెస్టింగ్ స్పెషలిస్ట్ తన ప్రొఫెషనల్ ఫోకస్‌ని ప్రోడక్ట్ కోడ్ మరియు ఉపయోగించిన టూల్స్‌పైకి మారుస్తాడని నేను గమనించాలనుకుంటున్నాను.

డేటా నాణ్యత పరీక్ష యొక్క విలక్షణమైన లక్షణాలు

అదనంగా, నా కోసం, నేను డేటా (బిగ్ డేటా) ప్రాజెక్ట్‌లు (సిస్టమ్‌లు) మరియు ఇతర ప్రాంతాలలో ఈ క్రింది వాటిని గుర్తించాను (అవి చాలా సాధారణీకరించబడినవి మరియు ప్రత్యేకంగా ఆత్మాశ్రయమైనవి అని నేను వెంటనే రిజర్వేషన్ చేస్తాను)

పెద్ద మరియు చిన్న డేటా టెస్టర్: పోకడలు, సిద్ధాంతం, నా కథ

ఉపయోగకరమైన లింకులు

  1. సిద్ధాంతం: DAMA-DMBOK: డేటా మేనేజ్‌మెంట్ బాడీ ఆఫ్ నాలెడ్జ్: 2వ ఎడిషన్.
  2. శిక్షణా కేంద్రం EPAM 
  3. ప్రారంభ డేటా నాణ్యత ఇంజనీర్ కోసం సిఫార్సు చేయబడిన పదార్థాలు:
    1. స్టెపిక్‌పై ఉచిత కోర్సు: డేటాబేస్‌లకు పరిచయం
    2. లింక్డ్‌ఇన్ లెర్నింగ్‌పై కోర్సు: డేటా సైన్స్ ఫౌండేషన్స్: డేటా ఇంజనీరింగ్.
    3. వ్యాసాలు:
    4. వీడియోలు:

తీర్మానం

డేటా నాణ్యత చాలా చిన్న ఆశాజనకమైన దిశ, ఇందులో భాగం కావడం అంటే స్టార్టప్‌లో భాగం కావడం. డేటా నాణ్యతలో ఒకసారి, మీరు పెద్ద సంఖ్యలో ఆధునిక, డిమాండ్ ఉన్న సాంకేతికతలలో మునిగిపోతారు, కానీ ముఖ్యంగా, మీ ఆలోచనలను రూపొందించడానికి మరియు అమలు చేయడానికి మీకు అపారమైన అవకాశాలు తెరవబడతాయి. మీరు ప్రాజెక్ట్‌పై మాత్రమే కాకుండా, మీ కోసం కూడా నిరంతర అభివృద్ధి విధానాన్ని ఉపయోగించగలరు, నిరంతరం నిపుణుడిగా అభివృద్ధి చెందుతారు.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి