Babban da ƙarami mai gwada bayanai: abubuwan da ke faruwa, ka'idar, labarina

Sannu kowa da kowa, sunana Alexander, kuma ni injiniyan Ingancin Bayanai ne wanda ke bincika bayanai don ingancinsa. Wannan labarin zai yi magana game da yadda na zo wannan kuma me yasa a cikin 2020 wannan yanki na gwaji ya kasance akan madaidaicin igiyar ruwa.

Babban da ƙarami mai gwada bayanai: abubuwan da ke faruwa, ka'idar, labarina

Yanayin duniya

Duniya ta yau tana fuskantar wani juyin-juya hali na fasaha, wani bangare na shi shine amfani da bayanan da kowane nau'in kamfani ke tattarawa don tallata nasu tallan tallace-tallace, riba da PR. Da alama kasancewar bayanai masu kyau (mai inganci), da kuma ƙwararrun ƙwararrun ƙwararrun waɗanda za su iya samun kuɗi daga gare ta (daidaitaccen tsari, hangen nesa, gina ƙirar koyon injin, da sauransu), sun zama mabuɗin samun nasara ga mutane da yawa a yau. Idan shekaru 15-20 da suka gabata manyan kamfanoni sun fi tsunduma cikin aiki mai zurfi tare da tara bayanai da samun kuɗi, a yau wannan shine yawancin kusan duk masu hankali.

Dangane da wannan, shekaru da yawa da suka gabata, duk tashoshin da aka keɓe don neman aiki a duniya sun fara cika da guraben guraben aikin Masana kimiyyar Data, tunda kowa ya tabbata cewa, bayan hayar irin wannan ƙwararrun, zai yuwu a gina babban samfurin koyon injin. , hango ko hasashen nan gaba da yin "kwankwasa tsalle" ga kamfanin. A tsawon lokaci, mutane sun gane cewa wannan hanya kusan ba ta aiki a ko'ina, tun da ba duk bayanan da suka shiga hannun irin waɗannan ƙwararrun ba sun dace da samfurin horo.

Kuma buƙatun masana kimiyyar bayanai sun fara: “Bari mu sayi ƙarin bayanai daga waɗannan da waɗancan...”, “Ba mu da isassun bayanai...”, “Muna buƙatar ƙarin bayanai, zai fi dacewa mai inganci...” . Dangane da waɗannan buƙatun, an fara yin hulɗa da yawa tsakanin kamfanoni waɗanda suka mallaki ɗaya ko wani saitin bayanai. A zahiri, wannan yana buƙatar ƙungiyar fasaha na wannan tsari - haɗawa da tushen bayanan, zazzage shi, bincika cewa an ɗora shi cikakke, da dai sauransu Yawan irin waɗannan hanyoyin ya fara girma, kuma a yau muna da babbar buƙata don wani nau'in nau'in. kwararru - Injiniyoyi Quality Quality - wadanda za su lura da kwararar bayanai a cikin tsarin (bututun bayanai), ingancin bayanai a shigarwa da fitarwa, da kuma zana ƙarshe game da isarsu, mutunci da sauran halaye.

Halin na injiniyoyin Ingantattun bayanai sun zo mana daga Amurka, inda, a tsakiyar zamanin mulkin jari-hujja, babu wanda ke shirye ya rasa yaƙin neman bayanai. A ƙasa na bayar da hotunan kariyar kwamfuta daga mashahuran wuraren neman aikin yi a Amurka: www.monster.com и www.dice.com - wanda ke nuna bayanai har zuwa Maris 17, 2020 akan adadin guraben da aka buga ta amfani da kalmomin: Ingancin Bayanai da Masanin Kimiyyar Bayanai.

www.monster.com

Masana kimiyyar bayanai - 21416 guraben aiki
Ingantattun bayanai - 41104 guraben aiki

Babban da ƙarami mai gwada bayanai: abubuwan da ke faruwa, ka'idar, labarina
Babban da ƙarami mai gwada bayanai: abubuwan da ke faruwa, ka'idar, labarina

www.dice.com

Masana kimiyyar bayanai - guraben aiki 404
Ingantattun bayanai - guraben guraben 2020

Babban da ƙarami mai gwada bayanai: abubuwan da ke faruwa, ka'idar, labarina
Babban da ƙarami mai gwada bayanai: abubuwan da ke faruwa, ka'idar, labarina

Babu shakka, waɗannan sana'o'in ba sa gogayya da juna. Tare da hotunan kariyar kwamfuta, kawai ina so in kwatanta halin da ake ciki yanzu a kan kasuwar aiki dangane da buƙatun injiniyoyin Ingancin Bayanai, waɗanda ake buƙata da yawa yanzu fiye da Masana Kimiyyar Bayanai.

A cikin Yuni 2019, EPAM, amsa buƙatun kasuwar IT ta zamani, ta raba Ingantattun Bayanai zuwa wani aiki na daban. Injiniyoyin Ingantattun Injiniyoyin, a yayin aikinsu na yau da kullun, suna sarrafa bayanai, bincika halayen sa a cikin sabbin yanayi da tsarin, suna lura da mahimmancin bayanan, isarsa da dacewa. Tare da wannan duka, a zahiri, injiniyoyin Ingantattun bayanai suna ba da ɗan lokaci kaɗan don gwajin aikin gargajiya, Amma wannan ya dogara sosai akan aikin (zan ba da misali a ƙasa).

Ayyukan injiniyan ingancin bayanai ba su iyakance kawai ga bincike na yau da kullun / na atomatik don "lalata, ƙidaya da jimla" a cikin tebur ɗin bayanai ba, amma yana buƙatar zurfin fahimtar bukatun kasuwancin abokin ciniki kuma, bisa ga haka, ikon canza bayanan da ake samu zuwa cikin bayanan kasuwanci masu amfani.

Ka'idar ingancin Bayanai

Babban da ƙarami mai gwada bayanai: abubuwan da ke faruwa, ka'idar, labarina

Don ƙarin tunanin aikin irin wannan injiniya, bari mu gano menene Ingancin Bayanai a ka'idar.

Ingancin Bayanai - ɗayan matakan Gudanar da Bayanai (duniya gaba ɗaya da za mu bar muku don yin nazari da kanku) kuma tana da alhakin nazarin bayanai bisa ga ka'idoji masu zuwa:

Babban da ƙarami mai gwada bayanai: abubuwan da ke faruwa, ka'idar, labarina
Ina tsammanin babu buƙatar ƙaddamar da kowane maki (a ka'idar ana kiran su "girman bayanai"), an kwatanta su da kyau a cikin hoton. Amma tsarin gwajin da kansa baya nufin kwafin waɗannan fasalulluka cikin shari'o'in gwaji da duba su. A cikin Ingancin Bayanai, kamar kowane nau'in gwaji, ya zama dole, da farko, don haɓaka ƙa'idodin ingancin bayanai da aka amince da su tare da mahalarta aikin waɗanda ke yanke shawarar kasuwanci.

Dangane da aikin Ingancin Bayanai, injiniyan injiniya na iya yin ayyuka daban-daban: daga na'urar gwaji ta atomatik tare da kimanta ingancin bayanai, zuwa mutumin da ke gudanar da zurfafa bayanan bayanan bisa ga ka'idodin da ke sama.

An yi cikakken bayani game da Gudanar da Bayanai, Ingantattun Bayanai da hanyoyin da suka danganci hakan a cikin littafin da ake kira "DAMA-DMBOK: Hukumar Kula da Bayanai: Buga na Biyu". Ina ba da shawarar wannan littafi sosai a matsayin gabatarwa ga wannan batu (za ku sami hanyar haɗi zuwa gare shi a ƙarshen labarin).

Labarina

A cikin masana'antar IT, na yi aiki ta sama daga Junior tester a cikin samfuran samfuran zuwa Injiniya Ingantacciyar Jagora a EPAM. Bayan kimanin shekaru biyu na aiki a matsayin mai gwadawa, na sami tabbataccen tabbacin cewa na yi dukkan nau'ikan gwaji: koma baya, aiki, damuwa, kwanciyar hankali, tsaro, UI, da dai sauransu - kuma na gwada babban adadin kayan aikin gwaji, da ciwon yayi aiki a lokaci guda a cikin harsunan shirye-shirye guda uku: Java, Scala, Python.

Idan na waiwaya baya, na fahimci dalilin da yasa saitin fasaha na ya bambanta-Na shiga cikin ayyukan da ake sarrafa bayanai, manya da ƙanana. Wannan shine abin da ya kawo ni cikin duniyar kayan aiki da dama da dama don girma.

Don godiya da nau'o'in kayan aiki da dama don samun sababbin ilimi da basira, kawai dubi hoton da ke ƙasa, wanda ya nuna mafi mashahuri a cikin "Bayanai & AI" duniya.

Babban da ƙarami mai gwada bayanai: abubuwan da ke faruwa, ka'idar, labarina
Irin wannan kwatanci ana haɗa shi kowace shekara ta hanyar ɗaya daga cikin shahararrun ƴan jari hujja Matt Turck, wanda ya fito daga haɓaka software. nan mahada zuwa blog dinsa kuma kamfani babban kamfani, inda yake aiki a matsayin abokin tarayya.

Na girma da ƙwarewa musamman cikin sauri lokacin da ni kaɗai ne mai gwadawa akan aikin, ko aƙalla a farkon aikin. A irin wannan lokacin ne dole ne ku kasance da alhakin duk tsarin gwaji, kuma ba ku da damar ja da baya, kawai gaba. Da farko abin ban tsoro ne, amma yanzu duk fa'idodin irin wannan gwajin sun bayyana a gare ni:

  • Kun fara sadarwa tare da duka ƙungiyar kamar ba a taɓa yin irin sa ba, tunda babu wakili don sadarwa: ko manajan gwaji ko abokan gwaji.
  • Nutsuwa a cikin aikin ya zama mai zurfi mai zurfi, kuma kuna da bayanai game da duk abubuwan da aka gyara, duka a gaba ɗaya da daki-daki.
  • Masu haɓakawa ba sa kallon ku a matsayin "mutumin daga gwaji wanda bai san abin da yake yi ba," amma a matsayin daidai wanda ke samar da fa'idodi masu ban sha'awa ga ƙungiyar tare da gwaje-gwajensa na sarrafa kansa da kuma tsammanin kwaroron da ke bayyana a cikin takamaiman sashin samfur.
  • Sakamakon haka, kun kasance mafi inganci, ƙwararru, da ƙarin buƙata.

Yayin da aikin ya girma, a cikin 100% na lokuta na zama mai ba da shawara ga sababbin masu jarrabawa, koya musu da kuma ba da ilimin da na koya da kaina. A lokaci guda kuma, dangane da aikin, ba koyaushe ina karɓar mafi girman matakin ƙwararrun gwaji na auto daga gudanarwa ba kuma akwai buƙatar ko dai horar da su a sarrafa kansa (ga masu sha'awar) ko ƙirƙirar kayan aikin da za a yi amfani da su a cikin ayyukan yau da kullun (kayan aikin yau da kullun). don samar da bayanai da kuma loda su a cikin tsarin , kayan aiki don yin gwajin gwaji / kwanciyar hankali "da sauri", da dai sauransu).

Misali na takamaiman aikin

Abin baƙin ciki, saboda rashin bayyana wajibai, ba zan iya magana dalla-dalla game da ayyukan da na yi aiki a kansu, amma zan ba da misalai na al'ada ayyuka na Data Quality Engineer a kan daya daga cikin ayyukan.

Ma'anar aikin shine aiwatar da wani dandamali don shirya bayanai don horar da nau'ikan koyo na inji bisa ga shi. Abokin ciniki babban kamfani ne na magunguna daga Amurka. A fasaha ta kasance tari Kubernetes, tashi zuwa Farashin EC2 misali, tare da microservices da yawa da tushen tushen aikin EPAM - legion, wanda ya dace da bukatun abokin ciniki na musamman (yanzu an sake haifar da aikin a cikin odahu). An tsara hanyoyin ETL ta amfani da su apache iska kuma ya motsa bayanai daga Tallace-tallace tsarin abokin ciniki a Farashin S3 Guga. Bayan haka, an tura hoton Docker na samfurin koyon injin akan dandamali, wanda aka horar da shi akan sabbin bayanai kuma, ta amfani da hanyar REST API, ya samar da tsinkaya da ke da sha'awar kasuwancin kuma ya warware takamaiman matsaloli.

A gani, komai yayi kama da haka:

Babban da ƙarami mai gwada bayanai: abubuwan da ke faruwa, ka'idar, labarina
Akwai gwaje-gwaje masu yawa na aiki akan wannan aikin, kuma an ba da saurin haɓaka fasalin da kuma buƙatar kiyaye saurin sake zagayowar sake zagayowar (sprints na sati biyu), nan da nan ya wajaba a yi tunani game da sarrafa atomatik gwajin abubuwan da suka fi mahimmanci. tsarin. Yawancin dandamali na tushen Kubernetes da kansa an rufe shi ta atomatik gwaje-gwajen da aka aiwatar a ciki Tsarin Robot + Python, amma kuma ya zama dole don tallafawa da faɗaɗa su. Bugu da ƙari, don jin daɗin abokin ciniki, an ƙirƙiri GUI don sarrafa nau'ikan koyon injin da aka tura zuwa gungu, da kuma ikon tantance inda da inda ake buƙatar canja wurin bayanai don horar da ƙirar. Wannan ƙarin ƙarin ya ƙunshi faɗaɗa gwajin aikin sarrafa kansa, wanda galibi ana yin shi ta hanyar kiran REST API da ƙaramin adadin gwajin UI na ƙarshen-2-ƙarshen. A kusa da equator na duk wannan motsi, an haɗa mu da mai gwada aikin hannu wanda ya yi kyakkyawan aiki tare da gwajin karɓar nau'ikan samfura da sadarwa tare da abokin ciniki game da karɓar sakin na gaba. Bugu da kari, saboda isowar sabon kwararru, mun sami damar yin takardu aikinmu kuma ƙara yawan masu binciken jagora waɗanda suke da wuyar sarrafa kai tsaye.

Kuma a ƙarshe, bayan mun sami kwanciyar hankali daga dandamali da kuma ƙara GUI akansa, mun fara gina bututun ETL ta amfani da Apache Airflow DAGs. An gudanar da aikin tantance ingancin bayanai ta atomatik ta hanyar rubuta Airflow DAGs na musamman waɗanda suka bincika bayanan dangane da sakamakon aikin ETL. A matsayin wani ɓangare na wannan aikin, mun yi sa'a kuma abokin ciniki ya ba mu damar yin amfani da saitin bayanan da ba a san su ba wanda muka gwada. Mun duba layin bayanai ta layi don dacewa da nau'ikan, kasancewar bayanan karya, jimillar adadin bayanai kafin da bayan, kwatanta sauye-sauyen da tsarin ETL ya yi don tarawa, canza sunayen shafi, da sauran abubuwa. Bugu da ƙari, waɗannan cak ɗin an daidaita su zuwa tushen bayanai daban-daban, misali, ban da SalesForce, har ila yau zuwa MySQL.

An riga an gudanar da gwaje-gwajen ingancin bayanai na ƙarshe a matakin S3, inda aka adana su kuma a shirye suke don amfani don ƙirar koyon injin. Don samun bayanai daga fayil ɗin CSV na ƙarshe da ke kan S3 Bucket da kuma inganta shi, an rubuta lambar ta amfani da shi boto3 abokan ciniki.

Hakanan akwai buƙatu daga abokin ciniki don adana ɓangaren bayanan a cikin S3 Bucket ɗaya kuma sashi cikin wani. Wannan kuma yana buƙatar rubuta ƙarin cak don bincika amincin irin wannan rarrabuwa.

Ƙwarewar gaba ɗaya daga wasu ayyuka

Misalin mafi girman jerin ayyuka na Injiniyan Ingantaccen Bayanai:

  • Shirya bayanan gwaji (ƙananan mara inganci) ta kayan aiki mai sarrafa kansa.
  • Loda saitin bayanan da aka shirya zuwa tushen asali kuma duba cewa ya shirya don amfani.
  • Kaddamar da hanyoyin ETL don sarrafa saitin bayanai daga ma'ajin tushe zuwa ma'adana ta ƙarshe ko matsakaici ta amfani da takamaiman saiti (idan zai yiwu, saita sigogi masu daidaitawa don aikin ETL).
  • Tabbatar da bayanan da tsarin ETL ya sarrafa don ingancin sa da kuma biyan buƙatun kasuwanci.

A lokaci guda kuma, babban abin da ake mayar da hankali kan cak ya kamata ba kawai a kan gaskiyar cewa kwararar bayanan da ke cikin tsarin ba, bisa ka'ida, aiki kuma sun kai ga ƙarshe (wanda ke cikin gwajin aikin), amma galibi akan dubawa da tabbatar da bayanai don biyan bukatun da ake sa ran, gano abubuwan da ba su da kyau da sauran abubuwa.

Kayan aiki

Ɗaya daga cikin hanyoyin dabarun irin wannan sarrafa bayanai na iya zama ƙungiyar bincike na sarkar a kowane mataki na sarrafa bayanai, abin da ake kira "sarkar bayanai" a cikin wallafe-wallafen - sarrafa bayanai daga tushe har zuwa ƙarshen amfani. Ana aiwatar da waɗannan nau'ikan cak ɗin ta hanyar rubuta duba tambayoyin SQL. A bayyane yake cewa irin waɗannan tambayoyin yakamata su kasance masu nauyi kamar yadda zai yiwu kuma a bincika guda ɗaya na ingancin bayanai (metadata na tebur, layukan da ba komai, NULLs, Kurakurai a cikin syntax - sauran halayen da ake buƙata don dubawa).

A cikin yanayin gwaji na sake dawowa, wanda ke amfani da saitunan bayanan da aka shirya (ba za a iya canzawa, ɗan canzawa ba), lambar autotest na iya adana samfuran da aka shirya don bincika bayanai don dacewa da inganci (bayani na metadata tebur da ake tsammani; abubuwan samfurin jere waɗanda zasu iya zama. da aka zaɓa ba tare da izini ba yayin gwajin, da sauransu).

Hakanan, yayin gwaji, dole ne ku rubuta hanyoyin gwajin ETL ta amfani da tsarin kamar Apache Airflow, Apache Spark ko ma na'urar nau'in girgije mai baƙar fata Bayanan Bayani na GCP, Bayanan Bayani na GCP Da sauransu. Wannan yanayin yana tilasta injiniyan gwaji ya nutsar da kansa cikin ƙa'idodin aiki na kayan aikin da ke sama har ma da kyau duka biyu suna gudanar da gwajin aiki (misali, hanyoyin ETL da ke akwai akan aikin) kuma suyi amfani da su don bincika bayanai. Musamman ma, Apache Airflow yana da shirye-shiryen masu aiki don aiki tare da shahararrun bayanan ƙididdiga, misali GCP BigQuery. An riga an zayyana mafi mahimmancin misali na amfani da shi a nan, don haka ba zan maimaita kaina ba.

Baya ga shirye-shiryen mafita, babu wanda ya hana ku aiwatar da dabarun ku da kayan aikin ku. Wannan ba kawai zai kasance da amfani ga aikin ba, har ma da Injiniyan Ingancin Bayanai da kansa, wanda hakan zai inganta fasahar fasaharsa da ƙwarewar coding.

Yadda yake aiki akan ainihin aikin

Kyakkyawan kwatanci na sakin layi na ƙarshe game da "sarkar bayanai", ETL da cak na ko'ina shine tsari mai zuwa daga ɗayan ainihin ayyukan:

Babban da ƙarami mai gwada bayanai: abubuwan da ke faruwa, ka'idar, labarina

Anan, bayanai daban-daban (a zahiri, ta hanyar mu) sun shigar da shigarwar “mazurari” na tsarinmu: inganci, mara inganci, gauraye, da sauransu, sannan a tace su kuma a ƙare a cikin ma'ajin matsakaici, sannan kuma su sake yin jerin canje-canje. kuma an sanya su a cikin ajiya na ƙarshe , daga wanda, bi da bi, za a gudanar da nazari, gine-ginen bayanai da kuma neman bayanan kasuwanci. A cikin irin wannan tsarin, ba tare da duba aikin ETL ba, muna mai da hankali kan ingancin bayanai kafin da bayan canje-canje, da kuma fitarwa zuwa nazari.

Don taƙaita abubuwan da ke sama, ba tare da la'akari da wuraren da na yi aiki ba, a ko'ina na shiga cikin ayyukan Data waɗanda suka raba abubuwan da ke gaba:

  • Ta hanyar aiki da kai kawai za ku iya gwada wasu lokuta kuma ku cimma tsarin sakewa wanda ya dace da kasuwancin.
  • Mai gwadawa akan irin wannan aikin yana ɗaya daga cikin membobin ƙungiyar da aka fi girmamawa, saboda yana kawo babban fa'ida ga kowane mahalarta (hanzarin gwaji, kyakkyawan bayanai daga Masanin Kimiyyar Bayanai, gano lahani a farkon matakan).
  • Ba kome ba ko kuna aiki da kayan aikin ku ko a cikin gajimare - duk albarkatun ana tattara su cikin tari kamar Hortonworks, Cloudera, Mesos, Kubernetes, da sauransu.
  • An gina ayyukan akan tsarin microservice, rarrabawa da kuma layi daya da kwamfuta.

Ina so in lura cewa lokacin yin gwaji a fagen Ingancin Bayanai, ƙwararren gwaji yana mai da hankalin ƙwararrunsa zuwa lambar samfurin da kayan aikin da ake amfani da su.

Musamman fasali na Gwajin Ingantattun Bayanai

Bugu da kari, ni kaina, na gano abubuwan da ke biyowa (nan da nan zan yi ajiyar cewa sun kasance cikakke kuma na musamman) na musamman na gwaji a ayyukan Data (Big Data) (tsarin) da sauran fannoni:

Babban da ƙarami mai gwada bayanai: abubuwan da ke faruwa, ka'idar, labarina

hanyoyi masu amfani

  1. Ka'idar: DAMA-DMBOK: Ƙungiyar Kula da Bayanai: Bugu na Biyu.
  2. Cibiyar horarwa EPAM 
  3. Abubuwan da aka ba da shawarar don farkon injiniyan Ingancin Bayanai:
    1. Karatun kyauta akan Stepik: Gabatarwa zuwa bayanan bayanai
    2. Darasi akan Koyon LinkedIn: Tushen Kimiyyar Bayanai: Injiniyan Bayanai.
    3. Labarai:
    4. Video:

ƙarshe

Ingancin Bayanai wani matashi ne mai alƙawarin alƙawarin, zama wani ɓangare na abin da ke nufin zama ɓangare na farawa. Da zarar a cikin Ingantattun Bayanai, za a nutsar da ku cikin ɗimbin fasahar zamani, da ake buƙata, amma mafi mahimmanci, manyan damammaki za su buɗe muku don samarwa da aiwatar da ra'ayoyinku. Za ku iya amfani da tsarin ci gaba da ci gaba ba kawai akan aikin ba, har ma da kanku, ci gaba da haɓakawa a matsayin gwani.

source: www.habr.com

Add a comment