Mea hōʻike ʻikepili nui a liʻiliʻi: nā ʻano, ka manaʻo, kaʻu moʻolelo

Aloha kākou a pau, ʻo Alexander koʻu inoa, a he ʻenekinia Data Quality au e nānā ana i ka ʻikepili no kona maikaʻi. E kamaʻilio kēia ʻatikala e pili ana i koʻu hiki ʻana i kēia a no ke aha i 2020 kēia wahi o ka hoʻāʻo ʻana ma ka piko o kahi nalu.

Mea hōʻike ʻikepili nui a liʻiliʻi: nā ʻano, ka manaʻo, kaʻu moʻolelo

Ke au honua

Ke ʻike nei ka honua o kēia lā i kahi hoʻololi ʻenehana, hoʻokahi ʻano o ia ʻano ka hoʻohana ʻana i ka ʻikepili i hōʻiliʻili ʻia e nā ʻano ʻoihana āpau e hoʻolaha i kā lākou lele lele o ke kūʻai aku, nā waiwai a me PR. Me he mea lā, ʻo ka loaʻa ʻana o ka ʻikepili maikaʻi (kūpono), a me nā lolo akamai i hiki ke loaʻa kālā mai ia mea (ka hana pololei, ʻike, kūkulu i nā ʻano hoʻohālike mīkini, a me nā mea ʻē aʻe), ua lilo i kī i ka holomua no nā mea he nui i kēia lā. Inā ʻo 15-20 mau makahiki i hala aku nei ua komo nui nā ʻoihana nui i ka hana koʻikoʻi me ka hōʻiliʻili ʻikepili a me ka monetization, i kēia lā ʻo kēia ka nui o nā poʻe noʻonoʻo āpau.

Ma kēia mea, i kekahi mau makahiki i hala aku nei, ua hoʻomaka nā puka āpau i hoʻolaʻa ʻia no ka ʻimi ʻoihana a puni ka honua i nā hakahaka no nā ʻepekema Data, ʻoiai ua maopopo nā mea a pau, i ka hoʻolimalima ʻana i kahi loea, hiki ke kūkulu i kahi supermodel o ka aʻo mīkini. , wānana i ka wā e hiki mai ana a hana i ka "quantum leap" no ka hui. I ka wā lōʻihi, ua ʻike ka poʻe i kēia ala ʻaʻole loa e hana ma nā wahi āpau, no ka mea ʻaʻole kūpono nā ʻikepili a pau i hāʻule i loko o ka lima o ia mau loea no ka hoʻomaʻamaʻa ʻana.

A ua hoʻomaka nā noi mai Data Scientists: "E kūʻai aku i nā ʻikepili hou aʻe mai kēia a me kēlā ...", "ʻAʻole lawa kā mākou ʻikepili ...", "Pono mākou i kahi ʻikepili hou aʻe, ʻoi aku ka maikaʻi kiʻekiʻe ..." . Ma muli o kēia mau noi, ua hoʻomaka ʻia nā pilina he nui ma waena o nā ʻoihana nona ka ʻikepili a i ʻole kekahi. Ma keʻano maʻamau, pono kēia i ka hui ʻenehana o kēia kaʻina hana - hoʻopili i ke kumu ʻikepili, hoʻoiho iā ia, nānā i ka hoʻouka ʻana i ka piha, a pēlā aku. loea - Data Quality engineers - ka poʻe e nānā i ke kahe o ka ʻikepili i loko o ka ʻōnaehana (pipelines data), ka maikaʻi o ka ʻikepili ma ka hoʻokomo a me ka hoʻopuka, a huki i nā hopena e pili ana i ko lākou lawa, kūpaʻa a me nā ʻano ʻē aʻe.

ʻO ke ʻano o ka ʻenehana Data Quality i hele mai iā mākou mai USA, kahi, i loko o ke au huhū o ka kapitalisme, ʻaʻohe mea i mākaukau e nalowale i ke kaua no ka ʻikepili. Ma lalo iho ua hāʻawi aku au i nā kiʻi paʻi kiʻi mai ʻelua o nā wahi huli hana kaulana loa ma US: www.monster.com и www.dice.com - e hōʻike ana i ka ʻikepili mai ka lā Malaki 17, 2020 ma ka helu o nā hakahaka i hoʻouna ʻia i loaʻa me ka hoʻohana ʻana i nā huaʻōlelo: Data Quality a me Data Scientist.

www.monster.com

Nā ʻepekema ʻikepili - 21416 mau hakahaka
Kūlana ʻIkepili - 41104 mau hakahaka

Mea hōʻike ʻikepili nui a liʻiliʻi: nā ʻano, ka manaʻo, kaʻu moʻolelo
Mea hōʻike ʻikepili nui a liʻiliʻi: nā ʻano, ka manaʻo, kaʻu moʻolelo

www.dice.com

Nā ʻepekema ʻikepili - 404 mau hakahaka
Kūlana ʻikepili - 2020 mau hakahaka

Mea hōʻike ʻikepili nui a liʻiliʻi: nā ʻano, ka manaʻo, kaʻu moʻolelo
Mea hōʻike ʻikepili nui a liʻiliʻi: nā ʻano, ka manaʻo, kaʻu moʻolelo

ʻIke loa, ʻaʻole loa e hoʻokūkū kēia mau ʻoihana kekahi i kekahi. Me nā kiʻi paʻi kiʻi, makemake wale wau e hōʻike i ke kūlana o kēia manawa ma ka mākeke hana ma ke ʻano o nā noi no nā ʻenekini Data Quality, a ʻoi aku ka nui o nā mea i makemake ʻia i kēia manawa ma mua o Data Scientists.

I Iune 2019, EPAM, e pane ana i nā pono o ka mākeke IT hou, hoʻokaʻawale i ka Data Quality i kahi hana kaʻawale. ʻO nā mea ʻenekinia Data Quality, i ka wā o kā lākou hana i kēlā me kēia lā, mālama i ka ʻikepili, nānā i kāna ʻano i nā kūlana hou a me nā ʻōnaehana, nānā i ka pili o ka ʻikepili, kona lawa a me ka pili. Me kēia mau mea a pau, ma ke ʻano kūpono, hāʻawi nā mea ʻenehana Data Quality i ka manawa liʻiliʻi i ka hoʻāʻo hana maʻamau, NO pili nui kēia i ka papahana (e hāʻawi wau i kahi laʻana ma lalo).

ʻAʻole i kaupalena ʻia nā kuleana o kahi ʻenekini Data Quality wale nō i nā loiloi maʻamau/aunoa no nā "nulls, counts and sums" ma nā papa ʻikepili, akā koi i ka ʻike hohonu i nā pono ʻoihana o ka mea kūʻai aku a, no laila, ka hiki ke hoʻololi i ka ʻikepili i loaʻa i loko. ʻike ʻoihana pono.

Ka Manaʻo Kūlana ʻIkepili

Mea hōʻike ʻikepili nui a liʻiliʻi: nā ʻano, ka manaʻo, kaʻu moʻolelo

I mea e noʻonoʻo pono ai i ke kuleana o ia ʻenekinia, e noʻonoʻo kākou i ke ʻano o ka Data Quality i ke kumumanaʻo.

Ka ʻikepili ʻikepili - kekahi o nā pae o ka Data Management (he honua holoʻokoʻa a mākou e haʻalele ai iā ʻoe e aʻo ai iā ʻoe iho) a nona ke kuleana no ka nānā ʻana i ka ʻikepili e like me nā pae hoʻohālike:

Mea hōʻike ʻikepili nui a liʻiliʻi: nā ʻano, ka manaʻo, kaʻu moʻolelo
Manaʻo wau ʻaʻole pono e wehewehe i kēlā me kēia helu (ma ke kumumanaʻo ua kapa ʻia lākou he "data dimensions"), ua wehewehe maikaʻi ʻia lākou ma ke kiʻi. Akā ʻo ke kaʻina hana hoʻāʻo ponoʻī ʻaʻole ia e hoʻopili paʻa i kēia mau hiʻohiʻona i nā hihia hoʻāʻo a nānā iā lākou. Ma ka Data Quality, e like me nā ʻano hoʻāʻo ʻē aʻe, pono, ʻo ka mea mua, e kūkulu i nā koi o ka ʻikepili i ʻaelike ʻia me nā poʻe i komo i ka papahana e hoʻoholo i nā ʻoihana.

Ma muli o ka papahana Data Quality, hiki i ka mea ʻenekinia ke hana i nā hana like ʻole: mai ka mea hoʻāʻo automation maʻamau me ka loiloi superficial o ka maikaʻi o ka ʻikepili, i kahi kanaka e alakaʻi i ka hoʻopili hohonu ʻana o ka ʻikepili e like me nā pae i luna.

Ua wehewehe maikaʻi ʻia kahi wehewehe kikoʻī loa o ka Data Management, Data Quality a me nā kaʻina hana pili i ka puke i kapa ʻia "DAMA-DMBOK: Hui Hoʻokele ʻikepili o ka ʻike: 2nd Edition". Manaʻo nui wau i kēia puke ma ke ʻano he hoʻolauna i kēia kumuhana (e ʻike ʻoe i kahi loulou iā ia ma ka hope o ka ʻatikala).

ʻO kaʻu moʻolelo

Ma ka ʻoihana IT, ua hana wau i koʻu ala e piʻi ai mai kahi mea hōʻike Junior ma nā hui huahana i kahi Lead Data Quality Engineer ma EPAM. Ma hope o ʻelua mau makahiki o ka hana ʻana ma ke ʻano he mea hōʻike, ua loaʻa iaʻu ka manaʻo paʻa ua hana wau i nā ʻano hoʻāʻo āpau: regression, functional, stress, stability, security, UI, etc. hana i ka manawa like ma ʻekolu mau ʻōlelo hoʻolālā: Java, Scala, Python.

Ke nānā nei au i hope, maopopo iaʻu ke kumu i ʻokoʻa ai koʻu hoʻonohonoho akamai—ua komo au i nā papahana hoʻokele ʻikepili, nui a liʻiliʻi. ʻO kēia ka mea i lawe mai iaʻu i loko o kahi honua o nā mea hana a me nā manawa kūpono e ulu ai.

No ka mahalo i nā ʻano mea hana a me nā manawa kūpono e loaʻa ai ka ʻike a me nā mākau hou, e nānā wale i ke kiʻi ma lalo, e hōʻike ana i nā mea kaulana loa i ka honua "Data & AI".

Mea hōʻike ʻikepili nui a liʻiliʻi: nā ʻano, ka manaʻo, kaʻu moʻolelo
ʻO kēia ʻano kiʻi i hōʻuluʻulu ʻia i kēlā me kēia makahiki e kekahi o nā mea waiwai waiwai kaulana ʻo Matt Turck, ka mea i hele mai mai ka hoʻomohala polokalamu. Eia loulou i kāna blog a ʻoihana hoʻokele waiwai, kahi āna e hana ai ma ke ʻano he hoa.

Ua ulu wikiwiki au i ka ʻoihana ʻoiai ʻo wau wale nō ka mea hōʻike ma ka papahana, a i ʻole ma ka liʻiliʻi ma ka hoʻomaka ʻana o ka papahana. ʻO ia ka manawa e pono ai ʻoe ke kuleana no ke kaʻina hana hoʻāʻo holoʻokoʻa, a ʻaʻohe ou manawa e hoʻi hope, i mua wale nō. I ka wā mua he mea weliweli ia, akā i kēia manawa ua maopopo iaʻu nā mea maikaʻi a pau o ia hoʻokolohua:

  • Hoʻomaka ʻoe e kamaʻilio me ka hui holoʻokoʻa e like me ka wā ma mua, ʻoiai ʻaʻohe mea koho no ke kamaʻilio: ʻaʻole ka luna hoʻāʻo a i ʻole nā ​​​​hoa hoʻāʻo.
  • Hohonu loa ka hoʻokomo ʻana i ka papahana, a loaʻa iā ʻoe ka ʻike e pili ana i nā ʻāpana āpau, ma ka laulā a me ka kikoʻī.
  • ʻAʻole nānā nā mea hoʻomohala iā ʻoe ʻo "ʻo kēlā kanaka mai ka hoʻāʻo ʻana ʻaʻole ʻike i kāna hana," akā he mea like ia e hoʻopuka ana i nā pōmaikaʻi maikaʻi loa no ka hui me kāna mau hoʻāʻo ʻana a me ka manaʻo ʻana i nā pōpoki e ʻike ʻia ana i kahi ʻāpana kikoʻī o ka. huahana.
  • ʻO ka hopena, ʻoi aku ka maikaʻi, ʻoi aku ka mākaukau, a ʻoi aku ka makemake.

I ka ulu ʻana o ka papahana, ma 100% o nā hihia ua lilo wau i kumu aʻoaʻo no nā mea hoʻāʻo hou, aʻo iā lākou a hāʻawi i ka ʻike aʻu i aʻo ai iaʻu iho. I ka manawa like, ma muli o ka papahana, ʻaʻole i loaʻa iaʻu ka pae kiʻekiʻe o nā loea hoʻāʻo kaʻa mai ka hoʻokele a pono e hoʻomaʻamaʻa iā lākou i ka automation (no ka poʻe makemake) a i ʻole e hana i nā mea hana no ka hoʻohana ʻana i nā hana o kēlā me kēia lā (nā mea hana. no ka hana ʻana i ka ʻikepili a hoʻouka iā ia i loko o ka ʻōnaehana , kahi mea hana no ka hoʻokō ʻana i ka hoʻāʻo ʻana / hoʻāʻo kūpaʻa "wikiwiki", etc.).

Laʻana o kahi papahana kūikawā

ʻO ka mea pōʻino, ma muli o nā kuleana hōʻike ʻole, ʻaʻole hiki iaʻu ke kamaʻilio kikoʻī e pili ana i nā papahana aʻu i hana ai, akā e hāʻawi wau i nā hiʻohiʻona o nā hana maʻamau o kahi Data Quality Engineer ma kekahi o nā papahana.

ʻO ke kumu o ka papahana e hoʻokō i kahi kahua no ka hoʻomākaukau ʻana i ka ʻikepili no ka hoʻomaʻamaʻa ʻana i nā hiʻohiʻona aʻo mīkini e pili ana iā ia. ʻO ka mea kūʻai aku he hui lāʻau lapaʻau nui mai USA. ʻO ka ʻenehana, he pūʻulu Kubernetes, e pii ana i AWS EC2 nā manawa, me kekahi mau microservices a me ka papahana Open Source o EPAM - O Legeona, i hoʻololi ʻia i nā pono o kahi mea kūʻai aku (i kēia manawa ua hānau hou ʻia ka papahana ma odahu). Ua hoʻonohonoho ʻia nā kaʻina hana ETL me ka hoʻohana ʻana apache airflow a hoʻoneʻe i ka ʻikepili mai KūʻaiKau nā ʻōnaehana mea kūʻai aku ma AWS S3 Bākeke. Ma hope aʻe, ua kau ʻia kahi kiʻi Docker o kahi hoʻohālike aʻo mīkini ma luna o ke kahua, i aʻo ʻia i ka ʻikepili hou a, me ka hoʻohana ʻana i ka interface REST API, ua hoʻopuka i nā wānana e pili ana i ka ʻoihana a hoʻoponopono i nā pilikia kikoʻī.

I ka nānāʻana, ua like nā mea a pau e like me kēia:

Mea hōʻike ʻikepili nui a liʻiliʻi: nā ʻano, ka manaʻo, kaʻu moʻolelo
Ua nui nā hoʻokolohua hana ma kēia papahana, a hāʻawi ʻia i ka wikiwiki o ka hoʻomohala ʻana i nā hiʻohiʻona a me ka pono e mālama i ka wikiwiki o ka pōʻai hoʻokuʻu (ʻelua pule sprints), pono e noʻonoʻo koke e pili ana i ka hoʻāʻo ʻana i nā mea koʻikoʻi loa. ka ʻōnaehana. Ua uhi ʻia ka hapa nui o nā kahua hoʻokumu Kubernetes e nā autotest i hoʻokomo ʻia i loko Papa Hana Lopako + Python, akā pono nō hoʻi e kākoʻo a hoʻonui iā lākou. Eia kekahi, no ka ʻoluʻolu o ka mea kūʻai aku, ua hana ʻia kahi GUI e hoʻokele i nā hiʻohiʻona aʻo mīkini i kau ʻia i ka hui, a me ka hiki ke kuhikuhi i kahi a me kahi e pono ai ke hoʻoili ʻia nā ʻikepili no ke aʻo ʻana i nā hiʻohiʻona. Loaʻa kēia hoʻohui nui i ka hoʻonui ʻana i ka hoʻāʻo hana automated, i hana nui ʻia ma o nā kelepona REST API a me kahi helu liʻiliʻi o nā hoʻokolohua UI hope-2-end. A puni ka equator o kēia neʻe a pau, ua hui pū ʻia mākou e kahi mea hōʻike manual i hana maikaʻi loa me ka hoʻāʻo ʻana i nā mana huahana a kamaʻilio pū me ka mea kūʻai aku e pili ana i ka ʻae ʻana o ka hoʻokuʻu hou. Eia hou, ma muli o ka hōʻea ʻana mai o kahi loea hou, ua hiki iā mākou ke kākau i kā mākou hana a hoʻohui i kekahi mau loiloi manual koʻikoʻi i paʻakikī ke hoʻomaʻamaʻa koke.

A ʻo ka hope loa, ma hope o ka loaʻa ʻana o ka paʻa mai ka paepae a me ka hoʻohui GUI ma luna o ia mea, ua hoʻomaka mākou e kūkulu i nā paipu ETL me ka hoʻohana ʻana i nā Apache Airflow DAGs. Ua hana ʻia ka nānā ʻana i ka maikaʻi o ka ʻikepili ma ke kākau ʻana i nā DAG Airflow kūikawā i nānā i ka ʻikepili e pili ana i nā hopena o ke kaʻina hana ETL. Ma ke ʻano o kēia papahana, laki mākou a hāʻawi ka mea kūʻai mai iā mākou i ke komo ʻana i nā pūʻulu ʻikepili inoa ʻole kahi a mākou i hoʻāʻo ai. Ua nānā mākou i ka laina ʻikepili ma ka laina no ka hoʻokō ʻana i nā ʻano, ka loaʻa ʻana o ka ʻikepili i haki, ka huina o nā moʻolelo ma mua a ma hope, hoʻohālikelike i nā hoʻololi i hana ʻia e ke kaʻina ETL no ka hōʻuluʻulu ʻana, hoʻololi i nā inoa kolamu, a me nā mea ʻē aʻe. Eia kekahi, ua hoʻonui ʻia kēia mau loiloi i nā kumu ʻikepili like ʻole, no ka laʻana, me ka SalesForce, a me MySQL.

Ua hoʻokō ʻia nā loiloi maikaʻi o ka ʻikepili hope loa ma ka pae S3, kahi i mālama ʻia a mākaukau hoʻi e hoʻohana no ka hoʻomaʻamaʻa ʻana i nā kumu hoʻohālike mīkini. No ka loaʻa ʻana o ka ʻikepili mai ka faila CSV hope loa i loaʻa ma ka S3 Bucket a hōʻoia iā ia, ua kākau ʻia ke code me ka hoʻohana ʻana nā mea kūʻai boto3.

Aia kekahi koi mai ka mea kūʻai aku e mālama i kekahi hapa o ka ʻikepili i hoʻokahi Bākeke S3 a ʻāpana i kekahi. Pono pū kēia i ke kākau ʻana i nā loiloi hou e nānā i ka hilinaʻi o ia ʻano.

ʻIke laulā mai nā papahana ʻē aʻe

ʻO kahi laʻana o ka papa inoa maʻamau o nā hana a kahi ʻenekini Data Quality:

  • E hoʻomākaukau i ka ʻikepili hoʻāʻo (liʻiliʻi liʻiliʻi kūpono ʻole) ma o kahi mea hana ʻakomi.
  • Hoʻouka i ka ʻikepili i hoʻomākaukau ʻia i ke kumu kumu a nānā i ka mākaukau no ka hoʻohana.
  • E hoʻolele i nā kaʻina hana ETL no ka hoʻoponopono ʻana i kahi pūʻulu ʻikepili mai ka waihona kumu a i ka waihona hope a i ʻole ke kikowaena waena me ka hoʻohana ʻana i kekahi o nā hoʻonohonoho (inā hiki, e hoʻonohonoho i nā ʻāpana configurable no ka hana ETL).
  • E hōʻoia i ka ʻikepili i hana ʻia e ke kaʻina hana ETL no kona maikaʻi a me ka hoʻokō ʻana i nā koi ʻoihana.

I ka manawa like, ʻo ka manaʻo nui o nā loiloi ʻaʻole wale ma ka ʻoiaʻiʻo o ka holo ʻana o ka ʻikepili i loko o ka ʻōnaehana, ma ke kumu, hana a hiki i ka hopena (ʻo ia kahi ʻāpana o ka hoʻāʻo hana), akā ʻo ka hapa nui ma ka nānā ʻana a me ka hōʻoia ʻana i ka ʻikepili. no ka hoʻokō ʻana i nā koi i manaʻo ʻia, ka ʻike ʻana i nā anomalies a me nā mea ʻē aʻe.

Nā Mea Hana

ʻO kekahi o nā ʻenehana no ia kaohi ʻikepili hiki ke hoʻonohonoho i nā māka kaulahao ma kēlā me kēia pae o ka hoʻoili ʻana i ka ʻikepili, ka mea i kapa ʻia ʻo "chain data" i loko o ka palapala - ka mana o ka ʻikepili mai ke kumu a hiki i kahi o ka hoʻohana hope. Hoʻokomo pinepine ʻia kēia mau ʻano loiloi ma ke kākau ʻana i ka nānā ʻana i nā nīnau SQL. He mea maʻalahi ia mau nīnau e like me ka māmā a nānā i nā ʻāpana o ka maikaʻi o ka ʻikepili (metadata papa, laina blank, NULL, Hapa i ka syntax - nā ʻano ʻē aʻe e pono ai no ka nānā ʻana).

I ka hihia o ka ho'āʻo regression, e hoʻohana ana i nā pūʻulu ʻikepili i hana ʻia (ʻaʻole loli, hoʻololi iki ʻia), hiki i ke code autotest ke mālama i nā mamana i mākaukau no ka nānā ʻana i ka ʻikepili no ka hoʻokō ʻana i ka maikaʻi (nā wehewehe ʻana o ka metadata papaʻaina i manaʻo ʻia; lālani mea laʻana i hiki ke hoʻopaʻa ʻia. i wae ʻia i ka wā o ka hoʻāʻo, etc.).

Eia kekahi, i ka wā e hoʻāʻo ai, pono ʻoe e kākau i nā kaʻina hoʻāʻo ETL me ka hoʻohana ʻana i nā frameworks e like me Apache Airflow, Apache Spark a i ʻole he mea paahana ʻano ʻano pahu ʻeleʻele GCP Dataprep, ʻIkepili GCP A laila. Ke koi nei kēia kūlana i ka ʻenekini hoʻāʻo e hoʻoheheʻe iā ia iho i nā loina o ka hana o nā mea hana ma luna aʻe a ʻoi aku ka maikaʻi o ka hana ʻana i ka hoʻāʻo hana (no ka laʻana, nā kaʻina hana ETL ma kahi papahana) a hoʻohana iā lākou e nānā i ka ʻikepili. Ma keʻano kūikawā, ua mākaukau ʻo Apache Airflow no ka hana ʻana me nā ʻikepili analytical kaulana, no ka laʻana Nīnau Nui GCP. ʻO ka laʻana maʻamau o kāna hoʻohana ʻana ua hōʻike ʻia maanei, no laila ʻaʻole wau e hana hou iaʻu iho.

Ma waho aʻe o nā hoʻonā i hoʻomākaukau ʻia, ʻaʻohe mea e pāpā iā ʻoe e hoʻokō i kāu mau ʻenehana a me nā mea hana ponoʻī. ʻAʻole wale kēia e pōmaikaʻi no ka papahana, akā no ka Data Quality Engineer ponoʻī, nāna e hoʻomaikaʻi i kāna mau ʻike loea a me nā mākau coding.

Pehea e hana ai ma kahi papahana maoli

ʻO kahi hiʻohiʻona maikaʻi o nā paukū hope e pili ana i ka "data chain", ETL a me nā loiloi ubiquitous ʻo ia ke kaʻina hana mai kekahi o nā papahana maoli:

Mea hōʻike ʻikepili nui a liʻiliʻi: nā ʻano, ka manaʻo, kaʻu moʻolelo

Maʻaneʻi, komo nāʻikepili likeʻole (ma keʻano maoli, hoʻomākaukauʻia e mākou) i ka "funnel" hoʻokomo o kā mākou pūnaewele: kūpono, kūponoʻole, hui pūʻia, a me nā mea'ē aʻe, a laila ua kānanaʻia a hoʻopauʻia i kahi waihona waena, a laila e hana hou lākou i nā loli. a waiho ʻia i loko o ka waihona hope, kahi e hoʻokō ʻia ai nā analytics, kūkulu i nā hale kūʻai ʻikepili a me ka ʻimi ʻana i nā ʻike ʻoihana. I loko o ia ʻōnaehana, me ka ʻole o ka nānā pono ʻana i ka hana o nā kaʻina hana ETL, ke nānā nei mākou i ka maikaʻi o ka ʻikepili ma mua a ma hope o ka hoʻololi ʻana, a me ka hopena i ka analytics.

No ka hōʻuluʻulu ʻana i ka mea i luna, me ka nānā ʻole i nā wahi aʻu i hana ai, ma nā wahi āpau aʻu i komo ai i nā papahana Data i kaʻana like i kēia mau hiʻohiʻona:

  • Ma o ka automation wale nō e hiki ai iā ʻoe ke hoʻāʻo i kekahi mau hihia a hoʻokō i kahi pōʻai hoʻokuʻu e ʻae ʻia e ka ʻoihana.
  • ʻO ka mea hōʻike ma ia papahana kekahi o nā lālā i mahalo nuiʻia o ka hui, no ka mea, lawe mai ia i nā pōmaikaʻi nui i kēlā me kēia o nā mea komo (ka wikiwiki o ka ho'āʻoʻana, nāʻikepili maikaʻi mai kaʻIkeʻIkeʻIkepili, kaʻikeʻana i nā hemahema i ka wā mua).
  • ʻAʻole pili ʻoe inā ʻoe e hana ma kāu lako ponoʻī a i ʻole i ke ao - ua hoʻokaʻawale ʻia nā kumuwaiwai āpau i kahi pūʻulu e like me Hortonworks, Cloudera, Mesos, Kubernetes, etc.
  • Kūkulu ʻia nā papahana ma kahi ʻano microservice, puʻunaue ʻia a hoʻohālikelike ʻia ka computing.

Makemake au e hoʻomaopopo i ka wā e hana ana i ka hoʻāʻo ʻana ma ke kahua o ka Data Quality, hoʻololi kahi loea hoʻāʻo i kāna ʻoihana ʻoihana i ke code o ka huahana a me nā mea hana i hoʻohana ʻia.

Nā hiʻohiʻona ʻokoʻa o ka hoʻāʻo ʻana i ka maikaʻi o ka ʻikepili

Eia kekahi, noʻu iho, ua ʻike au i kēia mau mea (e hana koke wau i kahi hoʻopaʻa ʻana he VERY generalized a kūʻokoʻa wale nō) nā hiʻohiʻona kūʻokoʻa o ka hoʻāʻo ʻana i nā papahana Data (Big Data) (nā ʻōnaehana) a me nā wahi ʻē aʻe:

Mea hōʻike ʻikepili nui a liʻiliʻi: nā ʻano, ka manaʻo, kaʻu moʻolelo

nā loulou pono

  1. Manao: DAMA-DMBOK: Hui Hoʻokele ʻikepili o ka ʻike: 2nd Edition.
  2. Ke kikowaena hoʻomaʻamaʻa EPAM 
  3. Manaʻo ʻia nā mea hana no kahi ʻenekinia Data Quality hoʻomaka:
    1. Papa manuahi ma Stepik: Introduction to databases
    2. Ke aʻo ʻana ma LinkedIn: Nā Kuleana ʻEpekema ʻIkepili: ʻEnekinia ʻIkepili.
    3. ʻatikala:
    4. Video:

hopena

Ka ʻikepili ʻikepili ʻO kahi ʻōpio hoʻohiki maikaʻi loa, e lilo i ʻāpana o ke ʻano he ʻāpana o kahi hoʻomaka. I ka manawa i loko o ka Data Quality, e hoʻokomo ʻia ʻoe i ka nui o nā ʻenehana noiʻi hou, akā ʻo ka mea nui loa, e wehe ʻia nā manawa nui iā ʻoe e hana a hoʻokō i kāu mau manaʻo. Hiki iā ʻoe ke hoʻohana i ke ala hoʻomau hoʻomau ʻaʻole wale ma ka papahana, akā no ʻoe iho, e hoʻomau mau ana ma ke ʻano he loea.

Source: www.habr.com

Pākuʻi i ka manaʻo hoʻopuka