ʻEnekinia ʻIkepili a me ka ʻepekema Data: He aha ka ʻokoʻa?

Piʻoloke pinepine nā ʻoihana o Data Scientist a me Data Engineer. Loaʻa i kēlā me kēia ʻoihana kāna mau kikoʻī ponoʻī o ka hana ʻana me ka ʻikepili, nā kumu like ʻole no kā lākou loiloi a me kahi manaʻo ʻē aʻe o ka mea loea e hana i kahi ʻāpana o ka hana, no laila aia kēlā me kēia i kāna mau koi ponoʻī. 

E noʻonoʻo kākou i ka ʻokoʻa ma waena o kēia mau loea, he aha nā pilikia ʻoihana a lākou e hoʻoponopono ai, he aha nā mākau i loaʻa iā lākou a me ka nui o kā lākou loaʻa. Ua ʻike ʻia ka mea nui, no laila ua māhele mākou i ʻelua mau puke.

Ma ka ʻatikala mua, ʻo Elena Gerasimova, ke poʻo o ke kumu "ʻEpekema ʻIkepili a me nā ʻikepili" ma Netology, e haʻi i ka ʻokoʻa ma waena o kahi Data Scientist a me kahi Data Engineer a me nā mea hana a lākou e hana pū ai.

Pehea ka ʻokoʻa o nā kuleana o nā ʻenekinia a me nā ʻepekema

ʻO ka ʻenekinia ʻikepili he loea nāna, ma kekahi ʻaoʻao, hoʻomohala, hoʻāʻo a mālama i nā ʻōnaehana ʻikepili: nā ʻikepili, mālama a me nā ʻōnaehana hana nui. Ma ka ʻaoʻao ʻē aʻe, ʻo ia ka mea e hoʻomaʻemaʻe a "hui" i ka ʻikepili no ka hoʻohana ʻana e nā mea loiloi a me nā ʻepekema data, ʻo ia hoʻi, hana i nā pipeline hoʻoili ʻikepili.

Hoʻokumu a hoʻomaʻamaʻa ʻo Data Scientist i nā hiʻohiʻona wānana (a me nā mea ʻē aʻe) me ka hoʻohana ʻana i nā algorithm aʻo mīkini a me nā ʻupena neural, e kōkua ana i nā ʻoihana e ʻike i nā kumu huna, wānana i nā hoʻomohala a hoʻopaʻa i nā kaʻina ʻoihana koʻikoʻi.

ʻO ka ʻokoʻa nui ma waena o kahi Data Scientist a me kahi Data Engineer ʻo ia ka mea maʻamau he mau pahuhopu like ʻole. Hana nā mea ʻelua e hōʻoia i ka hiki ke loaʻa ka ʻikepili a me ke ʻano kiʻekiʻe. Akā, ʻike kahi ʻepekema Data i nā pane i kāna mau nīnau a hoʻāʻo i nā kuhiakau i loko o kahi kaiaola data (no ka laʻana, e pili ana iā Hadoop), a ua hana kahi Data Engineer i kahi pipeline no ka lawelawe ʻana i kahi algorithm aʻo mīkini i kākau ʻia e kahi ʻepekema data i loko o kahi pūʻulu Spark i loko o ka like. kaiaolaola. 

Hāʻawi ka ʻenehana ʻikepili i ka waiwai i kahi ʻoihana ma o ka hana ʻana ma ke ʻano he hui. ʻO kāna hana ka hana ma ke ʻano he loulou koʻikoʻi ma waena o nā mea komo like ʻole: mai nā mea hoʻomohala i nā mea kūʻai aku ʻoihana o ka hōʻike ʻana, a e hoʻonui i ka huahana o nā mea loiloi, mai ke kūʻai aku a me ka huahana i BI. 

ʻO kahi ʻepekema ʻIkepili, ma kahi ʻē aʻe, lawe i kahi ʻāpana ikaika i ka hoʻolālā o ka ʻoihana a me ka unuhi ʻana i nā ʻike, hoʻoholo i nā hoʻoholo, hoʻokō i nā algorithm automation, hoʻohālike a me ka hoʻokumu ʻana i ka waiwai mai ka ʻikepili.
ʻEnekinia ʻIkepili a me ka ʻepekema Data: He aha ka ʻokoʻa?

ʻO ka hana ʻana me ka ʻikepili e pili ana i ka GIGO (ʻōpala i loko - ʻōpala i waho) kumu: inā pili nā mea loiloi a me nā ʻepekema ʻikepili i nā ʻikepili i mākaukau ʻole a hiki ʻole ke hewa, a laila hewa nā hopena me ka hoʻohana ʻana i nā algorithms loiloi ʻoi loa. 

Hoʻoponopono nā ʻenekinia ʻikepili i kēia pilikia ma ke kūkulu ʻana i nā pipeline no ka hoʻomaʻemaʻe ʻana, hoʻomaʻemaʻe a hoʻololi i ka ʻikepili a me ka ʻae ʻana i nā ʻepekema data e hana me ka ʻikepili kiʻekiʻe. 

Nui nā mea hana ma ka mākeke no ka hana ʻana me ka ʻikepili e uhi ana i kēlā me kēia pae: mai ka ʻike ʻana o ka ʻikepili i ka hoʻopuka ʻana i kahi dashboard no ka papa alakaʻi. A he mea nui ka hoʻoholo ʻana e hoʻohana iā lākou e hana ʻia e ka ʻenekinia - ʻaʻole no ka mea he ʻano ia, akā no ka mea e kōkua maoli ʻo ia i ka hana a nā poʻe ʻē aʻe i ke kaʻina hana. 

Ma keʻano maʻamau: inā pono kahi hui e hana i nā pilina ma waena o BI a me ETL - hoʻouka i ka ʻikepili a me ka hoʻomaikaʻi ʻana i nā hōʻike, eia kahi kumu hoʻoilina maʻamau e pono ai kahi Data Engineer e hana ai (maikaʻi inā aia kekahi mea kākau ma ka hui).

Nā kuleana o kahi ʻenekinia ʻikepili

  • Ka hoʻomohala ʻana, ke kūkulu ʻana a me ka mālama ʻana i nā ʻōnaehana hana ʻikepili.
  • Ka mālama ʻana i nā hewa a me ka hoʻokumu ʻana i nā pipeline hoʻoili ʻikepili hilinaʻi.
  • Ka lawe ʻana mai i nā ʻikepili i hoʻonohonoho ʻole ʻia mai nā kumu ikaika like ʻole i ke ʻano e pono ai no ka hana a nā mea loiloi.
  • Hāʻawi i nā manaʻo e hoʻomaikaʻi i ka paʻa ʻana o ka ʻikepili a me ka maikaʻi.
  • Hāʻawi a mālama i ka hoʻolālā ʻikepili i hoʻohana ʻia e nā ʻepekema data a me nā ʻikepili ʻikepili.
  • E hoʻopaʻa a mālama i ka ʻikepili me ka maʻalahi a me ka maikaʻi i loko o kahi puʻupuʻu puʻupuʻu o nā ʻumi a i ʻole haneli mau kikowaena.
  • E loiloi i nā kālepa ʻenehana o nā mea hana e hana i nā hale hana maʻalahi akā paʻa i hiki ke ola i ka haunaele.
  • Ka hoʻomalu a me ke kākoʻo ʻana i nā kahe ʻikepili a me nā ʻōnaehana pili (hoʻonohonoho ʻana i ka nānā ʻana a me nā makaʻala).

Aia kekahi ʻoihana kūikawā i loko o ka trajectory Data Engineer - ML engineer. I ka pōkole, loea kēia mau mea ʻenekinia i ka lawe ʻana i nā hiʻohiʻona aʻo mīkini i ka hoʻokō ʻana a me ka hoʻohana ʻana. ʻO ka manawa pinepine, ʻo kahi kumu hoʻohālike i loaʻa mai kahi ʻepekema data he ʻāpana o kahi noiʻi a ʻaʻole hiki ke hana i nā kūlana hakakā.

Nā kuleana o kahi ʻepekema ʻikepili

  • Ka unuhi ʻana i nā hiʻohiʻona mai ka ʻikepili e hoʻopili i nā algorithm aʻo mīkini.
  • Ke hoʻohana nei i nā mea hana aʻo mīkini like ʻole e wānana a hoʻokaʻawale i nā mamana i ka ʻikepili.
  • Hoʻomaikaʻi i ka hana a me ka pololei o nā algorithm aʻo mīkini ma o ka hoʻoponopono maikaʻi ʻana a me ka hoʻonui ʻana i nā algorithms.
  • Ka hoʻokumu ʻana i nā kuhiakau "ikaika" e like me ka hoʻolālā o ka ʻoihana e pono e hoʻāʻo ʻia.

Kaʻana like ʻo Data Engineer a me Data Scientist i ka hoʻomohala ʻana i kahi moʻomeheu ʻikepili, kahi e hiki ai i kahi hui ke hoʻonui i ka loaʻa kālā a i ʻole e hōʻemi i nā kumukūʻai.

He aha nā ʻōlelo a me nā mea hana e hana pū ai nā ʻenekinia a me nā ʻepekema?

I kēia lā, ua loli nā manaʻolana no nā ʻepekema data. Ma mua, ua hōʻiliʻili nā ʻenekinia i nā nīnau SQL nui, kākau lima iā MapReduce a hoʻoponopono i ka ʻikepili me ka hoʻohana ʻana i nā mea hana e like me Informatica ETL, Pentaho ETL, Talend. 

Ma 2020, ʻaʻole hiki i kahi loea ke hana me ka ʻole o ka ʻike o Python a me nā mea hana helu hou (e laʻa, Airflow), ka hoʻomaopopo ʻana i nā kumu o ka hana ʻana me nā paepae kapuaʻi (e hoʻohana ana iā lākou e mālama i nā lako, ʻoiai e nānā ana i nā loina palekana).

ʻO SAP, Oracle, MySQL, Redis nā mea hana maʻamau no nā ʻenekini data ma nā hui nui. Maikaʻi lākou, akā ʻoi aku ka kiʻekiʻe o ke kumukūʻai o nā laikini a ʻo ke aʻo ʻana e hana pū me lākou he mea kūpono wale nō i nā papahana ʻoihana. I ka manawa like, aia kahi koho manuahi ma ke ʻano o Postgres - he manuahi a kūpono ʻaʻole wale no ke aʻo ʻana. 

ʻEnekinia ʻIkepili a me ka ʻepekema Data: He aha ka ʻokoʻa?
ʻO ka mōʻaukala, ʻike pinepine ʻia nā noi no Java a me Scala, ʻoiai ke ulu nei nā ʻenehana a me nā ala hoʻokokoke, nalowale kēia mau ʻōlelo i ke kua.

Eia naʻe, ʻo BigData hardcore: Hadoop, Spark a me ke koena o ka zoo ʻaʻole ia he mea e pono ai no ka ʻenekini data, akā he ʻano mea hana no ka hoʻoponopono ʻana i nā pilikia hiki ʻole ke hoʻoponopono ʻia e ka ETL kuʻuna. 

ʻO ke ʻano nā lawelawe no ka hoʻohana ʻana i nā mea hana me ka ʻole o ka ʻike o ka ʻōlelo i kākau ʻia ai lākou (e like me Hadoop me ka ʻike ʻole o Java), a me ka hoʻolako ʻana i nā lawelawe i mākaukau no ka hoʻoili ʻana i ka ʻikepili streaming (ka ʻike leo a i ʻole ka ʻike kiʻi ma ke wikiō. ).

Ua kaulana nā ʻōnaehana ʻoihana mai SAS a me SPSS, ʻoiai ʻo Tableau, Rapidminer, Stata a me Julia e hoʻohana nui ʻia e nā ʻepekema data no nā hana kūloko.

ʻEnekinia ʻIkepili a me ka ʻepekema Data: He aha ka ʻokoʻa?
ʻO ka hiki ke kūkulu i nā pipeline iā lākou iho i ʻike ʻia i nā mea loiloi a me nā ʻepekema data i ʻelua mau makahiki i hala aku nei: no ka laʻana, hiki ke hoʻouna i ka ʻikepili i kahi waihona PostgreSQL me ka hoʻohana ʻana i nā palapala maʻalahi. 

ʻO ka maʻamau, ʻo ka hoʻohana ʻana i nā pipelines a me nā hoʻonohonoho ʻikepili i hoʻohui ʻia ke kuleana o nā ʻenekini data. Akā i kēia lā, ʻoi aku ka ikaika o ke ʻano o nā loea T-shaped me nā mākau ākea ma nā kahua pili, no ka mea, ua maʻalahi nā mea hana.

No ke aha e hana pū ai ʻo Data Engineer a me Data Scientist

Ma ka hana pū ʻana me nā ʻenekinia, hiki i nā ʻepekema Data ke nānā aku i ka ʻaoʻao noiʻi, e hana ana i nā algorithm aʻo mīkini mākaukau hana.
A pono e nānā pono nā ʻenekinia i ka scalability, ka hoʻohana hou ʻana i ka ʻikepili, a me ka hōʻoia ʻana i ka hoʻokomo ʻana i ka ʻikepili a me nā pipeline i hoʻopuka ʻia i kēlā me kēia papahana e hoʻokō me ka hoʻolālā honua.

ʻO kēia hoʻokaʻawale ʻana i nā kuleana e hōʻoia i ka kūlike ma waena o nā hui e hana ana i nā papahana aʻo mīkini like ʻole. 

Kōkua ka hui pū ʻana i ka hana ʻana i nā huahana hou me ka maikaʻi. Loaʻa ka wikiwiki a me ka maikaʻi ma o ke kaulike ma waena o ka hoʻokumu ʻana i kahi lawelawe no kēlā me kēia (ka mālama honua a i ʻole ka hoʻohui ʻana o nā dashboards) a me ka hoʻokō ʻana i kēlā me kēia pono a i ʻole papahana (pipeline kūikawā, hoʻopili i nā kumu waho). 

ʻO ka hana pū ʻana me nā ʻepekema ʻikepili a me nā mea loiloi e kōkua i nā ʻenekini e hoʻomohala i nā mākau analytical a me ka noiʻi e kākau i nā code ʻoi aku ka maikaʻi. Hoʻomaikaʻi ka kaʻana like ʻana i ka ʻike ma waena o nā mea hoʻohana hale waihona kālā a me ka loko datake, e hana i nā papahana i ʻoi aku ka agile a hāʻawi i nā hopena lōʻihi lōʻihi.

Ma nā hui e manaʻo nei e hoʻomohala i kahi moʻomeheu o ka hana ʻana me ka ʻikepili a me ke kūkulu ʻana i nā kaʻina ʻoihana e pili ana iā lākou, ʻo Data Scientist a me Data Engineer e hoʻopiha i kekahi i kekahi a hoʻokumu i kahi ʻōnaehana ʻikepili piha. 

Ma ka ʻatikala aʻe e kamaʻilio mākou e pili ana i ke ʻano o ka hoʻonaʻauao e pono ai i ka Data Engineer a me Data Scientists, he aha nā mākau e pono ai lākou e hoʻomohala a pehea e hana ai ka mākeke.

Mai nā mea hoʻoponopono o Netology

Inā ʻoe e nānā nei i ka ʻoihana o Data Engineer a i ʻole Data Scientist, kono mākou iā ʻoe e aʻo i kā mākou papahana papa:

Source: www.habr.com

Pākuʻi i ka manaʻo hoʻopuka