ʻO nā mākau makemake nui loa i ka ʻoihana ʻenekinia data

Wahi a helu helu 2019, ʻenehana ʻikepili i kēia manawa kahi ʻoihana e ulu wikiwiki ana ka koi ma mua o nā mea ʻē aʻe. He kuleana koʻikoʻi ka ʻenekinia ʻikepili i loko o kahi hui - hana a mālama i nā pipeline a me nā ʻikepili i hoʻohana ʻia e hana, hoʻololi a mālama i ka ʻikepili. He aha nā mākau e pono ai i nā ʻelele o kēia ʻoihana mua? He ʻokoʻa ka papa inoa mai ka mea e koi ʻia ana e nā ʻepekema data? E aʻo ʻoe e pili ana i kēia a pau mai kaʻu ʻatikala.

Ua loiloi au i nā hakahaka no ke kūlana o ka ʻenekinia data e like me lākou ma Ianuali 2020 e hoʻomaopopo ai i nā loea ʻenehana i kaulana loa. A laila hoʻohālikelike au i nā hopena me nā ʻikepili no nā hakahaka no ke kūlana ʻepekema data - a ua puka mai kekahi mau ʻokoʻa hoihoi.

Me ka nui ʻole o ka preamble, eia nā ʻenehana he ʻumi i ʻōlelo pinepine ʻia ma nā hoʻolaha hana:

ʻO nā mākau makemake nui loa i ka ʻoihana ʻenekinia data

Ka haʻi ʻana i nā ʻenehana i nā hakahaka no ke kūlana o ka ʻenekini data ma 2020

E noʻonoʻo kākou.

Nā kuleana o ka ʻenekinia data

I kēia lā, he mea koʻikoʻi ka hana a nā ʻenekinia data no nā hui - ʻo ia ka poʻe kuleana no ka mālama ʻana i ka ʻike a lawe mai i kahi ʻano e hiki ai i nā limahana ke hana pū me ia. Hoʻokumu nā ʻenekini ʻikepili i nā pipeline e kahe a i ʻole nā ​​​​ʻikepili mai nā kumu he nui. A laila hana nā Pipelines i ka unuhi, hoʻololi, a me ka hoʻouka ʻana i nā hana (ma nā huaʻōlelo ʻē aʻe, nā kaʻina ETL), e hana i ka ʻikepili i kūpono no ka hoʻohana hou ʻana. Ma hope o kēia, hāʻawi ʻia ka ʻikepili i nā mea noiʻi a me nā ʻepekema data no ka hana hohonu. ʻO ka hope, hoʻopau ka ʻikepili i kāna huakaʻi i nā dashboards, nā hōʻike, a me nā kumu hoʻohālike aʻo mīkini.

Ke ʻimi nei au i ka ʻike e hiki ai iaʻu ke huki i ka hopena e pili ana i nā ʻenehana i makemake nui ʻia i ka hana a kahi ʻenekini data i kēia manawa.

Nā Palapala

Ua hōʻiliʻili au i ka ʻike mai ʻekolu mau wahi huli hana − Hoʻokuʻuʻia, ʻOiaʻiʻo и ano e oia a nānā i nā huaʻōlelo i loaʻa i ka hui pū me ka "enekinia data" i nā kikokikona o nā hakahaka e pili ana i nā kamaʻāina US. No kēia hana ua hoʻohana au i ʻelua hale waihona puke Python − ai Nā noi и Nani Kopa. Ma waena o nā huaʻōlelo, ua hoʻokomo wau i nā mea ʻelua i hoʻokomo ʻia i ka papa inoa mua no ka nānā ʻana i nā hakahaka no ke kūlana o ka ʻepekema data, a me nā mea aʻu i koho lima ai i ka heluhelu ʻana i nā hāʻawi hana no nā ʻenekini data. ʻAʻole i hoʻokomo ʻia ʻo LinkedIn i ka papa inoa o nā kumu, ʻoiai ua pāpā ʻia au ma laila ma hope o kaʻu hoʻāʻo hope e hōʻiliʻili i ka ʻikepili.

No kēlā me kēia huaʻōlelo, helu au i ka pākēneka o nā hits mai ka huina o nā kikokikona ma kēlā me kēia paena, a laila helu ʻia ka awelika no nā kumu ʻekolu.

Nā hualoaʻa

Ma lalo iho nei nā huaʻōlelo ʻenekinia ʻike loea he kanakolu me nā helu kiʻekiʻe loa ma nā kahua hana ʻekolu.

ʻO nā mākau makemake nui loa i ka ʻoihana ʻenekinia data

A eia nā helu like, akā hōʻike ʻia ma ke ʻano papa.

ʻO nā mākau makemake nui loa i ka ʻoihana ʻenekinia data

E hele kāua i ka hoʻonohonoho.

Nānā i nā hopena

Hōʻike ʻia ʻo SQL a me Python i ʻoi aku ma mua o ʻelua hapakolu o nā wehe hana i loiloi ʻia. ʻO kēia mau ʻenehana ʻelua i kūpono ke aʻo mua. Python he ʻōlelo hoʻolālā kaulana loa i hoʻohana ʻia no ka hana ʻana me ka ʻikepili, ka hana ʻana i nā pūnaewele, a me ke kākau ʻana i nā palapala. SQL kū no ka Structured Query Language; pili ia i kahi maʻamau i hoʻokō ʻia e kahi hui o nā ʻōlelo a hoʻohana ʻia e kiʻi i ka ʻikepili mai nā ʻikepili pili. Ua ʻike ʻia i kahi manawa lōʻihi ma mua a ua hōʻike ʻo ia iā ia iho he kūpaʻa loa.

Ua ʻōlelo ʻia ʻo Spark ma kahi o ka hapalua o nā hakahaka. Apache Spark ʻO ia ka "ʻenekini ʻikepili nui hui pū me nā modula i kūkulu ʻia no ke kahe ʻana, SQL, aʻo mīkini, a me ka hana kiʻi." He mea kaulana loa ia i waena o ka poʻe e hana pū me nā ʻikepili nui.

Hōʻike ʻia ʻo AWS ma kahi o 45% o nā leka hana. He kahua hoʻonohonoho kapua i hana ʻia e Amazon; loaʻa iā ia ka māhele mākeke nui loa ma waena o nā paepae ao āpau.
A laila hele mai ʻo Java a me Hadoop - ʻoi aku ma mua o 40% no ko lākou kaikunāne. Iawa he ʻōlelo i hoʻāʻo ʻia i ke kaua 2019 Stack Overflow Developer Survey ua hāʻawi ʻia i ka ʻumi wahi ma waena o nā ʻōlelo e hoʻoweliweli i waena o nā mea polokalamu. ʻO ka ʻokoʻa, ʻo Python ka lua o ka ʻōlelo i aloha nui ʻia. Holo ʻia ka ʻōlelo Java e Oracle, a hiki ke hoʻomaopopo ʻia nā mea āpau e pono ai ʻoe e ʻike e pili ana iā ia mai kēia kiʻi kiʻi o ka ʻaoʻao kūhelu mai Ianuali 2020.

ʻO nā mākau makemake nui loa i ka ʻoihana ʻenekinia data

Ua like ia me ka holo ʻana i ka mīkini manawa
ʻO Apache Hadoop hoʻohana i ka hoʻohālike hoʻolālā MapReduce me nā pūʻulu kikowaena no ka ʻikepili nui. I kēia manawa ua haʻalele nui ʻia kēia kumu hoʻohālike.

A laila ʻike mākou iā Hive, Scala, Kafka a me NoSQL - ua ʻōlelo ʻia kēlā me kēia ʻenehana i ka hapaha o nā hakahaka i waiho ʻia. He polokalamu waihona ʻikepili ʻo Apache Hive e "maʻalahi ka heluhelu, kākau, a me ka hoʻokele ʻana i nā ʻikepili nui e noho ana i nā hale kūʻai i hoʻohana ʻia me SQL." Scala - he ʻōlelo hoʻolālā i hoʻohana ikaika ʻia i ka hana ʻana me ka ʻikepili nui. ʻO ka mea kūikawā, ua hana ʻia ʻo Spark ma Scala. Ma ka papa inoa o nā ʻōlelo makaʻu, ʻo Scala ke kūlana ʻumikūmākahi. Apache Kafka - he kahua hoʻolaha no ka hoʻoponopono ʻana i nā leka uila. Kaulana loa e like me ke ʻano o ke kahe ʻana i ka ʻikepili.

NoSQL waihona hoʻohālikelike iā lākou iho me SQL. ʻOkoʻa lākou no ka pili ʻole, hoʻonohonoho ʻole ʻia, a hiki ke hoʻonui ʻia. Ua loaʻa ʻo NoSQL i kahi kaulana, akā ʻo ka makemake no ka hoʻokokoke ʻana, a hiki i kahi o nā wānana e hoʻololi ai ʻo ia iā SQL ma ke ʻano he mea mālama nui.

Hoʻohālikelike me nā huaʻōlelo i nā hakahaka ʻepekema data

Eia nā huaʻōlelo ʻenehana he kanakolu i maʻamau i waena o nā mea hana ʻepekema data. Ua loaʻa iaʻu kēia papa inoa ma ke ʻano like me ka mea i wehewehe ʻia ma luna no ka ʻenekinia data.

ʻO nā mākau makemake nui loa i ka ʻoihana ʻenekinia data

Nā ʻōlelo o ka ʻenehana i nā hakahaka no ke kūlana o ka ʻepekema data ma 2020

Inā mākou e kamaʻilio e pili ana i ka nui o ka helu, i hoʻohālikelike ʻia i ka hoʻopaʻa ʻana i manaʻo ʻia ma mua, aia he 28% o nā hakahaka (12 versus 013). E ʻike kākou i nā ʻenehana i emi ʻole i nā hakahaka no nā ʻepekema data ma mua o nā ʻenekinia data.

ʻOi aku ka kaulana i ka ʻenekinia data

Hōʻike ka pakuhi ma lalo nei i nā huaʻōlelo me ka ʻokoʻa awelika ʻoi aku ka nui ma mua o 10% a i ʻole ka liʻiliʻi ma mua o -10%.

ʻO nā mākau makemake nui loa i ka ʻoihana ʻenekinia data

ʻO nā ʻokoʻa nui loa o ka huaʻōlelo pinepine ma waena o ka ʻenekinia data a me ka ʻepekema data

Hōʻike ka AWS i ka piʻi nui loa: ma ka ʻenekinia ʻikepili ua ʻike ʻia he 25% ʻoi aku ka maʻamau ma mua o ka ʻepekema data (ma kahi o 45% a me 20% o ka huina o nā hakahaka, kēlā me kēia). ʻIke ʻia ka ʻokoʻa!

Eia ka ʻikepili like ma kahi hōʻike ʻokoʻa iki - ma ka pakuhi, aia nā hopena no ka huaʻōlelo like ma nā hakahaka no ke kūlana o ka ʻenekinia ʻikepili a me ka ʻepekema ʻikepili aia ʻaoʻao.

ʻO nā mākau makemake nui loa i ka ʻoihana ʻenekinia data

ʻO nā ʻokoʻa nui loa o ka huaʻōlelo pinepine ma waena o ka ʻenekinia data a me ka ʻepekema data

ʻO ka lele nui aʻe aʻu i ʻike ai ma Spark - pono e hana pinepine kahi ʻenekini data me ka ʻikepili nui. Kafka ua hoʻonui pū ʻia e 20%, ʻo ia hoʻi, aneane ʻehā mau manawa i hoʻohālikelike ʻia i ka hopena no nā hakahaka ʻepekema data. ʻO ka hoʻoili ʻikepili kekahi o nā kuleana koʻikoʻi o ka ʻenekinia data. ʻO ka mea hope loa, ʻo 15% kiʻekiʻe ka helu o nā ʻōlelo i ke kahua o ka ʻenehana data no Java, NoSQL, Redshift, SQL a me Hadoop.

ʻAʻole kaulana i ka ʻenekinia data

I kēia manawa e ʻike kākou i nā ʻenehana i kaulana ʻole i nā hakahaka ʻenekinia data.
ʻO ka hāʻule ʻoi loa i hoʻohālikelike ʻia i ka ʻāpana ʻepekema data i loaʻa ma R: ma laila ʻo ia i ʻike ʻia ma kahi o 56% o nā hakahaka, ma ʻaneʻi - ma 17% wale nō. Kahaha. He ʻōlelo papahana ʻo R i makemake nui ʻia e ka poʻe ʻepekema a me nā mea helu, a ʻo ia ka ʻewalu o ka ʻōlelo makaʻu loa ma ka honua.

SAS loaʻa nō hoʻi i nā hakahaka no ke kūlana o ka ʻenekinia ʻikepili me ka emi pinepine - ʻo ka ʻokoʻa he 14%. ʻO SAS kahi ʻōlelo ponoʻī i hoʻolālā ʻia no ka hana ʻana me nā helu a me nā ʻikepili. ʻO ka mea hoihoi: e hoʻoholo i nā hopena kaʻu noiʻi ʻana i nā wehe hana no nā ʻepekema data, ua nalowale ka honua i kēia mau lā-ʻoi aku ma mua o nā ʻenehana ʻē aʻe.

Ma ke koi ma ka ʻenehana ʻikepili a me ka ʻepekema data

Pono e hoʻomaopopo ʻia he ʻewalu o nā kūlana he ʻumi mua ma nā pūʻulu ʻelua. ʻO SQL, Python, Spark, AWS, Java, Hadoop, Hive a me Scala i komo i loko o ka ʻumi kiʻekiʻe no ka ʻenehana ʻikepili a me nā ʻoihana ʻepekema data. Ma ka pakuhi ma lalo nei hiki iā ʻoe ke ʻike i nā ʻenehana kaulana loa ma waena o nā limahana ʻenekinia data, a ma hope o lākou ko lākou hōʻailona no nā hakahaka no nā ʻepekema data.

ʻO nā mākau makemake nui loa i ka ʻoihana ʻenekinia data

koi

Inā makemake ʻoe e komo i ka ʻenekinia data, e aʻo wau iā ʻoe e haku i nā ʻenehana aʻe - papa inoa wau iā lākou ma ke ʻano o ka mea nui.

E aʻo iā SQL. Ke hilinaʻi nei au iā PostgreSQL no ka mea he kumu wehe ia, kaulana loa i ke kaiāulu, a aia i kahi pae ulu. Hiki iā ʻoe ke aʻo pehea e hoʻohana ai i ka ʻōlelo mai ka puke My Memorable SQL - loaʻa kona mana hoʻokele maanei.

Master Python, ʻoiai ʻaʻole i ka pae paʻakikī loa. Hoʻolālā ʻia kaʻu Python Memorable no nā poʻe hoʻomaka. Hiki ke kūʻai ʻia ma Amazon, kope uila a kino paha, kāu koho, a i ʻole e hoʻoiho ma ka palapala pdf a i ʻole epub ma kēia pūnaewele.

Ke kamaʻāina ʻoe iā Python, e neʻe i nā pandas, kahi waihona Python i hoʻohana ʻia no ka hoʻomaʻemaʻe ʻana a me ka hana ʻana. Inā makemake ʻoe e hana i kahi ʻoihana e koi ana i ka hiki ke kākau ma Python (a ʻo kēia ka hapa nui o lākou), hiki iā ʻoe ke maopopo e manaʻo ʻia ka ʻike o nā pandas ma ke ʻano maʻamau. Ke hoʻopau nei au i kahi alakaʻi hoʻomaka no ka hana ʻana me nā pandas - hiki iā ʻoe kāheaiʻole e poina i ka manawa hoʻokuʻu.

Kumu AWS. Inā makemake ʻoe e lilo i ʻenekinia data, ʻaʻole hiki iā ʻoe ke hana me ka ʻole o kahi paepae kapuaʻi i loko o ka stash, a ʻo AWS ka mea kaulana loa o lākou. Ua kōkua nui nā papa iaʻu Linux Academyia'u e ao ana ʻenehana ʻikepili ma Google Cloud, Manaʻo wau e loaʻa iā lākou nā mea maikaʻi ma AWS.

Inā ua hoʻopau ʻoe i kēia papa inoa holoʻokoʻa a makemake ʻoe e ulu hou i nā maka o nā mea hana ma ke ʻano he ʻenekini data, manaʻo wau e hoʻohui iā Apache Spark no ka hana ʻana me ka ʻikepili nui. ʻOiai ʻo kaʻu noiʻi ʻana i nā hakahaka ʻepekema data i hōʻike i ka emi ʻana o ka hoihoi, ma waena o nā ʻenekinia ʻikepili e ʻike mau ʻia ana ma kahi kokoke i kēlā me kēia lua lua.

Ma hope

Manaʻo wau ua loaʻa iā ʻoe kēia hiʻohiʻona o nā ʻenehana noiʻi nui loa no nā ʻenekini data pono. Inā ʻoe e noʻonoʻo nei pehea ka holomua o nā hana loiloi, heluhelu kaʻu ʻatikala ʻē aʻe. Hauʻoli ʻenekinia!

Source: www.habr.com

Pākuʻi i ka manaʻo hoʻopuka