Na re hloka letša la data? Seo u lokelang ho se etsa ka polokelo ea data?

Sengoliloeng sena ke phetolelo ea sengoloa sa ka ho medium - Ho qala ka Data Lake, e ileng ea tsebahala haholo, mohlomong ka lebaka la bonolo ba eona. Ka hona, ke ile ka etsa qeto ea ho e ngola ka Serussia le ho eketsa hanyenyane ho hlakisa motho ea tloaelehileng eo e seng setsebi sa data hore na polokelo ea data (DW) ke eng, le hore na letša la data ke eng (Data Lake), le hore na ba utloanang hammoho .

Ke hobane'ng ha ke ne ke batla ho ngola ka letša la data? Ke sebelitse ka data le analytics ka lilemo tse fetang 10, 'me joale ke ntse ke sebetsa ka data e kholo ho Amazon Alexa AI e Cambridge, e Boston, leha ke lula Victoria Sehlekehlekeng sa Vancouver 'me hangata ke etela Boston, Seattle. , le Vancouver, 'me ka linako tse ling esita le Moscow, ke bua likopanong. Ke boetse ke ngola nako le nako, empa ke ngola haholo-holo ka Senyesemane, 'me ke se ke ngotse libuka tse ling, Ke boetse ke na le tlhokahalo ea ho arolelana mekhoa ea analytics e tsoang Amerika Leboea, 'me ka linako tse ling ke ngola lithelekramo.

Ke 'nile ka sebetsa le libaka tsa polokelo ea boitsebiso,' me ho tloha 2015 ke ile ka qala ho sebetsa haufi-ufi le Amazon Web Services, 'me ka kakaretso ke fetohela ho cloud analytics (AWS, Azure, GCP). Ke hlokometse ho iphetola ha litharollo tsa analytics ho tloha 2007 mme ka ba ka sebetsa bakeng sa morekisi oa polokelo ea data Teradata mme ka e kenya ts'ebetsong Sberbank, 'me ke ha Big Data le Hadoop e hlaha. E mong le e mong o ile a qala ho bolela hore nako ea polokelo e fetile 'me joale ntho e' ngoe le e 'ngoe e ne e le Hadoop, eaba ba qala ho bua ka Data Lake, hape, hore joale qetello ea polokelo ea data e ne e hlile e fihlile. Empa ka lehlohonolo (mohlomong ka bomalimabe ho ba bang ba entseng chelete e ngata ho theha Hadoop), sebaka sa polokelo ea boitsebiso ha sea ka sa tsamaea.

Sehloohong sena re tla sheba hore na letša la data ke eng. Sengoliloeng sena se etselitsoe batho ba nang le boiphihlelo bo fokolang kapa ba se nang letho ka polokelo ea data.

Na re hloka letša la data? Seo u lokelang ho se etsa ka polokelo ea data?

Setšoantšong ke Letša la Bled, lena ke le leng la matša ao ke a ratang haholo, leha ke bile moo hang feela, ke ile ka le hopola bophelo bohle ba ka. Empa re tla bua ka mofuta o mong oa letša - letša la data. Mohlomong bongata ba lona le se le utloile ka lentsoe lena hangata, empa tlhaloso e le 'ngoe e ke ke ea ntša motho kotsi.

Pele ho tsohle, mona ke litlhaloso tse tsebahalang haholo tsa Letša la Data:

"polokelo ea faele ea mefuta eohle ea data e tala e fumanehang bakeng sa ho hlahlojoa ke mang kapa mang mokhatlong" - Martin Fowler.

"Haeba u nahana hore polokelo ea data ke botlolo ea metsi - a hloekisitsoeng, a pakoa 'me a pakoa hore a sebelisoe habonolo, joale letša la data ke letamo le leholo la metsi ka sebopeho sa lona sa tlhaho. Basebelisi, ke khona ho ipokellela metsi, ka qoela botebong ba pelo, ka hlahloba ”- James Dixon.

Hona joale re tseba hantle hore letša la data le mabapi le li-analytics, le re lumella ho boloka boitsebiso bo bongata ka mokhoa oa eona oa pele 'me re na le phihlelo e hlokahalang le e loketseng ho data.

Hangata ke rata ho nolofatsa lintho, haeba ke khona ho hlalosa lentsoe le rarahaneng ka mantsoe a bonolo, joale kea utloisisa hore na le sebetsa joang le hore na le hloka eng. Ka tsatsi le leng, ke ne ke ntse ke sheba ka har'a pokello ea lifoto tsa iPhone, 'me ha fihla ho 'na, lena ke letša la nnete la data, ka ba ka etsa slide bakeng sa likopano:

Na re hloka letša la data? Seo u lokelang ho se etsa ka polokelo ea data?

Ntho e 'ngoe le e' ngoe e bonolo haholo. Re nka foto fonong, foto e bolokiloe fonong mme e ka bolokoa ho iCloud (polokelo ea faele ea leru). Fono e boetse e bokella metadata ea lifoto: se bonts'itsoeng, geo tag, nako. Ka lebaka leo, re ka sebelisa sebopeho se bonolo sa iPhone ho fumana foto ea rona mme re bile re bona matšoao, mohlala, ha ke batla linepe ka lentsoe mollo, ke fumana linepe tse 3 tse nang le setšoantšo sa mollo. Ho 'na, sena se tšoana le sesebelisoa sa Business Intelligence se sebetsang ka potlako le ka mokhoa o hlakileng.

'Me ehlile, ha rea ​​​​lokela ho lebala ka ts'ireletso (tumello le netefatso), ho seng joalo data ea rona e ka qetella e le sebakeng sa sechaba. Ho na le litaba tse ngata mabapi le likhoebo tse kholo le li-startups tseo data ea tsona e ileng ea fumaneha phatlalatsa ka lebaka la ho se tsotelle ha bahlahisi le ho hlōleha ho latela melao e bonolo.

Le setšoantšo se bonolo joalo se re thusa ho nahana hore na letša la data ke eng, liphapang tsa lona ho tloha polokelong ea litaba tsa setso le likarolo tsa eona tsa mantlha:

  1. Loading Data (Ingestion) ke karolo ea bohlokoa ea letša la data. Lintlha li ka kena polokelong ea data ka litsela tse peli - batch (ho kenya ka linako tse ling) le ho phallela (phallo ea data).
  2. Polokelo ea faele (Storage) ke karolo e ka sehloohong ea Letša la Data. Re ne re hloka hore polokelo e be bonolo, e ka tšeptjoa haholo, 'me e theko e tlaase. Ka mohlala, ho AWS ke S3.
  3. Catalog le Search (Catalog le Search) - e le hore re qobe Setsi sa Data (sena ke ha re lahla lintlha tsohle ka qubu e le 'ngoe, ebe ho ke ke ha khoneha ho sebetsa le eona), re hloka ho theha lera la metadata ho arola lintlha. e le hore basebelisi ba ka fumana data habonolo, eo ba e hlokang bakeng sa tlhahlobo. Ntle le moo, o ka sebelisa litharollo tse ling tsa patlo joalo ka ElasticSearch. Patlisiso e thusa mosebelisi ho fumana lintlha tse hlokahalang ka sebopeho se bonolo sa mosebelisi.
  4. Ho sebetsa (Ts'ebetso) - mohato ona o ikarabella ho sebetsa le ho fetola data. Re ka fetola data, ra fetola sebopeho sa eona, ra e hloekisa, le tse ling tse ngata.
  5. Tshireletso (Tshireletso) - Ho bohlokoa ho qeta nako ho moralo oa ts'ireletso oa tharollo. Mohlala, encryption ea data nakong ea ho boloka, ho sebetsa le ho kenya. Ho bohlokoa ho sebelisa mekhoa ea netefatso le tumello. Qetellong, ho hlokahala sesebelisoa sa tlhahlobo.

Ho latela pono e sebetsang, re ka tšoaea letša la data ka litšobotsi tse tharo:

  1. Bokella 'me u boloke eng kapa eng - Letša la data le na le lintlha tsohle, data e tala e sa sebetsoang bakeng sa nako efe kapa efe le data e sebetsitsoeng / e hloekisitsoeng.
  2. Deep Scan - Letša la data le lumella basebelisi ho hlahloba le ho sekaseka lintlha.
  3. Ho fihlella habonolo - Letša la data le fana ka phihlello e bonolo bakeng sa data e fapaneng le maemo a fapaneng.

Hona joale re ka bua ka phapang pakeng tsa polokelo ea data le letša la data. Hangata batho ba botsa:

  • Ho thoe'ng ka polokelo ea data?
  • Na re nkela sebaka sa polokelo ea data sebaka ka letša la data kapa re ntse re le holisa?
  • Na ho ntse ho khoneha ho etsa ntle le letša la data?

Ka bokhutšoanyane, ha ho karabo e hlakileng. Tsohle li itšetlehile ka boemo bo itseng, litsebo tsa sehlopha le tekanyetso. Mohlala, ho fallisetsa polokelong ea data ho Oracle ho AWS le ho theha letša la data ke setsi sa Amazon - Woot - Pale ea rona ea letša la data: Joang Woot.com e hahile letša la data le se nang seva ho AWS.

Ka lehlakoreng le leng, morekisi Snowflake o re ha o sa hloka ho nahana ka letša la data, kaha sethala sa bona sa data (ho fihlela 2020 e ne e le polokelo ea data) se u lumella ho kopanya letša la data le polokelo ea data. Ha ke so sebetse haholo ka Snowflake, 'me ke sehlahisoa se ikhethang se ka etsang sena. Theko ea taba ke taba e 'ngoe.

Qetellong, maikutlo a ka ke hore re ntse re hloka polokelo ea data e le mohloli o ka sehloohong oa litlaleho tsa rona, 'me eng kapa eng e sa lumellaneng re e boloka letšeng la data. Mosebetsi oohle oa analytics ke ho fana ka phihlello e bonolo bakeng sa khoebo ho etsa liqeto. Eng kapa eng eo motho a ka e buang, basebelisi ba khoebo ba sebetsa ka katleho le polokelo ea boitsebiso ho feta letša la data, mohlala Amazon - ho na le Redshift (analytical data warehouse) mme ho na le Redshift Spectrum / Athena (SQL interface bakeng sa letša la data ho S3 e thehiloeng ho Hive/Presto). Ho joalo le ho lipolokelo tse ling tsa morao-rao tsa tlhahlobo ea data.

Ha re shebeng meralo e tloaelehileng ea polokelo ea data:

Na re hloka letša la data? Seo u lokelang ho se etsa ka polokelo ea data?

Ena ke tharollo ea khale. Re na le litsamaiso tsa mehloli, re sebelisa ETL/ELT re kopitsa data sebakeng sa polokelo ea data ea tlhahlobo ebe re e hokahanya le tharollo ea Business Intelligence (eo ke e ratang haholo ke Tableau, ho thoe'ng ka ea hau?).

Tharollo ena e na le mefokolo e latelang:

  • Ts'ebetso ea ETL/ELT e hloka nako le lisebelisoa.
  • E le molao, mohopolo oa ho boloka data sebakeng sa polokelo ea data ha o theko e tlase (mohlala, Redshift, BigQuery, Teradata), kaha re hloka ho reka sehlopha kaofela.
  • Basebelisi ba khoebo ba na le phihlello ea data e hloekisitsoeng le e kopaneng hangata 'me ha ba khone ho fumana lintlha tse tala.

Ha e le hantle, tsohle li itšetlehile ka taba ea hau. Haeba u sena mathata ka polokelo ea hau ea data, joale ha u hloke letša la data ho hang. Empa ha mathata a hlaha ka lebaka la khaello ea sebaka, matla, kapa theko e bapala karolo ea bohlokoa, joale u ka nahana ka khetho ea letša la data. Ke ka lebaka leo letša la data le tummeng haholo. Mona ke mohlala oa moralo oa letša la data:
Na re hloka letša la data? Seo u lokelang ho se etsa ka polokelo ea data?
Re sebelisa mokhoa oa letša la data, re kenya data e tala letšeng la rona la data (batch kapa phallela), ebe re sebetsana le data ha ho hlokahala. Letša la data le lumella basebelisi ba khoebo ho iketsetsa liphetoho tsa data (ETL/ELT) kapa ho sekaseka lintlha ho tharollo ea Business Intelligence (haeba mokhanni ea hlokahalang a le teng).

Sepheo sa tharollo efe kapa efe ea analytics ke ho sebeletsa basebelisi ba khoebo. Ka hona, re tlameha ho sebetsa ho latela litlhoko tsa khoebo kamehla. (Ho Amazon ona ke o mong oa melao-motheo - ho sebetsa morao).

Ho sebetsa le polokelo ea data le letša la data, re ka bapisa litharollo ka bobeli:

Na re hloka letša la data? Seo u lokelang ho se etsa ka polokelo ea data?

Qeto e ka sehloohong e ka etsoang ke hore polokelo ea boitsebiso ha e hlōlisane le letša la data, empa ho e-na le hoo e tlatselletsa. Empa ho ho uena ho etsa qeto ea hore na ke eng e loketseng nyeoe ea hau. Kamehla hoa thahasellisa ho itlhahloba le ho etsa liqeto tse nepahetseng.

Ke kopa hape ho u joetsa e 'ngoe ea linyeoe ha ke qala ho sebelisa mokhoa oa letša la data. Ntho e 'ngoe le e' ngoe e nyenyane haholo, ke lekile ho sebelisa sesebelisoa sa ELT (re ne re e-na le Matillion ETL) le Amazon Redshift, tharollo ea ka e ile ea sebetsa, empa e ne e sa lumellane le litlhoko.

Ke ne ke hloka ho nka li-web log, ho li fetola le ho li kopanya ho fana ka lintlha tsa linyeoe tse 2:

  1. Sehlopha sa papatso se ne se batla ho sekaseka ts'ebetso ea bot bakeng sa SEO
  2. IT e ne e batla ho sheba metrics ea ts'ebetso ea webosaete

Li-logs tse bonolo haholo, tse bonolo haholo. Mohlala ke ona:

https 2018-07-02T22:23:00.186641Z app/my-loadbalancer/50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57 
"GET https://www.example.com:443/ HTTP/1.1" "curl/7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2 
arn:aws:elasticloadbalancing:us-east-2:123456789012:targetgroup/my-targets/73e2d6bc24d8a067
"Root=1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn:aws:acm:us-east-2:123456789012:certificate/12345678-1234-1234-1234-123456789012"
1 2018-07-02T22:22:48.364000Z "authenticate,forward" "-" "-"

Faele e le 'ngoe e ne e le boima ba 1-4 megabytes.

Empa ho ne ho e-na le bothata bo le bong. Re ne re e-na le libaka tse 7 ho pota lefatše, 'me lifaele tse likete tse 7000 li entsoe ka letsatsi le le leng. Sena ha se boholo bo bongata, ke li-gigabyte tse 50 feela. Empa boholo ba sehlopha sa rona sa Redshift le bona bo ne bo le nyane (node ​​tse 4). Ho kenya faele e le 'ngoe ka mokhoa o tloaelehileng ho nkile motsotso. Ke hore bothata ha boa rarolloa hang-hang. Mme ho bile joalo ha ke etsa qeto ea ho sebelisa mokhoa oa letša la data. Tlhaloso e ne e shebahala tjena:

Na re hloka letša la data? Seo u lokelang ho se etsa ka polokelo ea data?

Ho bonolo haholo (ke batla ho hlokomela hore molemo oa ho sebetsa lerung ke bonolo). Ke sebelisitse:

  • AWS Elastic Map Reduce (Hadoop) bakeng sa Matla a Khomphutha
  • AWS S3 e le polokelo ea faele e nang le bokhoni ba ho patala data le ho fokotsa phihlello
  • Spark e le matla a komporo ea InMemory le PySpark bakeng sa logic le phetoho ea data
  • Parquet ka lebaka la Spark
  • AWS Glue Crawler e le 'mokelli oa lintlha tse mabapi le lintlha tse ncha le likaroloana
  • Redshift Spectrum e le sebopeho sa SQL letšeng la data bakeng sa basebelisi ba teng ba Redshift

Sehlopha se senyenyane sa EMR+Spark se sebelitse pokello eohle ea lifaele ka metsotso e 30. Ho na le linyeoe tse ling tsa AWS, haholo-holo tse ngata tse amanang le Alexa, moo ho nang le lintlha tse ngata.

Haufinyane tjena ke ithutile e 'ngoe ea mathata a letša la data ke GDPR. Bothata ke ha moreki a kopa ho e hlakola mme data e le ho e 'ngoe ea lifaele, re ke ke ra sebelisa Puo ea Manipulation ea Data le ts'ebetso ea DELETE joalo ka database.

Ke tšepa hore sehlooho sena se hlakisitse phapang pakeng tsa polokelo ea data le letša la data. Haeba u ne u thahasella, nka fetolela lingoliloeng tsa ka tse ngata kapa lingoliloeng tsa litsebi tseo ke li balileng. Hape bua ka litharollo tseo ke sebetsang le tsona le meralo ea tsona.

Source: www.habr.com

Eketsa ka tlhaloso