Re phela ka nako e hlollang ha o ka ka potlako le ha bonolo hokela 'maloa itokiselitse entsoeng ka lithulusi tse bulehileng, configure bona le "switched-off kelo-hloko" ho ea ka stackoverflow keletso, ntle le delving ka "litlhaku tse ngata", qala hore ba kene tshebetsong ea khoebo. 'Me ha u hloka ho ntlafatsa / ho atolosa kapa motho ka phoso o tsosolosa mechine e' maloa - hlokomela hore mofuta o mong oa litoro tse mpe tse feteletseng li qalile ha e le hantle, ntho e 'ngoe le e' ngoe e fetohile e rarahaneng ho feta kamoo e neng e lokela ho ba kateng, ha ho na tsela ea ho khutla, bokamoso bo tletse moholi 'me ho bolokehile, ho e-na le lenaneo, ho tsoala linotsi le ho etsa chisi.
Не зря же, более опытные коллеги, с посыпанной багами и от этого уже седой головой, созерцая неправдоподобно быстрое развертывание пачек «контейнеров» в «кубиках» на десятках серверов на «модных языках» со встроенной поддержкой асинхронно-неблокирующего ввода-вывода — скромно улыбаются. И молча продолжают перечитывать «man ps», вникают до кровоточения из глаз в исходники «nginx» и пишут-пишут-пишут юнит-тесты. Коллеги знают, что самое интересное будет впереди, когда «всё это» однажды станет ночью колом под Новый год. И им поможет только глубокое понимание природы unix, заученной таблицы состояний TCP/IP и базовых алгоритмов сортировки-поиска. Чтобы под бой курантов возвращать систему к жизни.
Oh ee, ke ile ka ferekana hanyane, empa ke ts'epa hore ke khonne ho fetisa maikutlo a tebello.
Kajeno ke batla ho arolelana le boiphihlelo ba rona ba ho tsamaisa stack e bonolo le e theko e tlase bakeng sa DataLake, e rarollang boholo ba mesebetsi ea tlhahlobo k'hamphaning bakeng sa likarohano tse fapaneng tsa meralo.
Nakong e fetileng, re ile ra utloisisa hore lik'hamphani li ntse li hloka litholoana tsa lihlahisoa le lisebelisoa tsa theknoloji (re sa bue ka icing ka kaka ka mokhoa oa ho ithuta mochine) le ho utloisisa mekhoa le likotsi, li hloka ho bokella le ho hlahloba metrics e eketsehileng le ho feta.
Litlhahlobo tsa mantlha tsa tekheniki ho Bitrix24
Lilemong tse 'maloa tse fetileng, ka nako e ts'oanang le ts'ebetso ea ts'ebeletso ea Bitrix24, re ile ra tsetela nako le lisebelisoa ka mafolofolo ho theha sethala sa tlhahlobo se bonolo le se tšepahalang se neng se tla thusa ho bona mathata ka potlako lits'ebetsong le ho rera mohato o latelang. Ha e le hantle, ho ne ho lakatseha ho nka lisebelisoa tse lokiselitsoeng le tse bonolo ka ho fetisisa le tse utloisisoang. Ka lebaka leo, nagios e ile ea khethoa bakeng sa ho beha leihlo le munin bakeng sa analytics le pono. Hona joale re na le licheke tse likete ho nagios, li-graph tse makholo ho munin le basebetsi-'moho li li sebelisa ka katleho letsatsi le leng le le leng. Li-metrics lia utloahala, li-graph li hlakile, sistimi e 'nile ea sebetsa ka botšepehi ka lilemo tse' maloa 'me liteko tse ncha le li-graph li eketsoa khafetsa ho eona: re kenya ts'ebeletso e ncha ts'ebetsong - re eketsa liteko le li-graph tse' maloa. Mahlohonolo.
Monoana ho Pulse - Advanced Technical Analytics
Takatso ea ho fumana tlhahisoleseling ka mathata "kapele kamoo ho ka khonehang" e ile ea re lebisa litekong tse sebetsang ka lisebelisoa tse bonolo le tse utloisisoang - pinba le xhprof.
Pinba e re romelletse lipalo-palo ka lebelo la likarolo tsa maqephe a marang-rang a PHP ka lipaketeng tsa UDP, 'me re ne re ka bona lethathamo le lekhutšoanyane la mathata polokelong ea MySQL inthaneteng (pinba e na le enjene ea eona ea MySQL bakeng sa litlhahlobo tsa liketsahalo tse potlakileng) mme re li arabela. 'Me xhprof e ile ea re lumella ka bo eona ho bokella li-graph tsa ts'ebetso ea maqephe a liehang ho feta a PHP ho tsoa ho bareki le ho sekaseka hore na ho ka be ho lebisitse eng ho sena - ka khutso, ho tšela tee kapa ho hong ho matla.
Nakong e fetileng, sesebelisoa sa lisebelisoa se ile sa tlatsetsoa ka enjine e 'ngoe e bonolo le e utloisisoang e ipapisitseng le algorithm ea reverse indexing, e kentsoeng tšebetsong hantle laebraring ea nalane ea Lucene - Elastic/Kibana. Mohopolo o bonolo oa ho rekota litokomane tse nang le likhoele tse ngata ho index ea Lucene e fapaneng e ipapisitseng le liketsahalo tsa log le ho batlisisa ka potlako ho tsona u sebelisa likarolo tse fapaneng - e bile molemo haholo.
Leha ho na le chebahalo ea botekgeniki ea lipono tsa Kibana, tse nang le menahano ea boemo bo tlase joalo ka "bakete" "e phallang holimo" le puo e nchafalitsoeng ea algebra ea kamano e e-so lebalehe, sesebelisoa se fetohile thuso e kholo ho rona mesebetsing e latelang:
- Ke liphoso tse kae tsa PHP tseo moreki oa Bitrix24 a bileng le tsona ho portal ea p1 horang e fetileng mme ke tsa mofuta ofe? Utloisisa, tšoarela 'me u lokise kapele.
- Ke li-call tse kae tsa video tse ileng tsa etsoa li-portal tsa Jeremane lihoreng tse 24 tse fetileng, boleng e ne e le bofe 'me ho ne ho na le mathata a mocha / marang-rang?
- Ts'ebetso ea sistimi (katoloso ea rona ea C bakeng sa PHP) e sebetsa hantle hakae, e hlophisitsoeng ho tsoa mohloling ntlafatsong ea litšebeletso tsa morao-rao le ho fetisetsoa ho bareki? A na ho na le segfaults?
- Na data ea bareki e kena mohopolong oa PHP? Na ho na le liphoso tsa ho feta mohopolo o fanoeng bakeng sa lits'ebetso: "ho tsoa mohopolong"? Fumana le ho fokotsa.
Mona ke mohlala oa konkreite. Leha ho na le liteko tse felletseng le tse fapaneng, moreki, ea nang le nyeoe e sa tloaelehang haholo le data e senyehileng ea ho kenya, o bile le phoso e khopisang le e sa lebelloang, alamo e ile ea lla mme ts'ebetso ea khalemelo ea eona e potlakileng ea qala:

Ho phaella moo, kibana e u lumella ho hlophisa litsebiso bakeng sa liketsahalo tse boletsoeng, 'me ka nako e khutšoanyane, basebetsi ba bangata ba tsoang mafapheng a fapaneng k'hamphaning ba ile ba qala ho sebelisa sesebelisoa - ho tloha ho tšehetso ea tekheniki le nts'etsopele ho QA.
Ts'ebetso ea lefapha lefe kapa lefe ka har'a k'hamphani e se e le bonolo ho e latela le ho e lekanya - ho fapana le ho sekaseka lits'oants'o tsa li-server, ho lekane ho theha marang-rang le ho li romella sehlopheng sa elastic hanngoe, e le hore u natefeloe, ka mohlala, ho nahana ka palo ea likatsana tse nang le lihlooho tse peli tse hatisitsoeng ho printa ea 3-D khoeling e fetileng ea khoeli e holimo ka har'a kibanadash.
Litlhahlobo tsa Motheo tsa Khoebo
Motho e mong le e mong oa tseba hore litlhahlobo tsa khoebo lik'hamphaning hangata li qala ka ts'ebeliso e matla ea, e, Excel. Empa ntho e ka sehloohong ke hore ha e felle moo. Cloud Google Analytics e eketsa mafura mollong - o qala ho tloaela lintho tse ntle kapele.
K'hamphaning ea rona e ntseng e tsoela pele ka tumellano, mona le mane, "baprofeta" ba mosebetsi o matla haholoanyane ba nang le data e kholo ba ile ba qala ho hlaha. Litlhoko tsa litlaleho tse tebileng le tse ngata li ile tsa qala ho hlaha kamehla, 'me ka boiteko ba bahlankana ba tsoang mafapheng a fapaneng, ho ile ha hlophisoa tharollo e bonolo le e sebetsang nakong e fetileng - motsoako oa ClickHouse le PowerBI.
Ka nako e telele, tharollo ena e bonolo e thusitse haholo, empa butle-butle ho ile ha hlaka hore ClickHouse ha e entsoe ka rabara 'me u ke ke ua e sebelisa hampe joalo.
Mona ho bohlokoa ho utloisisa hantle hore ClickHouse, joalo ka Druid, joalo ka Vertica, joalo ka Amazon RedShift (e ipapisitseng le li-postgres), ke lienjineri tsa tlhahlobo tse ntlafalitsoeng bakeng sa li-analytics tse bonolo haholo (lipalo-palo, li-aggregations, bonyane-boholo ka kholomo mme mohlomong le lihlopha tse 'maloa), hobane li hlophisitsoe bakeng sa polokelo e nepahetseng ea litšiea tsa litafole tsa kamano, ho fapana le lethathamo le tsebahalang la MySQL le tse ling tse tsebahalang.
Ha e le hantle, ClickHouse e mpa e le "database" e nang le bokhoni bo eketsehileng e sa kenngoeng hantle haholo (ke kamoo e reriloeng kateng, ntho e 'ngoe le e' ngoe e lokile), empa li-analytics tse monate le sete sa mesebetsi e matla e thahasellisang ea ho sebetsa ka data. E, u ka ba ua theha sehlopha - empa, ua utloisisa, ho otla lipekere tse nang le microscope ha hoa nepahala 'me re ile ra qala ho batla litharollo tse ling.
Tlhokahalo ea python le bahlahlobisisi
Khamphani ea rona e na le bahlahisi ba bangata ba 'nileng ba ngola khoutu hoo e ka bang letsatsi le leng le le leng ka lilemo tse 10-20 ho PHP, JavaScript, C #, C/C++, Java, Go, Rust, Python, Bash. Hape ho na le batsamaisi ba bangata ba nang le phihlelo ba tsamaiso ba pholohileng tlokotsi e fetang e le 'ngoe e sa kholoeng ka ho feletseng e sa lumellaneng le melao ea lipalo-palo (mohlala, ha boholo ba li-disk tse hlaselang-10 li senngoa ke ho otla ho matla ha lehalima). Maemong a joalo, ka nako e telele ho ne ho sa hlaka hore na "python analyst" ke eng. Python e tšoana le PHP, ke lebitso feela le lelelele mme ho na le mesaletsa e seng mekae ea lintho tse fetolang kelello khoutung ea mohloli oa mofetoleli. Leha ho le joalo, ha litlaleho tse ntseng li eketseha tsa tlhahlobo li ntse li etsoa, bahlahisi ba nang le boiphihlelo ba ile ba qala ho utloisisa le ho feta bohlokoa ba tsebo e fokolang ea lisebelisoa tse kang numpy, pandas, matplotlib, seaborn.
Karolo ea makhaola-khang e ne e ka 'na ea bapaloa ke ho akheha ha basebetsi ka tšohanyetso ha ba kopana le mantsoe a reng "logistic regression" le pontšo ea tlaleho e sebetsang ea data e kholo ho sebelisoa e, e, pyspark.
Apache Spark, paradigm ea eona e sebetsang hantle e ipabolang ho algebra le bokhoni ba likamano, e khahlile bahlahisi ba matsoalloa a MySQL hoo tlhoko ea ho matlafatsa maemo le bahlahlobisisi ba nang le boiphihlelo e hlakile joalo ka letsatsi.
Liteko tse ling tsa Apache Spark / Hadoop tsa ho Tloha le se sa kang sa tsamaea ho ea ka Script
Leha ho le joalo, kapele ho ile ha hlaka hore ho na le ho hong ho phoso ka Spark ka mokhoa oa tsamaiso, kapa hore ho ne ho hlokahala feela hore u hlatsoe matsoho hamolemo. Haeba Hadoop/MapReduce/Lucene stack e entsoe ke baetsi ba mananeo ba nang le boiphihlelo, e leng ho totobetseng haeba u sheba ka hloko khoutu ea mohloli oa Java kapa mehopolo ea Doug Cutting ho Lucene, joale Spark, ka tšohanyetso, e ngotsoe ka mokhoa o tsosang khang haholo ho tloha ntlheng ea ts'ebetso mme hajoale ha e hlahise puo e makatsang Scala. Le ho theoha ho tloaelehileng ha lipalo ho sehlopha sa Spark ka lebaka la mosebetsi o sa utloahaleng le o sa bonahaleng haholo ka kabo ea mohopolo bakeng sa ho fokotsa ts'ebetso (linotlolo tse ngata li fihla hang-hang) - li thehile aura ho e potoloha ea ntho e nang le sebaka sa ho hola. Ho phaella moo, boemo bo ne bo mpefatsoa ke palo e kholo ea likou tse makatsang tse bulehileng, lifaele tsa nakoana tse ntseng li hōla libakeng tse sa utloisisoang ka ho fetisisa le lihele tsa ho itšetleha ka nkho - e leng se ileng sa etsa hore motho a be le maikutlo a tloaelehileng ho tloha bongoaneng ho batsamaisi ba tsamaiso: lehloeo le bohale (kapa mohlomong u ne u lokela ho hlatsoa matsoho ka sesepa).
Ka lebaka leo, re "pholohile" merero e mengata ea tlhahlobo ea ka hare e sebelisitseng Apache Spark ka mafolofolo (ho kenyeletsoa Spark Streaming, Spark SQL) le Hadoop ecosystem (joalo-joalo joalo-joalo). Ho sa tsotellehe taba ea hore ha nako e ntse e ea re ile ra ithuta ho lokisetsa le ho beha leihlo "eona" hantle 'me "e" hoo e batlang e khaotsa ho oa ka tšohanyetso ka lebaka la liphetoho tsa sebopeho sa data le ho se leka-lekane ha li-hashing tsa RDD, takatso ea ho nka ntho e lokiselitsoeng, e nchafalitsoeng le e tsamaisoang kae-kae lerung e ile ea e-ba matla le ho feta. E ne e le ka nako ena moo re ileng ra leka ho sebelisa kopano ea maru e itokiselitseng ea Amazon Web Services - 'me, ka mor'a moo, a leka ho rarolla mathata ho eona. EMR ke Apache Spark e lokiselitsoeng ke Amazon ka software e eketsehileng e tsoang ho ecosystem, e batlang e tšoana le likopano tsa Cloudera/Hortonworks.
"Rubber" polokelo ea faele bakeng sa analytics ke tlhoko e potlakileng
Phihlelo ea "ho pheha" Hadoop / Spark ka ho chesa likarolong tse sa tšoaneng tsa 'mele ha ea ka ea ea lefeela. Tlhokahalo ea polokelo ea faele e le 'ngoe, e theko e tlaase ebile e ka tšeptjoa e neng e tla hanana le liphoso tsa Hardware le moo ho neng ho tla khonahala ho boloka lifaele ka mefuta e fapaneng ea litsamaiso tse fapaneng le ho etsa likhetho tse sebetsang hantle le tse nakong bakeng sa litlaleho tse thehiloeng ho data ena e ile ea hlaka haholoanyane.
Ke ne ke boetse ke batla hore ntlafatso ea software bakeng sa sethala sena e se ke ea fetoha toro ea Selemo se Secha ka ho bala maqephe a 20 a Java le ho sekaseka likotoana tsa lihlopha tse bolelele ba lik'hilomithara tse sebelisang Spark History Server le khalase e holisang e nang le likhalase. Ke ne ke batla ho ba le sesebelisoa se bonolo le se pepeneneng se sa hlokeng ho qoela khafetsa tlas'a hood haeba potso e tloaelehileng ea MapReduce ea moqapi e emisa ho sebetsa ha mosebeletsi ea fokotsang data a tlohela mohopolo ka lebaka la algorithm e sa khethoang hantle bakeng sa ho arola data ea mohloli.
Amazon S3 - Mokhethoa oa DataLake?
Phihlelo ea Hadoop / MapReduce e nthutile hore re hloka tsamaiso ea faele e ka tšeptjoang le basebetsi ba scalable holim'a eona, "ba tlang" haufi le data, e le hore re se ke ra romela data ka marang-rang. Basebetsi ba lokela ho tseba ho bala data ka liforomo tse fapaneng, empa, ka ho khetheha, ba se ke ba bala tlhahisoleseling e sa hlokahaleng le hore ho khonehe ho boloka data esale pele ka liforomo tse loketseng basebetsi.
Hang hape, mohopolo oa sehlooho. Ha ho na takatso ea ho "tšolla" data e kholo ka har'a enjene e le 'ngoe ea tlhahlobo ea sehlopha, e tlang kapele kapa hamorao e tla bipeha mme e tla tlameha ho aroloa ka mokhoa o mobe. Re batla ho boloka lifaele, lifaele feela, ka mokhoa o hlakileng le ho etsa lipotso tse sebetsang hantle ho tsona re sebelisa lisebelisoa tse fapaneng, empa tse hlakileng. 'Me ho tla ba le lifaele tse ngata le ho feta ka mekhoa e fapaneng. 'Me ho molemo ho shard eseng enjene, empa data ea mohloli. Re hloka DataLake e atolositsoeng le ea bokahohleng, re nkile qeto…
Ho thoe'ng haeba u boloka lifaele sebakeng sa polokelo ea maru se tloaelehileng le se tsebahalang sa Amazon S3, ntle le ho pheha li-chops tsa Hadoop?
Ho hlakile hore data ea botho "ha e lumelloe", empa ho thoe'ng haeba lintlha tse ling li ntšoa moo 'me li "tsamaea ka katleho"?
Amazon Web Services Cluster-Big Data-Analytics Ecosystem - Ka Melao e Bonolo Haholo
Ha re nahana ka phihlelo ea rona le AWS, Apache Hadoop / MapReduce e 'nile ea sebelisoa ka mafolofolo moo ka nako e telele tlas'a li-sauces tse sa tšoaneng, mohlala tšebeletsong ea DataPipeline (Ke honohela basebetsi-'moho le 'na, ba ithutile ho e pheha ka nepo). Mona re theha li-backups tse tsoang lits'ebeletso tse fapaneng tse tsoang litafoleng tsa DynamoDB:

'Me ba' nile ba matha ka lihlopha tse kentsoeng tsa Hadoop/MapReduce tse kang oache ka lilemo tse ngata joale. "E behe 'me u lebale":

U ka boela ua kenella ka katleho ho Satane oa data ka ho theha lilaptop tsa Jupiter lerung bakeng sa bahlahlobisisi le ho sebelisa tšebeletso ea AWS SageMaker ho koetlisa le ho kenya mefuta ea AI ntoeng. Mona ke kamoo e shebahalang kateng ho rona:

E, u ka iketsetsa laptop ka leru kapa ua e hokahanya le sehlopha sa Hadoop / Spark, u bale ebe u "bolaea" ntho e 'ngoe le e' ngoe:

E hlile e loketse merero ea tlhahlobo ea motho ka mong 'me ho ba bang re sebelisitse tšebeletso ea EMR ka katleho bakeng sa lipalo tse kholo le litlhahlobo. Empa ho thoe'ng ka tharollo ea sistimi bakeng sa DataLake, na e tla sebetsa? Mothating ona re ne re le mothating oa tšepo le ho nyahama 'me re tsoela pele ho batla.
AWS Glue ke Apache Spark e pakiloeng ka makhethe ho li-steroids
Ho ile ha fumaneha hore AWS e na le mofuta oa eona oa stack ea Hive/Pig/Spark. Karolo ea Hive, ke hore lethathamo la lifaele le mefuta ea tsona ho DataLake, e etsoa ke tšebeletso ea lethathamo la data, e sa pateng ho lumellana ha eona le sebopeho sa Apache Hive. U lokela ho eketsa tlhahisoleseding tšebeletsong ena mabapi le hore na lifaele tsa hau li hokae le hore na li na le sebopeho sefe. Lintlha li ka ba feela ho s3, empa hape le ho database, empa sena ha se sehlooho sa poso ena. Mona ke kamoo lethathamo la data la DataLake le hlophisitsoeng bakeng sa rona:

Lifaele li ngolisitsoe, li ntle. Haeba lifaele li ntlafalitsoe, re li hlahisa ka letsoho kapa ka linako tse khasang, tse tla ntlafatsa lintlha ka tsona ho tsoa letšeng le ho li boloka. Joale lintlha tse tsoang letšeng li ka sebetsoa 'me liphetho li kenngoa kae-kae. Boemong bo bonolo, re boetse re kenya ho s3. Ts'ebetso ea data e ka etsoa kae kapa kae, empa ho khothaletsoa ho theha ts'ebetso ho sehlopha sa Apache Spark ho sebelisa likarolo tse tsoetseng pele ka AWS Glue API. Ebile, o ka nka khoutu e ntle ea khale le e tloaelehileng ea python o sebelisa laeborari ea pyspark mme o e hlophise hore e sebetse ho li-node tsa N tsa sehlopha sa bokhoni bo itseng ka ho beha leihlo, ntle le ho cheka mats'oafo a Hadoop le ho hula lijana tsa li-docker-mocker le ho felisa likhohlano tsa ho itšetleha.
Hang hape, mohopolo o bonolo. Ha o hloke ho lokisa Apache Spark, o hloka feela ho ngola khoutu ea python bakeng sa pyspark, e leke sebakeng sa heno komporong ea hau ebe o e tsamaisa sehlopheng se seholo marung, o hlalosa hore na mohloli oa data o hokae le hore na o beha sephetho hokae. Ka linako tse ling sena sea hlokahala ebile se na le thuso mme ke kamoo se hlophisitsoeng bakeng sa rona:

Kahoo, haeba u hloka ho bala ho hong ho sehlopha sa Spark u sebelisa data ho s3, ngola khoutu ho python/pyspark, e leke, ebe u tloha u ea lerung.
Ho thoe'ng ka 'mino oa liletsa? Ho thoe'ng haeba mosebetsi o ne o ka senyeha 'me oa nyamela? E, ho kgothaletswa ho etsa pipeline e ntle ka mokhoa oa Apache Pig mme ra ba ra ba leka, empa re nkile qeto ea ho sebelisa orchestration ea rona e hlophisitsoeng ka botebo ho PHP le JavaScript hajoale (kea utloisisa, ho hlaha ha maikutlo a kelello, empa e sebetsa, ka lilemo le ntle le liphoso).

Sebopeho sa lifaele tse bolokiloeng letšeng ke senotlolo sa ts'ebetso
Ho bohlokoa haholo ho utloisisa lintlha tse ling tse peli tsa bohlokoa. Ho etsa bonnete ba hore lipotso tse lifaeleng tse letšeng li etsoa kapele kamoo ho ka khonehang le hore ts'ebetso ha e fokotsehe ha ho eketsoa lintlha tse ncha, o hloka ho:
- Boloka litšiea tsa lifaele ka thoko (e le hore u se ke ua tlameha ho bala mela eohle ho utloisisa se ka har'a mela). Bakeng sa sena, re nkile sebopeho sa parquet ka compression
- Ho bohlokoa haholo ho arola lifaele ka har'a lifoldara tse kang: puo, selemo, khoeli, letsatsi, beke. Li-engines tse utloisisang mofuta ona oa sharding li tla sheba feela ka har'a li-folders tse hlokahalang, ntle le ho tšela lintlha tsohle ka tatellano.
Ha e le hantle, ka tsela ena, o beha lintlha tsa mohloli ka mokhoa o sebetsang ka ho fetisisa bakeng sa lienjineri tsa tlhahlobo tse leketlileng ka holimo, tse ka khethang ho kenya li-folders tse sharded le ho bala feela likholomo tse hlokahalang ho tsoa lifaeleng. Ha ho na tlhoko ea ho "kenya" data kae kapa kae (polokelo e tla phatloha feela) - e kenye ka mokhoa o utloahalang tsamaisong ea faele ka mokhoa o nepahetseng hang-hang. Ha e le hantle, ho lokela ho hlaka mona hore ho boloka faele e kholo ea csv ho DataLake, e lokelang ho baloa pele mola ka mola ke sehlopha ho ntša litšiea, ha e sebetse haholo. Nahana ka lintlha tse peli tse ka holimo hape haeba ho e-s'o hlake hore na ke hobane'ng ha sena sohle se hlokahala.
AWS Athena - diabolose ka lebokosong la senefi
'Me, ha re ntse re theha letša, ka tsela e itseng re ile ra khoptjoa ho Amazon Athena. Ka tšohanyetso ho ile ha fumaneha hore ka ho bokella lifaele tsa rona tse kholo tsa li-log ka har'a li-folders tsa shards ka sebopeho se nepahetseng (parquet) sa kholomo, o ka etsa likhetho tse rutang haholo ho tsoa ho tsona mme oa theha litlaleho KA NTLE, ntle le sehlopha sa Apache Spark / Glue.
Enjene ea Athena, e sebetsang ho data ho s3, e ipapisitse le nalane - moemeli oa MPP (massive parallel processing) lelapa la mekhoa ea ho sebetsana le data, ho nka data moo e leng teng, ho tloha s3 le Hadoop ho ea Cassandra le lifaele tse tloaelehileng tsa mongolo. U hloka feela ho kopa Athena ho etsa potso ea SQL, ebe ntho e 'ngoe le e' ngoe "e sebetsa ka potlako le ka boeona". Ke habohlokoa ho hlokomela hore Athena o "bohlale", o ea feela ho li-folders tse hlokahalang tse sharded mme o bala feela litšiea tse hlokahalang potsong.
Litheko tsa likopo ho Athena le tsona lia thahasellisa. Re lefella . Ke hore, eseng bakeng sa palo ea mechine ka har'a sehlopha ka motsotso, empa ... bakeng sa data e hlileng e hlahlobiloeng ka mechine ea 100-500, ke lintlha feela tse hlokahalang ho phethahatsa kopo.
'Me ka ho kopa litšiea tse hlokahalang feela ho li-folders tse sharded ka nepo, ho ile ha fumaneha hore tšebeletso ea Athena e re lefella lidolara tse mashome ka khoeli. Ho lokile, hoo e batlang e le mahala, ha ho bapisoa le li-analytics tsa lihlopha!
Ka tsela, ke kamoo re arolang data ea rona ho s3:

Ka lebaka leo, ka nako e khutšoanyane, mafapha a fapaneng ka ho feletseng k'hamphaning, ho tloha ts'ireletso ea tlhahisoleseding ho ea ho li-analytics, a qala ho etsa likōpo ka mafolofolo ho Athena 'me kapele, ka metsotsoana, a fumana likarabo tse molemo ho tsoa ho "data" e kholo ka nako e kholo: likhoeli, halofo ea selemo, joalo-joalo.
Empa re ile ra tswela pele mme ra qala ho ya lerung ho fumana dikarabo. : mohlahlobi oa console e tloaelehileng o ngola potso ea SQL, eo ka mechine ea 100-500 "bakeng sa lipeni" e kopanya ka data ho s3 mme e khutlisetsa karabo hangata ka metsotsoana e seng mekae. E loketseng. Mme kapele. Ke ntse ke sa kholoe.
Ka lebaka leo, kaha re nkile qeto ea ho boloka data ho s3, ka mokhoa o nepahetseng oa kholumo le ka ho arola ka mokhoa o utloahalang oa data ho lifoldara ... re fumane DataLake le enjene ea tlhahlobo e potlakileng le e theko e tlase - mahala. 'Me e ile ea tsebahala haholo k'hamphaning, hobane e utloisisa SQL mme e sebetsa litaelo tsa boholo ka potlako ho feta ka ho qala / ho emisa / ho lokisa lihlopha. "'Me haeba sephetho se tšoana, ke hobane'ng ha u lefa ho feta?"
Kopo ho Athena e shebahala tjena. Haeba a lakatsa, ya e le hantle, o ka theha ka ho lekaneng , empa re tla fella feela ka lihlopha tse bonolo. Ha re shebeng hore na moreki o ne a e-na le likhoutu life libekeng tse 'maloa tse fetileng ho li-database tsa marang-rang mme o netefatse hore ha ho na liphoso:

fumanoeng ke
Ha re se re fetile tseleng e telele, empa e bohloko, re ntse re hlahloba ka ho lekaneng likotsi le boemo ba ho rarahana le litšenyehelo tsa tšehetso, re fumane tharollo bakeng sa DataLake le analytics e sa khaotseng ho re khahlisa ka bobeli ka lebelo le litšenyehelo tsa ho ba le thepa.
Ho ile ha fumaneha hore ho aha dataLake e sebetsang hantle, e potlakileng le e theko e tlase bakeng sa litlhoko tsa mafapha a fapaneng ka ho felletseng a k'hamphani e ka har'a matla a esita le bahlahisi ba nang le boiphihlelo ba e-so ka ba sebetsa e le litsebi tsa meralo le ba sa tsebeng ho hula lisekoere lisekoere ka metsu le ho tseba mantsoe a 50 a tsoang ho Hadoop ecosystem.
Qalong ea leeto, hlooho ea ka e ne e arohane le libaka tse ngata tsa liphoofolo tse hlaha tsa software e bulehileng le e koetsoeng le kutloisiso ea moroalo oa boikarabelo ho litloholo. Qala feela ho haha DataLake ea hau ho lisebelisoa tse bonolo: nagios / munin -> elastic / kibana -> Hadoop / Spark / s3 ..., ho bokella maikutlo le ho utloisisa ka botebo fisiks ea lits'ebetso tse etsahalang. Fana ka ntho e 'ngoe le e' ngoe e rarahaneng le e sa hlakang ho lira tsa hau le bahlolisani ba hau.
Haeba u sa batle ho ea marung 'me u rata ho tšehetsa, ho ntlafatsa le ho pata merero e bulehileng ea mohloli, u ka haha sekema se ts'oanang sebakeng sa heno, ka mechine e theko e tlaase e nang le Hadoop le Presto holimo. Ntho e ka sehloohong ha se ho emisa le ho tsoela pele, ho bala, ho batla litharollo tse bonolo le tse hlakileng 'me ntho e' ngoe le e 'ngoe e tla sebetsa! Mahlohonolo ho bohle 'me ke tla u bona haufinyane!
Source: www.habr.com
