Ahoana no nandaminanay DataLake tena mahomby sy tsy lafo ary nahoana no toy izany

Miaina ao anatin'ny vanim-potoana mahagaga izay ahafahanao mampifandray haingana sy mora amin'ny fitaovana open-source maro efa vonona, amboary miaraka amin'ny "fahatsiarovan-tena maty" araka ny torohevitry ny stackoverflow, tsy miditra amin'ny "litera maro", ary manomboka. amin'ny asa ara-barotra izy ireo. Ary rehefa mila manavao / manitatra ianao na misy olona mamerina tsy nahy milina roa - tsapanao fa nanomboka ny karazana nofinofy ratsy, nanjary sarotra be ny zava-drehetra tsy fantatra, tsy misy fiverenana, manjavozavo ny ho avy ary azo antoka kokoa, fa tsy manao programme fa miompy tantely ary manao fromazy.

Tsy inona izany fa ireo mpiara-miasa efa za-draharaha kokoa, miaraka amin'ny lohany feno bibikely ary noho izany dia efa volondavenona, mieritreritra ny fametrahana haingana be ny fonosana "kaody" amin'ny "cubes" amin'ny lohamilina am-polony amin'ny "fiteny lamaody" miaraka amin'ny fanohanana namboarina ho an'ny asynchronous tsy manakana I/O, mitsikia am-panetren-tena . Ary manohy mamaky mangina ny "man ps" izy ireo, miditra ao amin'ny kaody loharanon'ny "nginx" mandra-pandatsa-dra ny masony, ary manoratra, manoratra, manoratra andrana unit. Fantatry ny mpiara-miasa fa ny zavatra mahaliana indrindra dia ho tonga rehefa "izany rehetra izany" indray andro any ho lasa tsatòka amin'ny alina amin'ny Taom-baovao. Ary ny fahatakarana lalina momba ny toetran'ny unix ihany no hanampy azy ireo, ny latabatra fanjakana TCP/IP tsianjery ary ny algoritr'asa fikarohana fototra. Mba hamelona indray ny rafitra rehefa mamely ny feon-tsofina.

Oh eny, somary variana aho, saingy manantena aho fa nahavita nampita ny toetry ny fiandrasana.
Androany aho dia te hizara ny traikefantsika amin'ny fametrahana stack mora sy mora ho an'ny DataLake, izay mamaha ny ankamaroan'ny asa famakafakana ao amin'ny orinasa ho an'ny fizarana ara-drafitra hafa tanteraka.

Fotoana vitsy lasa izay, tonga tamin'ny fahatakarana izahay fa ny orinasa dia mila ny vokatry ny vokatra sy ny fanadihadiana ara-teknika (tsy lazaina intsony ny mofomamy amin'ny endrika fianarana amin'ny milina) ary mba hahatakatra ny fironana sy ny loza mety hitranga - mila manangona sy manadihady isika. mihamaro hatrany ny metrika.

Fanadihadiana ara-teknika fototra ao amin'ny Bitrix24

Taona maro lasa izay, niaraka tamin'ny fanombohana ny serivisy Bitrix24, dia nazoto nampiasa fotoana sy loharano izahay tamin'ny famoronana sehatra famakafakana tsotra sy azo itokisana izay hanampy haingana hahita olana amin'ny fotodrafitrasa sy hanomana ny dingana manaraka. Mazava ho azy fa tsara ny maka fitaovana efa vita izay tsotra sy azo takarina araka izay azo atao. Vokatr'izany, nifidy ny nagios ho an'ny fanaraha-maso sy munin ho an'ny fanadihadiana sy ny fahitana. Ankehitriny dia manana fanamarinana an'arivony izahay ao amin'ny nagios, tabilao an-jatony amin'ny munin, ary ny mpiara-miasa aminay dia mampiasa azy ireo amim-pahombiazana isan'andro. Mazava ny metrika, mazava ny kisary, miasa azo antoka ny rafitra nandritra ny taona maro ary ampiana tsy tapaka ny fitsapana sy kisary vaovao: rehefa mametraka serivisy vaovao izahay dia manampy fitsapana sy kisary maromaro. Mirary anao ho tsara vintana.

Finger on the Pulse - Advanced Technical Analytics

Ny faniriana hahazo vaovao momba ny olana "haingana araka izay azo atao" dia nitarika anay tamin'ny fanandramana mavitrika tamin'ny fitaovana tsotra sy azo takarina - pinba sy xhprof.

Pinba dia nandefa antontan'isa ho anay amin'ny fonosana UDP momba ny hafainganam-pandehan'ny ampahany amin'ny pejy web amin'ny PHP, ary afaka mahita an-tserasera izahay ao amin'ny fitehirizana MySQL (Pinba dia miaraka amin'ny motera MySQL manokana ho an'ny famakafakana hetsika haingana) lisitra fohy misy olana ary mamaly azy ireo. Ary ny xhprof dia namela anay hanangona sarin'ny famonoana ny pejy PHP miadana indrindra avy amin'ny mpanjifa ary hamakafaka izay mety hitarika amin'izany - am-pitoniana, fandrarahana dite na zavatra matanjaka kokoa.

Fotoana vitsy lasa izay, ny kitapom-pitaovana dia nofenoina motera iray hafa tsotra sy azo takarina miorina amin'ny algorithm fanondroana mivadika, napetraka tsara ao amin'ny tranomboky Lucene angano - Elastic/Kibana. Ny hevitra tsotra momba ny firaketana an-tsoratra maromaro amin'ny alàlan'ny fanondroana Lucene mifanohitra amin'ny zava-mitranga ao amin'ny diary sy ny fikarohana haingana amin'ny alàlan'ny fizarazarana endrika dia tena ilaina tokoa.

Na dia eo aza ny endrika ara-teknika amin'ny sary ao Kibana miaraka amin'ny foto-kevitra ambany toy ny "siny" "mikoriana miakatra" sy ny fiteny nohavaozina amin'ny algebra fifandraisana mbola tsy hadino tanteraka, nanomboka nanampy anay tsara tamin'ireto asa manaraka ireto ny fitaovana:

  • Firy ny fahadisoana PHP nataon'ny mpanjifa Bitrix24 tao amin'ny vavahadin-tserasera p1 tao anatin'ny ora farany ary iza avy? Fantaro, mamela heloka ary ahitsio haingana.
  • Firy ny antso an-dahatsary natao tao amin'ny vavahadin-tserasera tany Alemaina tao anatin'ny 24 ora teo aloha, manana kalitao manao ahoana ary nisy olana tamin'ny fantsona/tambajotra?
  • Manao ahoana ny fiasan'ny rafitra (fanitarana C ho an'ny PHP), natambatra avy amin'ny loharano amin'ny fanavaozana serivisy farany ary navoaka ho an'ny mpanjifa? Misy segfaults ve?
  • Mifanaraka amin'ny fahatsiarovana PHP ve ny angona mpanjifa? Misy lesoka ve amin'ny fihoaran'ny fitadidiana natokana ho an'ny fizotry ny asa: "tsy fitadidiana"? Tadiavo ary neutralize.

Ity misy ohatra mivaingana. Na dia eo aza ny fitsapana lalina sy ambaratonga maro, ny mpanjifa, miaraka amin'ny tranga tena tsy manara-penitra sy ny angon-drakitra fampidirana simba, dia nahazo hadisoana manelingelina sy tsy nampoizina, naneno ny sirene ary nanomboka ny dingana fanamboarana azy haingana:

Ahoana no nandaminanay DataLake tena mahomby sy tsy lafo ary nahoana no toy izany

Fanampin'izany, ny kibana dia mamela anao handamina fampahafantarana ho an'ny hetsika voafaritra, ary tao anatin'ny fotoana fohy ny fitaovana ao amin'ny orinasa dia nanomboka nampiasa mpiasa am-polony avy amin'ny sampana samihafa - avy amin'ny fanohanana ara-teknika sy ny fampandrosoana mankany QA.

Ny asan'ny sampan-draharaha rehetra ao amin'ny orinasa dia nanjary mora ny manara-maso sy mandrefy - fa tsy mamakafaka ny logs amin'ny lohamilina, dia mila manangana logs parsing indray mandeha ianao ary mandefa azy ireo any amin'ny cluster elastika mba hankafizana, ohatra, mandinika ao amin'ny kibana dashboard ny isan'ny kittens roa loha amidy natao pirinty tamin'ny mpanonta 3D nandritra ny volana farany.

Basic Business Analytics

Fantatry ny rehetra fa ny famakafakana orinasa amin'ny orinasa matetika dia manomboka amin'ny fampiasana mavitrika, eny, Excel. Fa ny tena zava-dehibe dia tsy mifarana eo izany. Ny Google Analytics miorina amin'ny rahona dia manampy solika amin'ny afo ihany koa - manomboka zatra amin'ny zavatra tsara ianao.

Ao amin'ny orinasanay mirindra mirindra, dia nanomboka niseho tetsy sy teroa ireo “mpaminany” manao asa mafimafy kokoa miaraka amin'ny angona lehibe kokoa. Nanomboka niseho tsy tapaka ny filàna tatitra lalindalina kokoa sy maro karazana, ary tamin'ny alalan'ny ezaka nataon'ireo lehilahy avy amin'ny sampana samihafa, nisy fotoana lasa izay dia nisy vahaolana tsotra sy azo ampiharina - ny fitambaran'ny ClickHouse sy PowerBI.

Nandritra ny fotoana ela dia nanampy betsaka ity vahaolana mora vidy ity, saingy nanomboka tonga tsikelikely ny fahatakarana fa tsy fingotra ny ClickHouse ary tsy azo esoina toy izany.

Eto dia zava-dehibe ny mahatakatra tsara fa ny ClickHouse, toa an'i Druid, toa an'i Vertica, toa an'i Amazon RedShift (izay mifototra amin'ny postgres), dia milina famakafakana natao ho an'ny famakafakana mety tsara (famintinana, aggregations, fara-tampony ambany indrindra amin'ny tsanganana ary mety ho tafiditra vitsivitsy. ), satria nokarakaraina mba hitehirizana tsara ny tsanganana amin'ny latabatra fifandraisana, fa tsy toy ny MySQL sy ny angona hafa (mitodika amin'ny laharana) fantatray.

Raha ny tena izy, ClickHouse dia "database" malalaka kokoa, miaraka amin'ny fampidirana teboka tsy dia mety loatra (izany no fikasana, mety ny zava-drehetra), fa ny fanadihadiana mahafinaritra sy ny andiana fiasa mahery vaika mahaliana ho an'ny miasa miaraka amin'ny data. Eny, afaka mamorona cluster mihitsy aza ianao - saingy azonao fa tsy marina tanteraka ny fantsika fantsika amin'ny mikraoskaopy ary nanomboka nitady vahaolana hafa izahay.

Fitakiana python sy mpandinika

Ny orinasanay dia manana mpamorona maro izay manoratra kaody saika isan'andro mandritra ny 10-20 taona amin'ny PHP, JavaScript, C#, C/C++, Java, Go, Rust, Python, Bash. Maro ihany koa ireo mpitantana rafitra efa za-draharaha izay nisedra loza tsy mampino mihoatra ny iray izay tsy mifanaraka amin'ny lalànan'ny antontan'isa (ohatra, rehefa ravan'ny tselatra mahery vaika ny ankamaroan'ny kapila amin'ny fanafihana-10). Amin'ny toe-javatra toy izany, nandritra ny fotoana ela dia tsy nazava ny atao hoe "mpandinika python". Sahala amin'ny PHP ny Python, ny anarana ihany no lava kokoa ary kely dia kely ny soritr'aretina manova ny saina ao amin'ny kaody loharanon'ny mpandika teny. Na izany aza, rehefa nitombo ny tatitra famakafakana, nanomboka nahatakatra bebe kokoa ny maha-zava-dehibe ny fanasokajiana tery amin'ny fitaovana toy ny numpy, pandas, matplotlib, seaborn ny mpamorona za-draharaha.
Ny anjara andraikitra manan-danja, azo inoana fa, dia nilalao ny torana tampoka ny mpiasa avy amin'ny fitambaran'ny teny hoe "lojistika regression" sy ny fampisehoana ny tatitra mahomby amin'ny angona lehibe mampiasa, eny, eny, pyspark.

Apache Spark, ny paradigma miasa izay mifanaraka tsara amin'ny algebra relational, ary ny fahaiza-manaony dia nahatonga ny fahatsapana ho an'ireo mpamorona zatra MySQL fa ny filàna hanamafisana ny laharana miaraka amin'ireo mpandinika za-draharaha dia nazava toy ny andro.

Fanandramana fanampiny an'ny Apache Spark/Hadoop hialana ary inona no tsy nandeha araka ny script

Na izany aza, tsy ela dia nazava fa nisy zavatra tsy nety tamin'ny Spark, na ilaina fotsiny ny manasa tanana tsara kokoa. Raha ny Hadoop/MapReduce/Lucene stack dia nataon'ireo mpandrindra efa za-draharaha, izay miharihary raha mijery akaiky ny source code ao amin'ny Java na ny hevitr'i Doug Cutting ao Lucene ianao, dia i Spark, tampoka, dia nosoratana tamin'ny fiteny vahiny Scala, izay tena mampiady hevitra amin'ny fomba fijery azo ampiharina ary tsy mivoatra amin'izao fotoana izao. Ary ny fihenan'ny tsy tapaka amin'ny kajy ao amin'ny cluster Spark noho ny asa tsy mitombina sy tsy dia mangarahara miaraka amin'ny famatsiana fahatsiarovana ho an'ny fampihenana ny asa (fanalahidy maro no tonga miaraka) dia namorona halo manodidina azy amin'ny zavatra misy toerana hitombo. Fanampin'izany, niharatsy ny toe-draharaha noho ireo seranana misokatra hafahafa marobe, rakitra vonjimaika mitombo any amin'ny toerana tsy takatry ny saina ary fiankinan-doha amin'ny helo - izay nahatonga ny mpitantana ny rafitra hanana fahatsapana iray izay efa fantatra hatramin'ny fahazazana: fankahalana mahery vaika (na angamba. nila nanasa tanana tamin’ny savony izy ireo).

Vokatr'izany dia "tafavoaka" tetik'asa famakafakana anatiny maro izay mampiasa Apache Spark (anisan'izany ny Spark Streaming, Spark SQL) sy ny tontolo iainana Hadoop (sy ny sisa). Na dia eo aza ny zava-misy fa rehefa nandeha ny fotoana dia nianatra niomana sy nanara-maso tsara ny "izy", ary "izy" dia nijanona tampoka tampoka noho ny fiovan'ny toetry ny angon-drakitra sy ny tsy fitoviana amin'ny fanamiana RDD hashing, ny faniriana haka zavatra efa vonona. , nohavaozina sy nokarakaraina tany amin'ny toerana iray tao amin'ny rahona dia nihamafy sy natanjaka. Tamin'io fotoana io izahay no nanandrana nampiasa ny fivoriambe rahona efa vita an'ny Amazon Web Services - EMR ary avy eo dia niezaka namaha olana tamin'ny fampiasana azy. EMR dia Apache Spark nomanin'ny Amazon miaraka amin'ny rindrambaiko fanampiny avy amin'ny tontolo iainana, mitovy amin'ny fananganana Cloudera/Hortonworks.

Ny fitehirizana rakitra fingotra ho an'ny fanadihadiana dia ilaina maika

Tsy very maina ny traikefa tamin'ny "fandrahoan-tsakafo" Hadoop/Spark misy may amin'ny faritra samihafa amin'ny vatana. Nihabetsaka ny filàna ny famoronana fitehirizana rakitra tokana, tsy lafo ary azo antoka izay mahatohitra ny tsy fahombiazan'ny fitaovana ary ahafahana mitahiry rakitra amin'ny endrika samihafa avy amin'ny rafitra samihafa ary manao santionany mahomby sy mandaitra amin'ny fotoana ho an'ny tatitra avy amin'ity data ity. mazava.

Naniry ihany koa aho fa ny fanavaozana ny rindrambaiko amin'ity sehatra ity dia tsy nivadika ho nofy ratsy tamin'ny Taom-baovao tamin'ny famakiana ny dian'ny Java 20-pejy sy ny famakafakana ireo logs amin'ny antsipirihan'ny kilometatra lava amin'ny cluster amin'ny alàlan'ny Spark History Server sy fitaratra fanamafisam-peo. Te-hanana fitaovana tsotra sy mangarahara izay tsy mitaky fitsirihana tsy tapaka eo ambanin'ny saron-tava aho raha nijanona ny fangatahan'ny MapReduce manara-penitra an'ny mpamorona rehefa lavo tao amin'ny fitadidiana ny mpiasan'ny angon-drakitra noho ny algorithm fizarana angon-drakitra tsy voafantina tsara.

Kandidà ho an'ny DataLake ve i Amazon S3?

Ny traikefa amin'ny Hadoop/MapReduce dia nampianatra anay fa mila rafitra fichier azo ianteherana sy azo ianteherana ary mpiasa azo esorina eo amboniny, "manatona" akaiky kokoa ny angon-drakitra mba tsy hitondrana ny angon-drakitra amin'ny tambajotra. Ny mpiasa dia tokony ho afaka mamaky angon-drakitra amin'ny endrika samihafa, fa aleo tsy mamaky vaovao tsy ilaina ary afaka mitahiry data mialoha amin'ny endrika mety ho an'ny mpiasa.

Indray mandeha, ny hevitra fototra. Tsy misy faniriana ny "handraraka" angon-drakitra lehibe ao anaty motera famakafakana cluster tokana, izay ho kenda na ho ela na ho haingana ary tsy maintsy hosorinao ho ratsy. Te-hitahiry rakitra aho, rakitra fotsiny, amin'ny endrika takatry ny saina ary manao fanontaniana famakafakana mahomby amin'izy ireo amin'ny fampiasana fitaovana samihafa nefa azo takarina. Ary ho betsaka kokoa ny rakitra amin'ny endrika samihafa. Ary tsara kokoa ny tsy ny motera, fa ny angon-drakitra loharano. Mila DataLake miitatra sy manerantany izahay, nanapa-kevitra izahay ...

Ahoana raha mitahiry rakitra ao amin'ny fitehirizana rahona mahazatra sy fanta-daza Amazon S3 ianao, nefa tsy mila manomana ny kobanao manokana avy amin'ny Hadoop?

Mazava fa "ambany" ny angon-drakitra manokana, fa ahoana kosa ny amin'ny angon-drakitra hafa raha esorinay any izy io ary "mitondra azy am-pahombiazana"?

Cluster-bigdata-analytics ecosystem of Amazon Web Services - amin'ny teny tena tsotra

Raha jerena ny traikefantsika tamin'ny AWS, Apache Hadoop/MapReduce dia efa nampiasaina nandritra ny fotoana ela tao ambanin'ny saosy isan-karazany, ohatra amin'ny serivisy DataPipeline (mitsiriritra ny mpiara-miasa amiko aho, nianatra ny fomba hanomanana azy tsara izy ireo). Eto izahay dia mametraka backups avy amin'ny serivisy samihafa avy amin'ny latabatra DynamoDB:
Ahoana no nandaminanay DataLake tena mahomby sy tsy lafo ary nahoana no toy izany

Ary nihazakazaka tsy tapaka izy ireo tamin'ny kluster Hadoop/MapReduce tafiditra toy ny famantaranandro nandritra ny taona maro izao. “Apetraho ary adinoy”:

Ahoana no nandaminanay DataLake tena mahomby sy tsy lafo ary nahoana no toy izany

Azonao atao ihany koa ny mandray anjara amin'ny satanisma data amin'ny alàlan'ny fametrahana solosaina finday Jupiter ao amin'ny rahona ho an'ny mpandinika ary mampiasa ny serivisy AWS SageMaker hanofanana sy hametrahana ny maodely AI amin'ny ady. Toy izao ny endriny ho antsika:

Ahoana no nandaminanay DataLake tena mahomby sy tsy lafo ary nahoana no toy izany

Ary eny, azonao atao ny maka solosaina finday ho anao na mpandinika iray ao amin'ny rahona ary apetaho amin'ny cluster Hadoop/Spark izany, ataovy ny kajikajy ary amboary ny zava-drehetra:

Ahoana no nandaminanay DataLake tena mahomby sy tsy lafo ary nahoana no toy izany

Tena mety ho an'ny tetikasa famakafakana tsirairay ary ho an'ny sasany dia nahomby ny fampiasana ny serivisy EMR ho an'ny kajy sy famakafakana lehibe. Ahoana ny amin'ny vahaolana rafitra ho an'ny DataLake, hahomby ve izany? Amin'izao fotoana izao dia eo an-tampon'ny fanantenana sy ny famoizam-po izahay ary nanohy ny fikarohana.

AWS Glue - Apache Spark voafono tsara amin'ny steroïde

Hita fa ny AWS dia manana ny dikan-teny manokana amin'ny stack "Hive / Pig / Spark". Ny anjara asan'ny Hive, i.e. Ny katalaogin'ny rakitra sy ny karazany ao amin'ny DataLake dia tanterahan'ny serivisy "Data catalog", izay tsy manafina ny fifanarahany amin'ny endrika Apache Hive. Mila manampy fampahalalana amin'ity serivisy ity ianao momba ny toerana misy ny rakitrao ary amin'ny endrika inona izy ireo. Ny angon-drakitra dia mety tsy ao amin'ny s3 ihany, fa ao amin'ny database ihany koa, saingy tsy izany no lohahevitra amin'ity lahatsoratra ity. Toy izao ny fomba fandaminana ny lahatahiry datan'ny DataLake:

Ahoana no nandaminanay DataLake tena mahomby sy tsy lafo ary nahoana no toy izany

Misoratra anarana ny rakitra, tsara. Raha nohavaozina ny rakitra, dia mandefa crawler izahay na amin'ny tanana na amin'ny fandaharam-potoana, izay hanavao ny vaovao momba azy ireo avy amin'ny farihy ary hamonjy azy ireo. Avy eo ny angon-drakitra avy amin'ny farihy dia azo karakaraina ary ny valiny dia alefa any amin'ny toerana iray. Amin'ny tranga tsotra indrindra, ampiakarinay amin'ny s3 ihany koa. Ny fanodinana angon-drakitra dia azo atao na aiza na aiza, saingy soso-kevitra ny hanefa ny fanodinana amin'ny kluster Apache Spark amin'ny fampiasana fahaiza-manao mandroso amin'ny alàlan'ny AWS Glue API. Raha ny marina, azonao atao ny maka ny kaody python efa tranainy sy mahazatra amin'ny alàlan'ny tranomboky pyspark ary amboary ny famonoana azy amin'ny N nodes amin'ny vondron-kery sasany miaraka amin'ny fanaraha-maso, nefa tsy mihady ao anaty tsinain'i Hadoop ary misintona ny docker-moker container ary manafoana ny fifandirana miankina. .

Hevitra tsotra indray. Tsy ilaina ny manamboatra Apache Spark, mila manoratra code python ho an'ny pyspark ianao, andramo eo an-toerana eo amin'ny biraonao ary avy eo dia mandehana amin'ny cluster lehibe ao amin'ny rahona, mamaritra hoe aiza ny angon-drakitra ary aiza no hametrahana ny valiny. Indraindray dia ilaina sy ilaina izany, ary izao no fomba ametrahanay azy:

Ahoana no nandaminanay DataLake tena mahomby sy tsy lafo ary nahoana no toy izany

Noho izany, raha mila manisa zavatra amin'ny kluster Spark ianao amin'ny fampiasana data ao amin'ny s3, dia manoratra code amin'ny python/pyspark izahay, andramo izany ary mirary soa ho an'ny rahona.

Ahoana ny amin'ny orkestra? Ahoana raha lavo ilay asa ary nanjavona? Eny, soso-kevitra ny hanao fantsona tsara tarehy amin'ny fomba Apache Pig ary nanandrana azy ireo mihitsy aza izahay, saingy tamin'izao fotoana izao dia nanapa-kevitra ny hampiasa ny orkestra efa namboarinay lalina ao amin'ny PHP sy JavaScript izahay ( azoko, misy ny tsy fitoviana ara-tsaina, saingy miasa izy io, satria taona ary tsy misy hadisoana).

Ahoana no nandaminanay DataLake tena mahomby sy tsy lafo ary nahoana no toy izany

Ny endriky ny rakitra voatahiry ao anaty farihy no fanalahidin'ny fampisehoana

Tena ilaina tokoa ny mahazo hevi-dehibe roa hafa. Mba hahafahana manatanteraka haingana araka izay azo atao ny fanontaniana momba ny angon-drakitra ao amin'ny farihy ary tsy hiharatsy ny fampisehoana rehefa ampiana fampahalalana vaovao dia mila:

  • Tehirizo misaraka ny tsanganana misy rakitra (mba tsy mila mamaky ny andalana rehetra ianao vao mahazo izay ao anaty tsanganana). Ho an'ity dia naka ny endrika parquet miaraka amin'ny famatrarana izahay
  • Tena zava-dehibe ny manaparitaka ireo rakitra ao anaty lahatahiry toy ny: fiteny, taona, volana, andro, herinandro. Ny motera izay mahafantatra an'io karazana sharding io dia tsy hijery afa-tsy ireo lahatahiry ilaina, tsy misy sivana ny angon-drakitra rehetra misesy.

Amin'ny ankapobeny, amin'ity fomba ity, mametraka ny angon-drakitra loharano amin'ny endrika mahomby indrindra ho an'ny milina famakafakana mihantona eo an-tampony, izay na dia ao anaty lahatahiry sharded aza dia afaka miditra sy mamaky afa-tsy ireo tsanganana ilaina avy amin'ny rakitra. Tsy mila "mameno" ny angon-drakitra na aiza na aiza ianao (hipoaka tsotra izao ny fitahirizana) - apetraho amim-pahendrena avy hatrany ao amin'ny rafi-drakitra amin'ny endrika marina izany. Mazava ho azy fa tokony hazava eto fa ny fitehirizana rakitra csv lehibe ao amin'ny DataLake, izay tsy maintsy vakiana andalana amin'ny andalana voalohany amin'ny cluster mba hanesorana ireo tsanganana, dia tsy dia tsara loatra. Eritrereto indray ireo teboka roa etsy ambony ireo raha tsy mbola mazava ny antony mahatonga izany rehetra izany.

AWS Athena - ilay jack-in-the-box

Ary avy eo, teo am-pamoronana farihy, dia sendra sendra nandalo tao amin'ny Amazon Athena izahay. Tampoka teo dia hita fa amin'ny alàlan'ny fandrindrana amim-pitandremana ireo fichier logicy lehibe ataontsika ao anaty laha-tahiry amin'ny endrika tsanganana marina (parquet), dia azonao atao haingana ny manao safidy tena ahalalana avy amin'izy ireo ary manangana tatitra TSY MISY, tsy misy cluster Apache Spark/Glue.

Ny motera Athena ampiasain'ny data ao amin'ny s3 dia mifototra amin'ny angano Presto - solontena avy amin'ny fianakaviamben'ny MPP (massive parallèle processing) amin'ny fomba fanodinana angon-drakitra, maka angon-drakitra amin'ny toerana misy azy, manomboka amin'ny s3 sy Hadoop mankany Cassandra ary rakitra lahatsoratra tsotra. Mila mangataka an'i Athena ianao hanatanteraka fangatahana SQL, ary avy eo dia "miasa haingana sy mandeha ho azy" ny zava-drehetra. Zava-dehibe ny manamarika fa "smart" i Athena, mandeha any amin'ny lahatahiry sharded ilaina fotsiny izy ary mamaky ny tsanganana ilaina amin'ny fangatahana.

Mahaliana ihany koa ny vidin'ny fangatahana an'i Athena. Mandoa vola izahay habetsahan'ny angona notarafina. Ireo. tsy noho ny isan'ny milina ao amin'ny cluster isa-minitra, fa ... ho an'ny angon-drakitra tena notarafina tamin'ny milina 100-500, ny angon-drakitra ilaina hamitana ny fangatahana ihany.

Ary amin'ny fangatahana ny tsanganana ilaina amin'ny lahatahiry voaravaka marina, dia hita fa ny serivisy Athena dia mitentina dolara am-polony isam-bolana. Eny, tsara, saika maimaim-poana, raha oharina amin'ny analyse momba ny cluster!

Raha ny tokony ho izy, ity no fomba famahanana ny angonay amin'ny s3:

Ahoana no nandaminanay DataLake tena mahomby sy tsy lafo ary nahoana no toy izany

Vokatr'izany, tao anatin'ny fotoana fohy, ny sampana samihafa tanteraka ao amin'ny orinasa, manomboka amin'ny fiarovana ny fampahalalam-baovao ka hatramin'ny analytics, dia nanomboka nanao fangatahana mavitrika tamin'i Athena ary haingana, tao anatin'ny segondra, dia nahazo valiny mahasoa avy amin'ny angona "lehibe" nandritra ny fotoana lava be: volana, antsasaky ny taona, sns. P.

Fa nandeha lavidavitra kokoa izahay ary nanomboka nankany amin'ny rahona mba hahazoana valiny amin'ny alàlan'ny mpamily ODBC: Ny mpandinika iray dia manoratra fanontaniana SQL amin'ny console mahazatra, izay amin'ny milina 100-500 "ho an'ny pennies" dia mandefa angona amin'ny s3 ary mamerina valiny matetika ao anatin'ny segondra vitsy. Mahazo aina. Ary haingana. Mbola tsy mino aho.

Vokatr'izany, rehefa nanapa-kevitra ny hitahiry angon-drakitra ao amin'ny s3, amin'ny endrika tsanganana mahomby ary miaraka amin'ny fizarazarana antonony ao anaty lahatahiry... dia nahazo DataLake sy maotera famakafakana haingana sy mora - maimaimpoana izahay. Ary nanjary nalaza be tao amin'ny orinasa izy, satria... mahatakatra ny SQL ary miasa haingana kokoa noho ny amin'ny fanombohana / fijanonana / fananganana cluster. "Ary raha mitovy ny vokatra, nahoana no mandoa bebe kokoa?"

Toy izao ny fangatahana an'i Athena. Raha tianao, mazava ho azy, dia afaka mamorona ampy fangatahana SQL sarotra sy pejy maro, fa hametra ny tenantsika ho vondrona tsotra isika. Andeha hojerentsika hoe inona ny kaody valin'ny mpanjifa herinandro vitsivitsy lasa izay ao amin'ny diarin'ny mpizara tranonkala ary ho azo antoka fa tsy misy lesoka:

Ahoana no nandaminanay DataLake tena mahomby sy tsy lafo ary nahoana no toy izany

hitany

Rehefa nandalo, tsy hilazana lalana lava, fa mangirifiry, fanombanana tsy tapaka ny loza sy ny haavon'ny fahasarotana ary ny vidin'ny fanohanana, dia nahita vahaolana ho an'ny DataLake sy ny analytics izay tsy mitsahatra mampifaly anay amin'ny hafainganam-pandeha sy ny vidin'ny fananana.

Hita fa ny fananganana DataLake mahomby, haingana ary mora ampiasaina ho an'ny filan'ny sampan-draharaha samihafa ao amin'ny orinasa dia tanteraka ao anatin'ny fahaiza-manaon'ireo mpamorona za-draharaha izay tsy mbola niasa toy ny architects ary tsy mahalala ny fomba fanaovana ny efamira amin'ny efamira misy. zana-tsipìka ary mahafantatra teny 50 avy amin'ny tontolo iainana Hadoop.

Tany am-piandohan'ny dia, ny lohako dia nisaraka tamin'ireo zoo bibidia maro misy rindrambaiko misokatra sy mihidy ary ny fahatakarana ny vesatry ny andraikitra amin'ny taranaka. Atombohy fotsiny ny fananganana ny DataLake anao amin'ny fitaovana tsotra: nagios/munin -> elastic/kibana -> Hadoop/Spark/s3..., manangona tamberina sy mahatakatra lalina ny fizika amin'ireo dingana mitranga. Ny zava-drehetra sarotra sy manjavozavo - omeo ny fahavalo sy ny mpifaninana.

Raha tsy te ho any amin'ny rahona ianao ary te hanohana, manavao ary mametaka ireo tetikasa open-source, dia azonao atao ny manangana drafitra mitovy amin'ny anay eto an-toerana, amin'ny milina birao tsy lafo miaraka amin'i Hadoop sy Presto eo ambony. Ny zava-dehibe dia ny tsy mijanona sy mandroso, manisa, mitady vahaolana tsotra sy mazava, ary ny zava-drehetra dia hahomby! Mirary soa ho an'ny rehetra ary mbola hihaona!

Source: www.habr.com

Add a comment