Inona no mampiavaka ny Cloudera sy ny fomba fahandro azy

Ny tsenan'ny informatika zaraina sy angon-drakitra lehibe, araka ny antontan'isa, dia mitombo amin'ny 18-19% isan-taona. Midika izany fa ny olana amin'ny fisafidianana rindrambaiko ho an'ireo tanjona ireo dia mijanona ho manan-danja. Ato amin'ity lahatsoratra ity dia hanomboka amin'ny antony ilana informatika mizara isika, hipetraka amin'ny antsipiriany bebe kokoa momba ny safidy rindrambaiko, hiresaka momba ny fampiasana Hadoop miaraka amin'i Cloudera isika, ary farany dia hiresaka momba ny safidin'ny fitaovana sy ny fiantraikan'izany amin'ny fampisehoana. amin'ny fomba samihafa.

Inona no mampiavaka ny Cloudera sy ny fomba fahandro azy
Nahoana isika no mila informatika zaraina amin'ny orinasa tsotra? Ny zava-drehetra dia tsotra sy sarotra amin'ny fotoana iray ihany. Tsotra - satria amin'ny ankamaroan'ny toe-javatra dia manao kajy tsotra izahay isaky ny singam-baovao. Sarotra - satria be dia be ny vaovao toy izany. be dia be. Ho vokany, dia tsy maintsy manodina terabytes angona amin'ny kofehy 1000. Noho izany, ny trangan-javatra fampiasa dia tena manerana izao rehetra izao: ny kajy dia azo ampiharina na aiza na aiza itakiana ireo metrika marobe amin'ny angona angona lehibe kokoa.

Ohatra iray vao haingana: Dodo Pizza voafaritra mifototra amin'ny famakafakana ny fibaikoan'ny mpanjifa, fa rehefa mifidy pizza misy toppings tsy misy dikany, ny mpampiasa dia matetika miasa miaraka amin'ireo singa fototra enina miampy ireo zavatra roa kisendrasendra. Noho izany, ny pizzeria dia nanitsy ny fividianana. Ankoatra izany, dia afaka nanoro tsara kokoa ny vokatra fanampiny atolotra amin'ny dingana baiko ho an'ny mpampiasa, izay mampitombo ny tombony.

Ohatra iray hafa: fanadihadiana Ny entam-barotra dia nahafahan'ny H&M nampihena ny isan-karazany amin'ny fivarotana tsirairay amin'ny 40%, raha mitazona ny haavon'ny varotra. Izany dia tratra tamin'ny fanilihana ny toerana fivarotana ratsy, ary ny vanim-potoana dia noraisina tamin'ny kajy.

Fifantenana fitaovana

Ny fenitra indostrialy ho an'ity karazana informatika ity dia Hadoop. Nahoana? Satria Hadoop dia rafitra tena tsara sy voarakitra an-tsoratra (io Habr io ihany no manome lahatsoratra amin'ny antsipiriany momba ity lohahevitra ity), izay miaraka amin'ny fitaovana sy tranomboky iray manontolo. Azonao atao ny mametraka andian-dahatsoratry ny angona voarafitra sy tsy voarafitra ho fampidirana, ary ny rafitra mihitsy no hizara izany eo amin'ny herin'ny informatika. Fanampin'izany, ireo fahaiza-manao mitovy ireo dia azo ampitomboina na kilemaina amin'ny fotoana rehetra - izany scalability horizontaly izany ihany no miasa.

Tamin'ny taona 2017, ny orinasa mpanolo-tsaina malaza Gartner namaranafa tsy ho ela i Hadoop dia ho lany andro. Ny antony dia somary banal: ny mpandinika dia mino fa ny orinasa dia hifindra monina amin'ny rahona, satria any izy ireo dia afaka mandoa vola mifototra amin'ny fampiasana ny herin'ny informatika. Ny lafin-javatra manan-danja faharoa heverina ho afaka "mandevina" Hadoop dia ny hafainganam-pandehan'ny asa. Satria ny safidy toa an'i Apache Spark na Google Cloud DataFlow dia haingana kokoa noho ny Hadoop fototra MapReduce.

Ny Hadoop dia miorina amin'ny andry maromaro, ny tena mampiavaka azy dia ny teknolojia MapReduce (rafitra fizarana angon-drakitra ho an'ny kajy eo amin'ny mpizara) sy ny rafitra fichier HDFS. Ity farany dia natao manokana hitahiry ny vaovao zaraina eo anelanelan'ny kluster nodes: ny bloc tsirairay misy habe voafaritra dia azo apetraka amin'ny nodes maromaro, ary noho ny replication, ny rafitra dia mahatohitra ny tsy fahombiazan'ny nodes tsirairay. Raha tokony ho latabatra fichier, server manokana antsoina hoe NameNode no ampiasaina.

Ny sary etsy ambany dia mampiseho ny fomba fiasan'ny MapReduce. Amin'ny dingana voalohany, ny angon-drakitra dia zaraina araka ny toetra iray, amin'ny dingana faharoa dia zaraina amin'ny herin'ny informatika, amin'ny dingana fahatelo dia misy ny kajy.

Inona no mampiavaka ny Cloudera sy ny fomba fahandro azy
Ny MapReduce dia noforonin'i Google ho an'ny filan'ny fikarohana azy. Avy eo dia niditra tao amin'ny kaody maimaim-poana ny MapReduce, ary noraisin'i Apache ny tetikasa. Eny, nifindra tsikelikely nankany amin'ny vahaolana hafa i Google. Fihetseham-po mahaliana: amin'izao fotoana izao, Google dia manana tetikasa antsoina hoe Google Cloud Dataflow, napetraka ho dingana manaraka aorian'ny Hadoop, ho fanoloana haingana.

Ny fijerena akaiky kokoa dia mampiseho fa ny Google Cloud Dataflow dia mifototra amin'ny fiovaovan'ny Apache Beam, raha toa kosa ny Apache Beam dia ahitana ny rafitra Apache Spark voarakitra tsara, izay ahafahantsika miresaka momba ny hafainganan'ny famonoana vahaolana. Eny, miasa tsara ny Apache Spark amin'ny rafitra rakitra HDFS, izay ahafahanao mametraka azy amin'ny mpizara Hadoop.

Ampio eto ny habetsaky ny antontan-taratasy sy ny vahaolana efa vita ho an'ny Hadoop sy Spark manohitra ny Google Cloud Dataflow, ary miharihary ny safidin'ny fitaovana. Ankoatr'izay, ny injeniera dia afaka manapa-kevitra ho an'ny tenany hoe kaody - eo ambanin'ny Hadoop na Spark - hotanterahiny, mifantoka amin'ny asa, traikefa ary fahaiza-manao.

Cloud na mpizara eo an-toerana

Ny fironana mankany amin'ny fifindrana ankapobeny mankany amin'ny rahona aza dia niteraka teny mahaliana toy ny Hadoop-as-a-service. Amin'ny toe-javatra toy izany dia lasa zava-dehibe ny fitantanana ireo mpizara mifandray. Satria, indrisy, na dia eo aza ny lazany, ny Hadoop madio dia fitaovana sarotra amboarina, satria tsy maintsy manao zavatra betsaka amin'ny tanana ianao. Ohatra, azonao atao ny manitsy ny lohamilina tsirairay, manara-maso ny fahombiazan'izy ireo, ary manitsy ny mari-pamantarana maro. Amin'ny ankapobeny, miasa ho an'ny amateur ary misy ny vintana lehibe hanakorontanana na tsy mahita zavatra.

Noho izany, nanjary nalaza be ny fizarana isan-karazany, izay natao tamin'ny voalohany fitaovana fanaparitahana sy fitantanana mety. Iray amin'ireo fizarana malaza indrindra manohana an'i Spark sy manamora ny zavatra dia Cloudera. Manana dikan-teny karamaina sy maimaim-poana izy io - ary amin'ny farany dia misy ny fiasa lehibe rehetra, ary tsy misy fetrany ny isan'ny nodes.

Inona no mampiavaka ny Cloudera sy ny fomba fahandro azy

Mandritra ny fanamboarana, ny Cloudera Manager dia hifandray amin'ny SSH amin'ireo mpizara anao. Hevitra iray mahaliana: rehefa mametraka, dia tsara kokoa ny mamaritra fa ny atao hoe entana: fonosana manokana, ny tsirairay amin'izy ireo dia mirakitra ny singa ilaina rehetra voarindra mba hiara-miasa. Raha ny marina, ity dia dikan-teny nohatsaraina amin'ny mpitantana fonosana.

Aorian'ny fametrahana dia mahazo console fitantanana cluster izahay, izay ahitanao ny telemetry ho an'ny cluster, serivisy napetraka, ary azonao atao ny manampy / manala loharanon-karena ary manova ny fanamafisana cluster.

Inona no mampiavaka ny Cloudera sy ny fomba fahandro azy

Vokatr'izany dia miseho eo anoloanao ny fanapahana an'io balafomanga io, izay hitondra anao any amin'ny hoavy mamirapiratra BigData. Saingy alohan'ny hitenenantsika hoe "Andao isika", andao handroso haingana eo ambanin'ny satroka.

fitakiana fitaovana

Ao amin'ny tranokalan'izy ireo, Cloudera dia manonona ireo fanovana azo atao. Ny fitsipika ankapobeny amin'ny fananganana azy ireo dia aseho amin'ny fanoharana:

Inona no mampiavaka ny Cloudera sy ny fomba fahandro azy
MapReduce dia afaka manjavozavo ity sary feno fanantenana ity. Raha jerena indray ny kisary ao amin'ny fizarana teo aloha, dia hita fa amin'ny ankamaroan'ny toe-javatra rehetra, ny asa MapReduce dia mety hitifitra bottleneck rehefa mamaky angona avy amin'ny kapila na tambajotra. Voamarika ao amin'ny bilaogy Cloudera ihany koa izany. Vokatr'izany, ho an'ny kajikajy haingana, anisan'izany ny Spark, izay matetika ampiasaina amin'ny kajy amin'ny fotoana tena izy, ny hafainganam-pandeha I / O dia tena zava-dehibe. Noho izany, rehefa mampiasa Hadoop, dia zava-dehibe tokoa ny hidiran'ny milina voalanjalanja sy haingana ao anaty cluster, izay, raha lazaina amin'ny fomba malefaka, dia tsy omena ao amin'ny fotodrafitrasa rahona.

Ny fifandanjana eo amin'ny fizarana entana dia tratra amin'ny alΓ lan'ny fampiasana virtoaly Openstack amin'ny lohamilina misy CPU mahery vaika marobe. Ny node data dia omena ny loharanon'ny processeur sy ny kapila sasany. Amin'ny vahaolanay Atos Codex Data Lake Engine vita ny virtoaly midadasika, ka izany no mahatonga antsika handresy na amin'ny lafiny fampisehoana (mihena ny fiantraikan'ny fotodrafitrasa tambajotra) sy ny TCO (esorina ireo mpizara ara-batana fanampiny).

Inona no mampiavaka ny Cloudera sy ny fomba fahandro azy
Raha ny fampiasana ny mpizara BullSequana S200, dia mahazo enta-mavesatra be dia be izahay, tsy misy olana sasany. Ny fanamafisam-peo faran'izay kely indrindra dia misy mpizara BullSequana S3 200, samy manana JBOD roa, miampy S200 fanampiny misy node data efatra dia azo atao mifandray. Ity misy ohatra enta-mavesatra amin'ny fitsapana TeraGen:

Inona no mampiavaka ny Cloudera sy ny fomba fahandro azy

Ny fitsapana miaraka amin'ny habetsaky ny angon-drakitra sy ny sandan'ny replication dia mampiseho valiny mitovy amin'ny resaka fizarana entana manerana ny node cluster. Ity ambany ity ny sarin'ny fitsinjarana ny fidirana amin'ny kapila amin'ny alalan'ny fitsapana fampisehoana.

Inona no mampiavaka ny Cloudera sy ny fomba fahandro azy

Ny kajikajy dia mifototra amin'ny fanamafisana kely indrindra amin'ny mpizara BullSequana S3 200. Tafiditra ao anatin'izany ny node data 9 sy node master 3, ary koa ny milina virtoaly voatokana raha misy ny fametrahana fiarovana mifototra amin'ny OpenStack Virtualization. Valin'ny fitsapana TeraSort: 512 MB ny haben'ny sakana amin'ny fatran'ny famerenana telo miaraka amin'ny fanafenana dia 23,1 minitra.

Ahoana no hanitarana ny rafitra? Misy karazana fanitarana isan-karazany ho an'ny Data Lake Engine:

  • Nodes data: isaky ny 40 TB amin'ny habaka azo ampiasaina
  • Nodes analytika manana fahafahana mametraka GPU
  • Safidy hafa miankina amin'ny filan'ny orinasa (ohatra, raha mila Kafka sy ny toy izany ianao)

Inona no mampiavaka ny Cloudera sy ny fomba fahandro azy

Ny complexe Atos Codex Data Lake Engine dia ahitana ny lohamilina sy ny rindrambaiko efa napetraka mialoha, ao anatin'izany ny kitapo Cloudera misy fahazoan-dΓ lana; Hadoop mihitsy, OpenStack miaraka amin'ny milina virtoaly mifototra amin'ny kernel RedHat Enterprise Linux, replication data ary rafitra backup (anisan'izany ny fampiasana node backup sy Cloudera BDR - Backup and Disaster Recovery). Atos Codex Data Lake Engine no vahaolana virtoaly voalohany voamarina Cloudera.

Raha liana amin'ny antsipiriany ianao dia ho faly hamaly ny fanontanianay ao amin'ny fanehoan-kevitra.

Source: www.habr.com

Add a comment