Beth sy'n arbennig am Cloudera a sut i'w goginio

Mae'r farchnad ar gyfer cyfrifiadura dosbarthedig a data mawr, yn ôl ystadegau, yn tyfu 18-19% y flwyddyn. Mae hyn yn golygu bod y mater o ddewis meddalwedd at y dibenion hyn yn parhau i fod yn berthnasol. Yn y swydd hon, byddwn yn dechrau gyda pham mae angen cyfrifiadura dosranedig, yn mynd i fwy o fanylion am ddewis meddalwedd, yn siarad am ddefnyddio Hadoop gan ddefnyddio Cloudera, ac yn olaf yn siarad am ddewis caledwedd a sut mae'n effeithio ar berfformiad mewn gwahanol ffyrdd.

Beth sy'n arbennig am Cloudera a sut i'w goginio
Pam fod angen cyfrifiadura dosranedig mewn busnes rheolaidd? Mae popeth yma yn syml ac yn gymhleth ar yr un pryd. Syml - oherwydd yn y rhan fwyaf o achosion rydym yn gwneud cyfrifiadau cymharol syml fesul uned o wybodaeth. Mae'n anodd oherwydd mae llawer o wybodaeth o'r fath. Cymaint. O ganlyniad, mae'n angenrheidiol prosesu terabytes o ddata mewn 1000 o edafedd. Felly, mae'r achosion defnydd yn eithaf cyffredinol: gellir defnyddio cyfrifiadau lle bynnag y mae angen ystyried nifer fawr o fetrigau ar amrywiaeth hyd yn oed yn fwy o ddata.

Un o'r enghreifftiau diweddar: y gadwyn pizzeria Dodo Pizza diffiniedig yn seiliedig ar ddadansoddiad o'r gronfa ddata archebion cwsmeriaid, wrth ddewis pizza gyda thopin ar hap, mae defnyddwyr fel arfer yn gweithredu gyda dim ond chwe set sylfaenol o gynhwysion ynghyd â chwpl o rai ar hap. Yn unol â hyn, addasodd y pizzeria ei bryniannau. Yn ogystal, roedd hi'n gallu argymell yn well y cynhyrchion ychwanegol a gynigir i ddefnyddwyr yn ystod y cam archebu, a oedd yn cynyddu elw.

Un enghraifft arall: dadansoddiad roedd eitemau cynnyrch yn caniatáu i'r siop H&M leihau'r amrywiaeth mewn siopau unigol 40%, tra'n cynnal lefelau gwerthiant. Cyflawnwyd hyn trwy eithrio eitemau oedd yn gwerthu'n wael, ac ystyriwyd natur dymhorol yn y cyfrifiadau.

Dewis offer

Hadoop yw safon y diwydiant ar gyfer y math hwn o gyfrifiadura. Pam? Oherwydd bod Hadoop yn fframwaith rhagorol sydd wedi'i ddogfennu'n dda (mae'r un Habr yn darparu llawer o erthyglau manwl ar y pwnc hwn), sy'n cyd-fynd â set gyfan o gyfleustodau a llyfrgelloedd. Gallwch fewnbynnu setiau enfawr o ddata strwythuredig ac anstrwythuredig, a bydd y system ei hun yn ei ddosbarthu ymhlith y pŵer cyfrifiadurol. Ar ben hynny, gall yr un galluoedd hyn gael eu cynyddu neu eu hanalluogi ar unrhyw adeg - yr un scalability llorweddol ar waith.

Yn 2017, y cwmni ymgynghori dylanwadol Gartner i beny bydd Hadoop yn darfod yn fuan. Mae'r rheswm yn eithaf banal: mae dadansoddwyr yn credu y bydd cwmnïau'n mudo'n llu i'r cwmwl, oherwydd yno byddant yn gallu talu wrth iddynt ddefnyddio pŵer cyfrifiadurol. Yr ail ffactor pwysig a all, yn ôl pob sôn, “gladdu” Hadoop yw ei gyflymder. Oherwydd bod opsiynau fel Apache Spark neu Google Cloud DataFlow yn gyflymach na MapReduce, sy'n sail i Hadoop.

Mae Hadoop yn dibynnu ar sawl piler, a'r rhai mwyaf nodedig yw technolegau MapReduce (system ar gyfer dosbarthu data ar gyfer cyfrifiadau rhwng gweinyddwyr) a system ffeiliau HDFS. Mae'r olaf wedi'i gynllunio'n arbennig ar gyfer storio gwybodaeth a ddosberthir rhwng nodau clwstwr: gellir gosod pob bloc o faint sefydlog ar sawl nod, a diolch i ddyblygiad, mae'r system yn gallu gwrthsefyll methiannau nodau unigol. Yn lle tabl ffeil, defnyddir gweinydd arbennig o'r enw NameNode.

Mae'r llun isod yn dangos sut mae MapReduce yn gweithio. Yn y cam cyntaf, rhennir y data yn ôl maen prawf penodol, yn yr ail gam caiff ei ddosbarthu yn ôl pŵer cyfrifiadurol, ac yn y trydydd cam mae'r cyfrifiad yn digwydd.

Beth sy'n arbennig am Cloudera a sut i'w goginio
Crëwyd MapReduce yn wreiddiol gan Google ar gyfer ei anghenion chwilio. Yna aeth MapReduce cod am ddim, a chymerodd Apache y prosiect drosodd. Wel, ymfudodd Google yn raddol i atebion eraill. Nodyn diddorol: Ar hyn o bryd mae gan Google brosiect o'r enw Google Cloud Dataflow, wedi'i leoli fel y cam nesaf ar ôl Hadoop, yn ei le cyflym.

Mae golwg agosach yn dangos bod Google Cloud Dataflow yn seiliedig ar amrywiad o Apache Beam, tra bod Apache Beam yn cynnwys fframwaith Apache Spark sydd wedi'i ddogfennu'n dda, sy'n ein galluogi i siarad am bron yr un cyflymder gweithredu o atebion. Wel, mae Apache Spark yn gweithio'n berffaith ar system ffeiliau HDFS, sy'n caniatáu iddo gael ei ddefnyddio ar weinyddion Hadoop.

Ychwanegwch yma faint o ddogfennaeth a datrysiadau parod ar gyfer Hadoop a Spark yn erbyn Google Cloud Dataflow, a daw'r dewis o offeryn yn amlwg. Ar ben hynny, gall peirianwyr benderfynu drostynt eu hunain pa god - ar gyfer Hadoop neu Spark - y dylent ei redeg, gan ganolbwyntio ar y dasg, y profiad a'r cymwysterau.

Cwmwl neu weinydd lleol

Mae'r duedd tuag at drawsnewidiad cyffredinol i'r cwmwl hyd yn oed wedi arwain at derm mor ddiddorol â Hadoop-as-a-service. Mewn sefyllfa o'r fath, daeth gweinyddu gweinyddwyr cysylltiedig yn bwysig iawn. Oherwydd, gwaetha'r modd, er gwaethaf ei boblogrwydd, mae Hadoop pur yn arf eithaf anodd i'w ffurfweddu, gan fod yn rhaid gwneud llawer â llaw. Er enghraifft, ffurfweddu gweinyddwyr yn unigol, monitro eu perfformiad, a ffurfweddu llawer o baramedrau yn ofalus. Yn gyffredinol, mae'r gwaith ar gyfer amatur ac mae siawns fawr o wneud llanast yn rhywle neu golli rhywbeth.

Felly, mae pecynnau dosbarthu amrywiol, sydd â chyfarpar lleoli a gweinyddu cyfleus i ddechrau, wedi dod yn boblogaidd iawn. Un o'r dosbarthiadau mwyaf poblogaidd sy'n cefnogi Spark ac yn gwneud popeth yn hawdd yw Cloudera. Mae ganddo fersiynau taledig a rhad ac am ddim - ac yn yr olaf mae'r holl swyddogaethau sylfaenol ar gael, heb gyfyngu ar nifer y nodau.

Beth sy'n arbennig am Cloudera a sut i'w goginio

Yn ystod y gosodiad, bydd Cloudera Manager yn cysylltu trwy SSH â'ch gweinyddwyr. Pwynt diddorol: wrth osod, mae'n well nodi ei fod yn cael ei wneud gan yr hyn a elwir parsel: pecynnau arbennig, pob un ohonynt yn cynnwys yr holl gydrannau angenrheidiol wedi'u ffurfweddu i weithio gyda'i gilydd. Yn y bôn mae hwn yn fersiwn well o'r rheolwr pecyn.

Ar ôl ei osod, rydyn ni'n derbyn consol rheoli clwstwr, lle gallwch chi weld telemetreg clwstwr, gwasanaethau wedi'u gosod, a gallwch chi ychwanegu / dileu adnoddau a golygu cyfluniad y clwstwr.

Beth sy'n arbennig am Cloudera a sut i'w goginio

O ganlyniad, mae caban y roced a fydd yn mynd â chi i ddyfodol disglair BigData yn ymddangos o'ch blaen. Ond cyn i ni ddweud “gadewch i ni fynd,” gadewch i ni symud o dan y cwfl.

Gofynion caledwedd

Ar ei wefan, mae Cloudera yn sôn am wahanol gyfluniadau posibl. Dangosir yr egwyddorion cyffredinol ar gyfer eu hadeiladu yn yr enghraifft:

Beth sy'n arbennig am Cloudera a sut i'w goginio
Gall MapReduce gymylu'r llun optimistaidd hwn. Os edrychwch eto ar y diagram o'r adran flaenorol, daw'n amlwg, ym mron pob achos, y gall swydd MapReduce ddod ar draws tagfa wrth ddarllen data o ddisg neu o'r rhwydwaith. Mae hyn hefyd yn cael ei nodi yn y blog Cloudera. O ganlyniad, ar gyfer unrhyw gyfrifiadau cyflym, gan gynnwys trwy Spark, a ddefnyddir yn aml ar gyfer cyfrifiadau amser real, mae cyflymder I / O yn bwysig iawn. Felly, wrth ddefnyddio Hadoop, mae'n bwysig iawn bod y clwstwr yn cynnwys peiriannau cytbwys a chyflym, nad yw, i'w roi'n ysgafn, bob amser yn cael ei sicrhau yn seilwaith y cwmwl.

Cyflawnir cydbwysedd mewn dosbarthiad llwyth trwy ddefnyddio rhithwiroli Openstack ar weinyddion gyda CPUs aml-graidd pwerus. Rhoddir eu hadnoddau prosesydd eu hunain a disgiau penodol i nodau data. Yn ein penderfyniad Peiriant Llyn Data Atos Codex Cyflawnir rhithwiroli eang, a dyna pam yr ydym yn elwa o ran perfformiad (mae effaith seilwaith y rhwydwaith yn cael ei leihau) ac o ran TCO (mae gweinyddwyr ffisegol ychwanegol yn cael eu dileu).

Beth sy'n arbennig am Cloudera a sut i'w goginio
Wrth ddefnyddio gweinyddwyr BullSequana S200, rydym yn cael llwyth unffurf iawn, heb rai tagfeydd. Mae'r cyfluniad lleiaf yn cynnwys 3 gweinydd BullSequana S200, pob un â dau JBODs, ynghyd â S200s ychwanegol sy'n cynnwys pedwar nod data wedi'u cysylltu'n ddewisol. Dyma enghraifft o'r llwyth yn y prawf TeraGen:

Beth sy'n arbennig am Cloudera a sut i'w goginio

Mae profion gyda chyfeintiau data gwahanol a gwerthoedd atgynhyrchu yn dangos yr un canlyniadau o ran dosbarthiad llwyth rhwng nodau clwstwr. Isod mae graff o ddosbarthiad mynediad disg yn ôl profion perfformiad.

Beth sy'n arbennig am Cloudera a sut i'w goginio

Perfformiwyd cyfrifiadau yn seiliedig ar gyfluniad lleiaf o 3 gweinydd BullSequana S200. Mae'n cynnwys 9 nod data a 3 prif nod, yn ogystal â pheiriannau rhithwir neilltuedig rhag ofn y bydd amddiffyniad yn cael ei ddefnyddio ar sail Rhithwiroli OpenStack. Canlyniad prawf TeraSort: maint bloc 512 MB ffactor atgynhyrchu hafal i dri gydag amgryptio yw 23,1 munud.

Sut y gellir ehangu'r system? Mae yna wahanol fathau o estyniadau ar gael ar gyfer Data Lake Engine:

  • Nodau data: am bob 40 TB o ofod defnyddiadwy
  • Nodau dadansoddol gyda'r gallu i osod GPU
  • Opsiynau eraill yn dibynnu ar anghenion busnes (er enghraifft, os oes angen Kafka ac ati)

Beth sy'n arbennig am Cloudera a sut i'w goginio

Mae'r Atos Codex Data Lake Engine yn cynnwys y gweinyddwyr eu hunain a meddalwedd a osodwyd ymlaen llaw, gan gynnwys pecyn Cloudera trwyddedig; Hadoop ei hun, OpenStack gyda pheiriannau rhithwir yn seiliedig ar gnewyllyn RedHat Enterprise Linux, dyblygu data a systemau wrth gefn (gan gynnwys defnyddio nod wrth gefn a Cloudera BDR - Backup and Disaster Recovery). Daeth Atos Codex Data Lake Engine yr ateb rhithwiroli cyntaf i gael ei ardystio Cloudera.

Os oes gennych ddiddordeb mewn manylion, byddwn yn hapus i ateb ein cwestiynau yn y sylwadau.

Ffynhonnell: hab.com

Ychwanegu sylw