Mae'r farchnad ar gyfer cyfrifiadura dosbarthedig a data mawr, yn ôl
Pam fod angen cyfrifiadura dosranedig mewn busnes rheolaidd? Mae popeth yma yn syml ac yn gymhleth ar yr un pryd. Syml - oherwydd yn y rhan fwyaf o achosion rydym yn gwneud cyfrifiadau cymharol syml fesul uned o wybodaeth. Mae'n anodd oherwydd mae llawer o wybodaeth o'r fath. Cymaint. O ganlyniad, mae'n angenrheidiol
Un o'r enghreifftiau diweddar: y gadwyn pizzeria Dodo Pizza
Un enghraifft arall:
Dewis offer
Hadoop yw safon y diwydiant ar gyfer y math hwn o gyfrifiadura. Pam? Oherwydd bod Hadoop yn fframwaith rhagorol sydd wedi'i ddogfennu'n dda (mae'r un Habr yn darparu llawer o erthyglau manwl ar y pwnc hwn), sy'n cyd-fynd â set gyfan o gyfleustodau a llyfrgelloedd. Gallwch fewnbynnu setiau enfawr o ddata strwythuredig ac anstrwythuredig, a bydd y system ei hun yn ei ddosbarthu ymhlith y pŵer cyfrifiadurol. Ar ben hynny, gall yr un galluoedd hyn gael eu cynyddu neu eu hanalluogi ar unrhyw adeg - yr un scalability llorweddol ar waith.
Yn 2017, y cwmni ymgynghori dylanwadol Gartner
Mae Hadoop yn dibynnu ar sawl piler, a'r rhai mwyaf nodedig yw technolegau MapReduce (system ar gyfer dosbarthu data ar gyfer cyfrifiadau rhwng gweinyddwyr) a system ffeiliau HDFS. Mae'r olaf wedi'i gynllunio'n arbennig ar gyfer storio gwybodaeth a ddosberthir rhwng nodau clwstwr: gellir gosod pob bloc o faint sefydlog ar sawl nod, a diolch i ddyblygiad, mae'r system yn gallu gwrthsefyll methiannau nodau unigol. Yn lle tabl ffeil, defnyddir gweinydd arbennig o'r enw NameNode.
Mae'r llun isod yn dangos sut mae MapReduce yn gweithio. Yn y cam cyntaf, rhennir y data yn ôl maen prawf penodol, yn yr ail gam caiff ei ddosbarthu yn ôl pŵer cyfrifiadurol, ac yn y trydydd cam mae'r cyfrifiad yn digwydd.
Crëwyd MapReduce yn wreiddiol gan Google ar gyfer ei anghenion chwilio. Yna aeth MapReduce cod am ddim, a chymerodd Apache y prosiect drosodd. Wel, ymfudodd Google yn raddol i atebion eraill. Nodyn diddorol: Ar hyn o bryd mae gan Google brosiect o'r enw Google Cloud Dataflow, wedi'i leoli fel y cam nesaf ar ôl Hadoop, yn ei le cyflym.
Mae golwg agosach yn dangos bod Google Cloud Dataflow yn seiliedig ar amrywiad o Apache Beam, tra bod Apache Beam yn cynnwys fframwaith Apache Spark sydd wedi'i ddogfennu'n dda, sy'n ein galluogi i siarad am bron yr un cyflymder gweithredu o atebion. Wel, mae Apache Spark yn gweithio'n berffaith ar system ffeiliau HDFS, sy'n caniatáu iddo gael ei ddefnyddio ar weinyddion Hadoop.
Ychwanegwch yma faint o ddogfennaeth a datrysiadau parod ar gyfer Hadoop a Spark yn erbyn Google Cloud Dataflow, a daw'r dewis o offeryn yn amlwg. Ar ben hynny, gall peirianwyr benderfynu drostynt eu hunain pa god - ar gyfer Hadoop neu Spark - y dylent ei redeg, gan ganolbwyntio ar y dasg, y profiad a'r cymwysterau.
Cwmwl neu weinydd lleol
Mae'r duedd tuag at drawsnewidiad cyffredinol i'r cwmwl hyd yn oed wedi arwain at derm mor ddiddorol â Hadoop-as-a-service. Mewn sefyllfa o'r fath, daeth gweinyddu gweinyddwyr cysylltiedig yn bwysig iawn. Oherwydd, gwaetha'r modd, er gwaethaf ei boblogrwydd, mae Hadoop pur yn arf eithaf anodd i'w ffurfweddu, gan fod yn rhaid gwneud llawer â llaw. Er enghraifft, ffurfweddu gweinyddwyr yn unigol, monitro eu perfformiad, a ffurfweddu llawer o baramedrau yn ofalus. Yn gyffredinol, mae'r gwaith ar gyfer amatur ac mae siawns fawr o wneud llanast yn rhywle neu golli rhywbeth.
Felly, mae pecynnau dosbarthu amrywiol, sydd â chyfarpar lleoli a gweinyddu cyfleus i ddechrau, wedi dod yn boblogaidd iawn. Un o'r dosbarthiadau mwyaf poblogaidd sy'n cefnogi Spark ac yn gwneud popeth yn hawdd yw Cloudera. Mae ganddo fersiynau taledig a rhad ac am ddim - ac yn yr olaf mae'r holl swyddogaethau sylfaenol ar gael, heb gyfyngu ar nifer y nodau.
Yn ystod y gosodiad, bydd Cloudera Manager yn cysylltu trwy SSH â'ch gweinyddwyr. Pwynt diddorol: wrth osod, mae'n well nodi ei fod yn cael ei wneud gan yr hyn a elwir parsel: pecynnau arbennig, pob un ohonynt yn cynnwys yr holl gydrannau angenrheidiol wedi'u ffurfweddu i weithio gyda'i gilydd. Yn y bôn mae hwn yn fersiwn well o'r rheolwr pecyn.
Ar ôl ei osod, rydyn ni'n derbyn consol rheoli clwstwr, lle gallwch chi weld telemetreg clwstwr, gwasanaethau wedi'u gosod, a gallwch chi ychwanegu / dileu adnoddau a golygu cyfluniad y clwstwr.
O ganlyniad, mae caban y roced a fydd yn mynd â chi i ddyfodol disglair BigData yn ymddangos o'ch blaen. Ond cyn i ni ddweud “gadewch i ni fynd,” gadewch i ni symud o dan y cwfl.
Gofynion caledwedd
Ar ei wefan, mae Cloudera yn sôn am wahanol gyfluniadau posibl. Dangosir yr egwyddorion cyffredinol ar gyfer eu hadeiladu yn yr enghraifft:
Gall MapReduce gymylu'r llun optimistaidd hwn. Os edrychwch eto ar y diagram o'r adran flaenorol, daw'n amlwg, ym mron pob achos, y gall swydd MapReduce ddod ar draws tagfa wrth ddarllen data o ddisg neu o'r rhwydwaith. Mae hyn hefyd yn cael ei nodi yn y blog Cloudera. O ganlyniad, ar gyfer unrhyw gyfrifiadau cyflym, gan gynnwys trwy Spark, a ddefnyddir yn aml ar gyfer cyfrifiadau amser real, mae cyflymder I / O yn bwysig iawn. Felly, wrth ddefnyddio Hadoop, mae'n bwysig iawn bod y clwstwr yn cynnwys peiriannau cytbwys a chyflym, nad yw, i'w roi'n ysgafn, bob amser yn cael ei sicrhau yn seilwaith y cwmwl.
Cyflawnir cydbwysedd mewn dosbarthiad llwyth trwy ddefnyddio rhithwiroli Openstack ar weinyddion gyda CPUs aml-graidd pwerus. Rhoddir eu hadnoddau prosesydd eu hunain a disgiau penodol i nodau data. Yn ein penderfyniad Peiriant Llyn Data Atos Codex Cyflawnir rhithwiroli eang, a dyna pam yr ydym yn elwa o ran perfformiad (mae effaith seilwaith y rhwydwaith yn cael ei leihau) ac o ran TCO (mae gweinyddwyr ffisegol ychwanegol yn cael eu dileu).
Wrth ddefnyddio gweinyddwyr BullSequana S200, rydym yn cael llwyth unffurf iawn, heb rai tagfeydd. Mae'r cyfluniad lleiaf yn cynnwys 3 gweinydd BullSequana S200, pob un â dau JBODs, ynghyd â S200s ychwanegol sy'n cynnwys pedwar nod data wedi'u cysylltu'n ddewisol. Dyma enghraifft o'r llwyth yn y prawf TeraGen:
Mae profion gyda chyfeintiau data gwahanol a gwerthoedd atgynhyrchu yn dangos yr un canlyniadau o ran dosbarthiad llwyth rhwng nodau clwstwr. Isod mae graff o ddosbarthiad mynediad disg yn ôl profion perfformiad.
Perfformiwyd cyfrifiadau yn seiliedig ar gyfluniad lleiaf o 3 gweinydd BullSequana S200. Mae'n cynnwys 9 nod data a 3 prif nod, yn ogystal â pheiriannau rhithwir neilltuedig rhag ofn y bydd amddiffyniad yn cael ei ddefnyddio ar sail Rhithwiroli OpenStack. Canlyniad prawf TeraSort: maint bloc 512 MB ffactor atgynhyrchu hafal i dri gydag amgryptio yw 23,1 munud.
Sut y gellir ehangu'r system? Mae yna wahanol fathau o estyniadau ar gael ar gyfer Data Lake Engine:
- Nodau data: am bob 40 TB o ofod defnyddiadwy
- Nodau dadansoddol gyda'r gallu i osod GPU
- Opsiynau eraill yn dibynnu ar anghenion busnes (er enghraifft, os oes angen Kafka ac ati)
Mae'r Atos Codex Data Lake Engine yn cynnwys y gweinyddwyr eu hunain a meddalwedd a osodwyd ymlaen llaw, gan gynnwys pecyn Cloudera trwyddedig; Hadoop ei hun, OpenStack gyda pheiriannau rhithwir yn seiliedig ar gnewyllyn RedHat Enterprise Linux, dyblygu data a systemau wrth gefn (gan gynnwys defnyddio nod wrth gefn a Cloudera BDR - Backup and Disaster Recovery). Daeth Atos Codex Data Lake Engine yr ateb rhithwiroli cyntaf i gael ei ardystio
Os oes gennych ddiddordeb mewn manylion, byddwn yn hapus i ateb ein cwestiynau yn y sylwadau.
Ffynhonnell: hab.com