Mga bagong sukatan ng imbakan ng bagay

Mga bagong sukatan ng imbakan ng bagayFlying Fortress ni Nele-Diel

S3 object storage command Mail.ru Cloud Storage isinalin ang isang artikulo tungkol sa kung anong pamantayan ang mahalaga sa pagpili ng imbakan ng bagay. Ang sumusunod ay ang teksto mula sa pananaw ng may-akda.

Pagdating sa imbakan ng bagay, karaniwang isang bagay lang ang iniisip ng mga tao: presyo bawat TB/GB. Siyempre, mahalaga ang sukatan na ito, ngunit ginagawa nitong isang panig ang diskarte at tinutumbasan ang imbakan ng bagay sa isang tool sa pag-iimbak ng archive. Dagdag pa, binabawasan ng diskarteng ito ang kahalagahan ng pag-iimbak ng bagay para sa stack ng teknolohiya ng enterprise.

Kapag pumipili ng imbakan ng bagay, dapat mong bigyang pansin ang limang katangian:

  • pagganap;
  • scalability;
  • S3 compatible;
  • tugon sa mga pagkabigo;
  • integridad.

Ang limang katangiang ito ay mga bagong sukatan para sa pag-iimbak ng bagay, kasama ang gastos. Tingnan natin silang lahat.

Pagiging Produktibo

Ang mga tradisyonal na tindahan ng bagay ay kulang sa pagganap. Ang mga tagapagbigay ng serbisyo ay patuloy na isinakripisyo ito sa paghahangad ng mababang presyo. Gayunpaman, sa modernong bagay na imbakan ng mga bagay ay iba.

Ang iba't ibang mga storage system ay lumalapit o lumampas pa sa bilis ng Hadoop. Mga modernong kinakailangan para sa bilis ng pagbasa at pagsulat: mula 10 GB/s para sa mga hard drive, hanggang 35 GB/s para sa NVMe. 

Ang throughput na ito ay sapat para sa Spark, Presto, Tensorflow, Teradata, Vertica, Splunk at iba pang modernong computing frameworks sa analytics stack. Ang katotohanan na ang mga database ng MPP ay na-configure para sa imbakan ng bagay ay nagpapahiwatig na ito ay lalong ginagamit bilang pangunahing imbakan.

Kung ang iyong storage system ay hindi nagbibigay ng bilis na kailangan mo, hindi mo magagamit ang data at kunin ang halaga mula dito. Kahit na bawiin mo ang data mula sa imbakan ng bagay patungo sa isang istruktura sa pagpoproseso sa memorya, kakailanganin mo pa rin ng bandwidth upang ilipat ang data papunta at mula sa memorya. Ang mga tindahan ng legacy na bagay ay walang sapat nito.

Ito ang pangunahing punto: ang bagong sukatan ng pagganap ay throughput, hindi latency. Ito ay kinakailangan para sa data sa sukat at ito ang pamantayan sa modernong imprastraktura ng data.

Habang ang mga benchmark ay isang mahusay na paraan upang matukoy ang pagganap, hindi ito tumpak na masukat bago patakbuhin ang application sa kapaligiran. Pagkatapos lamang nito masasabi mo kung nasaan ang eksaktong bottleneck: sa software, mga disk, network o sa antas ng pag-compute.

Scalability

Ang scalability ay tumutukoy sa bilang ng mga petabytes na magkasya sa isang namespace. Ang sinasabi ng mga vendor ay madaling scalability, ang hindi nila sinasabi ay habang sila ay sumusukat, ang napakalaking monolitikong sistema ay nagiging marupok, kumplikado, hindi matatag, at magastos.

Ang bagong sukatan para sa scalability ay ang bilang ng mga namespace o kliyente na maaari mong pagsilbihan. Direktang kinukuha ang sukatan mula sa mga hyperscaler, kung saan ang mga bloke ng gusali ng imbakan ay maliit ngunit sukat sa bilyun-bilyong unit. Sa pangkalahatan, isa itong sukatan ng ulap.

Kapag maliit ang mga building block, mas madaling i-optimize ang mga ito para sa seguridad, kontrol sa pag-access, pamamahala sa patakaran, pamamahala sa lifecycle, at hindi nakakagambalang mga update. At sa huli ay tiyakin ang pagiging produktibo. Ang laki ng building block ay isang function ng controllability ng failure region, na kung saan ay kung gaano kataas ang resilient system na binuo.

Maraming katangian ang multi-tenancy. Bagama't ang dimensyon ay nagsasalita sa kung paano nagbibigay ang mga organisasyon ng access sa data at mga application, tinutukoy din nito ang mismong mga application at ang lohika sa likod ng paghihiwalay sa kanila sa isa't isa.

Mga katangian ng isang modernong diskarte sa multi-client:

  • Sa maikling panahon, ang bilang ng mga kliyente ay maaaring lumago mula sa ilang daan hanggang ilang milyon.
  • Ang mga kliyente ay ganap na nakahiwalay sa isa't isa. Nagbibigay-daan ito sa kanila na magpatakbo ng iba't ibang bersyon ng parehong software at mag-imbak ng mga bagay na may iba't ibang mga configuration, pahintulot, feature, antas ng seguridad at pagpapanatili. Ito ay kinakailangan kapag nag-scale sa mga bagong server, update, at heograpiya.
  • Ang storage ay elastically scalable, ang mga mapagkukunan ay ibinibigay on demand.
  • Ang bawat operasyon ay kinokontrol ng isang API at awtomatiko nang walang interbensyon ng tao.
  • Maaaring i-host ang software sa mga container at gumamit ng mga standard na sistema ng orkestra gaya ng Kubernetes.

S3 compatible

Ang Amazon S3 API ay ang de facto na pamantayan para sa pag-iimbak ng bagay. Ang bawat vendor ng software sa pag-iimbak ng bagay ay nag-aangkin ng pagiging tugma dito. Ang pagiging tugma sa S3 ay binary: alinman ito ay ganap na ipinatupad o hindi.

Sa pagsasagawa, may daan-daan o libu-libong mga sitwasyon sa gilid kung saan may mali kapag gumagamit ng imbakan ng bagay. Lalo na mula sa mga provider ng pagmamay-ari na software at serbisyo. Ang mga pangunahing kaso ng paggamit nito ay direktang pag-archive o pag-backup, kaya kakaunti ang mga dahilan para tawagan ang API, homogenous ang mga kaso ng paggamit.

Ang open source software ay may malaking pakinabang. Sinasaklaw nito ang karamihan sa mga edge na sitwasyon, dahil sa laki at iba't ibang mga application, operating system, at mga arkitektura ng hardware.

Ang lahat ng ito ay mahalaga para sa mga developer ng application, kaya sulit na subukan ang application sa mga provider ng imbakan. Pinapadali ng open source ang prosesoβ€”mas madaling maunawaan kung aling platform ang tama para sa iyong aplikasyon. Maaaring gamitin ang provider bilang isang punto ng pagpasok sa imbakan, ibig sabihin ay matutugunan nito ang iyong mga pangangailangan. 

Ang ibig sabihin ng open source ay: ang mga application ay hindi nakatali sa isang vendor at mas transparent. Tinitiyak nito ang mahabang ikot ng buhay ng aplikasyon.

At ilang higit pang mga tala tungkol sa open source at S3. 

Kung nagpapatakbo ka ng isang malaking application ng data, pinapabuti ng S3 SELECT ang pagganap at kahusayan sa pamamagitan ng isang order ng magnitude. Ginagawa ito sa pamamagitan ng paggamit ng SQL upang makuha lamang ang mga bagay na kailangan mo mula sa imbakan.

Ang pangunahing punto ay suporta para sa mga abiso sa bucket. Pinapadali ng mga bucket notification ang serverless computing, isang mahalagang bahagi ng anumang microservice architecture na inihahatid bilang isang serbisyo. Dahil ang object storage ay epektibong cloud storage, nagiging kritikal ang kakayahang ito kapag ang object storage ay ginagamit ng mga cloud-based na application.

Panghuli, dapat na suportahan ng pagpapatupad ng S3 ang mga Amazon S3 server-side encryption API: SSE-C, SSE-S3, SSE-KMS. Mas mabuti pa, sinusuportahan ng S3 ang tamper protection na tunay na secure. 

Tugon sa mga kabiguan

Ang isang sukatan na malamang na madalas na hindi napapansin ay kung paano pinangangasiwaan ng system ang mga pagkabigo. Nangyayari ang mga pagkabigo sa iba't ibang dahilan, at dapat pangasiwaan ang lahat ng imbakan ng bagay.

Halimbawa, mayroong isang punto ng pagkabigo, ang sukatan nito ay zero.

Sa kasamaang palad, maraming mga object storage system ang gumagamit ng mga espesyal na node na dapat paganahin para gumana nang maayos ang cluster. Kabilang dito ang mga name node o metadata server - lumilikha ito ng isang punto ng pagkabigo.

Kahit na mayroong maraming mga punto ng kabiguan, ang kakayahang makatiis sa sakuna na kabiguan ay pinakamahalaga. Nabigo ang mga disk, nabigo ang mga server. Ang susi ay upang lumikha ng software na idinisenyo upang mahawakan ang pagkabigo bilang isang normal na kondisyon. Kung nabigo ang isang disk o node, ang naturang software ay patuloy na gagana nang walang mga pagbabago.

Tinitiyak ng built-in na proteksyon laban sa pagbura ng data at pagkasira ng data na maaari mong mawala ang kasing dami ng mga disk o node gaya ng mayroon kang mga parity blockβ€”karaniwang kalahati ng mga disk. Pagkatapos lamang ay hindi na maibabalik ng software ang data.

Ang pagkabigo ay bihirang masuri sa ilalim ng pagkarga, ngunit ang naturang pagsubok ay sapilitan. Ang pagtulad sa isang pagkabigo sa pagkarga ay magpapakita ng kabuuang gastos na natamo pagkatapos ng pagkabigo.

Hindi pagbabago

Ang marka ng pagkakapare-pareho na 100% ay tinatawag ding mahigpit na pagkakapare-pareho. Ang pagkakapare-pareho ay isang mahalagang bahagi ng anumang sistema ng imbakan, ngunit bihira ang malakas na pagkakapare-pareho. Halimbawa, ang Amazon S3 ListObject ay hindi mahigpit na pare-pareho, ito ay pare-pareho lamang sa dulo.

Ano ang ibig sabihin ng mahigpit na pagkakapare-pareho? Para sa lahat ng mga operasyon kasunod ng isang kumpirmadong operasyon ng PUT, dapat mangyari ang mga sumusunod:

  • Ang na-update na halaga ay makikita kapag nagbabasa mula sa anumang node.
  • Ang pag-update ay protektado laban sa kalabisan ng pagkabigo ng node.

Nangangahulugan ito na kung hihilahin mo ang plug sa gitna ng isang pag-record, walang mawawala. Ang system ay hindi kailanman nagbabalik ng sira o luma na data. Isa itong mataas na bar na mahalaga sa maraming sitwasyon, mula sa mga transactional na application hanggang sa backup at pagbawi.

Konklusyon

Ito ang mga bagong sukatan ng pag-iimbak ng bagay na nagpapakita ng mga pattern ng paggamit sa mga organisasyon ngayon, kung saan ang performance, consistency, scalability, fault domain at S3 compatibility ay ang mga building blocks para sa cloud applications at big data analytics. Inirerekomenda kong gamitin ang listahang ito bilang karagdagan sa presyo kapag gumagawa ng mga modernong data stack. 

Tungkol sa Mail.ru Cloud Solutions object storage: S3 arkitektura. 3 taon ng ebolusyon ng Mail.ru Cloud Storage.

Ano pa ang dapat basahin:

  1. Isang halimbawa ng application na hinimok ng kaganapan batay sa mga webhook sa S3 object storage na Mail.ru Cloud Solutions.
  2. Higit sa Ceph: MCS cloud block storage 
  3. Paggawa gamit ang Mail.ru Cloud Solutions S3 object storage bilang isang file system.
  4. Ang aming Telegram channel na may mga balita tungkol sa mga update sa S3 storage at iba pang mga produkto

Pinagmulan: www.habr.com

Magdagdag ng komento