Bagaimana memilih penyimpanan tanpa merugikan diri sendiri

pengenalan

Saatnya membeli penyimpanan. Yang mana yang harus diambil, siapa yang harus didengarkan? Vendor A berbicara tentang vendor B, dan kemudian ada integrator C, yang mengatakan sebaliknya dan memberi saran kepada vendor D. Dalam situasi seperti ini, bahkan kepala arsitek penyimpanan berpengalaman pun akan pusing, terutama dengan semua vendor baru dan SDS serta hiperkonvergensi yang modis Hari ini.

Jadi, bagaimana Anda mengetahui semuanya dan tidak menjadi orang bodoh? Kami (AntonVirtual Anton Zhbankov dan tubuh Evgeniy Elizarov) mari kita coba membicarakan hal ini dalam bahasa Rusia yang sederhana.
Artikel tersebut memiliki banyak kesamaan dan sebenarnya merupakan perpanjangan dari “Desain pusat data tervirtualisasi” dalam hal memilih sistem penyimpanan dan meninjau teknologi penyimpanan. Kami akan melihat secara singkat teori umumnya, tetapi kami menyarankan Anda juga membaca artikel ini.

Kenapa

Anda sering dapat melihat situasi ketika orang baru datang ke forum atau obrolan khusus, seperti Diskusi Penyimpanan, dan mengajukan pertanyaan: “di sini mereka menawarkan saya dua opsi penyimpanan - ABC SuperStorage S600 dan XYZ HyperOcean 666v4, apa yang Anda rekomendasikan? ?”

Dan kebingungan dimulai tentang siapa yang memiliki ciri-ciri penerapan fitur-fitur yang mengerikan dan tidak dapat dipahami, yang bagi orang yang tidak siap sepenuhnya adalah bahasa Cina.

Jadi, pertanyaan kunci dan pertama yang perlu Anda tanyakan pada diri sendiri jauh sebelum membandingkan spesifikasi dalam proposal komersial adalah MENGAPA? Mengapa sistem penyimpanan ini diperlukan?

Bagaimana memilih penyimpanan tanpa merugikan diri sendiri

Jawabannya tidak terduga, dan sangat bergaya Tony Robbins - untuk menyimpan data. Terima kasih, kapten! Namun, kadang-kadang kita terlalu mendalami perbandingan detail sehingga kita lupa mengapa kita melakukan semua ini.

Jadi, tugas sistem penyimpanan data adalah menyimpan dan menyediakan akses DATA dengan kinerja tertentu. Kami akan mulai dengan data.

Data

Tipe data

Jenis data apa yang ingin kami simpan? Sebuah pertanyaan yang sangat penting yang dapat menghilangkan banyak sistem penyimpanan dari pertimbangan. Misalnya, Anda berencana menyimpan video dan foto. Anda dapat segera mencoret sistem yang dirancang untuk akses acak dalam blok kecil, atau sistem dengan fitur kepemilikan dalam kompresi/deduplikasi. Ini mungkin sistem yang sangat bagus, kami tidak ingin mengatakan hal buruk. Namun dalam kasus ini, kekuatannya akan menjadi lemah (video dan foto tidak dikompresi) atau hanya meningkatkan biaya sistem secara signifikan.

Sebaliknya, jika tujuan penggunaan adalah DBMS transaksional yang sibuk, maka sistem streaming multimedia yang mampu memberikan gigabyte per detik akan menjadi pilihan yang buruk.

Volume datanya

Berapa banyak data yang ingin kami simpan? Kuantitas selalu berkembang menjadi kualitas; hal ini tidak boleh dilupakan, terutama di masa pertumbuhan volume data yang eksponensial. Sistem kelas petabyte sudah tidak asing lagi, namun semakin besar kapasitas petabyte, semakin spesifik sistem tersebut, maka fungsi sistem akses acak berukuran kecil dan menengah akan semakin sulit diakses. Hal ini sepele karena tabel statistik akses blok saja menjadi lebih besar dari jumlah RAM yang tersedia pada pengontrol. Belum lagi kompresi/tiering. Katakanlah kita ingin mengganti algoritma kompresi ke algoritma yang lebih kuat dan mengompresi 20 petabyte data. Berapa lama waktu yang dibutuhkan: enam bulan, satu tahun?

Di sisi lain, mengapa repot-repot jika Anda perlu menyimpan dan memproses data sebesar 500 GB? Hanya 500. SSD rumah tangga (dengan DWPD rendah) sebesar ini tidak memerlukan biaya apa pun. Mengapa membangun pabrik Fibre Channel dan membeli sistem penyimpanan eksternal kelas atas yang harganya setara dengan jembatan besi cor?

Berapa persentase total data panas? Seberapa tidak meratakah beban dalam hal volume data? Di sinilah teknologi penyimpanan berjenjang atau Flash Cache bisa sangat membantu jika jumlah data panas sedikit dibandingkan totalnya. Atau sebaliknya, dengan beban yang seragam di seluruh volume, yang sering ditemukan pada sistem streaming (pengawasan video, beberapa sistem analitik), teknologi tersebut tidak akan memberikan apa pun dan hanya akan meningkatkan biaya/kompleksitas sistem.

IS

Sisi lain dari data adalah sistem informasi yang menggunakan data tersebut. IS memiliki serangkaian persyaratan yang mewarisi data. Untuk informasi selengkapnya tentang IS, lihat “Desain Pusat Data Virtual.”

Persyaratan Ketahanan/Ketersediaan

Persyaratan toleransi kesalahan/ketersediaan data diwarisi dari IS yang menggunakannya dan dinyatakan dalam tiga angka - RPO, RTO, tersedianya.

Ketersediaan — bagian untuk jangka waktu tertentu selama data tersedia untuk digunakan. Biasanya dinyatakan sebagai angka 9. Misalnya, dua angka sembilan per tahun berarti ketersediaannya 99%, atau sebaliknya diperbolehkan 95 jam ketidaktersediaan per tahun. Tiga sembilan - 9,5 jam per tahun.

RPO/RTO bukan merupakan indikator total, melainkan untuk setiap kejadian (kecelakaan), berbeda dengan ketersediaan.

RPO — jumlah data yang hilang akibat kecelakaan (dalam jam). Misalnya jika backup dilakukan sehari sekali, maka RPO = 24 jam. Itu. Jika terjadi bencana dan sistem penyimpanan hilang sepenuhnya, data dapat hilang hingga 24 jam (sejak saat pencadangan). Berdasarkan RPO yang ditentukan untuk IS, misalnya, peraturan cadangan ditulis. Selain itu, berdasarkan RPO, Anda dapat memahami berapa banyak replikasi data sinkron/asinkron yang diperlukan.

RTO — waktu untuk memulihkan layanan (akses data) setelah terjadi bencana. Berdasarkan nilai RTO yang diberikan, kita dapat memahami apakah metro cluster diperlukan, atau apakah replikasi searah saja sudah cukup. Apakah Anda memerlukan sistem penyimpanan multi-kontroler kelas atas?

Bagaimana memilih penyimpanan tanpa merugikan diri sendiri

Persyaratan Kinerja

Meskipun ini adalah pertanyaan yang sangat jelas, namun di sinilah sebagian besar kesulitan muncul. Bergantung pada apakah Anda sudah memiliki infrastruktur atau belum, cara untuk mengumpulkan statistik yang diperlukan akan dibangun.

Anda sudah memiliki sistem penyimpanan dan sedang mencari penggantinya atau ingin membeli yang lain untuk perluasan. Semuanya sederhana di sini. Anda memahami layanan apa yang sudah Anda miliki dan yang Anda rencanakan untuk diterapkan dalam waktu dekat. Berdasarkan layanan saat ini, Anda memiliki kesempatan untuk mengumpulkan statistik kinerja. Tentukan jumlah IOPS saat ini dan latensi saat ini - apa saja indikator ini dan apakah cukup untuk tugas Anda? Hal ini dapat dilakukan baik pada sistem penyimpanan data itu sendiri maupun dari host yang terhubung dengannya.

Selain itu, Anda perlu melihat tidak hanya beban saat ini, tetapi juga untuk jangka waktu tertentu (sebaiknya sebulan). Lihat berapa puncak maksimum pada siang hari, beban apa yang dibuat cadangan, dll. Jika sistem penyimpanan Anda atau perangkat lunaknya tidak memberi Anda kumpulan lengkap data ini, Anda dapat menggunakan RRDtool gratis, yang dapat bekerja dengan sebagian besar sistem dan sakelar penyimpanan paling populer dan dapat memberi Anda statistik kinerja terperinci. Penting juga untuk melihat beban pada host yang bekerja dengan sistem penyimpanan ini, untuk mesin virtual tertentu, atau apa sebenarnya yang berjalan pada host ini.

Bagaimana memilih penyimpanan tanpa merugikan diri sendiri

Perlu dicatat secara terpisah bahwa jika penundaan pada volume dan penyimpanan data yang terletak pada volume ini berbeda cukup signifikan, Anda harus memperhatikan jaringan SAN Anda, ada kemungkinan besar ada masalah dengannya dan sebelum membeli yang baru. sistem, ada baiknya melihat masalah ini, karena ada kemungkinan yang sangat tinggi untuk meningkatkan kinerja sistem saat ini.

Anda sedang membangun infrastruktur dari awal, atau membeli sistem untuk beberapa layanan baru, yang banyak hal yang tidak Anda sadari. Ada beberapa pilihan: berkomunikasi dengan rekan kerja pada sumber daya khusus untuk mencoba mencari tahu dan memprediksi beban, menghubungi integrator yang memiliki pengalaman dalam mengimplementasikan layanan serupa dan yang dapat menghitung beban untuk Anda. Dan opsi ketiga (biasanya yang paling sulit, terutama jika menyangkut aplikasi buatan sendiri atau aplikasi langka) adalah mencoba mencari tahu persyaratan kinerja dari pengembang sistem.

Dan perlu diketahui, opsi yang paling tepat dari sudut pandang penerapan praktis adalah uji coba pada peralatan saat ini, atau peralatan yang disediakan untuk pengujian oleh vendor/integrator.

Persyaratan khusus

Persyaratan khusus adalah segala sesuatu yang tidak termasuk dalam persyaratan kinerja, toleransi kesalahan, dan fungsionalitas untuk pemrosesan langsung dan penyediaan data.

Salah satu persyaratan khusus yang paling sederhana untuk sistem penyimpanan data dapat disebut “media penyimpanan yang dapat diasingkan”. Dan segera menjadi jelas bahwa sistem penyimpanan data ini harus menyertakan tape perpustakaan atau hanya tape drive tempat salinan cadangan dibuang. Setelah itu, orang yang terlatih khusus menandatangani rekaman itu dan dengan bangga membawanya ke brankas khusus.
Contoh lain dari persyaratan khusus adalah desain tahan guncangan yang dilindungi.

Где

Komponen utama kedua dalam memilih sistem penyimpanan tertentu adalah informasi tentang DI MANA sistem penyimpanan ini akan ditempatkan. Mulai dari geografi atau kondisi iklim, dan diakhiri dengan personel.

Pelanggan

Untuk siapa sistem penyimpanan ini direncanakan? Pertanyaan tersebut mempunyai alasan sebagai berikut:

Pelanggan/komersial pemerintah.
Pelanggan komersial tidak mempunyai batasan bahkan tidak wajib menyelenggarakan tender, kecuali sesuai dengan peraturan internalnya sendiri.

Pelanggan pemerintah adalah masalah yang berbeda. 44 Undang-Undang Federal dan persyaratan lainnya mengenai tender dan spesifikasi teknis yang dapat ditantang.

Pelanggan dikenakan sanksi
Pertanyaannya di sini sangat sederhana - pilihannya hanya dibatasi oleh penawaran yang tersedia untuk pelanggan tertentu.

Peraturan internal / vendor / model diperbolehkan untuk dibeli
Pertanyaannya juga sangat sederhana, tetapi Anda perlu mengingatnya.

Dimana secara fisik

Pada bagian ini kami mempertimbangkan semua masalah geografi, saluran komunikasi, dan iklim mikro di tempat akomodasi.

staf

Siapa yang akan bekerja dengan sistem penyimpanan ini? Hal ini tidak kalah pentingnya dengan apa yang dapat dilakukan oleh sistem penyimpanan itu sendiri.
Betapapun menjanjikan, keren, dan hebatnya sistem penyimpanan dari vendor A, mungkin tidak ada gunanya menginstalnya jika staf hanya mengetahui cara bekerja dengan vendor B, dan tidak ada rencana untuk pembelian lebih lanjut dan kerja sama berkelanjutan dengan A.

Dan tentu saja, pertanyaan di sisi lain adalah seberapa tersedia personel terlatih di lokasi geografis tertentu yang secara langsung ada di perusahaan dan berpotensi di pasar tenaga kerja. Untuk wilayah, memilih sistem penyimpanan dengan antarmuka sederhana atau kemampuan untuk memusatkan manajemen dari jarak jauh bisa menjadi hal yang masuk akal. Jika tidak, pada titik tertentu, hal itu mungkin menjadi sangat menyakitkan. Internet penuh dengan cerita tentang bagaimana seorang karyawan baru yang datang, mahasiswa kemarin, mengkonfigurasi sedemikian rupa sehingga seluruh kantor hancur.

Bagaimana memilih penyimpanan tanpa merugikan diri sendiri

Lingkungan

Dan tentu saja, pertanyaan penting adalah di lingkungan apa sistem penyimpanan ini akan beroperasi.

  • Bagaimana dengan catu daya/pendinginan?
  • Koneksi apa
  • Di mana itu akan dipasang?
  • Dan sebagainya.

Seringkali pertanyaan-pertanyaan ini dianggap remeh dan tidak terlalu dipertimbangkan, namun terkadang pertanyaan-pertanyaan inilah yang dapat membalikkan keadaan.

Bahwa

Penjual

Saat ini (pertengahan 2019), pasar penyimpanan Rusia dapat dibagi menjadi 5 kategori:

  1. Divisi tertinggi adalah perusahaan mapan dengan beragam rak disk dari yang paling sederhana hingga yang canggih (HPE, DellEMC, Hitachi, NetApp, IBM/Lenovo)
  2. Divisi kedua - perusahaan dengan lini terbatas, pemain khusus, vendor SDS yang serius, atau pendatang baru yang sedang naik daun (Fujitsu, Datacore, Infinidat, Huawei, Pure, dll.)
  3. Divisi ketiga - solusi khusus di peringkat low end, SDS murah, produk canggih berdasarkan ceph dan proyek terbuka lainnya (Infortrend, Starwind, dll.)
  4. Segmen SOHO - sistem penyimpanan kecil dan ultra-kecil di tingkat rumah/kantor kecil (Synology, QNAP, dll.)
  5. Sistem penyimpanan pengganti impor - ini mencakup perangkat keras dari divisi pertama dengan label yang diberi label ulang, dan perwakilan langka dari divisi kedua (RAIDIX, kami akan memberi mereka yang kedua terlebih dahulu), tetapi pada dasarnya ini adalah divisi ketiga (Aerodisk, Baum, Depo, dll.)

Pembagiannya cukup asal-asalan, dan tidak berarti segmen ketiga atau SOHO buruk dan tidak bisa digunakan. Dalam proyek tertentu dengan kumpulan data dan profil beban yang jelas, mereka dapat bekerja dengan sangat baik, jauh melampaui divisi pertama dalam hal rasio harga/kualitas. Penting untuk terlebih dahulu memutuskan tujuan Anda, prospek pertumbuhan, dan fungsionalitas yang diperlukan - dan kemudian Synology akan melayani Anda dengan setia, dan rambut Anda akan menjadi lembut dan halus.

Salah satu faktor penting ketika memilih vendor adalah lingkungan saat ini. Berapa banyak sistem penyimpanan yang sudah Anda miliki dan sistem penyimpanan apa yang dapat digunakan oleh teknisi Anda. Apakah Anda memerlukan vendor lain, titik kontak lain, apakah Anda akan secara bertahap memigrasikan seluruh beban dari vendor A ke vendor B?

Seseorang tidak boleh menghasilkan entitas melebihi apa yang diperlukan.

iSCSI/FC/File

Tidak ada konsensus di antara para insinyur mengenai masalah protokol akses, dan perdebatan tersebut lebih menyerupai diskusi teologis daripada diskusi teknis. Namun secara umum, hal-hal berikut dapat diperhatikan:

FCoE lebih banyak mati daripada hidup.

FC vs iSCSI. Salah satu keunggulan utama FC pada tahun 2019 dibandingkan penyimpanan IP, pabrik khusus untuk akses data, diimbangi oleh jaringan IP khusus. FC tidak memiliki keunggulan global dibandingkan jaringan IP, dan IP dapat digunakan untuk membangun sistem penyimpanan pada tingkat beban apa pun, hingga sistem DBMS berat untuk sistem perbankan inti bank besar. Di sisi lain, kematian FC telah dinubuatkan selama beberapa tahun sekarang, namun ada sesuatu yang terus-menerus mencegahnya. Saat ini, misalnya, beberapa pemain di pasar penyimpanan secara aktif mengembangkan standar NVMEoF. Apakah dia akan berbagi nasib dengan FCoE - waktu akan menjawabnya.

Akses file juga bukan sesuatu yang tidak layak untuk diperhatikan. NFS/CIFS berkinerja baik dalam lingkungan produktivitas dan, jika dirancang dengan benar, tidak memiliki lebih banyak keluhan dibandingkan protokol blok.

Hibrida / Semua Array Flash

Sistem penyimpanan klasik hadir dalam 2 jenis:

  1. AFA (All Flash Array) - sistem yang dioptimalkan untuk penggunaan SSD.
  2. Hibrida - memungkinkan Anda menggunakan HDD dan SSD atau kombinasi keduanya.

Perbedaan utamanya adalah teknologi efisiensi penyimpanan yang didukung dan tingkat kinerja maksimum (IOPS tinggi dan latensi rendah). Kedua sistem (di sebagian besar modelnya, tidak termasuk segmen kelas bawah) dapat beroperasi sebagai perangkat blok dan file. Fungsionalitas yang didukung bergantung pada level sistem, dan untuk model yang lebih muda, fungsionalitas ini paling sering dikurangi ke level minimum. Hal ini patut diperhatikan saat Anda mempelajari karakteristik model tertentu, dan bukan hanya kemampuan keseluruhan lini secara keseluruhan. Selain itu, tentu saja karakteristik teknisnya, seperti prosesor, jumlah memori, cache, jumlah dan jenis port, dll., juga bergantung pada level sistem. Dari sudut pandang manajemen, AFA berbeda dari sistem hybrid (disk) hanya dalam penerapan mekanisme untuk bekerja dengan drive SSD, dan bahkan jika Anda menggunakan SSD dalam sistem hybrid, ini tidak berarti bahwa Anda akan dapat melakukannya. untuk mencapai tingkat kinerja pada tingkat sistem AFA. Selain itu, dalam banyak kasus, mekanisme penyimpanan efisien inline dinonaktifkan pada sistem hibrid, dan penyertaannya menyebabkan hilangnya kinerja.

Sistem penyimpanan khusus

Selain sistem penyimpanan tujuan umum, yang terutama berfokus pada pemrosesan data operasional, terdapat sistem penyimpanan khusus dengan prinsip utama yang secara fundamental berbeda dari biasanya (latensi rendah, IOPS tinggi):

Media.

Sistem ini dirancang untuk menyimpan dan memproses file media berukuran besar. jawab. penundaan menjadi praktis tidak penting, dan kemampuan untuk mengirim dan menerima data dalam pita lebar di banyak aliran paralel menjadi yang terdepan.

Menghapus duplikat sistem penyimpanan untuk cadangan.

Karena salinan cadangan dibedakan berdasarkan kemiripannya satu sama lain, yang jarang terjadi dalam kondisi normal (rata-rata salinan cadangan berbeda dari salinan kemarin sebesar 1-2%), kelas sistem ini dengan sangat efisien mengemas data yang direkam di dalamnya dalam jumlah yang cukup kecil. sejumlah media fisik. Misalnya, dalam beberapa kasus, rasio kompresi data bisa mencapai 200 banding 1.

Sistem penyimpanan objek.

Sistem penyimpanan ini tidak memiliki volume akses blok dan berbagi file seperti biasanya, dan yang paling penting, sistem ini menyerupai database yang sangat besar. Akses ke objek yang disimpan dalam sistem tersebut dilakukan dengan pengidentifikasi unik atau metadata (misalnya, semua objek berformat JPEG dengan tanggal pembuatan antara XX-XX-XXXX dan YY-YY-YYYY).

Sistem kepatuhan.

Mereka tidak begitu umum di Rusia saat ini, tapi layak untuk disebutkan. Tujuan dari sistem penyimpanan tersebut adalah penyimpanan data yang terjamin untuk mematuhi kebijakan keamanan atau persyaratan peraturan. Beberapa sistem (misalnya EMC Centera) telah menerapkan fungsi untuk melarang penghapusan data - segera setelah kunci diputar dan sistem memasuki mode ini, baik administrator maupun orang lain tidak dapat secara fisik menghapus data yang telah direkam.

Teknologi berpemilik

Cache flash

Flash Cache adalah nama umum untuk semua teknologi eksklusif untuk menggunakan memori flash sebagai cache tingkat kedua. Saat menggunakan flash cache, sistem penyimpanan biasanya dirancang untuk memberikan beban yang stabil dari disk magnetik, sedangkan puncaknya dilayani oleh cache.

Dalam hal ini, perlu dipahami profil beban dan tingkat lokalisasi akses ke blok volume penyimpanan. Flash cache adalah teknologi untuk beban kerja dengan kueri yang sangat terlokalisasi, dan secara praktis tidak dapat diterapkan untuk volume yang dimuat secara seragam (seperti untuk sistem analitik).

Ada dua implementasi flash cache yang tersedia di pasaran:

  • Hanya Baca. Dalam hal ini, hanya data baca yang di-cache, dan data tulis langsung ke disk. Beberapa produsen, seperti NetApp, percaya bahwa menulis ke sistem penyimpanan mereka sudah optimal, dan cache tidak akan membantu sama sekali.
  • Baca tulis. Tidak hanya membaca, tetapi juga penulisan di-cache, yang memungkinkan Anda melakukan buffering streaming dan mengurangi dampak Penalti RAID, dan sebagai hasilnya meningkatkan kinerja keseluruhan untuk sistem penyimpanan dengan mekanisme penulisan yang kurang optimal.

berjenjang

Penyimpanan multi-level (melelahkan) adalah teknologi untuk menggabungkan level dengan tingkat kinerja berbeda, seperti SSD dan HDD, ke dalam satu kumpulan disk. Jika terjadi ketidakrataan akses ke blok data, sistem akan dapat secara otomatis menyeimbangkan blok data, memindahkan blok data yang dimuat ke tingkat kinerja tinggi, dan sebaliknya, blok data dingin ke tingkat kinerja lebih lambat.

Sistem hibrida kelas bawah dan menengah menggunakan penyimpanan multi-level dengan perpindahan data antar level sesuai jadwal. Pada saat yang sama, ukuran blok penyimpanan bertingkat untuk model terbaik adalah 256 MB. Fitur-fitur ini tidak memungkinkan kita untuk menganggap teknologi penyimpanan berjenjang sebagai teknologi untuk meningkatkan produktivitas, seperti yang diyakini secara keliru oleh banyak orang. Penyimpanan multi-level dalam sistem kelas rendah dan menengah adalah teknologi untuk mengoptimalkan biaya penyimpanan untuk sistem dengan ketidakrataan beban yang nyata.

Potret

Tidak peduli seberapa banyak kita berbicara tentang keandalan sistem penyimpanan, ada banyak peluang untuk kehilangan data yang tidak bergantung pada masalah perangkat keras. Ini bisa berupa virus, peretas, atau penghapusan/rusaknya data lainnya yang tidak disengaja. Oleh karena itu, mencadangkan data produksi merupakan bagian integral dari pekerjaan seorang insinyur.

Snapshot adalah cuplikan volume pada suatu waktu tertentu. Saat bekerja dengan sebagian besar sistem, seperti virtualisasi, database, dll. kita perlu mengambil snapshot dari mana kita akan menyalin data ke salinan cadangan, sementara IS kita akan dapat terus bekerja dengan aman dengan volume ini. Namun perlu diingat bahwa tidak semua snapshot sama bermanfaatnya. Vendor yang berbeda memiliki pendekatan berbeda dalam membuat snapshot terkait arsitektur mereka.

Kontrak Karya (Copy-On-Write). Saat Anda mencoba menulis blok data, konten aslinya disalin ke area khusus, setelah itu penulisan berjalan normal. Hal ini mencegah kerusakan data di dalam snapshot. Tentu saja, semua manipulasi data “parasit” ini menyebabkan beban tambahan pada sistem penyimpanan dan karena alasan ini, vendor dengan implementasi serupa tidak menyarankan penggunaan lebih dari selusin snapshot, dan tidak menggunakannya sama sekali pada volume yang sarat muatan.

RoW (Pengalihan-saat-Tulis). Dalam hal ini, volume asli secara alami membeku, dan ketika mencoba menulis blok data, sistem penyimpanan menulis data ke area khusus di ruang kosong, mengubah lokasi blok ini di tabel metadata. Hal ini memungkinkan Anda mengurangi jumlah operasi penulisan ulang, yang pada akhirnya menghilangkan penurunan kinerja dan menghilangkan batasan pada snapshot dan jumlahnya.

Snapshot juga terdiri dari dua jenis sehubungan dengan aplikasi:

Konsistensi aplikasi. Pada saat pembuatan snapshot, sistem penyimpanan menarik agen di sistem operasi konsumen, yang secara paksa menghapus cache disk dari memori ke disk dan memaksa aplikasi untuk melakukan hal ini. Dalam hal ini, saat memulihkan dari snapshot, datanya akan konsisten.

Kecelakaan yang konsisten. Dalam hal ini, hal seperti itu tidak terjadi dan snapshot dibuat apa adanya. Dalam kasus pemulihan dari snapshot seperti itu, gambarannya identik dengan apa yang akan terjadi jika daya tiba-tiba dimatikan dan mungkin ada kehilangan data, tersangkut di cache dan tidak pernah mencapai disk. Snapshot seperti itu lebih mudah diterapkan dan tidak menyebabkan penurunan kinerja dalam aplikasi, namun kurang dapat diandalkan.

Mengapa snapshot diperlukan pada sistem penyimpanan?

  • Pencadangan tanpa agen langsung dari sistem penyimpanan
  • Buat lingkungan pengujian berdasarkan data nyata
  • Dalam kasus sistem penyimpanan file, ini dapat digunakan untuk membuat lingkungan VDI melalui penggunaan snapshot sistem penyimpanan, bukan hypervisor.
  • Pastikan RPO rendah dengan membuat snapshot terjadwal pada frekuensi yang jauh lebih tinggi daripada frekuensi cadangan

Kloning

Kloning volume - bekerja dengan prinsip yang sama seperti snapshot, tetapi digunakan tidak hanya untuk membaca data, tetapi juga untuk bekerja sepenuhnya dengannya. Kami bisa mendapatkan salinan persis volume kami, dengan semua data di dalamnya, tanpa membuat salinan fisik, yang akan menghemat ruang. Biasanya, kloning volume digunakan di Test&Dev atau jika Anda ingin memeriksa fungsionalitas beberapa pembaruan pada IS Anda. Kloning akan memungkinkan Anda melakukan ini secepat dan seefisien mungkin dalam hal sumber daya disk, karena Hanya blok data yang diubah yang akan ditulis.

Replikasi / Penjurnalan

Replikasi adalah mekanisme untuk membuat salinan data pada sistem penyimpanan fisik lain. Biasanya, setiap vendor memiliki teknologi eksklusif yang hanya berfungsi dalam lininya sendiri. Namun ada juga solusi pihak ketiga, termasuk solusi yang bekerja di tingkat hypervisor, seperti VMware vSphere Replication.

Fungsionalitas teknologi berpemilik dan kemudahan penggunaannya biasanya jauh lebih unggul daripada teknologi universal, tetapi teknologi tersebut ternyata tidak dapat diterapkan ketika, misalnya, perlu membuat replika dari NetApp ke HP MSA.

Replikasi dibagi menjadi dua subtipe:

Sinkronis. Dalam kasus replikasi sinkron, operasi penulisan segera dikirim ke sistem penyimpanan kedua dan eksekusi tidak dikonfirmasi hingga sistem penyimpanan jarak jauh mengonfirmasinya. Oleh karena itu, penundaan akses meningkat, tetapi kami memiliki salinan data yang sama persis. Itu. RPO = 0 jika terjadi kehilangan sistem penyimpanan utama.

asinkron. Operasi penulisan dijalankan hanya pada sistem penyimpanan utama dan segera dikonfirmasi, sekaligus terakumulasi dalam buffer untuk transmisi batch ke sistem penyimpanan jarak jauh. Jenis replikasi ini relevan untuk data yang kurang berharga, atau untuk saluran dengan bandwidth rendah atau latensi tinggi (khas untuk jarak lebih dari 100 km). Dengan demikian, RPO = frekuensi pengiriman paket.

Seringkali, bersamaan dengan replikasi, terdapat mekanisme pencatatan operasi disk. Dalam hal ini, area khusus dialokasikan untuk operasi penebangan dan pencatatan dengan kedalaman waktu tertentu, atau dibatasi oleh volume log, disimpan. Untuk teknologi kepemilikan tertentu, seperti EMC RecoverPoint, terdapat integrasi dengan perangkat lunak sistem yang memungkinkan Anda menautkan bookmark tertentu ke entri log tertentu. Berkat ini, dimungkinkan untuk mengembalikan status volume (atau membuat klon) tidak hanya ke 23 April, 11 jam 59 detik 13 milidetik, tetapi ke momen sebelum “DROP ALL TABLES; MELAKUKAN."

Klaster Metro

Metro cluster adalah teknologi yang memungkinkan Anda membuat replikasi sinkron dua arah antara dua sistem penyimpanan sedemikian rupa sehingga dari luar pasangan ini tampak seperti satu sistem penyimpanan. Ini digunakan untuk membuat cluster dengan lengan yang terpisah secara geografis pada jarak metro (kurang dari 100 km).

Berdasarkan contoh penggunaan dalam lingkungan virtualisasi, metrocluster memungkinkan Anda membuat penyimpanan data dengan mesin virtual, dapat diakses untuk perekaman dari dua pusat data sekaligus. Dalam hal ini, sebuah cluster dibuat di tingkat hypervisor, terdiri dari host di pusat data fisik berbeda, yang terhubung ke penyimpanan data ini. Yang memungkinkan Anda melakukan hal berikut:

  • Otomatisasi penuh dari proses pemulihan setelah matinya salah satu pusat data. Tanpa dana tambahan apa pun, semua VM yang berjalan di pusat data yang sudah mati akan otomatis dimulai ulang di pusat data yang tersisa. RTO = batas waktu klaster ketersediaan tinggi (15 detik untuk VMware) + waktu untuk memuat sistem operasi dan memulai layanan.
  • Penghindaran bencana atau, dalam bahasa Rusia, menghindari bencana. Jika pekerjaan penyediaan listrik direncanakan di pusat data 1, maka kita mempunyai kesempatan untuk memigrasikan seluruh beban penting ke pusat data 2 tanpa henti terlebih dahulu, sebelum pekerjaan dimulai.

Virtualisasi

Virtualisasi penyimpanan secara teknis adalah penggunaan volume dari sistem penyimpanan lain sebagai disk. Virtualizer penyimpanan dapat dengan mudah mentransfer volume orang lain ke konsumen sebagai miliknya, sekaligus mencerminkannya ke sistem penyimpanan lain, atau bahkan membuat RAID dari volume eksternal.
Perwakilan klasik di kelas virtualisasi penyimpanan adalah EMC VPLEX dan IBM SVC. Dan tentu saja, sistem penyimpanan dengan fungsi virtualisasi - NetApp, Hitachi, IBM/Lenovo Storwize.

Mengapa hal itu mungkin diperlukan?

  • Redundansi di tingkat sistem penyimpanan. Sebuah cermin dibuat di antara volume, dan setengahnya dapat berada di HP 3Par, dan yang lainnya di NetApp. Dan virtualizernya dari EMC.
  • Pindahkan data dengan waktu henti minimal antar sistem penyimpanan dari produsen berbeda. Mari kita asumsikan bahwa data perlu dimigrasi dari 3Par lama yang akan dihapuskan ke Dell baru. Dalam hal ini, konsumen terputus dari 3Par, volume ditransfer di bawah VPLEX dan disajikan kembali kepada konsumen. Karena tidak sedikit pun yang berubah pada volumenya, pekerjaan terus berlanjut. Proses pencerminan volume ke Dell baru dimulai di latar belakang, dan setelah selesai, cermin rusak dan 3Par dinonaktifkan.
  • Organisasi metrocluster.

Kompresi/deduplikasi

Kompresi dan deduplikasi adalah teknologi yang memungkinkan Anda menghemat ruang disk pada sistem penyimpanan Anda. Perlu segera disebutkan bahwa pada prinsipnya tidak semua data tunduk pada kompresi dan/atau deduplikasi, sementara beberapa jenis data dikompresi dan dideduplikasi lebih baik, dan beberapa - sebaliknya.

Ada 2 jenis kompresi dan deduplikasi:

Di barisan — kompresi dan deduplikasi blok data terjadi sebelum menulis data ini ke disk. Dengan demikian, sistem hanya menghitung hash dari blok tersebut dan membandingkannya di tabel dengan yang sudah ada. Pertama, ini lebih cepat dari sekedar menulis ke disk, dan kedua, kami tidak membuang ruang disk ekstra.

Pos - ketika operasi ini dilakukan pada data yang sudah direkam yang terletak di disk. Oleh karena itu, data pertama-tama ditulis ke disk, dan baru kemudian hash dihitung dan blok yang tidak perlu dihapus dan sumber daya disk dibebaskan.

Patut dikatakan bahwa sebagian besar vendor menggunakan kedua jenis tersebut, yang memungkinkan mereka mengoptimalkan proses ini dan dengan demikian meningkatkan efisiensinya. Sebagian besar vendor penyimpanan memiliki utilitas yang memungkinkan Anda menganalisis kumpulan data Anda. Utilitas ini bekerja berdasarkan logika yang sama yang diterapkan dalam sistem penyimpanan, sehingga perkiraan tingkat efisiensinya akan sama. Selain itu, perlu diingat bahwa banyak vendor memiliki program jaminan kinerja yang menjanjikan kinerja yang setidaknya sama baiknya untuk tipe data tertentu (atau semua). Dan Anda tidak boleh mengabaikan program ini, karena dengan menghitung sistem untuk tugas Anda, dengan mempertimbangkan koefisien efisiensi sistem tertentu, Anda dapat menghemat volume. Perlu juga dipertimbangkan bahwa program ini dirancang untuk sistem AFA, namun berkat pembelian SSD dengan volume lebih kecil daripada HDD di sistem klasik, hal ini akan mengurangi biayanya, dan jika tidak sama dengan biaya sistem disk, maka cukup dekat dengannya.

Model

Dan di sini kita sampai pada pertanyaan yang tepat.

“Mereka menawarkan saya dua pilihan penyimpanan - ABC SuperStorage S600 dan XYZ HyperOcean 666v4, apa yang Anda rekomendasikan?”

Berubah menjadi “Di sini mereka menawarkan saya dua opsi penyimpanan - ABC SuperStorage S600 dan XYZ HyperOcean 666v4, apa yang Anda rekomendasikan?

Beban target adalah mesin virtual VMware campuran dengan loop produksi/pengujian/pengembangan. Tes = produktif. Masing-masing 150 TB dengan kinerja puncak 80 IOPS 000kb blok 8% akses acak 50/80 baca-tulis. 20 TB untuk pengembangan, 300 IOPS cukup, 50 acak, 000 tulis.

Produktivitas kiranya di metrocluster RPO = 15 menit RTO = 1 jam, pengembangan dalam replikasi asinkron RPO = 3 jam, pengujian di satu lokasi.

Akan ada DBMS 50TB, logging akan menyenangkan bagi mereka.

Kami memiliki server Dell di mana-mana, sistem penyimpanan Hitachi yang lama, mereka hampir tidak dapat mengatasinya, kami berencana untuk meningkatkan beban sebesar 50% dalam hal volume dan kinerja.”

Seperti yang mereka katakan, pertanyaan yang dirumuskan dengan benar mengandung 80% jawaban.

informasi tambahan

Apa yang harus Anda baca tambahan menurut penulis

buku-buku

  • Olifer dan Olifer “Jaringan komputer”. Buku ini akan membantu mensistematisasikan dan mungkin lebih memahami cara kerja media transmisi data untuk sistem penyimpanan IP/Ethernet
  • “Penyimpanan dan Manajemen Informasi EMC.” Sebuah buku yang sangat bagus tentang dasar-dasar sistem penyimpanan, alasannya, bagaimana dan mengapa.

Forum dan obrolan

Rekomendasi umum

Цены

Sekarang, mengenai harga - secara umum, jika ada harga untuk sistem penyimpanan, biasanya harga tersebut adalah harga Daftar, di mana setiap pelanggan menerima diskon individual. Besar kecilnya diskon terdiri dari sejumlah besar parameter, sehingga tidak mungkin memprediksi berapa harga akhir yang akan diterima perusahaan Anda tanpa bertanya kepada distributor. Namun di saat yang sama, belakangan ini model low-end mulai bermunculan di toko komputer biasa, seperti misalnya nix.ru или xcom-shop.ru. Di sini Anda dapat langsung membeli sistem yang Anda minati dengan harga tetap, seperti komponen komputer lainnya.

Namun saya ingin segera mencatat bahwa perbandingan langsung dengan TB/$ tidaklah benar. Jika kita mendekatinya dari sudut pandang ini, maka solusi termurah adalah server JBOD + sederhana, yang tidak akan memberikan fleksibilitas atau keandalan yang disediakan oleh sistem penyimpanan pengontrol ganda yang lengkap. Ini tidak berarti sama sekali bahwa JBOD menjijikkan dan merupakan trik kotor yang jahat, Anda hanya perlu memahami dengan jelas sekali lagi bagaimana dan untuk tujuan apa Anda akan menggunakan solusi ini. Anda sering mendengar bahwa tidak ada yang perlu dirusak di JBOD, hanya ada satu backplane. Namun, backplane juga terkadang gagal. Semuanya akan rusak cepat atau lambat.

Total

Penting untuk membandingkan sistem satu sama lain tidak hanya berdasarkan harga, atau tidak hanya berdasarkan kinerja, tetapi berdasarkan totalitas semua indikator.

Beli HDD hanya jika Anda yakin membutuhkan HDD. Untuk beban rendah dan tipe data yang tidak dapat dikompresi, jika tidak, ada baiknya beralih ke program jaminan efisiensi penyimpanan SSD, yang sekarang dimiliki sebagian besar vendor (dan program tersebut benar-benar berfungsi, bahkan di Rusia), tetapi semuanya tergantung pada aplikasi dan data yang akan ditempatkan. pada sistem penyimpanan ini.

Jangan pergi dengan harga murah. Terkadang ini menyembunyikan banyak momen tidak menyenangkan, salah satunya dijelaskan Evgeniy Elizarov dalam artikelnya tren terkini. Dan pada akhirnya, murahnya ini bisa menjadi bumerang bagi Anda. Jangan lupa - “si kikir membayar dua kali.”

Sumber: www.habr.com

Tambah komentar