Tren Industri dalam Penyimpanan Massal

Hari ini kita akan berbicara tentang cara terbaik untuk menyimpan data di dunia di mana jaringan generasi kelima, pemindai genom, dan mobil self-driving menghasilkan lebih banyak data dalam sehari daripada yang dihasilkan seluruh umat manusia sebelum revolusi industri.

Tren Industri dalam Penyimpanan Massal

Dunia kita menghasilkan lebih banyak informasi. Beberapa di antaranya cepat berlalu dan hilang secepat dikumpulkan. Yang lainnya harus disimpan lebih lama, dan yang lainnya dirancang sepenuhnya "selama berabad-abad" - setidaknya begitulah yang kita lihat dari sekarang. Aliran informasi menetap di pusat data dengan kecepatan sedemikian rupa sehingga pendekatan baru apa pun, teknologi apa pun yang dirancang untuk memenuhi "permintaan" tanpa akhir ini dengan cepat menjadi usang.

Tren Industri dalam Penyimpanan Massal

40 tahun pengembangan penyimpanan terdistribusi

Penyimpanan jaringan pertama dalam bentuk yang kita kenal muncul pada 1980-an. Banyak dari Anda telah menemukan NFS (Network File System), AFS (Andrew File System), atau Coda. Satu dekade kemudian, mode dan teknologi telah berubah, dan sistem file terdistribusi telah digantikan oleh sistem penyimpanan cluster berdasarkan GPFS (General Parallel File System), CFS (Clustered File Systems) dan StorNext. Sebagai dasar, penyimpanan blok arsitektur klasik digunakan, di atasnya sistem file tunggal dibuat menggunakan lapisan perangkat lunak. Solusi ini dan yang serupa masih digunakan, menempati ceruknya dan cukup laris.

Pada pergantian milenium, paradigma penyimpanan terdistribusi agak berubah, dan sistem dengan arsitektur SN (Shared-Nothing) memimpin. Ada transisi dari penyimpanan cluster ke penyimpanan pada node terpisah, yang biasanya merupakan server klasik dengan perangkat lunak yang menyediakan penyimpanan yang andal; prinsip-prinsip seperti itu dibangun, katakanlah, HDFS (Hadoop Distributed File System) dan GFS (Global File System).

Mendekati tahun 2010, konsep yang mendasari sistem penyimpanan terdistribusi mulai tercermin dalam produk komersial lengkap, seperti VMware vSAN, Dell EMC Isilon, dan Huawei OceanStor. Di belakang platform tersebut tidak lagi ada komunitas peminat, tetapi vendor khusus yang bertanggung jawab atas fungsionalitas, dukungan, pemeliharaan layanan produk, dan menjamin pengembangan lebih lanjut. Solusi semacam itu paling diminati di beberapa area.

Tren Industri dalam Penyimpanan Massal

Operator telekomunikasi

Mungkin salah satu konsumen tertua dari sistem penyimpanan terdistribusi adalah operator telekomunikasi. Diagram menunjukkan grup aplikasi mana yang menghasilkan sebagian besar data. OSS (Sistem Pendukung Operasi), MSS (Layanan Pendukung Manajemen) dan BSS (Sistem Pendukung Bisnis) adalah tiga lapisan perangkat lunak pelengkap yang diperlukan untuk pengiriman layanan ke pelanggan, pelaporan keuangan ke penyedia, dan dukungan operasional ke teknisi operator.

Seringkali, data dari lapisan-lapisan ini sangat tercampur satu sama lain, dan untuk menghindari penumpukan salinan yang tidak perlu, penyimpanan terdistribusi digunakan yang mengakumulasi seluruh jumlah informasi yang berasal dari jaringan yang berfungsi. Penyimpanan digabungkan menjadi kumpulan umum, yang dapat diakses oleh semua layanan.

Perhitungan kami menunjukkan bahwa transisi dari sistem penyimpanan klasik ke blok memungkinkan Anda menghemat hingga 70% dari anggaran hanya dengan meninggalkan sistem penyimpanan hi-end khusus dan menggunakan server arsitektur klasik konvensional (biasanya x86), yang bekerja bersama dengan perangkat lunak khusus. Operator seluler telah memperoleh solusi semacam itu dalam volume yang cukup lama. Secara khusus, operator Rusia telah menggunakan produk semacam itu dari Huawei selama lebih dari enam tahun.

Ya, sejumlah tugas tidak dapat dilakukan dengan menggunakan sistem terdistribusi. Misalnya, dengan peningkatan persyaratan kinerja atau kompatibilitas dengan protokol lama. Tetapi setidaknya 70% dari data yang diproses operator dapat ditempatkan di kolam terdistribusi.

Tren Industri dalam Penyimpanan Massal

Sektor perbankan

Di bank mana pun, ada banyak sistem TI yang beragam, mulai dari pemrosesan hingga sistem perbankan otomatis. Infrastruktur ini juga berfungsi dengan sejumlah besar informasi, sementara sebagian besar tugas tidak memerlukan peningkatan kinerja dan keandalan sistem penyimpanan, seperti pengembangan, pengujian, otomatisasi proses kantor, dll. Di sini, penggunaan sistem penyimpanan klasik dimungkinkan , tetapi setiap tahun semakin tidak menguntungkan. Selain itu, dalam hal ini, tidak ada fleksibilitas dalam menghabiskan sumber daya penyimpanan, yang kinerjanya dihitung dari beban puncak.

Saat menggunakan sistem penyimpanan terdistribusi, node mereka, yang sebenarnya adalah server biasa, dapat diubah kapan saja, misalnya menjadi server farm dan digunakan sebagai platform komputasi.

Tren Industri dalam Penyimpanan Massal

Danau data

Diagram di atas menunjukkan daftar konsumen layanan tipikal. danau data. Ini dapat berupa layanan e-government (misalnya, "Gosuslugi"), perusahaan yang telah mengalami digitalisasi, struktur keuangan, dll. Semuanya perlu bekerja dengan informasi heterogen dalam jumlah besar.

Pengoperasian sistem penyimpanan klasik untuk memecahkan masalah seperti itu tidak efisien, karena diperlukan akses berperforma tinggi untuk memblokir basis data dan akses reguler ke pustaka dokumen yang dipindai yang disimpan sebagai objek. Di sini, misalnya, sistem pemesanan melalui portal web bisa diikat. Untuk mengimplementasikan semua ini pada platform penyimpanan klasik, Anda memerlukan satu set peralatan yang besar untuk berbagai tugas. Satu sistem penyimpanan universal horizontal dapat dengan mudah mencakup semua tugas yang terdaftar sebelumnya: Anda hanya perlu membuat beberapa kumpulan di dalamnya dengan karakteristik penyimpanan yang berbeda.

Tren Industri dalam Penyimpanan Massal

Generator informasi baru

Jumlah informasi yang disimpan di dunia tumbuh sekitar 30% per tahun. Ini adalah kabar baik bagi vendor penyimpanan, tetapi apa yang menjadi dan akan menjadi sumber utama data ini?

Sepuluh tahun yang lalu, jejaring sosial menjadi generator yang membutuhkan pembuatan sejumlah besar algoritme baru, solusi perangkat keras, dll. Sekarang ada tiga pendorong utama pertumbuhan penyimpanan. Yang pertama adalah komputasi awan. Saat ini, sekitar 70% perusahaan menggunakan layanan cloud dengan satu atau lain cara. Ini bisa berupa sistem email, cadangan, dan entitas tervirtualisasi lainnya.
Jaringan generasi kelima menjadi penggerak kedua. Ini adalah kecepatan baru dan volume transfer data baru. Menurut perkiraan kami, adopsi 5G yang meluas akan menyebabkan penurunan permintaan kartu memori flash. Berapa pun memori yang ada di ponsel, tetap habis, dan jika gadget memiliki saluran 100 megabit, tidak perlu menyimpan foto secara lokal.

Kelompok ketiga alasan mengapa permintaan akan sistem penyimpanan meningkat termasuk pesatnya perkembangan kecerdasan buatan, transisi ke analitik data besar, dan tren menuju otomatisasi universal dari segala sesuatu yang mungkin.

Fitur "lalu lintas baru" adalah miliknya tidak terstruktur. Kami perlu menyimpan data ini tanpa menentukan formatnya dengan cara apa pun. Ini diperlukan hanya untuk bacaan selanjutnya. Misalnya, sistem penilaian bank untuk menentukan ukuran pinjaman yang tersedia akan melihat foto yang Anda posting di jejaring sosial, menentukan seberapa sering Anda pergi ke laut dan restoran, dan pada saat yang sama mempelajari kutipan dari dokumen medis Anda yang tersedia. Data ini, di satu sisi, komprehensif, dan di sisi lain, kurang homogen.

Tren Industri dalam Penyimpanan Massal

Lautan data yang tidak terstruktur

Apa masalah yang ditimbulkan oleh munculnya "data baru"? Yang pertama di antara mereka, tentu saja, adalah jumlah informasi itu sendiri dan perkiraan waktu penyimpanannya. Mobil otonom modern tanpa pengemudi menghasilkan hingga 60TB data setiap hari dari semua sensor dan mekanismenya. Untuk mengembangkan algoritme gerak baru, informasi ini harus diproses dalam hari yang sama, jika tidak maka akan mulai terakumulasi. Pada saat yang sama, itu harus disimpan untuk waktu yang sangat lama - puluhan tahun. Hanya dengan begitu dimungkinkan untuk menarik kesimpulan berdasarkan sampel analitik besar di masa depan.

Satu perangkat untuk menguraikan urutan genetik menghasilkan sekitar 6 terabyte per hari. Dan data yang dikumpulkan dengan bantuannya tidak menyiratkan penghapusan sama sekali, artinya, secara hipotetis, data tersebut harus disimpan selamanya.

Terakhir, semua jaringan yang sama dari generasi kelima. Selain informasi itu sendiri yang ditransmisikan, jaringan semacam itu sendiri merupakan penghasil data yang sangat besar: log aktivitas, catatan panggilan, hasil antara interaksi mesin-ke-mesin, dll.

Semua ini membutuhkan pengembangan pendekatan dan algoritme baru untuk menyimpan dan memproses informasi. Dan pendekatan seperti itu muncul.

Tren Industri dalam Penyimpanan Massal

Teknologi era baru

Tiga kelompok solusi yang dirancang untuk mengatasi persyaratan baru untuk sistem penyimpanan informasi dapat dibedakan: pengenalan kecerdasan buatan, evolusi teknis media penyimpanan, dan inovasi di bidang arsitektur sistem. Mari kita mulai dengan AI.

Tren Industri dalam Penyimpanan Massal

Dalam solusi Huawei yang baru, kecerdasan buatan sudah digunakan pada tingkat penyimpanan itu sendiri, yang dilengkapi dengan prosesor AI yang memungkinkan sistem menganalisis keadaannya secara mandiri dan memprediksi kegagalan. Jika sistem penyimpanan terhubung ke cloud layanan yang memiliki kemampuan komputasi signifikan, kecerdasan buatan dapat memproses lebih banyak informasi dan meningkatkan akurasi hipotesisnya.

Selain kegagalan, AI tersebut mampu memprediksi beban puncak di masa mendatang dan waktu yang tersisa hingga kapasitas habis. Ini memungkinkan Anda untuk mengoptimalkan kinerja dan menskalakan sistem sebelum terjadi peristiwa yang tidak diinginkan.

Tren Industri dalam Penyimpanan Massal

Sekarang tentang evolusi pembawa data. Flash drive pertama dibuat menggunakan teknologi SLC (Single-Level Cell). Perangkat berdasarkan itu cepat, andal, stabil, tetapi memiliki kapasitas kecil dan sangat mahal. Peningkatan volume dan penurunan harga dicapai melalui konsesi teknis tertentu, yang menyebabkan kecepatan, keandalan, dan masa pakai drive berkurang. Namun demikian, tren tersebut tidak mempengaruhi sistem penyimpanan itu sendiri, yang karena berbagai trik arsitektur, secara umum menjadi lebih produktif dan lebih dapat diandalkan.

Tetapi mengapa Anda membutuhkan sistem penyimpanan kelas All-Flash? Bukankah cukup mengganti HDD lama di sistem yang sudah berjalan dengan SSD baru dengan faktor bentuk yang sama? Ini diperlukan untuk menggunakan semua sumber daya SSD baru secara efisien, yang tidak mungkin dilakukan di sistem lama.

Huawei misalnya, telah mengembangkan sejumlah teknologi untuk mengatasi masalah tersebut, salah satunya adalah Tautan Flash, yang memungkinkan untuk mengoptimalkan interaksi pengontrol disk sebanyak mungkin.

Identifikasi cerdas memungkinkan untuk menguraikan data menjadi beberapa aliran dan mengatasi sejumlah fenomena yang tidak diinginkan, seperti WA (tulis amplifikasi). Pada saat yang sama, algoritma pemulihan baru, khususnya RAID 2.0+, meningkatkan kecepatan pembangunan kembali, mengurangi waktunya menjadi nilai yang sama sekali tidak signifikan.

Kegagalan, kepadatan, pengumpulan sampah - faktor-faktor ini juga tidak lagi memengaruhi kinerja sistem penyimpanan berkat penyempurnaan khusus pengontrol.

Tren Industri dalam Penyimpanan Massal

Dan blok penyimpanan data bersiap untuk bertemu NVMe. Ingatlah bahwa skema klasik untuk mengatur akses data bekerja seperti ini: prosesor mengakses pengontrol RAID melalui bus PCI Express. Itu, pada gilirannya, berinteraksi dengan disk mekanis melalui SCSI atau SAS. Penggunaan NVMe di backend secara signifikan mempercepat seluruh proses, tetapi membawa satu kelemahan: drive harus terhubung langsung ke prosesor untuk memberinya akses memori langsung.

Fase perkembangan teknologi selanjutnya yang kita lihat sekarang adalah penggunaan NVMe-oF (NVMe over Fabrics). Adapun teknologi blok Huawei, mereka sudah mendukung FC-NVMe (NVMe over Fibre Channel), dan NVMe over RoCE (RDMA over Converged Ethernet) sedang dalam proses. Model uji cukup fungsional, beberapa bulan tersisa sebelum presentasi resminya. Perhatikan bahwa semua ini juga akan muncul di sistem terdistribusi, di mana "Ethernet tanpa kehilangan" akan sangat diminati.

Tren Industri dalam Penyimpanan Massal

Cara tambahan untuk mengoptimalkan pekerjaan penyimpanan terdistribusi adalah penolakan total pencerminan data. Solusi Huawei tidak lagi menggunakan salinan n, seperti pada RAID 1 biasa, dan sepenuhnya beralih ke mekanisme EC (Hapus kode). Paket matematika khusus menghitung blok kontrol dengan frekuensi tertentu, yang memungkinkan Anda memulihkan data perantara jika terjadi kehilangan.

Mekanisme deduplikasi dan kompresi menjadi wajib. Jika dalam sistem penyimpanan klasik kami dibatasi oleh jumlah prosesor yang dipasang di pengontrol, maka dalam sistem penyimpanan yang dapat diskalakan secara horizontal, setiap node berisi semua yang Anda butuhkan: disk, memori, prosesor, dan interkoneksi. Sumber daya ini cukup untuk deduplikasi dan kompresi agar berdampak minimal pada performa.

Dan tentang metode pengoptimalan perangkat keras. Di sini, dimungkinkan untuk mengurangi beban pada prosesor pusat dengan bantuan sirkuit mikro khusus tambahan (atau blok khusus dalam prosesor itu sendiri), yang berperan TOE (TCP/IP Offload Engine) atau mengerjakan tugas matematika EC, deduplikasi, dan kompresi.

Tren Industri dalam Penyimpanan Massal

Pendekatan baru untuk penyimpanan data diwujudkan dalam arsitektur terpilah (terdistribusi). Dalam sistem penyimpanan terpusat, ada pabrik server yang terhubung melalui Fibre Channel SAN dengan banyak array. Kerugian dari pendekatan ini adalah kesulitan dalam penskalaan dan menyediakan tingkat layanan yang terjamin (dalam hal kinerja atau latensi). Sistem hyperconverged menggunakan host yang sama untuk penyimpanan dan pemrosesan informasi. Ini memberikan ruang lingkup yang hampir tidak terbatas untuk penskalaan, tetapi memerlukan biaya tinggi untuk menjaga integritas data.

Tidak seperti kedua hal di atas, arsitektur terpilah menyiratkan mempartisi sistem menjadi pabrik komputasi dan sistem penyimpanan horizontal. Ini memberikan keuntungan dari kedua arsitektur dan memungkinkan penskalaan yang hampir tidak terbatas hanya untuk elemen yang kinerjanya tidak cukup.

Tren Industri dalam Penyimpanan Massal

Dari integrasi ke konvergensi

Tugas klasik, yang relevansinya baru tumbuh selama 15 tahun terakhir, adalah kebutuhan untuk secara bersamaan menyediakan penyimpanan blok, akses file, akses ke objek, pengoperasian pertanian untuk data besar, dll. juga menjadi, misalnya, sistem cadangan untuk pita magnetik.

Pada tahap pertama, hanya pengelolaan layanan ini yang dapat disatukan. Sistem penyimpanan data heterogen ditutup untuk beberapa perangkat lunak khusus, di mana administrator mendistribusikan sumber daya dari kumpulan yang tersedia. Tetapi karena kumpulan ini berbeda dalam perangkat keras, memindahkan beban di antara mereka tidak mungkin dilakukan. Pada tingkat integrasi yang lebih tinggi, konsolidasi terjadi di tingkat gateway. Jika ada akses file bersama, itu bisa diberikan melalui protokol yang berbeda.

Metode konvergensi tercanggih yang tersedia bagi kita sekarang melibatkan pembuatan sistem hibrid universal. Seperti seharusnya milik kita OceanStor 100D. Akses universal menggunakan sumber daya perangkat keras yang sama, secara logis dibagi ke dalam kumpulan yang berbeda, tetapi memungkinkan migrasi beban. Semua ini dapat dilakukan melalui satu konsol manajemen. Dengan cara ini, kami berhasil menerapkan konsep "satu pusat data - satu sistem penyimpanan".

Tren Industri dalam Penyimpanan Massal

Biaya penyimpanan informasi sekarang menentukan banyak keputusan arsitektural. Dan meskipun dapat ditempatkan dengan aman di depan, kami sedang mendiskusikan penyimpanan "langsung" dengan akses aktif hari ini, jadi kinerja juga harus diperhitungkan. Properti penting lainnya dari sistem terdistribusi generasi berikutnya adalah penyatuan. Lagi pula, tidak ada yang ingin beberapa sistem berbeda dikelola dari konsol yang berbeda. Semua kualitas tersebut diwujudkan dalam rangkaian baru produk Huawei. OceanStor Pasifik.

Penyimpanan massal generasi berikutnya

OceanStor Pacific memenuhi persyaratan keandalan enam sembilan (99,9999%) dan dapat digunakan untuk membuat pusat data kelas HyperMetro. Dengan jarak antara dua pusat data hingga 100 km, sistem mendemonstrasikan penundaan tambahan 2 ms, yang memungkinkan untuk membangun solusi tahan bencana apa pun berdasarkan mereka, termasuk yang memiliki server kuorum.

Tren Industri dalam Penyimpanan Massal

Produk dari seri baru ini menunjukkan keserbagunaan dalam hal protokol. Sudah, OceanStor 100D mendukung akses blok, akses objek, dan akses Hadoop. Akses file akan diterapkan dalam waktu dekat. Tidak perlu menyimpan banyak salinan data jika dapat dikeluarkan melalui protokol yang berbeda.

Tren Industri dalam Penyimpanan Massal

Tampaknya, apa hubungan konsep "jaringan tanpa kerugian" dengan penyimpanan? Faktanya adalah sistem penyimpanan terdistribusi dibangun berdasarkan jaringan cepat yang mendukung algoritme yang sesuai dan mekanisme RoCE. Sistem kecerdasan buatan yang didukung oleh sakelar kami membantu meningkatkan kecepatan jaringan lebih lanjut dan mengurangi latensi. Kain AI. Keuntungan kinerja sistem penyimpanan saat AI Fabric diaktifkan bisa mencapai 20%.

Tren Industri dalam Penyimpanan Massal

Apa simpul penyimpanan terdistribusi OceanStor Pacific yang baru? Solusi faktor bentuk 5U mencakup 120 drive dan dapat menggantikan tiga node klasik, lebih dari dua kali lipat ruang rak. Karena penolakan untuk menyimpan salinan, efisiensi drive meningkat secara signifikan (hingga + 92%).

Kami terbiasa dengan fakta bahwa penyimpanan yang ditentukan perangkat lunak adalah perangkat lunak khusus yang diinstal pada server klasik. Namun kini, untuk mencapai parameter optimal, solusi arsitektural ini juga membutuhkan node khusus. Ini terdiri dari dua server berdasarkan prosesor ARM yang mengelola berbagai drive tiga inci.

Tren Industri dalam Penyimpanan Massal

Server ini tidak cocok untuk solusi hyperconverged. Pertama, hanya ada sedikit aplikasi untuk ARM, dan kedua, sulit untuk menjaga keseimbangan beban. Kami menyarankan untuk beralih ke penyimpanan terpisah: cluster komputasi, yang diwakili oleh server klasik atau rak, beroperasi secara terpisah, tetapi terhubung ke node penyimpanan OceanStor Pacific, yang juga menjalankan tugas langsungnya. Dan itu membenarkan dirinya sendiri.

Sebagai contoh, mari kita ambil solusi penyimpanan data besar hyperconverged klasik yang menempati 15 rak server. Jika Anda mendistribusikan beban antara masing-masing server komputasi OceanStor Pacific dan node penyimpanan, memisahkannya satu sama lain, jumlah rak yang diperlukan akan berkurang setengahnya! Ini mengurangi biaya pengoperasian pusat data dan menurunkan total biaya kepemilikan. Di dunia di mana volume informasi yang disimpan tumbuh 30% per tahun, manfaat seperti itu tidak tersebar.

***

Untuk informasi lebih lanjut tentang solusi Huawei dan skenario aplikasinya, silakan kunjungi kami Online atau dengan menghubungi perwakilan perusahaan secara langsung.

Sumber: www.habr.com

Tambah komentar