Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Halo semua! Dengan artikel ini, AERODISK membuka blog di Habré. Hore, kawan!

Artikel sebelumnya di Habré membahas pertanyaan tentang arsitektur dan konfigurasi dasar sistem penyimpanan. Pada artikel ini kita akan membahas pertanyaan yang belum pernah dibahas sebelumnya, tetapi sering ditanyakan - tentang toleransi kesalahan sistem penyimpanan AERODISK ENGINE. Tim kami akan melakukan segalanya untuk memastikan bahwa sistem penyimpanan AERODISK berhenti bekerja, mis. hancurkan.

Kebetulan artikel tentang sejarah perusahaan kami, tentang produk kami, serta contoh implementasi yang sukses sudah ada di Habré, yang karenanya Terima kasih banyak kepada mitra kami - perusahaan TS Solution dan Softline.

Oleh karena itu, saya tidak akan melatih keterampilan manajemen copy-paste di sini, tetapi hanya akan memberikan link ke artikel asli berikut ini:

Saya juga ingin berbagi kabar baik. Tapi saya akan mulai, tentu saja, dengan masalahnya. Kami, sebagai vendor muda, antara lain, terus-menerus dihadapkan pada kenyataan bahwa banyak insinyur dan administrator tidak tahu cara mengoperasikan sistem penyimpanan kami dengan benar.
Jelas bahwa pengelolaan sebagian besar sistem penyimpanan terlihat kurang lebih sama dari sudut pandang administrator, namun setiap produsen memiliki karakteristiknya sendiri. Dan kami tidak terkecuali di sini.

Oleh karena itu, untuk menyederhanakan tugas pelatihan spesialis TI, kami memutuskan untuk mengabdikan tahun ini untuk pendidikan gratis. Untuk melakukan ini, di banyak kota besar di Rusia kami membuka jaringan Pusat Kompetensi AERODISK, di mana setiap spesialis teknis yang tertarik dapat mengikuti kursus secara gratis dan menerima sertifikat dalam mengelola sistem penyimpanan AERODISK ENGINE.

Di setiap Pusat Kompetensi kami akan memasang demo stand lengkap dari sistem penyimpanan AERODISK dan server fisik, di mana guru kami akan melakukan pelatihan tatap muka. Kami akan mempublikasikan jadwal kerja Pusat Kompetensi setelah kemunculannya, namun kami telah membuka pusat di Nizhny Novgorod dan kota Krasnodar adalah yang berikutnya. Anda dapat mendaftar untuk pelatihan menggunakan tautan di bawah ini. Berikut adalah informasi yang diketahui saat ini tentang kota dan tanggal:

  • Nizhny Novgorod (SUDAH TERBUKA – Anda dapat mendaftar di sini https://aerodisk.promo/nn/);
    Hingga 16 April 2019, Anda dapat mengunjungi pusat tersebut kapan saja waktu kerja, dan pada 16 April 2019, akan diselenggarakan kursus pelatihan besar-besaran.
  • Krasnodar (SEGERA DIBUKA - Anda dapat mendaftar di sini https://aerodisk.promo/krsnd/ );
    Dari tanggal 9 April hingga 25 April 2019, Anda dapat mengunjungi pusat tersebut kapan saja waktu kerja, dan pada tanggal 25 April 2019, kursus pelatihan besar akan diselenggarakan.
  • Yekaterinburg (SEGERA DIBUKA, ikuti informasi di website kami atau di Habré);
    Mei-Juni 2019.
  • Novosibirsk (ikuti informasi di situs web kami atau di Habré);
    Oktober 2019
  • Krasnoyarsk (ikuti informasi di situs web kami atau di Habré);
    November 2019.

Dan, tentu saja, jika Moskow tidak jauh dari Anda, kapan saja Anda dapat mengunjungi kantor kami di Moskow dan menjalani pelatihan serupa.

Semua. Kita sudah selesai dengan pemasaran, mari beralih ke teknologi!

Di Habré kami akan secara rutin menerbitkan artikel teknis tentang produk kami, uji beban, perbandingan, fitur penggunaan, dan implementasi menarik.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

PERINGATAN! Setelah membaca artikel tersebut, Anda dapat berkata: ya, tentu saja, vendor akan memeriksa sendiri agar semuanya berjalan “dengan baik”, kondisi rumah kaca, dll. Saya akan menjawab: tidak seperti itu! Tidak seperti pesaing asing kami, kami berlokasi di sini, dekat dengan Anda, dan Anda selalu dapat datang kepada kami (di Moskow atau Komite Sentral mana pun) dan menguji sistem penyimpanan kami dengan cara apa pun. Oleh karena itu, tidak masuk akal bagi kita untuk menyesuaikan hasil dengan gambaran dunia yang ideal, karena Kami sangat mudah untuk memeriksanya. Bagi yang malas berangkat dan tidak punya waktu, kami bisa mengadakan pengujian jarak jauh. Kami memiliki laboratorium khusus untuk ini. Hubungi kami.

ACHTUNG-2! Tes ini bukan tes beban, karena di sini kami hanya peduli pada toleransi kesalahan. Dalam beberapa minggu, kami akan menyiapkan stand yang lebih kuat dan melakukan pengujian beban pada sistem penyimpanan, mempublikasikan hasilnya di sini (omong-omong, permintaan pengujian diterima).

Jadi, ayo kita hancurkan.

Tempat uji coba

Stand kami terdiri dari perangkat keras berikut:

  • 1 x sistem penyimpanan Aerodisk Engine N2 (2 pengontrol, cache 64 GB, port 8xFC 8 Gb/s, port 4xEthernet 10 Gb/s SFP+, port 4xEthernet 1 Gb/s); Disk berikut dipasang di sistem penyimpanan:
  • 4 x disk SAS SSD 900 GB;
  • 12 x disk SAS 10k 1,2 TB;
  • 1 x Server fisik dengan Windows Server 2016 (2xXeon E5 2667 v3, RAM 96GB, 2xFC port 8Gb/s, 2xEthernet port 10Gb/s SFP+);
  • 2 x sakelar SAN 8G;
  • 2 x sakelar LAN 10G;

Kami menghubungkan server ke sistem penyimpanan melalui sakelar melalui FC dan 10G Ethernet. Diagram dudukan ada di bawah.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Komponen yang kita butuhkan, seperti inisiator MPIO dan iSCSI, diinstal pada Windows Server.
Zona dikonfigurasi pada sakelar FC, VLAN terkait dikonfigurasi pada sakelar LAN, dan MTU 9000 diinstal pada port penyimpanan, sakelar, dan host (cara melakukan semua ini dijelaskan dalam dokumentasi kami, jadi kami tidak akan menjelaskannya proses ini di sini).

Metodologi Tes

Rencana uji tabraknya adalah sebagai berikut:

  • Memeriksa kegagalan port FC dan Ethernet.
  • Pemeriksaan kegagalan daya.
  • Pemeriksaan kegagalan pengontrol.
  • Memeriksa kegagalan disk di grup/kumpulan.

Semua pengujian akan dilakukan dalam kondisi beban sintetis, yang akan kami hasilkan oleh program IOMETER. Secara paralel, kami akan melakukan tes yang sama, tetapi dalam kondisi menyalin file besar ke sistem penyimpanan.

Konfigurasi IOmeter adalah sebagai berikut:

  • Baca/Tulis – 70/30
  • Blok – 128k (kami memutuskan untuk mencuci sistem penyimpanan dalam blok besar)
  • Jumlah utas – 128 (yang sangat mirip dengan beban produktif)
  • Penuh Acak
  • Jumlah Pekerja – 4 (2 untuk FC, 2 untuk iSCSI)

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan
Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Tes ini memiliki tujuan sebagai berikut:

  1. Pastikan proses pemuatan dan penyalinan sintetis tidak akan mengganggu atau menyebabkan kesalahan dalam berbagai skenario kegagalan.
  2. Pastikan bahwa proses peralihan port, pengontrol, dll. cukup otomatis dan tidak memerlukan tindakan administrator jika terjadi kegagalan (yaitu, selama failover, tentu saja kita tidak berbicara tentang failback).
  3. Pastikan informasi dalam log ditampilkan dengan benar.

Mempersiapkan host dan sistem penyimpanan

Kami mengonfigurasi akses blok pada sistem penyimpanan menggunakan port FC dan Ethernet (masing-masing FC dan iSCSI). Orang-orang dari TS Solution menjelaskan secara rinci cara melakukan ini di artikel sebelumnya (https://habr.com/ru/company/tssolution/blog/432876/). Dan, tentu saja, tidak ada yang membatalkan manual dan kursus tersebut.

Kami menyiapkan grup hybrid menggunakan semua drive yang kami miliki. 2 disk SSD ditambahkan ke cache, 2 disk SSD ditambahkan sebagai tingkat penyimpanan tambahan (Tingkat Online). Kami mengelompokkan 12 drive SAS10k ke dalam RAID-60P (triple parity) untuk memeriksa kegagalan tiga drive dalam grup sekaligus. Satu disk tersisa untuk penggantian otomatis.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Kami menghubungkan dua LUN (satu melalui FC, satu melalui iSCSI).

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Pemilik kedua LUN adalah pengontrol Engine-0

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Mari kita mulai tesnya

Kami mengaktifkan IOMETER dengan konfigurasi di atas.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Kami mencatat throughput 1.8 GB/s dan latensi 3 milidetik. Tidak ada kesalahan (Jumlah Kesalahan Total).

Pada saat yang sama, dari drive lokal "C" host kami, kami secara paralel mulai menyalin dua file besar 100GB ke LUN penyimpanan FC dan iSCSI (drive E dan G di Windows), menggunakan antarmuka lain.

Di atas adalah proses penyalinan ke LUN FC, di bawah ke iSCSI.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Tes #1: Menonaktifkan port I/O

Kami mendekati sistem penyimpanan dari belakang))) dan dengan sedikit gerakan tangan kami mencabut semua kabel FC dan Ethernet 10G dari pengontrol Engine-0. Seolah-olah seorang wanita pembersih dengan kain pel lewat dan memutuskan untuk mencuci lantai tepat di tempat ingus berada dan kabel-kabel tergeletak (yaitu pengontrol masih berfungsi, tetapi port I/O mati).

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Mari kita lihat IOMETER dan menyalin file. Throughput turun menjadi 0,5 GB/dtk, namun dengan cepat kembali ke level sebelumnya (dalam waktu sekitar 4-5 detik). Tidak ada kesalahan.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Menyalin file tidak berhenti, ada penurunan kecepatan, tetapi sama sekali tidak kritis (dari 840 MB/s turun menjadi 720 MB/s). Penyalinan belum berhenti.

Kami melihat log sistem penyimpanan dan melihat pesan tentang tidak tersedianya port dan relokasi otomatis grup.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Panel informasi juga memberi tahu kita bahwa semuanya tidak baik dengan port FC.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Sistem penyimpanan selamat dari kegagalan port I/O berhasil.

Tes No. 2. Menonaktifkan pengontrol penyimpanan

Hampir seketika (setelah memasang kembali kabel ke sistem penyimpanan) kami memutuskan untuk menyelesaikan sistem penyimpanan dengan menarik pengontrol keluar dari sasis.

Sekali lagi kami mendekati sistem penyimpanan dari belakang (kami menyukainya))) dan kali ini kami mengeluarkan pengontrol Engine-1, yang saat ini adalah pemilik RDG (tempat grup dipindahkan).

Situasi di IOmeter adalah sebagai berikut. I/O berhenti sekitar 5 detik. Kesalahan tidak menumpuk.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Setelah 5 detik, I/O dilanjutkan dengan throughput yang kurang lebih sama, namun dengan latensi 35 milidetik (latensi diperbaiki setelah sekitar beberapa menit). Terlihat dari screenshot nilai Total error count adalah 0 artinya tidak ada kesalahan penulisan atau pembacaan.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Mari kita lihat menyalin file kita. Seperti yang Anda lihat, itu tidak terputus, ada sedikit penurunan kinerja, tetapi secara keseluruhan semuanya kembali ke ~ 800 MB/s.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Kami pergi ke sistem penyimpanan dan melihat kutukan di panel informasi bahwa pengontrol Engine-1 tidak tersedia (tentu saja, kami mematikannya).

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Kami juga melihat entri serupa di log.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Pengontrol penyimpanan juga selamat dari kegagalan berhasil.

Tes No. 3: Memutuskan sambungan catu daya.

Untuk berjaga-jaga, kami mulai menyalin file lagi, tetapi tidak menghentikan IOMETER.
Kami menarik unit catu daya.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Peringatan lain telah ditambahkan ke sistem penyimpanan di panel informasi.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Juga di menu sensor kita melihat bahwa sensor yang terkait dengan catu daya yang dicabut telah berubah menjadi merah.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Sistem penyimpanan terus bekerja. Kegagalan unit catu daya sama sekali tidak mempengaruhi pengoperasian sistem penyimpanan; dari sudut pandang host, kecepatan penyalinan dan indikator IOMETER tetap tidak berubah.

Tes kegagalan daya lulus berhasil.

Sebelum pengujian terakhir, kami memutuskan untuk menghidupkan kembali sistem penyimpanan, memasang kembali pengontrol dan unit catu daya, dan juga menata kabel-kabel, yang dengan senang hati diberitahukan oleh sistem penyimpanan kepada kami dengan ikon hijau di panel kesehatannya. .

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Tes No. 4. Kegagalan tiga disk dalam satu grup

Sebelum tes ini, kami melakukan langkah persiapan tambahan. Faktanya adalah sistem penyimpanan ENGINE menyediakan hal yang sangat berguna - kebijakan pembangunan kembali yang berbeda. TS Solution menulis tentang fitur ini sebelumnya, tapi mari kita ingat esensinya. Administrator penyimpanan dapat menentukan prioritas alokasi sumber daya selama pembangunan kembali. Baik dalam arah kinerja I/O, yaitu pembangunan kembali membutuhkan waktu lebih lama, tetapi tidak ada penurunan kinerja. Atau ke arah kecepatan pembangunan kembali, namun produktivitas akan berkurang. Atau pilihan yang seimbang. Karena kinerja penyimpanan selama pembangunan kembali grup disk selalu membuat pusing admin, kami akan menguji kebijakan dengan bias terhadap kinerja I/O dan dengan mengorbankan kecepatan pembangunan kembali.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Sekarang mari kita periksa kegagalan disk. Kami juga mengaktifkan perekaman ke LUN (file dan IOMETER). Karena kita memiliki grup dengan paritas rangkap tiga (RAID-60P), ini berarti sistem harus tahan terhadap kegagalan tiga disk, dan setelah kegagalan, penggantian otomatis harus berfungsi, satu disk harus menggantikan salah satu disk yang gagal. dalam RDG, dan pembangunan kembali harus dimulai berdasarkan RDG.

Mulai. Pertama, melalui antarmuka penyimpanan, mari kita sorot disk yang ingin kita keluarkan (agar tidak ketinggalan dan menarik disk autochange).

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Kami memeriksa indikasi pada perangkat keras. Semuanya baik-baik saja, kami melihat tiga disk menyala.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Dan kami mengeluarkan ketiga disk ini.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Mari kita lihat apa yang ada di host. Dan di sana... tidak ada hal istimewa yang terjadi.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan
Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Indikator penyalinan (lebih tinggi dari pada awal, karena cache telah memanas) dan IOMETER tidak banyak berubah saat mengeluarkan disk dan memulai pembangunan kembali (dalam 5-10%).

Mari kita lihat apa yang ada di sistem penyimpanan.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Dari status grup, kami melihat proses restrukturisasi telah dimulai dan hampir selesai.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Dalam kerangka RDG Anda dapat melihat bahwa 2 disk berstatus merah, dan satu sudah diganti. Disk pengganti otomatis sudah tidak ada lagi; ia menggantikan disk ke-3 yang gagal. Pembangunan kembali memakan waktu beberapa menit, penulisan file ketika 3 disk gagal tidak terganggu, dan kinerja I/O tidak banyak berubah.

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Uji tabrak sistem penyimpanan AERODISK ENGINE N2, uji kekuatan

Tes kegagalan disk pasti lulus berhasil.

Kesimpulan

Pada titik ini, kami memutuskan untuk menghentikan kekerasan terhadap sistem penyimpanan. Mari kita rangkum:

  • Pemeriksaan kegagalan port FC - berhasil
  • Pemeriksaan kegagalan port Ethernet - berhasil
  • Pemeriksaan kegagalan pengontrol - berhasil
  • Tes Kegagalan Daya - Berhasil
  • Memeriksa kegagalan disk di grouppool - berhasil

Tidak ada kegagalan yang menghentikan perekaman atau menyebabkan kesalahan pada beban sintetis; tentu saja, ada penurunan kinerja (dan kami tahu cara mengatasinya, yang akan segera kami lakukan), tetapi mengingat ini hanya hitungan detik, hal ini cukup dapat diterima. Kesimpulan: toleransi kesalahan seluruh komponen sistem penyimpanan AERODISK bekerja pada level, tidak ada titik kegagalan.

Tentu saja, dalam satu artikel kami tidak dapat menguji semua skenario kegagalan, namun kami mencoba membahas skenario yang paling populer. Oleh karena itu, mohon kirimkan komentar, saran untuk publikasi selanjutnya dan tentunya kritik yang memadai. Kami akan dengan senang hati berdiskusi (atau lebih baik lagi, datang ke pelatihan, saya duplikat jadwalnya untuk berjaga-jaga)! Sampai tes baru!

  • Nizhny Novgorod (SUDAH TERBUKA – Anda dapat mendaftar di sini https://aerodisk.promo/nn/);
    Hingga 16 April 2019, Anda dapat mengunjungi pusat tersebut kapan saja waktu kerja, dan pada 16 April 2019, akan diselenggarakan kursus pelatihan besar-besaran.
  • Krasnodar (SEGERA DIBUKA - Anda dapat mendaftar di sini https://aerodisk.promo/krsnd/ );
    Dari tanggal 9 April hingga 25 April 2019, Anda dapat mengunjungi pusat tersebut kapan saja waktu kerja, dan pada tanggal 25 April 2019, kursus pelatihan besar akan diselenggarakan.
  • Yekaterinburg (SEGERA DIBUKA, ikuti informasi di website kami atau di Habré);
    Mei-Juni 2019.
  • Novosibirsk (ikuti informasi di situs web kami atau di Habré);
    Oktober 2019
  • Krasnoyarsk (ikuti informasi di situs web kami atau di Habré);
    November 2019.

Sumber: www.habr.com

Tambah komentar