Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Hai semua! Dengan artikel ini, AERODISK membuka blog di Habré. Hore, kawan-kawan!

Artikel sebelumnya tentang Habré membincangkan soalan tentang seni bina dan konfigurasi asas sistem storan. Dalam artikel ini kita akan mempertimbangkan soalan yang tidak pernah dibincangkan sebelum ini, tetapi sering ditanya - mengenai toleransi kesalahan sistem penyimpanan AERODISK ENGINE. Pasukan kami akan melakukan segala-galanya untuk memastikan sistem storan AERODISK berhenti berfungsi, i.e. pecahkan ia.

Kebetulan artikel tentang sejarah syarikat kami, tentang produk kami, serta contoh pelaksanaan yang berjaya sudah pun tergantung pada Habré, yang mana Jutaan terima kasih kepada rakan kongsi kami - syarikat TS Solution dan Softline.

Oleh itu, saya tidak akan melatih kemahiran pengurusan salin-tampal di sini, tetapi hanya akan menyediakan pautan ke asal artikel ini:

Saya juga ingin berkongsi berita gembira. Tetapi saya akan mulakan, sudah tentu, dengan masalah itu. Kami, sebagai vendor muda, antara kos lain, sentiasa berhadapan dengan hakikat bahawa ramai jurutera dan pentadbir tidak tahu cara mengendalikan sistem storan kami dengan betul.
Adalah jelas bahawa mengurus kebanyakan sistem storan kelihatan lebih kurang sama dari sudut pandangan pentadbir, tetapi setiap pengeluar mempunyai ciri tersendiri. Dan kami tidak terkecuali di sini.

Oleh itu, untuk memudahkan tugas melatih pakar IT, kami memutuskan untuk menumpukan tahun ini kepada pendidikan percuma. Untuk melakukan ini, di banyak bandar besar di Rusia kami membuka rangkaian Pusat Kecekapan AERODISK, di mana mana-mana pakar teknikal yang berminat boleh mengikuti kursus secara percuma dan menerima sijil dalam mentadbir sistem storan ENJIN AERODISK.

Di setiap Pusat Kecekapan kami akan memasang stand demo lengkap daripada sistem storan AERODISK dan pelayan fizikal, di mana guru kami akan menjalankan latihan bersemuka. Kami akan menerbitkan jadual kerja Pusat Kecekapan selepas penampilan mereka, tetapi kami telah membuka pusat di Nizhny Novgorod dan bandar Krasnodar seterusnya. Anda boleh mendaftar untuk latihan menggunakan pautan di bawah. Berikut ialah maklumat terkini tentang bandar dan tarikh:

  • Nizhny Novgorod (SUDAH DIBUKA – anda boleh mendaftar di sini https://aerodisk.promo/nn/);
    Sehingga 16 April 2019, anda boleh melawat pusat itu pada bila-bila masa bekerja, dan pada 16 April 2019, kursus latihan besar akan dianjurkan.
  • Krasnodar (DIBUKA TIDAK LAMA LAGI - anda boleh mendaftar di sini https://aerodisk.promo/krsnd/ );
    Dari 9 April hingga 25 April 2019, anda boleh melawat pusat itu pada bila-bila masa bekerja, dan pada 25 April 2019, kursus latihan besar akan dianjurkan.
  • Yekaterinburg (DIBUKA TIDAK LAMA LAGI, ikuti maklumat di laman web kami atau di Habré);
    Mei-Jun 2019.
  • Novosibirsk (ikut maklumat di laman web kami atau di Habré);
    Oktober 2019.
  • Krasnoyarsk (ikut maklumat di laman web kami atau di Habré);
    November 2019.

Dan, tentu saja, jika Moscow tidak jauh dari anda, maka pada bila-bila masa anda boleh melawat pejabat kami di Moscow dan menjalani latihan yang sama.

Semua. Kami telah selesai dengan pemasaran, mari beralih kepada teknologi!

Di Habré kami akan menerbitkan artikel teknikal secara kerap tentang produk kami, memuatkan ujian, perbandingan, ciri penggunaan dan pelaksanaan yang menarik.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

AMARAN! Selepas membaca artikel itu, anda boleh berkata: sudah tentu, vendor akan menyemak sendiri supaya semuanya berfungsi "dengan ledakan", keadaan rumah hijau, dll. Saya akan menjawab: tidak seperti itu! Tidak seperti pesaing asing kami, kami terletak di sini, berdekatan dengan anda, dan anda sentiasa boleh datang kepada kami (di Moscow atau mana-mana Jawatankuasa Pusat) dan menguji sistem storan kami dalam apa jua cara. Oleh itu, tidak masuk akal untuk kita menyesuaikan keputusan kepada gambaran dunia yang ideal, kerana Kami sangat mudah untuk menyemak. Bagi mereka yang malas untuk pergi dan tidak mempunyai masa, kami boleh menganjurkan ujian jarak jauh. Kami mempunyai makmal khas untuk ini. Hubungi Kami.

ACHTUNG-2! Ujian ini bukan ujian beban, kerana di sini kita hanya mementingkan toleransi kesalahan. Dalam beberapa minggu, kami akan menyediakan pendirian yang lebih berkuasa dan menjalankan ujian beban sistem storan, menerbitkan hasilnya di sini (secara langsung, permintaan untuk ujian diterima).

Jadi, mari kita pergi memecahkannya.

Tempat ujian

Pendirian kami terdiri daripada perkakasan berikut:

  • 1 x Sistem storan Enjin Aerodisk N2 (2 pengawal, cache 64GB, port 8xFC 8Gb/s, port 4xEthernet 10Gb/s SFP+, port 4xEthernet 1Gb/s); Cakera berikut dipasang dalam sistem storan:
  • 4 x cakera SSD SAS 900 GB;
  • 12 x SAS 10k cakera 1,2 TB;
  • 1 x Pelayan fizikal dengan Windows Server 2016 (2xXeon E5 2667 v3, 96GB RAM, 2xFC port 8Gb/s, 2xEthernet port 10Gb/s SFP+);
  • 2 x suis SAN 8G;
  • 2 x suis LAN 10G;

Kami menyambungkan pelayan ke sistem storan melalui suis melalui kedua-dua FC dan 10G Ethernet. Gambar rajah dirian adalah di bawah.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Komponen yang kami perlukan, seperti MPIO dan iSCSI initiator, dipasang pada Windows Server.
Zon dikonfigurasikan pada suis FC, VLAN yang sepadan dikonfigurasikan pada suis LAN, dan MTU 9000 dipasang pada port storan, suis dan hos (cara melakukan semua ini diterangkan dalam dokumentasi kami, jadi kami tidak akan menerangkan proses ini di sini).

Metodologi Ujian

Pelan ujian ranap adalah seperti berikut:

  • Menyemak kegagalan port FC dan Ethernet.
  • Pemeriksaan kegagalan kuasa.
  • Pemeriksaan kegagalan pengawal.
  • Menyemak kegagalan cakera dalam kumpulan/kumpulan.

Semua ujian akan dilakukan di bawah keadaan beban sintetik, yang akan kami hasilkan oleh program IOMETER. Secara selari, kami akan melakukan ujian yang sama, tetapi dalam keadaan menyalin fail besar ke sistem storan.

Konfigurasi IOmeter adalah seperti berikut:

  • Baca/Tulis – 70/30
  • Blok - 128k (kami memutuskan untuk mencuci sistem storan dalam blok besar)
  • Bilangan utas – 128 (yang hampir sama dengan beban produktif)
  • Rawak Penuh
  • Bilangan Pekerja – 4 (2 untuk FC, 2 untuk iSCSI)

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan
Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Ujian ini mempunyai objektif berikut:

  1. Pastikan proses pemuatan dan penyalinan sintetik tidak akan mengganggu atau menyebabkan ralat di bawah pelbagai senario kegagalan.
  2. Pastikan proses menukar port, pengawal, dsb. adalah cukup automatik dan tidak memerlukan tindakan pentadbir sekiranya berlaku kegagalan (iaitu, semasa failover, kita tidak bercakap tentang failback, sudah tentu).
  3. Pastikan maklumat dalam log dipaparkan dengan betul.

Menyediakan hos dan sistem storan

Kami mengkonfigurasi akses blok pada sistem storan menggunakan port FC dan Ethernet (FC dan iSCSI, masing-masing). Lelaki dari TS Solution menerangkan secara terperinci bagaimana untuk melakukan ini dalam artikel sebelumnya (https://habr.com/ru/company/tssolution/blog/432876/). Dan, sudah tentu, tiada siapa yang membatalkan manual dan kursus.

Kami menyediakan kumpulan hibrid menggunakan semua pemacu yang kami ada. 2 cakera SSD telah ditambahkan pada cache, 2 cakera SSD telah ditambahkan sebagai tier storan tambahan (Online-tier). Kami mengumpulkan 12 pemacu SAS10k ke dalam RAID-60P (pariti tiga kali ganda) untuk menyemak kegagalan tiga pemacu dalam kumpulan sekaligus. Satu cakera ditinggalkan untuk autoreplacement.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Kami menyambungkan dua LUN (satu melalui FC, satu melalui iSCSI).

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Pemilik kedua-dua LUN ialah pengawal Enjin-0

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Mari kita mulakan ujian

Kami mendayakan IOMETER dengan konfigurasi di atas.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Kami merekodkan daya pemprosesan sebanyak 1.8 GB/s dan kependaman 3 milisaat. Tiada ralat (Jumlah Kiraan Ralat).

Pada masa yang sama, dari pemacu tempatan "C" hos kami, kami secara selari mula menyalin dua fail 100GB besar ke LUN storan FC dan iSCSI (pemacu E dan G dalam Windows), menggunakan antara muka lain.

Di atas ialah proses penyalinan ke LUN FC, di bawah ke iSCSI.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Ujian #1: Melumpuhkan port I/O

Kami mendekati sistem storan dari belakang))) dan dengan sedikit pergerakan tangan kami mengeluarkan semua kabel FC dan Ethernet 10G dari pengawal Enjin-0. Seolah-olah seorang wanita pembersih dengan mop berjalan dan memutuskan untuk mencuci lantai betul-betul di mana hingus terletak dan kabelnya terletak (iaitu pengawal masih berfungsi, tetapi port I/O sudah mati).

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Mari lihat IOMETER dan menyalin fail. Throughput turun kepada 0,5 GB/s, tetapi cepat kembali ke tahap sebelumnya (dalam kira-kira 4-5 saat). Tiada ralat.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Menyalin fail tidak berhenti, terdapat penurunan dalam kelajuan, tetapi ia tidak sama sekali kritikal (dari 840 MB/s ia menurun kepada 720 MB/s). Penyalinan tidak berhenti.

Kami melihat log sistem storan dan melihat mesej tentang ketiadaan port dan penempatan semula kumpulan secara automatik.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Panel maklumat juga memberitahu kami bahawa tidak semuanya berjalan lancar dengan port FC.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Sistem storan terselamat daripada kegagalan port I/O dengan jayanya.

Ujian No. 2. Melumpuhkan pengawal storan

Hampir serta-merta (selepas memasang semula kabel ke dalam sistem storan) kami memutuskan untuk menamatkan sistem storan dengan menarik pengawal keluar dari casis.

Sekali lagi kami mendekati sistem storan dari belakang (kami menyukainya))) dan kali ini kami mengeluarkan pengawal Enjin-1, yang pada masa ini adalah pemilik RDG (ke mana kumpulan itu berpindah).

Keadaan dalam IOmeter adalah seperti berikut. I/O berhenti selama kira-kira 5 saat. Ralat tidak terkumpul.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Selepas 5 saat, I/O disambung semula dengan daya pemprosesan yang sama, tetapi dengan latensi 35 milisaat (latensi dibetulkan selepas kira-kira beberapa minit). Seperti yang dapat dilihat daripada tangkapan skrin, Jumlah nilai kiraan ralat ialah 0, iaitu, tiada ralat menulis atau membaca.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Mari lihat menyalin fail kami. Seperti yang anda lihat, ia tidak terganggu, terdapat sedikit penurunan dalam prestasi, tetapi secara keseluruhan semuanya kembali kepada sama ~ 800 MB/s.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Kami pergi ke sistem storan dan melihat kutukan dalam panel maklumat bahawa pengawal Enjin-1 tidak tersedia (sudah tentu, kami membunuhnya).

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Kami juga melihat entri serupa dalam log.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Pengawal storan juga terselamat daripada kegagalan dengan jayanya.

Ujian No. 3: Memutuskan sambungan bekalan kuasa.

Sekiranya berlaku, kami mula menyalin fail sekali lagi, tetapi tidak menghentikan IOMETER.
Kami menarik unit bekalan kuasa.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Satu lagi amaran telah ditambahkan pada sistem storan dalam panel maklumat.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Juga dalam menu penderia kita melihat bahawa penderia yang dikaitkan dengan bekalan kuasa yang ditarik keluar telah bertukar menjadi merah.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Sistem storan terus berfungsi. Kegagalan unit bekalan kuasa tidak sama sekali menjejaskan operasi sistem storan; dari sudut pandangan hos, kelajuan salinan dan penunjuk IOMETER kekal tidak berubah.

Ujian kegagalan kuasa lulus dengan jayanya.

Sebelum ujian akhir, kami memutuskan untuk menghidupkan sedikit sistem storan, memasang semula pengawal dan unit bekalan kuasa, dan juga menyusun kabel, yang sistem storan dengan gembira memaklumkan kepada kami dengan ikon hijau dalam panel kesihatannya .

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Ujian No. 4. Kegagalan tiga cakera dalam satu kumpulan

Sebelum ujian ini, kami melakukan langkah persediaan tambahan. Hakikatnya ialah sistem storan ENJIN menyediakan satu perkara yang sangat berguna - dasar bina semula yang berbeza. TS Solution telah menulis tentang ciri ini lebih awal, tetapi mari kita ingat semula intipatinya. Pentadbir storan boleh menentukan keutamaan untuk peruntukan sumber semasa pembinaan semula. Sama ada ke arah prestasi I/O, iaitu, pembinaan semula mengambil masa yang lebih lama, tetapi tiada pengurangan prestasi. Atau ke arah membina semula kelajuan, tetapi produktiviti akan dikurangkan. Atau pilihan yang seimbang. Memandangkan prestasi storan semasa pembinaan semula kumpulan cakera sentiasa menyusahkan pentadbir, kami akan menguji dasar dengan berat sebelah terhadap prestasi I/O dan dengan mengorbankan kelajuan binaan semula.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Sekarang mari kita semak kegagalan cakera. Kami juga membolehkan rakaman ke LUN (fail dan IOMETER). Oleh kerana kami mempunyai kumpulan dengan pariti tiga kali ganda (RAID-60P), ini bermakna sistem mesti menahan kegagalan tiga cakera, dan selepas kegagalan, penggantian automatik mesti berfungsi, satu cakera mesti menggantikan salah satu cakera yang gagal. dalam RDG, dan pembinaan semula mesti bermula di atasnya.

Mulakan. Mula-mula, melalui antara muka storan, mari kita serlahkan cakera yang ingin kita cabut (supaya tidak terlepas dan tarik cakera autochange).

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Kami menyemak petunjuk pada perkakasan. Semuanya OK, kami melihat tiga cakera yang diserlahkan.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Dan kami mengeluarkan ketiga-tiga cakera ini.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Mari lihat apa yang ada pada hos. Dan di sana... tiada apa yang istimewa berlaku.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan
Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Penunjuk penyalinan (ia lebih tinggi daripada pada mulanya, kerana cache telah menjadi panas) dan IOMETER tidak banyak berubah apabila mengeluarkan cakera dan memulakan pembinaan semula (dalam 5-10%).

Mari lihat apa yang ada pada sistem storan.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Dalam status kumpulan, kita melihat proses penstrukturan telah bermula dan hampir siap.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Dalam rangka RDG anda boleh melihat bahawa 2 cakera berada dalam status merah, dan satu telah diganti. Cakera autoreplacement tidak lagi ada; ia menggantikan cakera ke-3 yang gagal. Pembinaan semula mengambil masa beberapa minit, menulis fail apabila 3 cakera gagal tidak terganggu, dan prestasi I/O tidak banyak berubah.

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Ujian ranap sistem storan AERODISK ENGINE N2, ujian kekuatan

Ujian kegagalan cakera pasti lulus dengan jayanya.

Kesimpulan

Pada ketika ini, kami memutuskan untuk menghentikan keganasan terhadap sistem storan. Mari kita ringkaskan:

  • Semakan kegagalan port FC - berjaya
  • Pemeriksaan kegagalan port Ethernet - berjaya
  • Semakan kegagalan pengawal - berjaya
  • Ujian Kegagalan Kuasa - Berjaya
  • Menyemak kegagalan cakera dalam kumpulan kumpulan - berjaya

Tiada kegagalan yang menghentikan rakaman atau menyebabkan ralat dalam beban sintetik; sudah tentu, terdapat prestasi yang melanda (dan kami tahu cara untuk mengatasinya, yang akan kami lakukan tidak lama lagi), tetapi memandangkan ini adalah saat, ia agak boleh diterima. Kesimpulan: toleransi kesalahan semua komponen sistem penyimpanan AERODISK berfungsi pada tahap, tidak ada titik kegagalan.

Jelas sekali, dalam satu artikel kami tidak boleh menguji semua senario kegagalan, tetapi kami cuba menutup yang paling popular. Oleh itu, sila hantar komen anda, cadangan untuk penerbitan akan datang dan, sudah tentu, kritikan yang mencukupi. Kami akan gembira untuk berbincang (atau lebih baik lagi, datang ke latihan, saya menduplikasi jadual untuk berjaga-jaga)! Sehingga ujian baru!

  • Nizhny Novgorod (SUDAH DIBUKA – anda boleh mendaftar di sini https://aerodisk.promo/nn/);
    Sehingga 16 April 2019, anda boleh melawat pusat itu pada bila-bila masa bekerja, dan pada 16 April 2019, kursus latihan besar akan dianjurkan.
  • Krasnodar (DIBUKA TIDAK LAMA LAGI - anda boleh mendaftar di sini https://aerodisk.promo/krsnd/ );
    Dari 9 April hingga 25 April 2019, anda boleh melawat pusat itu pada bila-bila masa bekerja, dan pada 25 April 2019, kursus latihan besar akan dianjurkan.
  • Yekaterinburg (DIBUKA TIDAK LAMA LAGI, ikuti maklumat di laman web kami atau di Habré);
    Mei-Jun 2019.
  • Novosibirsk (ikut maklumat di laman web kami atau di Habré);
    Oktober 2019.
  • Krasnoyarsk (ikut maklumat di laman web kami atau di Habré);
    November 2019.

Sumber: www.habr.com

Tambah komen