Desain pusat data tervirtualisasi

Desain pusat data tervirtualisasi

pengenalan

Sistem informasi dari sudut pandang pengguna didefinisikan dengan baik dalam GOST RV 51987 - “sistem otomatis, yang hasilnya adalah penyajian informasi keluaran untuk penggunaan selanjutnya.” Jika kita mempertimbangkan struktur internal, maka pada dasarnya setiap IS adalah sistem algoritma yang saling berhubungan yang diimplementasikan dalam kode. Dalam arti luas tesis Turing-Church, suatu algoritma (atau IS) mengubah sekumpulan data masukan menjadi sekumpulan data keluaran.
Bahkan bisa dikatakan bahwa transformasi data masukan merupakan makna dari keberadaan sistem informasi. Dengan demikian, nilai IS dan seluruh kompleks IS ditentukan melalui nilai data masukan dan keluaran.
Berdasarkan hal ini, desain harus dimulai dan berbasis data, menyesuaikan arsitektur dan metode dengan struktur dan signifikansi data.

Data tersimpan
Tahap kunci dalam persiapan desain adalah memperoleh karakteristik dari semua kumpulan data yang direncanakan untuk diproses dan disimpan. Ciri-ciri tersebut antara lain:
- Volume data;
— Informasi tentang siklus hidup data (pertumbuhan data baru, umur data, pemrosesan data lama);
— Klasifikasi data dari sudut pandang dampak terhadap bisnis inti perusahaan (tiga serangkai kerahasiaan, integritas, ketersediaan) serta indikator keuangan (misalnya, biaya kehilangan data dalam satu jam terakhir);
— Geografi pemrosesan data (lokasi fisik sistem pemrosesan);
— Persyaratan peraturan untuk setiap kelas data (misalnya, Federal Law-152, PCI DSS).

Sistem Informasi

Data tidak hanya disimpan, tetapi juga diproses (diubah) oleh sistem informasi. Langkah selanjutnya setelah memperoleh karakteristik data adalah inventarisasi sistem informasi terlengkap, fitur arsitekturalnya, saling ketergantungan dan kebutuhan infrastruktur pada unit konvensional untuk empat jenis sumber daya:
— Kekuatan komputasi prosesor;
— Jumlah RAM;
— Persyaratan volume dan kinerja sistem penyimpanan data;
— Persyaratan untuk jaringan transmisi data (saluran eksternal, saluran antar komponen IS).
Dalam hal ini, harus ada persyaratan untuk setiap layanan/layanan mikro sebagai bagian dari IS.
Secara terpisah, perlu diperhatikan bahwa, untuk desain yang benar, ketersediaan data tentang dampak SI pada bisnis inti perusahaan dalam bentuk biaya downtime IS (rubel per jam) adalah wajib.

Model ancaman

Harus ada model ancaman formal yang direncanakan untuk melindungi data/layanan. Selain itu, model ancaman tidak hanya mencakup aspek kerahasiaan, tetapi juga integritas dan ketersediaan. Itu. Misalnya:
— Kegagalan server fisik;
— Kegagalan saklar bagian atas rak;
— Gangguan saluran komunikasi optik antar pusat data;
— Kegagalan seluruh sistem penyimpanan operasional.
Dalam beberapa kasus, model ancaman ditulis tidak hanya untuk komponen infrastruktur, tetapi juga untuk sistem informasi tertentu atau komponennya, seperti kegagalan DBMS dengan kerusakan logis pada struktur data.
Semua keputusan dalam proyek untuk melindungi terhadap ancaman yang belum dijelaskan tidak diperlukan.

Persyaratan peraturan

Jika data yang diproses tunduk pada aturan khusus yang ditetapkan oleh regulator, informasi tentang kumpulan data dan aturan pemrosesan/penyimpanan diperlukan.

Sasaran RPO/RTO

Merancang segala jenis perlindungan memerlukan indikator target kehilangan data dan target waktu pemulihan layanan untuk setiap ancaman yang dijelaskan.
Idealnya, RPO dan RTO harus memiliki biaya kehilangan data dan waktu henti per unit waktu yang terkait.

Desain pusat data tervirtualisasi

Pembagian menjadi kumpulan sumber daya

Setelah mengumpulkan semua informasi masukan awal, langkah pertama adalah mengelompokkan kumpulan data dan IP ke dalam kumpulan berdasarkan model ancaman dan persyaratan peraturan. Jenis pembagian berbagai kumpulan ditentukan - secara terprogram pada tingkat perangkat lunak sistem atau secara fisik.
Примеры:
— Sirkuit pemrosesan data pribadi sepenuhnya terpisah secara fisik dari sistem lain;
— Cadangan disimpan pada sistem penyimpanan terpisah.

Dalam hal ini, kumpulan dapat sepenuhnya independen, misalnya, dua kumpulan sumber daya komputasi ditentukan (daya prosesor + RAM), yang menggunakan kumpulan penyimpanan data tunggal dan kumpulan sumber daya transmisi data tunggal.

Kekuatan pemrosesan

Desain pusat data tervirtualisasi

Abstrak, kebutuhan daya pemrosesan pusat data tervirtualisasi diukur berdasarkan jumlah prosesor virtual (vCPU) dan rasio konsolidasinya pada prosesor fisik (pCPU). Dalam kasus khusus ini, 1 pCPU = 1 inti prosesor fisik (tidak termasuk Hyper-Threading). Jumlah vCPU dijumlahkan dari seluruh kumpulan sumber daya yang ditentukan (masing-masing kumpulan sumber daya dapat memiliki faktor konsolidasinya sendiri).
Koefisien konsolidasi untuk sistem berbeban diperoleh secara empiris, berdasarkan infrastruktur yang ada, atau melalui instalasi percontohan dan pengujian beban. Untuk sistem tanpa beban, “praktik terbaik” digunakan. Secara khusus, VMware menyebutkan rasio rata-rata adalah 8:1.

Memori operatif

Total kebutuhan RAM diperoleh dengan penjumlahan sederhana. Tidak disarankan menggunakan RAM berlebih.

Sumber daya penyimpanan

Persyaratan penyimpanan diperoleh hanya dengan menjumlahkan semua kumpulan berdasarkan kapasitas dan kinerja.
Persyaratan kinerja dinyatakan dalam IOPS yang dikombinasikan dengan rasio baca/tulis rata-rata dan, jika perlu, latensi respons maksimum.
Persyaratan Kualitas Layanan (QoS) untuk kumpulan atau sistem tertentu harus ditentukan secara terpisah.

Sumber daya jaringan data

Persyaratan jaringan data diperoleh hanya dengan menjumlahkan semua kumpulan bandwidth.
Persyaratan Kualitas Layanan (QoS) dan latensi (RTT) untuk kumpulan atau sistem tertentu harus ditentukan secara terpisah.
Sebagai bagian dari persyaratan sumber daya jaringan data, persyaratan untuk isolasi dan/atau enkripsi lalu lintas jaringan dan mekanisme pilihan (802.1q, IPSec, dll.) juga ditunjukkan.

Pemilihan arsitektur

Panduan ini tidak membahas pilihan apa pun selain arsitektur x86 dan virtualisasi server 100%. Oleh karena itu, pilihan arsitektur subsistem komputasi bergantung pada pilihan platform virtualisasi server, faktor bentuk server, dan persyaratan konfigurasi server umum.

Kunci pilihannya adalah kepastian penggunaan pendekatan klasik dengan pemisahan fungsi pengolahan, penyimpanan dan transmisi data atau yang konvergen.

arsitektur klasik melibatkan penggunaan subsistem eksternal yang cerdas untuk menyimpan dan mengirimkan data, sementara server hanya menyumbangkan daya pemrosesan dan RAM ke kumpulan sumber daya fisik bersama. Dalam kasus ekstrim, server menjadi sepenuhnya anonim, tidak hanya memiliki disknya sendiri, tetapi bahkan tidak memiliki pengenal sistem. Dalam hal ini, OS atau hypervisor dimuat dari media flash internal atau dari sistem penyimpanan data eksternal (boot dari SAN).
Dalam kerangka arsitektur klasik, pilihan antara bilah dan rak dibuat terutama berdasarkan prinsip-prinsip berikut:
— Hemat biaya (rata-rata, server yang dipasang di rak lebih murah);
— Kepadatan komputasi (lebih tinggi untuk blade);
— Konsumsi energi dan pembuangan panas (bilah memiliki satuan spesifik per unit yang lebih tinggi);
— Skalabilitas dan pengendalian (bilah umumnya memerlukan lebih sedikit tenaga untuk instalasi besar);
- Penggunaan kartu ekspansi (pilihan blade sangat terbatas).
Arsitektur konvergen (juga dikenal sebagai hiperkonvergensi) melibatkan penggabungan fungsi pemrosesan dan penyimpanan data, yang mengarah pada penggunaan disk server lokal dan, sebagai konsekuensinya, ditinggalkannya faktor bentuk blade klasik. Untuk sistem konvergen, digunakan server rak atau sistem cluster, yang menggabungkan beberapa server blade dan disk lokal dalam satu wadah.

CPU/Memori

Untuk menghitung konfigurasi dengan benar, Anda perlu memahami jenis beban untuk lingkungan atau masing-masing cluster independen.
CPU terikat – lingkungan yang kinerjanya dibatasi oleh kekuatan prosesor. Menambahkan RAM tidak akan mengubah apa pun dalam hal kinerja (jumlah VM per server).
Terikat memori – lingkungan dibatasi oleh RAM. Lebih banyak RAM di server memungkinkan Anda menjalankan lebih banyak VM di server.
GB / MHz (GB / pCPU) – rasio rata-rata konsumsi RAM dan daya prosesor pada beban tertentu. Dapat digunakan untuk menghitung jumlah memori yang diperlukan untuk kinerja tertentu dan sebaliknya.

Perhitungan konfigurasi server

Desain pusat data tervirtualisasi

Pertama, Anda perlu menentukan semua jenis beban dan memutuskan untuk menggabungkan atau membagi kumpulan komputasi yang berbeda ke dalam cluster yang berbeda.
Selanjutnya, untuk setiap cluster yang ditentukan, rasio GB/MHz ditentukan pada beban yang diketahui sebelumnya. Jika beban tidak diketahui sebelumnya, namun terdapat pemahaman kasar tentang tingkat penggunaan daya prosesor, Anda dapat menggunakan rasio vCPU:pCPU standar untuk mengubah persyaratan kumpulan menjadi persyaratan fisik.

Untuk setiap cluster, bagi jumlah persyaratan kumpulan vCPU dengan koefisien:
vCPUsum / vCPU:pCPU = pCPUsum – jumlah unit fisik yang diperlukan. inti
pCPUsum / 1.25 = pCPUht – jumlah core disesuaikan untuk Hyper-Threading
Mari kita asumsikan bahwa perlu menghitung sebuah cluster dengan 190 core / 3.5 TB RAM. Pada saat yang sama, kami menerima target beban 50% daya prosesor dan 75% RAM.

CPU komputer
190
kegunaan CPU
50%

Nona
3500
Utilitas meme
75%

Stopkontak
Core
Server/CPU
Tuan Nona
Srv/Mem

2
6
25,3
128
36,5

2
8
19,0
192
24,3

2
10
15,2
256
18,2

2
14
10,9
384
12,2

2
18
8,4
512
9,1

Dalam hal ini, kami selalu menggunakan pembulatan ke atas ke bilangan bulat terdekat (=ROUNDUP(A1;0)).
Dari tabel terlihat jelas bahwa beberapa konfigurasi server seimbang untuk indikator target:
— 26 server 2*6c / 192 GB
— 19 server 2*10c / 256 GB
— 10 server 2*18c / 512 GB

Pilihan konfigurasi ini kemudian harus dibuat berdasarkan faktor tambahan, seperti paket termal dan pendingin yang tersedia, server yang sudah digunakan, atau biaya.

Fitur memilih konfigurasi server

VM yang luas. Jika perlu untuk menghosting VM lebar (sebanding dengan 1 node NUMA atau lebih), disarankan, jika memungkinkan, untuk memilih server dengan konfigurasi yang memungkinkan VM tersebut tetap berada dalam node NUMA. Dengan sejumlah besar VM lebar, terdapat bahaya fragmentasi sumber daya cluster, dan dalam hal ini, server dipilih yang memungkinkan VM lebar ditempatkan sepadat mungkin.

Ukuran domain kegagalan tunggal.

Pemilihan ukuran server juga didasarkan pada prinsip meminimalkan domain kegagalan tunggal. Misalnya, ketika memilih antara:
— 3x4*10c / 512GB
— 6x2*10c / 256GB
Semua hal lain dianggap sama, Anda harus memilih opsi kedua, karena ketika satu server gagal (atau sedang dipelihara), bukan 33% sumber daya cluster yang hilang, tetapi 17%. Dengan cara yang sama, jumlah VM dan IS yang terkena dampak kecelakaan juga berkurang setengahnya.

Perhitungan sistem penyimpanan klasik berdasarkan kinerja

Desain pusat data tervirtualisasi

Sistem penyimpanan klasik selalu dihitung menggunakan skenario terburuk, tidak termasuk pengaruh cache operasional dan optimalisasi operasi.
Sebagai indikator kinerja dasar, kami mengambil kinerja mekanis dari disk (IOPSdisk):
– 7.2k – 75 IOPS
– 10k – 125 IOPS
– 15k – 175 IOPS

Selanjutnya, jumlah disk di kumpulan disk dihitung menggunakan rumus berikut: = TotalIOPS * ( RW + (1 –RW) * RAIDPen) / IOPSdisk. Di mana:
- TotalIOPS – total kinerja yang diperlukan dalam IOPS dari kumpulan disk
- RW – persentase operasi baca
- pena RAID – Penalti RAID untuk level RAID yang dipilih

Baca selengkapnya tentang RAID Perangkat dan Penalti RAID di sini - Kinerja penyimpanan. Bagian satu. и Kinerja penyimpanan. Bagian kedua. и Kinerja penyimpanan. Bagian ketiga

Berdasarkan jumlah disk yang dihasilkan, opsi yang memungkinkan dihitung yang memenuhi persyaratan kapasitas penyimpanan, termasuk opsi dengan penyimpanan multi-level.
Perhitungan sistem yang menggunakan SSD sebagai lapisan penyimpanan dipertimbangkan secara terpisah.
Fitur sistem penghitungan dengan Flash Cache

Cache Flash – nama umum untuk semua teknologi kepemilikan untuk menggunakan memori flash sebagai cache tingkat kedua. Saat menggunakan flash cache, sistem penyimpanan biasanya dirancang untuk memberikan beban yang stabil dari disk magnetik, sedangkan puncaknya dilayani oleh cache.
Dalam hal ini, perlu dipahami profil beban dan tingkat lokalisasi akses ke blok volume penyimpanan. Flash cache adalah teknologi untuk beban kerja dengan kueri yang sangat terlokalisasi, dan secara praktis tidak dapat diterapkan untuk volume yang dimuat secara seragam (seperti untuk sistem analitik).

Perhitungan sistem hybrid kelas bawah/menengah

Sistem hibrida kelas bawah dan menengah menggunakan penyimpanan multi-level dengan perpindahan data antar level sesuai jadwal. Pada saat yang sama, ukuran blok penyimpanan bertingkat untuk model terbaik adalah 256 MB. Fitur-fitur ini tidak memungkinkan kita untuk menganggap teknologi penyimpanan berjenjang sebagai teknologi untuk meningkatkan produktivitas, seperti yang diyakini secara keliru oleh banyak orang. Penyimpanan multi-level dalam sistem kelas rendah dan menengah adalah teknologi untuk mengoptimalkan biaya penyimpanan untuk sistem dengan ketidakrataan beban yang nyata.

Untuk penyimpanan berjenjang, kinerja penyimpanan tingkat atas dihitung terlebih dahulu, sedangkan penyimpanan tingkat bawah dianggap hanya berkontribusi pada kapasitas penyimpanan yang hilang. Untuk sistem multi-tingkat hibrid, wajib menggunakan teknologi flash cache untuk kumpulan multi-tingkat guna mengkompensasi penurunan kinerja karena data yang dipanaskan secara tiba-tiba dari tingkat yang lebih rendah.

Menggunakan SSD di Kumpulan Disk Berjenjang

Desain pusat data tervirtualisasi

Penggunaan SSD dalam kumpulan disk multi-level memiliki variasi, bergantung pada implementasi spesifik algoritma cache flash oleh produsen tertentu.
Praktik umum kebijakan penyimpanan untuk kumpulan disk dengan tingkat SSD adalah SSD terlebih dahulu.
Cache Flash Hanya Baca. Untuk cache flash hanya-baca, lapisan penyimpanan pada SSD dilengkapi dengan lokalisasi penulisan yang signifikan, apa pun cache-nya.
Baca/Tulis Flash Cache. Dalam kasus cache flash, ukuran cache tulis pertama-tama diatur ke ukuran cache maksimum, dan tingkat penyimpanan SSD hanya muncul ketika ukuran cache tidak mencukupi untuk melayani seluruh beban kerja yang dilokalkan.
Penghitungan kinerja SSD dan cache dilakukan setiap saat berdasarkan rekomendasi pabrikan, namun selalu untuk skenario terburuk.

Sumber: www.habr.com

Tambah komentar