בבקשה אל תקפוץ למסקנות בגלל הכותרת! יש לנו טיעונים כבדי משקל כדי לגבות את זה, וארזנו אותם בצורה קומפקטית ככל שיכולנו. אנו מביאים לידיעתכם פוסט על הרעיון ועקרונות הפעולה של מערכת האחסון החדשה שלנו, אשר שוחררה בינואר 2020.

לדעתנו, היתרון התחרותי העיקרי של משפחת האחסון דוראדו V6 מסופק על ידי הביצועים והאמינות המוזכרים בכותרת. כן, כן, זה כל כך פשוט, אבל איזה החלטות מסובכות ולא כל כך מסובכות הצלחנו להשיג את ה"פשוט" הזה, נדבר היום.
על מנת לנצל טוב יותר את הפוטנציאל של מערכות מהדור החדש, נדבר על הנציגים הוותיקים יותר של מגוון הדגמים (דגמים 8000, 18000). אלא אם צוין אחרת, הם אמורים להיות.

כמה מילים על השוק
כדי להבין טוב יותר את מקומם של פתרונות Huawei בשוק, הבה נפנה למדד מוכח - "» גרטנר. לפני שנתיים, בתחום מערכי הדיסקים למטרות כלליות, החברה שלנו הייתה בביטחון בין המובילים, שנייה רק ל-NetApp וה- Hewlett Packard Enterprise. מעמדה של Huawei בשוק האחסון במצב מוצק ב-2018 התאפיין בסטטוס "אתגר", אבל משהו היה חסר כדי להשיג עמדת מנהיגות.
בשנת 2019, גרטנר, במחקר שלה, שילבה את שני המגזרים הנ"ל לאחד - "אחסון ראשי". כתוצאה מכך, Huawei שוב הייתה ברביע המוביל, לצד ספקים כמו IBM, Hitachi Vantara ו-Infinidat.
להשלמת התמונה נציין שגרטנר אוספת 80% מהנתונים לניתוח בשוק האמריקאי, והדבר מוביל להטיה משמעותית לטובת אותן חברות שמיוצגות היטב בארה"ב. בינתיים, ספקים המכוונים לשווקים באירופה ובאסיה מוצאים את עצמם בעמדה פחות מועילה בעליל. למרות זאת, בשנה שעברה מוצרי Huawei תפסו את מקומם הראוי ברביע הימני העליון ועל פי פסק הדין של גרטנר, "ייתכן שיהיו מומלצים לשימוש".

מה חדש בדוראדו V6
קו המוצרים של דוראדו V6, במיוחד, מיוצג על ידי מערכות התחלתיות מסדרת 3000. מצוידים בתחילה בשני בקרים, ניתן להרחיב אותם אופקית ל-16 בקרים, 1200 כוננים ו-192 GB של מטמון. כמו כן, המערכת תצויד ביציאות Fibre Channel חיצוניות (8/16/32 Gb/s) ו-Ethernet (1/10/25/40/100 Gb/s).
שימו לב שהשימוש בפרוטוקולים שאינם מוצלחים מסחרית מופסק כעת, אז בהתחלה החלטנו לנטוש את התמיכה ב-Fibre Channel over Ethernet (FCoE) וב-Infiniband (IB). הם יתווספו בגרסאות קושחה מאוחרות יותר. תמיכה ב-NVMe over Fabric (NVMe-oF) זמינה מהקופסה דרך Fibre Channel. הקושחה הבאה, המתוכננת לצאת ביוני, תתמוך ב-NVMe over Ethernet. לדעתנו, הסט לעיל יותר מכסה את הצרכים של רוב לקוחות Huawei.
גישה לקבצים אינה זמינה בגרסת הקושחה הנוכחית והיא תופיע באחד מהעדכונים הבאים לקראת סוף השנה. ההטמעה מתבצעת ברמה המקורית, על ידי הבקרים עצמם עם יציאות Ethernet, ללא שימוש בציוד נוסף.
ההבדל העיקרי בין סדרת דוראדו V6 3000 לדגמים ישנים יותר הוא שהיא תומכת בפרוטוקול אחד בקצה האחורי - SAS 3.0. בהתאם לכך, כוננים שם יכולים לשמש רק עם הממשק הנקוב. מנקודת המבט שלנו, הביצועים שזה מספק מספיקים למכשיר מסוג זה.
מערכות דוראדו V6 5000 ו-6000 הן פתרונות בינוניים. הם גם עשויים בפורמט 2U ומצוידים בשני בקרים. הם שונים זה מזה בביצועים, במספר המעבדים, במספר הדיסקים המרבי ובגודל המטמון. עם זאת, במונחים אדריכליים והנדסיים, דוראדו V6 5000 ו-6000 זהים ונראים אותו הדבר.
ה-hi-end class כולל מערכות Dorado V6 מסדרות 8000 ו- 18000. מיוצרות בגודל סטנדרטי 4U, כברירת מחדל יש להן ארכיטקטורה נפרדת שבה בקרים וכוננים מופרדים. בתצורה המינימלית, הם יכולים להיות מצוידים גם בשני בקרים בלבד, אם כי לקוחות, ככלל, מבקשים להתקין ארבעה או יותר.
Dorado V6 8000 מתרחב ל-16 בקרים, ו-Dorado V6 18000 מדרג עד 32. למערכות אלו מעבדים שונים עם מספרים שונים של ליבות וגדלים של מטמון. יחד עם זאת, זהות הפתרונות ההנדסיים נשמרת, כמו בדגמים של מחלקת הביניים.
מדפי אחסון 2U מחוברים באמצעות RDMA ברוחב פס של 100 Gb/s. הקצה האחורי הישן יותר של Dorado V6 תומך גם ב-SAS 3.0, אבל יותר במקרה שכונני SSD עם ממשק זה יורידו בהרבה. אז תהיה כדאיות כלכלית של השימוש בהם גם תוך התחשבות בפריון נמוך יותר. נכון לעכשיו, ההבדל בעלות בין כונני SSD עם ממשקי SAS ו-NVMe כל כך קטן שאנחנו לא מוכנים להמליץ על פתרון כזה.

בתוך הבקר
בקרי דוראדו V6 מיוצרים על בסיס האלמנטים שלנו. אין מעבדים של אינטל, אין ASICs מברודקום. לפיכך, כל רכיב בודד של לוח האם, כמו גם לוח האם עצמו, מורח לחלוטין מהשפעת הסיכונים הכרוכים בלחץ הסנקציות מצד חברות אמריקאיות. מי שראה כל ציוד שלנו במו עיניהם, כנראה הבחין במגנים עם פס אדום מתחת ללוגו. זה אומר שהמוצר אינו מכיל רכיבים אמריקאים. זהו המהלך הרשמי של Huawei - המעבר לרכיבים מייצור עצמי, או, בכל מקרה, מיוצר במדינות שאינן עוקבות אחר מדיניות ארה"ב.
הנה מה שאתה יכול לראות על לוח הבקר עצמו.
- ממשק רשת אוניברסלי (שבב Hisilicon 1822), אחראי על החיבור ל-Fibre Channel או Ethernet.
- מתן נגישות מרחוק של שבב BMC של המערכת, כלומר Hisilicon 1710, לשליטה מרחוק וניטור מלא של המערכת. משתמשים דומים גם בשרתים שלנו ובפתרונות אחרים.
- יחידת העיבוד המרכזית, שהיא שבב Kunpeng 920 הבנוי על ארכיטקטורת ARM, מתוצרת Huawei. הוא זה שמוצג בתרשים למעלה, למרות שלבקרים אחרים עשויים להיות דגמים שונים עם מספר שונה של ליבות, מהירות שעון שונה וכו'. גם מספר המעבדים בבקר אחד משתנה מדגם לדגם. לדוגמה, בסדרת דוראדו V6 הישנה יותר יש ארבעה מהם על לוח אחד.
- בקר SSD (שבב Hisilicon 1812e) התומך בכונני SAS ו-NVMe כאחד. בנוסף, Huawei מייצרת באופן עצמאי כונני SSD, אך אינה מייצרת בעצמה תאי NAND, ומעדיפה לרכוש אותם מארבעת היצרנים הגדולים בעולם בצורת פרוסות סיליקון לא חתוכות. חיתוך, בדיקה ואריזה לשבבים Huawei מייצרת באופן עצמאי, ולאחר מכן היא משחררת אותם תחת המותג שלה.
- שבב הבינה המלאכותית הוא Ascend 310. כברירת מחדל, הוא נעדר בבקר והוא מותקן באמצעות כרטיס נפרד, אשר תופס את אחד החריצים השמורים למתאמי רשת. השבב משמש לספק התנהגות מטמון חכמה, ניהול ביצועים או תהליכי ביטול כפילויות ודחיסה. ניתן לפתור את כל המשימות הללו בעזרת המעבד המרכזי, אבל שבב ה-AI מאפשר לך לעשות זאת בצורה הרבה יותר יעילה.

בנפרד לגבי מעבדי Kunpeng
מעבד Kunpeng הוא מערכת על שבב (SoC) שבה בנוסף ליחידת המחשוב ישנם מודולי חומרה המאיצים תהליכים שונים, כמו חישוב סכומי ביקורת או ביצוע קידוד מחיקה. היא גם מיישמת תמיכת חומרה עבור SAS, Ethernet, DDR4 (משישה עד שמונה ערוצים) וכו'. כל זה מאפשר ל-Huawei ליצור בקרי אחסון שאינם נחותים בביצועים מפתרונות אינטל הקלאסיים.
בנוסף, פתרונות קנייניים המבוססים על ארכיטקטורת ARM מאפשרים ל-Huawei ליצור פתרונות שרתים מלאים ולהציע אותם ללקוחותיה כחלופה ל-x86.

ארכיטקטורת דוראדו V6 חדשה...
הארכיטקטורה הפנימית של מערכת האחסון Dorado V6 מהסדרה הישנה מיוצגת על ידי ארבעה תת-דומיינים עיקריים (מפעלים).
המפעל הראשון הוא חזית משותף (ממשקי רשת האחראים לתקשורת עם מפעל ה-SAN או המארחים).
השני הוא סט של בקרים, שכל אחד מהם יכול "להגיע" באמצעות פרוטוקול RDMA הן לכל כרטיס רשת חזיתי והן ל"מנוע" השכן, שהוא קופסה עם ארבעה בקרים, כמו גם כוח וקירור יחידות משותפות להם. כעת ניתן להצטייד בדגמי דוראדו V6 ברמה הגבוהה ביותר בשני "מנועים" כאלה (בהתאמה, שמונה בקרים).
הבד השלישי אחראי על הקצה האחורי ומורכב מכרטיסי רשת RDMA 100G.
לבסוף, המפעל הרביעי "בחומרה" מיוצג על ידי מדפי אחסון אינטליגנטיים.
מבנה סימטרי זה פותח את מלוא הפוטנציאל של טכנולוגיית NVMe ומבטיח ביצועים ואמינות גבוהים. תהליך ה-I/O מקביל בצורה מקסימלית על פני מעבדים וליבות, ומאפשר קריאה וכתיבה בו-זמנית למספר שרשורים.

...ומה שהיא נתנה לנו
הביצועים המקסימליים של פתרונות דוראדו V6 גבוהים בערך פי שלושה מזה של מערכות מהדור הקודם (מאותה מחלקה) ויכולים להגיע ל-20 מיליון IOPS.
זאת בשל העובדה שבדור הקודם של המכשירים, תמיכת NVMe התרחבה רק למדפים מחוברים עם כוננים. כעת הוא קיים בכל השלבים, מהמארח ועד ל-SSD. גם הרשת האחורית עברה שינויים: SAS/PCIe פינתה את מקומו ל-RoCEv2 עם תפוקה של 100 Gbps.
גם גורם הצורה של ה-SSD השתנה. אם קודם לכן היו 2 כוננים לכל מדף 25U, כעת הוא הועלה ל-36 דיסקים פיזיים בגודל כף היד. בנוסף, המדפים "חכמו". לכל אחד מהם יש כעת מערכת סבילת תקלות של שני בקרים המבוססים על שבבי ARM, בדומה לאלו המותקנים בבקרים המרכזיים.

עד כה הם עוסקים רק בארגון מחדש של נתונים, אך עם שחרור הקושחה החדשה יתווסף לו קידוד דחיסה ומחיקה, שיפחית את העומס על הבקרים הראשיים מ-15 ל-5%. העברת כמה משימות למדף בו זמנית משחררת את רוחב הפס של הרשת הפנימית. וכל זה מגדיל משמעותית את פוטנציאל המדרגיות של המערכת.
דחיסה ומניעת כפילות במערכת האחסון מהדור הקודם בוצעו עם בלוקים באורך קבוע. כעת נוסף מצב לעבודה עם בלוקים באורך משתנה, שלעת עתה צריך להפעיל אותו בכוח. עדכוני הקושחה הבאים עשויים לשנות זאת.
גם בקצרה על סובלנות לכשלים. דוראדו V3 נשאר פעיל אם אחד משני הבקרים נכשל. דוראדו V6 יבטיח זמינות של נתונים גם אם שבעה מתוך שמונה בקרים ייכשלו ברצף או ארבעה מתוך מנוע אחד ייכשלו בו זמנית.

אמינות מבחינה כלכלית
לאחרונה נערך סקר בקרב לקוחות Huawei לגבי סוג השבתה של רכיבים בודדים של תשתית ה-IT שהחברה רואה כמקובל. לרוב, המשיבים היו סובלניים למצב היפותטי שבו אפליקציה לא מגיבה במשך כמה מאות שניות. עבור מערכת ההפעלה או מתאם האוטובוס המארח, זמן ההשבתה הקריטי היה עשרות שניות (בעיקר זמן אתחול מחדש). לקוחות מציבים דרישות גבוהות עוד יותר מהרשת: אסור לאבד את רוחב הפס שלה במשך יותר מ-10-20 שניות. כפי שניתן לנחש, הנסקרים סברו כי כשלים במערכת האחסון הם הקריטיים ביותר. מנקודת מבטם של נציגי העסק, זמן השבתת האחסון לא יעלה על... מספר שניות בשנה!
במילים אחרות, אם אפליקציית הלקוח של הבנק לא תגיב במשך 100 שניות, סביר להניח שהדבר לא יגרום לתוצאות הרות אסון. אבל אם מערכת האחסון לא עובדת באותו סכום, סביר להניח שהעסק יפסיק את העסק והפסדים כספיים משמעותיים.

התרשים שלמעלה מציג את העלות של שעת עבודה עבור עשרת הבנקים הגדולים (נתונים של פורבס לשנת 2017). מסכים, אם החברה שלך קרובה בגודלה לבנקים סיניים, הצדקת הצורך לרכוש מערכות אחסון בכמה מיליוני דולרים לא תהיה כל כך קשה. גם ההצהרה ההפוכה נכונה: אם לעסק לא נגרם הפסדים משמעותיים עקב השבתה, אז סביר שלא יקנה מערכות אחסון היי-אנד. בכל מקרה, חשוב לקבל מושג לגבי גודל החור שמאיים להיווצר בארנק בזמן שמנהל המערכת מטפל במערכת אחסון הנתונים שסירבה לפעול.

שני לכל כשל
בפתרון א' באיור למעלה, תוכלו לזהות את מערכת דוראדו V3 מהדור הקודם שלנו. ארבעת הבקרים שלו עובדים בזוגות, ורק שני בקרים מכילים עותקים של המטמון. בקרים בתוך זוג יכולים לחלק מחדש את העומס. יחד עם זאת, כפי שניתן לראות, אין כאן "מפעלים" קדמיים ואחוריים, כך שכל אחד ממדפי האחסון מחובר לזוג בקרים ספציפי.
תרשים פתרון ב' מציג פתרון שקיים כיום בשוק מספק אחר (גיליתם?). כבר יש כאן מפעלים קדמיים ואחוריים, והכוננים מחוברים לארבעה בקרים בבת אחת. נכון, ישנם ניואנסים בפעולת האלגוריתמים הפנימיים של המערכת שאינם ברורים מיד.
בצד ימין נמצאת ארכיטקטורת האחסון הנוכחית שלנו Dorado V6 עם הסט המלא של החלקים הפנימיים. שקול כיצד מערכות אלו שורדות מצב טיפוסי - כשל של בקר אחד.
במערכות קלאסיות, הכוללות את דוראדו V3, התקופה הנדרשת לפיזור מחדש של העומס במקרה של תקלה מגיעה לארבע שניות. במהלך זמן זה, הקלט/פלט מופסק לחלוטין. בפתרון B של עמיתינו, למרות ארכיטקטורה מודרנית יותר, זמן ההשבתה בזמן תקלה הוא אפילו גבוה יותר - שש שניות.
מערכת האחסון Dorado V6 משחזרת את פעולתה תוך שנייה אחת בלבד לאחר תקלה. תוצאה זו מושגת הודות לסביבת RDMA פנימית הומוגנית, המאפשרת לבקר לגשת לזיכרון "זר". הנסיבות החשובות השניות היא נוכחותו של מפעל חזיתי, שבזכותו הדרך של המארח אינה משתנה. היציאה נשארת זהה, והעומס פשוט נשלח לבקרים עובדים על ידי מנהלי התקנים מרובים.
הכישלון של הבקר השני ב-Dorado V6 מסתדר תוך שנייה אחת לפי אותה סכמה. דוראדו V3 לוקח בערך שש שניות, ופתרון של ספק אחר לוקח תשע. עבור DBMS רבים, מרווחים כאלה כבר לא יכולים להיחשב מקובלים, שכן במהלך זמן זה המערכת מועברת למצב המתנה ומפסיקה לעבוד. זה קודם כל נוגע ל-DBMS המורכב מחלקים רבים.
פתרון א' אינו מסוגל לשרוד את הכשל של הבקר השלישי. פשוט בשל העובדה שהגישה לחלק מהדיסקים עם נתונים אובדת. בתורו, פתרון B במצב כזה משחזר את הפונקציונליות, הדורש, כמו במקרה הקודם, תשע שניות.
מה יש בדוראדו V6? שנייה אחת.

מה אתה יכול לעשות בשנייה?
כמעט כלום, אבל אנחנו לא צריכים את זה. שוב, ב-Dorado V6 ממחלקת היי-אנד, המפעל הקדמי מנותק ממפעל הבקרים. המשמעות היא שאין יציאות מקודדות קשיחות השייכות לבקר ספציפי. כשל אינו כרוך במציאת נתיבים חלופיים או אתחול מחדש של ריבוי מעברים. המערכת ממשיכה לעבוד כמו פעם.

התנגדות לכשלים רבים
דגמי דוראדו V6 הישנים יותר יכולים לשרוד בקלות את הכישלון בו זמנית של כל שני (!) בקרים מכל "מנוע". זה מתאפשר הודות לעובדה שהפתרון שומר כעת שלושה עותקים של המטמון. לכן, גם עם כישלון כפול, תמיד יהיה עותק אחד שלם.
גם כשל סינכרוני של כל ארבעת הבקרים באחד ה"מנועים" לא יגרום לתוצאות קטלניות, שכן כל שלושת העותקים של המטמון מופצים בין ה"מנועים" בכל זמן נתון. המערכת עצמה מפקחת על עמידה בהיגיון הפעלה זה.
לבסוף, תרחיש מאוד לא סביר הוא כשל רציף של שבעה מתוך שמונה בקרים. יתר על כן, המרווח המינימלי המותר בין כשלים בודדים לשמירה על יכולת הפעולה הוא 15 דקות. במהלך זמן זה, למערכת האחסון יש זמן לבצע את הפעולות הדרושות להעברת המטמון.
הבקר האחרון ששרד יריץ את מאגר הנתונים וישמור על המטמון למשך חמישה ימים (ערך ברירת המחדל, שניתן לשנות בקלות בהגדרות). לאחר מכן, המטמון יושבת, אך מערכת האחסון תמשיך לעבוד.

עדכונים לא מטרידים
מערכת ההפעלה החדשה Dorado V6 מאפשרת לך לעדכן את קושחת האחסון מבלי לאתחל את הבקרים.
מערכת ההפעלה, כמו במקרה של פתרונות קודמים, מבוססת על Linuxעם זאת, תהליכי הפעלה רבים הועברו מהליבה למצב משתמש. רוב הפונקציות, כגון אלו האחראיות על מניעת כפילויות ודחיסה, הן כעת דמונים סטנדרטיים הפועלים ברקע. זה מבטל את הצורך לעדכן את מערכת ההפעלה כולה כדי לעדכן מודולים בודדים. לדוגמה, כדי להוסיף תמיכה בפרוטוקול חדש, עליך רק להשבית את מודול התוכנה המתאים ולהפעיל את החדש.
ברור שנושא העדכון של כל המערכת עדיין נותר בעינו, כי יתכן שיש אלמנטים בקרנל שצריכים עדכון. אבל, לפי התצפיות שלנו, אלה הם פחות מ-6% מהסך הכל. זה מאפשר הפעלה מחדש של בקרים פי עשר פחות מבעבר.

פתרונות עמידים בפני אסונות וזמינות גבוהה (HA/DR).
Dorado V6 "מחוץ לקופסה" מוכן לשילוב בפתרונות מבוזרים גיאוגרפיים, אשכולות ברמת העיר (מטרו) ומרכזי נתונים "משולשים".
בצד שמאל באיור למעלה נמצא אשכול המטרו המוכר כבר לרבים. שתי מערכות אחסון פועלות במצב פעיל / פעיל במרחק של עד 100 ק"מ זו מזו. תשתית זו, עם שרת קוורום אחד או יותר, יכולה להיתמך על ידי פתרונות ממגוון חברות, כולל מערכת ההפעלה שלנו בענן FusionSphere. בפרויקטים כאלה יש חשיבות מיוחדת למאפייני הערוץ בין האתרים; כל שאר המשימות במקרה שלנו משתלטות על ידי פונקציית HyperMetro, הזמינה, שוב, מחוץ לקופסה. שילוב באמצעות Fibre Channel אפשרי, כמו גם באמצעות iSCSI ברשתות IP, אם מתעורר צורך כזה. אין עוד צורך באופטיקה "אפלה" ייעודית, מכיוון שהמערכת מסוגלת לתקשר בערוצים קיימים.
בעת בניית מערכות כאלה, דרישת החומרה היחידה לאחסון היא הקצאת יציאות לשכפול. מספיק לרכוש רישיון, להפעיל שרתי קוורום - פיזיים או וירטואליים - ולספק קישוריות IP לבקרים (10 Mbps, 50 ms).
ניתן להעביר בקלות ארכיטקטורה זו למערכת עם שלושה מרכזי נתונים (ראה בצד ימין של האיור). לדוגמה, כאשר שני מרכזי נתונים פועלים במצב מטרו cluster, והאתר השלישי, הממוקם במרחק של למעלה מ-100 ק"מ, משתמש בשכפול אסינכרוני.
המערכת תומכת טכנולוגית בתרחישים עסקיים שונים שייושמו במקרה של חריגה בקנה מידה גדול.

הישרדות של אשכול מטרו עם כשלים מרובים
למעלה ולמטה מוצג גם אשכול מטרו קלאסי, המורכב משתי מערכות אחסון ושרת מניין. כפי שאתה יכול לראות, בשישה מתוך תשעה תרחישים אפשריים של תקלות מרובות, התשתית שלנו תישאר פעילה.
לדוגמה, בתרחיש השני, אם שרת הקוורום נכשל והסנכרון בין האתרים נכשל, המערכת נשארת פרודוקטיבית מכיוון שהאתר השני מפסיק לעבוד. התנהגות זו כבר מובנית באלגוריתמים המובנים.
גם לאחר שלושה כשלים, ניתן לשמור על גישה למידע אם המרווח ביניהם הוא לפחות 15 שניות.

האס הרגיל בשרוול
נזכיר כי Huawei מייצרת לא רק מערכות אחסון, אלא גם מגוון שלם של ציוד רשת. בכל ספק אחסון שתבחרו, אם נעשה שימוש ברשת WDM בין אתרים, ב-90% מהמקרים היא תהיה בנויה על הפתרונות של החברה שלנו. נשאלת שאלה הגיונית: מדוע להרכיב גן חיות של מערכות כאשר כל החומרה שמובטחת תואמת זו לזו ניתנת לספק אחד?

לשאלת הביצועים
כנראה שאף אחד לא צריך להשתכנע שהמעבר לאחסון All-Flash יכול להוזיל משמעותית את עלויות תחזוקת התשתית, שכן כל הפעולות השגרתיות מבוצעות מהר פי כמה. כל הספקים של ציוד כזה מעידים על כך. בינתיים, ספקים רבים מתחילים להיות ערמומיים בכל הנוגע לירידה בביצועים כאשר מצבי אחסון שונים מופעלים.
בתעשייה שלנו נהוגה הנפקת מערכות אחסון להפעלת בדיקה למשך יום או יומיים. הספק מפעיל בדיקה של 20 דקות על מערכת ריקה, ומשיג נתוני ביצועים קוסמיים. ובפעולה אמיתית, "מגרפות מתחת למים" זוחלות החוצה במהירות. לאחר יום, ערכי IOPS יפים הופחתו בחצי או שלוש פעמים, ואם מערכת האחסון מתמלאת ב-80%, הם מתבררים אפילו פחות. כאשר RAID 5 מופעל במקום RAID 10, עוד 10-15% אובדים, ובמצב מטרו אשכול הביצועים מופחתים בחצי נוסף.
כל מה שרשום לעיל אינו קשור לדוראדו V6. ללקוחות שלנו יש הזדמנות להריץ מבחן ביצועים במהלך סוף השבוע או לפחות בן לילה. אז מתבטא איסוף האשפה, ומתברר גם כיצד הפעלה של אפשרויות שונות - כמו צילומי מצב ושכפול - משפיעה על כמות ה-IOPS שהושגה.
ב-Dorado V6, לתמונות מצב ו-RAID עם זוגיות אין כמעט השפעה על הביצועים (3-5% במקום 10-15%). איסוף אשפה (מילוי תאי אחסון באפסים), דחיסה ומניעת כפילויות במערכת אחסון מלאה ב-80% תמיד ישפיעו על המהירות הכוללת של עיבוד הבקשות. אבל זה דוראדו V6 שמעניין בכך שלא משנה איזה שילוב של פונקציות ומנגנוני הגנה תפעיל, ביצועי האחסון הסופי לא יפלו מתחת ל-80% מהנתון המתקבל ללא עומס.

איזון עומסים
הביצועים הגבוהים של דוראדו V6 מושגים על ידי איזון בכל שלב, כלומר:
- ריבוי מעברים;
- שימוש במספר חיבורים ממארח אחד;
- זמינות של מפעל חזיתי;
- הקבילה של פעולת בקרי אחסון;
- חלוקת עומסים על פני כל הכוננים ברמת RAID 2.0+.
באופן עקרוני, זה נוהג מקובל. בימינו, מעט אנשים שומרים את כל הנתונים שלהם ב-LUN אחד: כולם מנסים לקבל שמונה, ארבעים, או אפילו יותר. זוהי גישה ברורה ונכונה שאנו חולקים. אבל אם היישום שלך דורש LUN אחד בלבד, שקל יותר לתחזק אותו, הפתרונות הארכיטקטוניים שלנו מאפשרים לו להשיג 80% מהביצועים הזמינים עם מספר LUNs.

תזמון עומס דינמי של CPU
אנו מיישמים חלוקת עומסים על מעבדים בעת שימוש ב-LUN אחד באופן הבא: משימות ברמת LUN מחולקות ל"רסיסים" קטנים נפרדים, שכל אחד מהם מוקצה בקפדנות לבקר ספציפי ב"מנוע". זה נעשה כדי שהמערכת לא תאבד ביצועים בזמן שהיא "קופצת" עם פיסת הנתונים הזו על פני בקרים שונים.
מנגנון נוסף לשמירה על ביצועים גבוהים הוא תזמון דינמי, שבו ניתן להקצות ליבות מעבד מסוימות למאגרים שונים של משימות. לדוגמה, אם המערכת אינה פועלת כעת ברמת מניעת הכפילויות והדחיסה, ייתכן שחלק מהליבות יהיו מעורבות בתהליך של שירות קלט/פלט. או להפך. כל זה נעשה באופן אוטומטי ושקוף למשתמש.
נתונים על העומס הנוכחי של כל אחת מליבות דוראדו V6 אינם מוצגים בממשק הגרפי, אך דרך שורת הפקודה ניתן לגשת למערכת ההפעלה של הבקר ולהשתמש בפקודה הרגילה של לינוקס חלק עליון.

תמיכה ב-NVMe ו-RoCE
כפי שכבר הוזכר, דוראדו V6 תומך כעת באופן מלא ב-NVMe over Fibre Channel מחוץ לקופסה ואינו דורש שום רישיונות. באמצע השנה תופיע תמיכה במצב NVMe over Ethernet. לשימוש המלא שלה, תזדקק לתמיכה ב-Ethernet עם גישה ישירה לזיכרון (DMA) גרסה v2.0 הן ממערכת האחסון עצמה והן ממתגים ומתאמי רשת. לדוגמה, כגון מלאנוקס ConnectX-4 או ConnectX-5. אתה יכול גם להשתמש בכרטיסי רשת שנעשו על בסיס השבבים שלנו. כמו כן, יש ליישם תמיכת RoCE ברמת מערכת ההפעלה.
בסך הכל, אנו רואים ב-Dorado V6 מערכת ממוקדת NVMe. למרות התמיכה הקיימת ב-Fibre Channel וב-iSCSI, בעתיד מתוכנן לעבור ל-Ethernet מהיר עם RDMA.

קורט שיווק
בשל העובדה שמערכת דוראדו V6 סובלנית מאוד לתקלות, מתרחבת היטב, תומכת בטכנולוגיות הגירה שונות וכו', ההשפעה הכלכלית של רכישתה מתגלה עם תחילת השימוש האינטנסיבי במערכות אחסון. נמשיך לנסות להפוך את הבעלות על המערכת לרווחית ככל האפשר, גם אם בשלב הראשון זה לא ברור.
במיוחד, יצרנו את תוכנית FLASH EVER הקשורה להארכת מחזור החיים של מערכות אחסון ונועדה להוריד מהלקוח כמה שיותר במהלך השדרוגים.

תוכנית זו כוללת מספר צעדים:
- היכולת להחליף בהדרגה בקרים ומדפי דיסקים בגרסאות חדשות מבלי להחליף את כל החומרה (עבור מערכות דוראדו V6 hi-end);
- אפשרות לאחסון מאוחד (שילוב גרסאות שונות של דוראדו כחלק מאשכול אחסון היברידי אחד);
- וירטואליזציה חכמה (היכולת להשתמש בחומרה של צד שלישי כחלק מפתרון דוראדו).

נותר לציין כי המצב הקשה בעולם השפיע מעט על הסיכויים המסחריים של המערכת החדשה. למרות העובדה שהשחרור הרשמי של דוראדו V6 התרחש רק בינואר, אנו רואים ביקוש משמעותי אליו בסין, כמו גם התעניינות רבה בו מצד שותפים רוסים ובינלאומיים מהמגזר הפיננסי והממשלתי.
בין היתר, בקשר למגיפה, לא משנה כמה זמן היא תימשך, הנושא של אספקת עובדים מרוחקים עם שולחנות עבודה וירטואליים היא חריפה במיוחד. בתהליך זה, דוראדו V6 יכול גם להסיר שאלות רבות. לשם כך, אנו עושים את כל המאמצים הדרושים, כולל הסכמה מעשית על הכללת המערכת החדשה ברשימת התאימות של VMware.
***
דרך אגב, אל תשכח את הסמינרים המקוונים הרבים שלנו שנערכו לא רק בקטע דובר הרוסית, אלא גם ברמה העולמית. רשימת הסמינרים המקוונים לאפריל זמינה בכתובת .
מקור: www.habr.com
