Cloudera بابت ڇا خاص آهي ۽ ان کي ڪيئن پچائڻ

ورهايل ڪمپيوٽنگ ۽ وڏي ڊيٽا لاء مارڪيٽ، مطابق انگ اکر، هر سال 18-19٪ وڌي رهيو آهي. هن جو مطلب اهو آهي ته انهن مقصدن لاء سافٽ ويئر چونڊڻ جو مسئلو لاڳاپيل رهي ٿو. هن پوسٽ ۾، اسان شروع ڪنداسين ته تقسيم ٿيل ڪمپيوٽنگ جي ضرورت ڇو آهي، سافٽ ويئر چونڊڻ بابت وڌيڪ تفصيل ۾ وڃو، Cloudera استعمال ڪندي Hadoop استعمال ڪرڻ بابت ڳالهايو، ۽ آخر ۾ هارڊويئر چونڊڻ بابت ڳالهايو ۽ اهو مختلف طريقن سان ڪارڪردگي کي ڪيئن متاثر ڪري ٿو.

Cloudera بابت ڇا خاص آهي ۽ ان کي ڪيئن پچائڻ
ورهايل ڪمپيوٽنگ باقاعده ڪاروبار ۾ ڇو ضروري آهي؟ هتي هر شيء هڪ ئي وقت ۾ سادي ۽ پيچيده آهي. سادو - ڇاڪاڻ ته اڪثر ڪيسن ۾ اسين معلومات جي في يونٽ نسبتا آسان حساب ڪندا آهيون. اهو ڏکيو آهي ڇو ته اتي تمام گهڻي معلومات آهي. انيڪ. نتيجي طور، اهو ضروري آهي 1000 سلسلي ۾ ڊيٽا جي terabytes پروسيس. اهڙيء طرح، استعمال جا ڪيس ڪافي عالمگير آهن: حسابن کي استعمال ڪري سگهجي ٿو جتي ضروري هجي ته ڊيٽا جي هڪ وڏي صف تي ميٽرڪس جي وڏي تعداد کي حساب ۾ رکڻو پوندو.

تازو مثالن مان هڪ: پزيريا زنجير دودو پيزا طئي ٿيل ڪسٽمر آرڊر ڊيٽابيس جي تجزيي جي بنياد تي، ته جڏهن بي ترتيب ٽاپنگ سان هڪ پيزا چونڊيو وڃي، صارف عام طور تي اجزاء جي صرف ڇهن بنيادي سيٽن سان گڏ ڪجهه بي ترتيب وارن سان ڪم ڪن ٿا. انهي جي مطابق، پزيريا پنهنجي خريداري کي ترتيب ڏئي ٿو. ان کان علاوه، هوء آرڊرنگ اسٽيج دوران صارفين کي پيش ڪيل اضافي شين جي سفارش ڪرڻ جي قابل هئي، جنهن ۾ منافعو وڌايو ويو.

هڪ وڌيڪ مثال: تجزيو پراڊڪٽ جون شيون H&M اسٽور کي اجازت ڏني وئي ته انفرادي اسٽورن ۾ 40 سيڪڙو تائين ورهاست کي گھٽائي، سيلز جي سطح کي برقرار رکندي. اهو حاصل ڪيو ويو خراب وڪڻڻ واري شين کي ڇڏڻ سان، ۽ حساب ۾ حساب ۾ ورتو ويو موسميات.

اوزار جي چونڊ

هن قسم جي ڪمپيوٽنگ لاءِ صنعت جو معيار آهي Hadoop. ڇو؟ ڇو ته Hadoop هڪ بهترين، چڱي طرح دستاويزي فريم ورڪ آهي (ساڳي هبر هن موضوع تي ڪيترائي تفصيلي مضمون مهيا ڪري ٿي)، جنهن سان گڏ افاديت ۽ لائبريرين جي مڪمل سيٽ سان گڏ آهي. توھان ان پٽ ڪري سگھو ٿا وڏيون سيٽون ٻنھي ڍانچي ۽ غير منظم ٿيل ڊيٽا جي، ۽ سسٽم پاڻ ان کي ڪمپيوٽنگ پاور ۾ ورهائي ڇڏيندو. ان کان علاوه، اهي ساڳيون صلاحيتون ڪنهن به وقت وڌائي يا غير فعال ٿي سگهن ٿيون - اهو ساڳيو افقي اسڪيلبلٽي عمل ۾.

2017 ۾، بااثر صلاحڪار ڪمپني گارٽنر نتيجو ڪيوته هيڊوپ جلد ئي ختم ٿي ويندو. ان جو سبب بلڪل غير معمولي آهي: تجزيه نگارن جو خيال آهي ته ڪمپنيون وڏي تعداد ۾ بادل ڏانهن لڏپلاڻ ڪنديون، جتان اهي ادا ڪرڻ جي قابل هوندا جيئن اهي ڪمپيوٽنگ پاور استعمال ڪندا. ٻيو اهم عنصر جيڪو سمجهي سگهي ٿو "دفن" Hadoop ان جي رفتار آهي. ڇو ته اپاچي اسپارڪ يا گوگل ڪلائوڊ ڊيٽا فلو جهڙا آپشنز MapReduce کان وڌيڪ تيز آهن، جيڪي هيٺيون آهن Hadoop.

Hadoop ڪيترن ئي ٿنڀن تي ٻڌل آهي، جن مان سڀ کان وڌيڪ قابل ذڪر MapReduce ٽيڪنالاجيون آهن (سرور جي وچ ۾ حساب لاء ڊيٽا ورهائڻ وارو نظام) ۽ HDFS فائل سسٽم. بعد ۾ خاص طور تي ڪلستر نوڊس جي وچ ۾ ورهايل معلومات کي ذخيرو ڪرڻ لاء ٺهيل آهي: هڪ مقرر ڪيل سائيز جو هر بلاڪ ڪيترن ئي نوڊس تي رکيل آهي، ۽ نقل ڪرڻ جي مهرباني، سسٽم انفرادي نوڊس جي ناڪامي لاء لچڪدار آهي. فائل ٽيبل جي بدران، هڪ خاص سرور استعمال ڪيو ويندو آهي جنهن کي NameNode سڏيو ويندو آهي.

هيٺ ڏنل مثال ڏيکاري ٿو ته ڪيئن MapReduce ڪم ڪري ٿو. پهرين مرحلي ۾، ڊيٽا کي هڪ خاص معيار جي مطابق ورهايو ويندو آهي، ٻئي مرحلي تي ان کي ڪمپيوٽر جي طاقت جي مطابق ورهايو ويندو آهي، ۽ ٽئين مرحلي تي حساب ڪتاب وٺندو آهي.

Cloudera بابت ڇا خاص آهي ۽ ان کي ڪيئن پچائڻ
MapReduce اصل ۾ گوگل طرفان ان جي ڳولا جي ضرورتن لاءِ ٺاهيو ويو هو. پوءِ MapReduce مفت ڪوڊ ويو، ۽ اپاچي منصوبي تي قبضو ڪيو. خير، گوگل آهستي آهستي ٻين حلن ڏانهن لڏي ويو. هڪ دلچسپ خبر: گوگل وٽ هن وقت هڪ پروجيڪٽ آهي جنهن کي گوگل ڪلائوڊ ڊيٽا فلو سڏيو ويندو آهي، هيڊوپ کان پوءِ ايندڙ قدم جي طور تي، ان جي تڪڙي متبادل جي طور تي.

هڪ ويجهي نظر ڏيکاري ٿو ته گوگل ڪلائوڊ ڊيٽا فلو Apache بيام جي مختلف تبديلين تي ٻڌل آهي، جڏهن ته Apache Beam ۾ چڱي طرح دستاويز ٿيل Apache Spark فريم ورڪ شامل آهي، جيڪو اسان کي حل جي تقريبن ساڳئي رفتار جي رفتار بابت ڳالهائڻ جي اجازت ڏئي ٿو. خير، Apache Spark مڪمل طور تي ڪم ڪري ٿو HDFS فائل سسٽم تي، جيڪو ان کي اجازت ڏئي ٿو Hadoop سرور تي ترتيب ڏيڻ.

ھتي شامل ڪريو دستاويزن جو حجم ۽ ھڊوپ ۽ اسپارڪ بمقابلہ گوگل ڪلائوڊ ڊيٽا فلو لاءِ تيار ٿيل حل، ۽ اوزار جو انتخاب پڌرو ٿي وڃي ٿو. ان کان علاوه، انجنيئر پاڻ لاء فيصلو ڪري سگھن ٿا ته ڪهڙو ڪوڊ - Hadoop يا Spark لاء - انهن کي هلائڻ گهرجي، ڪم تي ڌيان ڏيڻ، تجربو ۽ قابليت.

Cloud يا مقامي سرور

بادل ڏانهن عام منتقلي جي رجحان اڃا به اهڙي دلچسپ اصطلاح کي جنم ڏنو آهي جيئن ته هڊوپ-اي-سروس. اهڙي صورتحال ۾، ڳنڍيل سرورز جو انتظام تمام ضروري ٿي ويو. ڇو ته، افسوس، ان جي مقبوليت جي باوجود، خالص Hadoop ترتيب ڏيڻ لاء هڪ تمام ڏکيو اوزار آهي، ڇاڪاڻ ته گهڻو ڪجهه دستي طور تي ڪرڻو پوندو. مثال طور، سرورز کي انفرادي طور تي ترتيب ڏيو، انهن جي ڪارڪردگي جي نگراني ڪريو، ۽ احتياط سان ڪيترن ئي پيٽرولن کي ترتيب ڏيو. عام طور تي، ڪم هڪ شوقين لاء آهي ۽ اتي هڪ وڏو موقعو آهي ته ڪٿي خراب ٿيڻ يا ڪجهه غائب ٿيڻ جو.

تنهن ڪري، مختلف تقسيم کٽ، جيڪي شروعاتي طور تي آسان ترتيب ۽ انتظامي اوزار سان ليس هوندا آهن، تمام مقبول ٿي چڪا آهن. ھڪڙو مقبول ترين تقسيم جيڪو اسپارڪ کي سپورٽ ڪري ٿو ۽ ھر شيء کي آسان بڻائي ٿو Cloudera. ان ۾ ادا ڪيل ۽ مفت ورزن آهن - ۽ بعد ۾ سڀني بنيادي ڪارڪردگي موجود آهي، بغير نوڊس جي تعداد کي محدود ڪرڻ کان سواء.

Cloudera بابت ڇا خاص آهي ۽ ان کي ڪيئن پچائڻ

سيٽ اپ دوران، Cloudera مئنيجر SSH ذريعي توهان جي سرورن سان ڳنڍيندو. هڪ دلچسپ نقطو: جڏهن انسٽال ڪيو وڃي، اهو بهتر آهي ته بيان ڪيو وڃي ته اهو نام نهاد طرفان ڪيو وڃي. پارسل: خاص پيڪيجز، جن مان هر هڪ ۾ هڪ ٻئي سان ڪم ڪرڻ لاءِ ترتيب ڏنل سڀئي ضروري جزا شامل آهن. بنيادي طور تي هي پيڪيج مينيجر جو هڪ بهتر نسخو آهي.

انسٽاليشن کان پوءِ، اسان کي ڪلسٽر مئنيجمينٽ ڪنسول ملي ٿو، جتي توھان ڏسي سگھو ٿا ڪلسٽر ٽيليميٽري، نصب ڪيل خدمتون، ان سان گڏ توھان وسيلا شامل ڪري سگھو ٿا / ھٽائي سگھو ٿا ۽ ڪلستر جي ٺاھ جوڙ ۾ ترميم ڪري سگھو ٿا.

Cloudera بابت ڇا خاص آهي ۽ ان کي ڪيئن پچائڻ

نتيجي طور، راڪيٽ جو ڪيبن جيڪو توهان کي BigData جي روشن مستقبل ۾ وٺي ويندو توهان جي سامهون ظاهر ٿئي ٿو. پر ان کان اڳ جو اسان چئون ”اچو ته هلون“، اچو ته هيٺ لهون.

هارڊويئر گهرجون

ان جي ويب سائيٽ تي، Cloudera مختلف ممڪن ترتيبن جو ذڪر ڪري ٿو. عام اصول جنهن جي ذريعي اهي ٺاهيا ويا آهن، مثال ۾ ڏيکاريا ويا آهن:

Cloudera بابت ڇا خاص آهي ۽ ان کي ڪيئن پچائڻ
MapReduce هن اميد واري تصوير کي ڦهلائي سگھي ٿو. جيڪڏهن توهان پوئين سيڪشن مان ڊراگرام تي ٻيهر نظر اچن ٿا، اهو واضح ٿئي ٿو ته تقريبا سڀني ڪيسن ۾، هڪ MapReduce نوڪري هڪ رڪاوٽ کي منهن ڏئي سگهي ٿو جڏهن ڊسڪ يا نيٽ ورڪ کان ڊيٽا پڙهڻ. اهو پڻ Cloudera بلاگ ۾ نوٽ ڪيو ويو آهي. نتيجي طور، ڪنهن به تيز حسابن لاءِ، بشمول اسپارڪ ذريعي، جيڪو اڪثر ڪري حقيقي وقت جي حسابن لاءِ استعمال ٿيندو آهي، I/O رفتار تمام ضروري آهي. تنهن ڪري، جڏهن Hadoop استعمال ڪندي، اهو تمام ضروري آهي ته ڪلستر ۾ متوازن ۽ تيز مشينون شامل آهن، جن کي نرمي سان رکڻ لاء، هميشه بادل جي انفراسٽرڪچر ۾ يقيني نه آهي.

لوڊ ورهائڻ ۾ توازن حاصل ڪيو ويندو آهي Openstack ورچوئلائيزيشن جي استعمال ذريعي سرورز تي طاقتور ملٽي ڪور سي پي يوز سان. ڊيٽا نوڊس مختص ڪيا ويا آهن انهن جي پنهنجي پروسيسر وسيلن ۽ مخصوص ڊسڪ. اسان جي فيصلي ۾ Atos Codex ڊيٽا ڍنڍ انجڻ وسيع ورچوئلائيزيشن حاصل ڪئي وئي آهي، ڇو ته اسان ڪارڪردگي جي لحاظ کان (نيٽ ورڪ جي انفراسٽرڪچر جو اثر گھٽجي ويو آهي) ۽ TCO ۾ (اضافي جسماني سرور ختم ٿي ويا آهن) ٻنهي ۾ فائدو حاصل ڪريون ٿا.

Cloudera بابت ڇا خاص آهي ۽ ان کي ڪيئن پچائڻ
جڏهن استعمال ڪري رهيا آهيون BullSequana S200 سرور، اسان کي هڪ تمام يونيفارم لوڊ ملي ٿو، ڪجهه رڪاوٽن کان سواء. گھٽ ۾ گھٽ ترتيب ۾ شامل آھن 3 BullSequana S200 سرور، ھر ھڪ ٻن JBODs سان گڏ، اضافي S200s جن ۾ چار ڊيٽا نوڊس شامل آھن اختياري طور تي ڳنڍيل آھن. هتي TeraGen ٽيسٽ ۾ لوڊ جو هڪ مثال آهي:

Cloudera بابت ڇا خاص آهي ۽ ان کي ڪيئن پچائڻ

ٽيسٽ مختلف ڊيٽا جي مقدار ۽ نقل جي قيمتن سان گڏ ڪلستر نوڊس جي وچ ۾ لوڊ ورهائڻ جي لحاظ کان ساڳيو نتيجا ڏيکاري ٿو. هيٺ ڏنل ڪارڪردگي ٽيسٽ ذريعي ڊسڪ جي رسائي جي ورڇ جو گراف آهي.

Cloudera بابت ڇا خاص آهي ۽ ان کي ڪيئن پچائڻ

3 BullSequana S200 سرورز جي گھٽ ۾ گھٽ ترتيب جي بنياد تي حساب ڪيا ويا. ان ۾ 9 ڊيٽا نوڊس ۽ 3 ماسٽر نوڊس شامل آھن، گڏوگڏ محفوظ ڪيل ورچوئل مشينون شامل آھن تحفظ جي مقرري جي صورت ۾ OpenStack ورچوئلائيزيشن جي بنياد تي. TeraSort ٽيسٽ جو نتيجو: بلاڪ سائيز 512 MB ريپليڪشن فيڪٽر ٽن جي برابر انڪرپشن سان 23,1 منٽ.

سسٽم کي ڪيئن وڌايو وڃي؟ Data Lake Engine لاءِ مختلف قسم جون واڌايون موجود آهن:

  • ڊيٽا نوڊس: هر 40 TB استعمال لائق جاءِ لاءِ
  • GPU انسٽال ڪرڻ جي صلاحيت سان تجزياتي نوڊس
  • ٻيا اختيار جيڪي ڪاروباري ضرورتن تي منحصر آھن (مثال طور، جيڪڏھن توھان کي ڪافڪا ۽ پسند جي ضرورت آھي)

Cloudera بابت ڇا خاص آهي ۽ ان کي ڪيئن پچائڻ

Atos Codex Data Lake Engine ۾ ٻئي سرور پاڻ ۽ اڳ ۾ نصب ٿيل سافٽ ويئر شامل آهن، بشمول هڪ لائسنس يافته Cloudera کٽ؛ خود Hadoop، OpenStack ورچوئل مشينن سان گڏ ريڊ هِٽ انٽرپرائز لينڪس ڪنيل جي بنياد تي، ڊيٽا جي نقل ۽ بيڪ اپ سسٽم (بشمول هڪ بيڪ اپ نوڊ استعمال ڪرڻ ۽ Cloudera BDR - بيڪ اپ ۽ ڊزاسٽر ريڪوري). Atos Codex Data Lake Engine تصديق ٿيل پهريون ورچوئلائزيشن حل بڻجي ويو ڪليولر.

جيڪڏهن توهان تفصيلن ۾ دلچسپي رکو ٿا، اسان تبصرن ۾ اسان جي سوالن جا جواب ڏيڻ لاء خوش ٿيندا.

جو ذريعو: www.habr.com

تبصرو شامل ڪريو