د کلوډرا په اړه څه ځانګړي دي او دا څنګه چمتو کول

د توزیع شوي کمپیوټري او لوی ډیټا لپاره بازار ، په وینا شماريپه کال کې 18-19٪ وده کوي. دا پدې مانا ده چې د دې موخو لپاره د سافټویر غوره کولو مسله اړونده پاتې ده. پدې پوسټ کې ، موږ به د دې سره پیل وکړو چې ولې توزیع شوي کمپیوټري ته اړتیا ده ، د سافټویر غوره کولو په اړه نور توضیحاتو ته لاړشئ ، د کلاوډر په کارولو سره د هاډوپ کارولو په اړه وغږیږو ، او په پای کې د هارډویر غوره کولو په اړه وغږیږو او دا چې دا څنګه په بیلابیلو لارو فعالیت اغیزه کوي.

د کلوډرا په اړه څه ځانګړي دي او دا څنګه چمتو کول
ولې په منظم سوداګرۍ کې ویشل شوي کمپیوټر ته اړتیا ده؟ دلته هرڅه په ورته وخت کې ساده او پیچلي دي. ساده - ځکه چې په ډیری قضیو کې موږ د معلوماتو هر واحد نسبتا ساده حسابونه ترسره کوو. دا ستونزمنه ده ځکه چې ډیری داسې معلومات شتون لري. څو. د پایلې په توګه، دا اړینه ده په 1000 تارونو کې د ټیرابایټ ډیټا پروسس کول. په دې توګه، د کارونې قضیې خورا نړیوال دي: حسابونه په هر ځای کې کارول کیدی شي چیرې چې دا اړینه وي چې د ډیټا حتی لوی لړۍ کې لوی شمیر میټریکونه په پام کې ونیول شي.

یو له وروستي مثالونو څخه: د پیزایریا زنځیر ډوډو پیزا ټاکل شوی د پیرودونکي امر ډیټابیس تحلیل پراساس ، چې کله د تصادفي ټاپ کولو سره پیزا غوره کړئ ، کارونکي معمولا د اجزاو یوازې شپږ لومړني سیټونو او یو څو تصادفي سره کار کوي. د دې سره سم، پیزاریا خپل پیرود تنظیم کړ. برسېره پردې، هغې د دې توان درلود چې د سپارښتنې مرحلې په جریان کې کاروونکو ته وړاندیز شوي اضافي محصولات په ښه توګه وړاندیز کړي، چې ګټه یې زیاته کړه.

بل مثال: تحلیل د محصولاتو توکو H&M پلورنځي ته اجازه ورکړه چې په انفرادي پلورنځیو کې 40٪ راټیټ کړي، پداسې حال کې چې د پلور کچه ساتل کیږي. دا د خرابو پلورونکو توکو په پریښودلو سره ترلاسه شوی، او په محاسبه کې موسمي په پام کې نیول شوی.

د وسیلې انتخاب

د دې ډول کمپیوټر لپاره د صنعت معیار هاډوپ دی. ولې؟ ځکه چې هډوپ یو ښه، ښه مستند شوی چوکاټ دی (همدا هابر په دې موضوع ډیری مفصل مقالې وړاندې کوي)، کوم چې د یوټیلټیو او کتابتونونو بشپړ سیټ سره مل کیږي. تاسو کولی شئ د دواړو جوړښت شوي او غیر جوړښت شوي ډیټا لوی سیټونه داخل کړئ ، او سیسټم به پخپله د کمپیوټري ځواک ترمینځ توزیع کړي. برسېره پردې، دا ورته ظرفیتونه په هر وخت کې زیاتوالی یا غیر فعال کیدی شي - په عمل کې ورته افقی پیمانه.

په 2017 کې، اغیزمن مشورتي شرکت ګارټینر نتیجه ورکړهچې هډوپ به ډېر ژر له منځه ولاړ شي. دلیل خورا مجرد دی: شنونکي پدې باور دي چې شرکتونه به په ډله ایز ډول بادل ته مهاجرت وکړي ، ځکه چې هلته به دوی وکولی شي تادیه وکړي ځکه چې دوی د کمپیوټري ځواک کاروي. دوهم مهم فاکتور چې ګمان کیږي "دفن" هډوپ د دې سرعت دی. ځکه چې اختیارونه لکه اپاچي سپارک یا د ګوګل کلاوډ ډیټا فلو د MapReduce څخه ګړندي دي ، کوم چې د هاډوپ لاندې دی.

هډوپ په څو ستنو ولاړ دی، چې تر ټولو د پام وړ یې د MapReduce ټیکنالوژي دي (د سرورونو ترمنځ د محاسبې لپاره د معلوماتو ویشلو سیسټم) او د HDFS فایل سیسټم. وروستی په ځانګړې توګه د کلستر نوډونو ترمنځ ویشل شوي معلوماتو ذخیره کولو لپاره ډیزاین شوی: د ټاکل شوي اندازې هر بلاک په څو نوډونو کې کیښودل کیدی شي، او د نقل کولو څخه مننه، سیسټم د انفرادي نوډونو ناکامۍ لپاره مقاومت لري. د فایل میز پر ځای، د نوم نوډ په نوم یو ځانګړی سرور کارول کیږي.

لاندې انځور ښیي چې MapReduce څنګه کار کوي. په لومړي پړاو کې، ډاټا د یو ځانګړي معیار سره ویشل کیږي، په دویمه مرحله کې دا د کمپیوټري ځواک له مخې ویشل کیږي، او په دریم پړاو کې محاسبه ترسره کیږي.

د کلوډرا په اړه څه ځانګړي دي او دا څنګه چمتو کول
MapReduce په اصل کې د ګوګل لخوا د دې د لټون اړتیاو لپاره رامینځته شوی. بیا MapReduce وړیا کوډ ته لاړ، او اپاچي پروژه په غاړه واخیسته. ښه، ګوګل په تدریجي ډول نورو حلونو ته لیږدول. یو په زړه پوری خبر: ګوګل اوس مهال د ګوګل کلاوډ ډیټا فلو په نوم یوه پروژه لري ، د هډوپ وروسته د راتلونکي ګام په توګه موقعیت لري ، د دې لپاره د ګړندي بدیل په توګه.

نږدې کتنه ښیې چې د ګوګل کلاوډ ډیټا فلو د اپاچي بیم د تغیر پراساس دی ، پداسې حال کې چې اپاچي بیم کې د اپاچي سپارک ښه مستند شوي چوکاټ شامل دی ، کوم چې موږ ته اجازه راکوي د حلونو نږدې ورته اجرا سرعت په اړه وغږیږو. ښه، د اپاچي سپارک په HDFS فایل سیسټم کې په بشپړه توګه کار کوي، کوم چې دا د هډوپ سرورونو کې ځای پرځای کولو ته اجازه ورکوي.

دلته د ګوګل کلاوډ ډیټا فلو په مقابل کې د هاډوپ او سپارک لپاره د اسنادو حجم او چمتو شوي حلونه اضافه کړئ ، او د وسیلې انتخاب څرګند کیږي. برسېره پردې، انجنیران کولی شي د ځان لپاره پریکړه وکړي چې کوم کوډ - د هډوپ یا سپارک لپاره - دوی باید پرمخ بوځي، د دندې، تجربې او وړتیاوو تمرکز وکړي.

کلاوډ یا محلي سرور

بادل ته د عمومي لیږد په لور تمایل حتی د هډوپ-اس-د خدمت په څیر په زړه پوري اصطلاح ته وده ورکړه. په داسې یوه سناریو کې، د تړل شوي سرورونو اداره خورا مهمه شوه. ځکه ، افسوس ، د دې شهرت سره سره ، خالص هډوپ د تنظیم کولو لپاره خورا ستونزمن وسیله ده ، ځکه چې ډیر څه باید په لاسي ډول ترسره شي. د مثال په توګه ، سرورونه په انفرادي ډول تنظیم کړئ ، د دوی فعالیت وڅارئ ، او ډیری پیرامیټونه په احتیاط سره تنظیم کړئ. په عموم کې، کار د شوقیانو لپاره دی او د کوم ځای د ګډوډۍ یا یو څه ورکیدو لوی چانس شتون لري.

له همدې امله ، د توزیع مختلف کټونه ، کوم چې په پیل کې د مناسب ګمارنې او ادارې وسیلو سره مجهز شوي ، خورا مشهور شوي. یو له خورا مشهور توزیعاتو څخه چې د سپارک ملاتړ کوي او هرڅه اسانه کوي کلاوډرا ده. دا دواړه تادیه شوي او وړیا نسخې لري - او په وروستي کې ټول لومړني فعالیت شتون لري، پرته له دې چې د نوډونو شمیر محدود کړي.

د کلوډرا په اړه څه ځانګړي دي او دا څنګه چمتو کول

د تنظیم کولو پرمهال ، د کلاوډر مدیر به د SSH له لارې ستاسو سرورونو سره وصل شي. یو په زړه پوری ټکی: کله چې نصب کول، دا غوره ده چې مشخص کړئ چې دا د تش په نامه لخوا ترسره کیږي پارسلونه: ځانګړي کڅوړې، چې هر یو یې ټول اړین برخې لري چې د یو بل سره کار کولو لپاره ترتیب شوي. په لازمي ډول دا د بسته بندۍ مدیر اصلاح شوی نسخه ده.

د نصبولو وروسته، موږ د کلستر مدیریت کنسول ترلاسه کوو، چیرې چې تاسو کولی شئ د کلستر ټیلی میټري، نصب شوي خدمتونه وګورئ، او تاسو کولی شئ سرچینې اضافه / لیرې کړئ او د کلستر ترتیب ترمیم کړئ.

د کلوډرا په اړه څه ځانګړي دي او دا څنګه چمتو کول

د پایلې په توګه، د راکټ کیبن چې تاسو به د BigData روښانه راتلونکي ته ورسوي ستاسو په وړاندې ښکاري. مګر مخکې لدې چې موږ ووایو "راځئ" ، راځئ چې د هود لاندې حرکت وکړو.

د هارډویر اړتیاوې

په دې ویب پاڼه کې، کلاوډر مختلف ممکنه تشکیلاتو ته اشاره کوي. عمومي اصول چې له مخې یې جوړ شوي دي په انځور کې ښودل شوي:

د کلوډرا په اړه څه ځانګړي دي او دا څنګه چمتو کول
MapReduce کولی شي دا خوشبین انځور روښانه کړي. که تاسو د تیرې برخې ډیاګرام ته بیا وګورئ ، نو دا روښانه کیږي چې نږدې په ټولو قضیو کې ، د MapReduce دنده د ډیسک یا شبکې څخه د معلوماتو لوستلو پرمهال له خنډ سره مخ کیدی شي. دا په کلاوډر بلاګ کې هم یادونه شوې. د پایلې په توګه، د هرې چټکې محاسبې لپاره، په شمول د سپارک له لارې، چې ډیری وختونه د ریښتیني وخت محاسبې لپاره کارول کیږي، د I/O سرعت خورا مهم دی. له همدې امله، کله چې د هډوپ کارول، دا خورا مهمه ده چې په کلستر کې متوازن او ګړندي ماشینونه شامل وي، کوم چې په نرمۍ سره یې واچوي، تل د بادل زیربنا کې ډاډمن نه وي.

د بار په توزیع کې توازن د ځواکمن ملټي کور CPUs سره په سرورونو کې د Openstack مجازی کولو کارولو له لارې ترلاسه کیږي. د ډیټا نوډونه د دوی خپل پروسیسر سرچینې او ځانګړي ډیسکونه تخصیص شوي. زموږ په پریکړه کې د اتوس کوډیکس ډیټا لیک انجن پراخه مجازی کول ترلاسه شوي، له همدې امله موږ د فعالیت په شرایطو کې دواړه ګټه اخلو (د شبکې زیربنا اغیزه کمه شوې) او په TCO کې (اضافي فزیکي سرورونه له منځه وړل شوي).

د کلوډرا په اړه څه ځانګړي دي او دا څنګه چمتو کول
کله چې د BullSequana S200 سرورونه کاروئ، موږ یو ډیر یونیفورم بار ترلاسه کوو، د ځینو خنډونو څخه بې برخې. لږترلږه ترتیب کې د 3 BullSequana S200 سرورونه شامل دي، هر یو د دوه JBODs سره، او اضافي S200s چې څلور ډیټا نوډونه لري په اختیاري توګه وصل شوي. دلته د TeraGen ازموینې کې د بار یوه بیلګه ده:

د کلوډرا په اړه څه ځانګړي دي او دا څنګه چمتو کول

د مختلف ډیټا حجمونو او نقل کولو ارزښتونو سره ازموینې د کلستر نوډونو ترمینځ د بار توزیع شرایطو کې ورته پایلې ښیې. لاندې د فعالیت ازموینې لخوا د ډیسک لاسرسي توزیع ګراف دی.

د کلوډرا په اړه څه ځانګړي دي او دا څنګه چمتو کول

حسابونه د 3 BullSequana S200 سرورونو لږترلږه ترتیب پراساس ترسره شوي. پدې کې 9 ډیټا نوډونه او 3 ماسټر نوډونه شامل دي ، په بیله بیا د OpenStack Virtualization پراساس د محافظت پلي کولو په صورت کې خوندي مجازی ماشینونه. د TeraSort ازموینې پایله: د بلاک اندازه 512 MB نقل فاکتور د کوډ کولو سره درې سره مساوي 23,1 دقیقې دی.

سیسټم څنګه پراخ کیدی شي؟ د ډیټا لیک انجن لپاره مختلف ډوله توسیعونه شتون لري:

  • د ډیټا نوډونه: د هر 40 TB د کارونې وړ ځای لپاره
  • د GPU نصبولو وړتیا سره تحلیلي نوډونه
  • نور اختیارونه د سوداګرۍ اړتیاو پورې اړه لري (د مثال په توګه ، که تاسو کافکا او ورته ورته اړتیا لرئ)

د کلوډرا په اړه څه ځانګړي دي او دا څنګه چمتو کول

د اتوس کوډیکس ډیټا لیک انجن دواړه پخپله سرورونه او دمخه نصب شوي سافټویر لري ، پشمول د جواز لرونکي کلاوډر کټ؛ هډوپ پخپله، د RedHat Enterprise Linux کرنل پراساس د مجازی ماشینونو سره OpenStack، د معلوماتو نقل او بیک اپ سیسټمونه (پشمول د بیک اپ نوډ او Cloudera BDR - بیک اپ او ناورین بیا رغونه). د اتوس کوډیکس ډیټا لیک انجن لومړی مجازی حل شو چې تصدیق کیږي کلوډیرا.

که تاسو د توضیحاتو سره علاقه لرئ ، موږ به خوښ یو چې زموږ پوښتنو ته په نظرونو کې ځواب ووایو.

سرچینه: www.habr.com

Add a comment