موږ څنګه یو خورا مؤثر او ارزانه ډیټا لیک تنظیم کړ او ولې دا داسې دی

موږ په حیرانونکي وخت کې ژوند کوو کله چې تاسو کولی شئ په چټکۍ او اسانۍ سره ډیری چمتو شوي خلاصې سرچینې وسیلې وصل کړئ ، دوی د سټیک اوور فلو مشورې سره سم ستاسو د "شعور بند شوي" سره تنظیم کړئ ، پرته له دې چې "څو لیکو" ته لاړشئ ، او لانچ یې کړئ. دوی په سوداګریزو عملیاتو کې. او کله چې تاسو اړتیا لرئ تازه کړئ / پراخ کړئ یا یو څوک په ناڅاپي ډول یو څو ماشینونه ریبوټ کړي - تاسو پوهیږئ چې یو ډول جنونی بد خوب پیل شوی ، هرڅه د پیژندلو هاخوا په ډراماتیک ډول پیچلي شوي ، هیڅ شاته تګ نشته ، راتلونکی مبهم او خوندي دی ، د پروګرام کولو پر ځای، مچۍ نسل کړئ او پنیر وکړئ.

دا د هیڅ شی لپاره نده چې ډیر تجربه لرونکي همکاران ، د دوی سرونه په کیګونو پوښل شوي او له همدې امله دمخه خړ دي ، په "فیشني ژبو" کې په لسګونو سرورونو کې په "کیوب" کې د "کانټینرونو" کڅوړو په زړه پورې ګړندي ځای په ځای کولو فکر کوي. غیر متناسب غیر بلاکینګ I/O، په نرمۍ سره موسکا وکړئ. او دوی په خاموشۍ سره د "مین پی ایس" بیا لوستلو ته دوام ورکوي، د "نګینکس" سرچینې کوډ ته ځي تر هغه چې د دوی سترګو وینه توی شي، او د واحد ازموینې لیکل، لیکل، لیکل. همکاران پوهیږي چې ترټولو په زړه پورې شی به هغه وخت راشي کله چې "دا ټول" یوه ورځ د نوي کال په ماښام کې د شپې لخوا ودرول شي. او دوی به یوازې د یونیکس د طبیعت په ژوره پوهه کې مرسته وکړي، د یاد شوي TCP/IP حالت جدول او لومړني ترتیب کول - لټون الګوریتمونه. ترڅو سیسټم بیرته ژوند ته راشي لکه څنګه چې د چیمز برید.

هو هو، زه یو څه ګډوډ شوم، مګر زه امید لرم چې ما د وړاندوینې حالت بیان کړ.
نن ورځ زه غواړم د ډیټالیک لپاره د اسانه او ارزانه سټیک ځای په ځای کولو کې زموږ تجربه شریکه کړم ، کوم چې په بشپړ ډول مختلف جوړښتي برخو لپاره په شرکت کې ډیری تحلیلي دندې حل کوي.

یو څه وخت دمخه ، موږ دې پوهیدو ته ورسیدو چې شرکتونه په زیاتیدونکي ډول د محصول او تخنیکي تحلیلاتو میوو ته اړتیا لري (د ماشین زده کړې په توګه په کیک باندې د یخ کولو یادونه نه کوي) او د رجحاناتو او خطرونو د پوهیدو لپاره - موږ اړتیا لرو راټول او تحلیل کړو. ډیر او ډیر نور میټریکونه.

په Bitrix24 کې لومړني تخنیکي تحلیلونه

څو کاله دمخه، د Bitrix24 خدمت په لاره اچولو سره، موږ په فعاله توګه د یو ساده او باوري تحلیلي پلیټ فارم په جوړولو کې وخت او سرچینې په فعاله توګه پانګونه وکړه چې په زیربنا کې د ستونزو په چټکتیا سره مرسته وکړي او راتلونکی ګام پالن کړي. البته، دا مشوره وه چې چمتو شوي وسایل واخلئ کوم چې د امکان تر حده ساده او د پوهیدو وړ وو. د پایلې په توګه، ناګیوس د څارنې او مونین لپاره د تحلیل او لید لپاره غوره شوي. اوس موږ په نګیو کې زرګونه چکونه لرو، په مونین کې سلګونه چارټونه، او زموږ همکاران هره ورځ په بریالیتوب سره کاروي. میټریکونه روښانه دي ، ګرافونه روښانه دي ، سیسټم د څو کلونو راهیسې په دقت سره کار کوي او نوي ازموینې او ګرافونه په منظم ډول پدې کې اضافه کیږي: کله چې موږ نوی خدمت په فعالیت کې واچوو ، موږ ډیری ازموینې او ګرافونه اضافه کوو. غوره چانس.

په نبض باندې ګوتې - پرمختللي تخنیکي تحلیلونه

د ستونزو په اړه د معلوماتو د ترلاسه کولو لیوالتیا "څومره ژر چې امکان ولري" موږ د ساده او د پوهیدو وړ وسیلو - pinba او xhprof سره فعال تجربو ته لاره هواره کړه.

پنبا موږ ته په PHP کې د ویب پا pagesو برخو عملیاتو سرعت په اړه UDP کڅوړو کې احصایې لیږلي ، او موږ کولی شو آنلاین د MySQL ذخیره کې وګورو (پنبا د ګړندي پیښو تحلیلونو لپاره د خپل مای ایس کیو ایل انجن سره راځي) د ستونزو لنډ لیست او ځواب ووایی. هغوی. او xhprof په اوتومات ډول موږ ته اجازه راکړه چې د پیرودونکو څخه د ورو ورو PHP پاڼو اجرا کولو ګرافونه راټول کړو او تحلیل کړو چې څه شی کیدی شي دا لامل شي - په آرامۍ سره ، چای اچول یا یو څه قوي.

یو څه وخت دمخه ، تولک کټ د بل کافي ساده او د پوهیدو وړ انجن سره د ریورس انډیکسینګ الګوریتم پراساس ډک شوی و ، چې په افسانوي لوسین کتابتون کې په بشپړ ډول پلي شوی - لچک / کیبانا. په لاګونو کې د پیښو پراساس د برعکس لوسین شاخص کې د اسنادو د څو تارونو ثبت کولو ساده نظر او د اړخ ویش په کارولو سره د دوی له لارې ګړندي لټون واقعیا ګټور ثابت شو.

سره له دې چې په کبانا کې د ټیټې کچې مفکورې لکه "بالټ" "پورته روان" او په بشپړ ډول نه هیر شوي اړونده الجبرا نوې رامینځته شوې ژبه سره په کیبانا کې د لید تخنیکي ظهور سره سره ، وسیلې موږ سره په لاندې کارونو کې ښه مرسته پیل کړه:

  • په وروستي ساعت کې د Bitrix24 پیرودونکي په p1 پورټل کې څومره PHP تېروتنې درلودې او کومې یې؟ پوه شئ، بخښنه وکړئ او ژر تر ژره سم کړئ.
  • په تیرو 24 ساعتونو کې په آلمان کې په پورټلونو کې څومره ویډیو زنګونه شوي، د کوم کیفیت سره او آیا د چینل / شبکې سره کومه ستونزه وه؟
  • د سیسټم فعالیت څومره ښه دی (زموږ د PHP لپاره د C توسیع)، د وروستي خدماتو تازه کولو کې د سرچینې څخه تالیف شوی او پیرودونکو ته لیږدول شوی، کار کوي؟ ایا سیګ فالز شتون لري؟
  • ایا د پیرودونکي معلومات د پی ایچ پی حافظه کې مناسب دي؟ ایا پروسو ته د تخصیص شوي حافظې څخه د تیریدو په اړه کومه تېروتنه شتون لري: "د حافظې څخه بهر"؟ ومومئ او بې طرفه کړئ.

دلته یو کنکریټ مثال دی. د بشپړ او څو درجې ازموینې سره سره، پیرودونکي، د خورا غیر معیاري قضیې او زیانمن شوي ان پټ ډیټا سره، یو ځورونکي او غیر متوقع تېروتنه ترلاسه کړه، یو سایرن غږ شو او د چټک حل کولو پروسه یې پیل کړه:

موږ څنګه یو خورا مؤثر او ارزانه ډیټا لیک تنظیم کړ او ولې دا داسې دی

سربیره پردې ، کیبانا تاسو ته اجازه درکوي د مشخصو پیښو لپاره خبرتیاوې تنظیم کړئ ، او په لنډ وخت کې په شرکت کې وسیله د بیلابیلو څانګو لسګونه کارمندانو لخوا کارول پیل شوي - له تخنیکي ملاتړ او پراختیا څخه QA ته.

په شرکت کې د هرې څانګې فعالیت د تعقیب او اندازه کولو لپاره اسانه شوی - په سرورونو کې د لاسي لاګونو تحلیل کولو پرځای ، تاسو اړتیا لرئ یوځل د پارس کولو لاګ تنظیم کړئ او د خوند اخیستلو لپاره لچک لرونکي کلستر ته یې واستوئ ، د مثال په توګه ، په کبانا کې فکر کول ډشبورډ د پلورل شوي دوه سر لرونکي پیشوګانو شمیره د تیرې قمري میاشتې لپاره په 3-D پرنټر کې چاپ شوې.

د سوداګرۍ بنسټیز تحلیلونه

هرڅوک پوهیږي چې په شرکتونو کې د سوداګرۍ تحلیلونه ډیری وختونه د خورا فعال کارولو سره پیل کیږي ، هو ، ایکسل. مګر اصلي خبره دا ده چې دا هلته پای ته نه رسیږي. د کلاوډ پر بنسټ د ګوګل انلاینز هم اور ته تیل اضافه کوي - تاسو ژر تر ژره د ښه شیانو سره عادت کول پیل کړئ.

زموږ په همغږي ډول وده کونکي شرکت کې ، دلته او هلته د لوی ډیټا سره د ډیر جدي کار "پیغمبران" څرګندیدل پیل شوي. د ډیرو ژورو او څو اړخیزو راپورونو اړتیا په منظمه توګه څرګندیدل پیل شول، او د بیلابیلو څانګو د هلکانو د هڅو له لارې، څه موده وړاندې یو ساده او عملي حل تنظیم شو - د کلک هاؤس او پاور بی آی ترکیب.

د اوږدې مودې لپاره، دې انعطاف وړ حل ډیره مرسته وکړه، مګر په تدریج سره پوهیدل پیل شول چې کلیک هاوس ربړ نه دی او د دې په څیر مسخره کیدی نشي.

دلته دا مهمه ده چې په ښه توګه پوه شو چې ClickHouse لکه Druid، لکه Vertica، لکه Amazon RedShift (کوم چې د پوسټګریس پر بنسټ والړ دی)، تحلیلي انجنونه دي چې د مناسب مناسب تحلیلونو لپاره غوره شوي (مجموعې، راټولونه، د کالم لخوا لږترلږه - اعظمي او یو څو ممکنه یوځای کیدل. )، ځکه د اړونده جدولونو د کالمونو د مؤثره ذخیره کولو لپاره تنظیم شوی، د مای ایس کیو ایل او نورو (قطار لرونکی) ډیټابیسونو برخلاف چې موږ ته پیژندل شوي.

په اصل کې، ClickHouse یوازې یو ډیر ظرفیت لرونکی "ډیټابیس" دی، د خورا مناسب ټکي په واسطه داخلولو سره (دا څنګه چې دا څنګه اراده لري، هرڅه سم دي)، مګر خوندور تحلیلونه او د ډیټا سره کار کولو لپاره د زړه پورې ځواکمن فعالیتونو سیټ. هو، تاسو حتی کولی شئ یو کلستر جوړ کړئ - مګر تاسو پوهیږئ چې د مایکروسکوپ سره د نوکانو مینځل په بشپړه توګه سم ندي او موږ د نورو حلونو په لټه کې یو.

دپښتون او شنونکو غوښتنه

زموږ شرکت ډیری پراختیا کونکي لري چې نږدې هره ورځ د 10-20 کلونو لپاره په PHP، JavaScript، C#، C/C++، Java، Go، Rust، Python، Bash کې کوډ لیکي. دلته ډیری تجربه لرونکي سیسټم مدیران هم شتون لري چې له یو څخه ډیر په بشپړ ډول د نه منلو وړ ناورین تجربه کړي چې د احصایې په قوانینو کې مناسب ندي (د مثال په توګه ، کله چې په برید - 10 کې ډیری ډیسکونه د قوي بریښنایی برید لخوا ویجاړ شوي). په داسې شرایطو کې، د اوږدې مودې لپاره دا روښانه نه وه چې د "پیتون شنونکی" څه شی دی. Python د PHP په څیر دی، یوازې نوم یو څه اوږد دی او د ژباړونکي سرچینې کوډ کې د ذهن بدلولو موادو لږ څه نښې شتون لري. په هرصورت، لکه څنګه چې ډیر او ډیر تحلیلي راپورونه رامینځته شوي، تجربه لرونکي پراختیا کونکو په زیاتیدونکي توګه د نمپ، پانډاس، میټپلوټلیب، سیبورن په څیر وسایلو کې د تنګ تخصص په اهمیت پوهیدل پیل کړل.
پریکړه کونکی رول، ډیری احتمال، د "لوژستیک ریګریشن" کلمو ترکیب څخه د کارمندانو ناڅاپه بې هوښه کیدو او د ها ، هو ، پیسپارک په کارولو سره د لوی ډیټا په اړه د مؤثره راپور ورکولو مظاهرې لخوا لوبول شوی و.

اپاچي سپارک، د دې فعال تمثیل چې په اړه یې اړونده الجبرا په بشپړ ډول فټ کوي، او د دې وړتیاوو په MySQL کې عادی پراختیا کونکو باندې داسې تاثیر کړی چې د تجربه لرونکو شنونکو سره د صفونو پیاوړتیا اړتیا د ورځې په څیر روښانه شوه.

د اپاچي سپارک/هډوپ نورې هڅې د وتلو لپاره او هغه څه چې د سکریپټ سره سم ندي ترسره شوي

په هرصورت، دا ډیر ژر روښانه شوه چې یو څه په سیسټمیک ډول د سپارک سره سم نه و، یا دا اړینه وه چې خپل لاسونه ښه ومینځئ. که چیرې Hadoop/MapReduce/Lucene stack د کافي تجربه لرونکو پروګرامرانو لخوا جوړ شوی وي، کوم چې ښکاره ده که تاسو په جاوا کې د سرچینې کوډ یا په لوسین کې د ډاګ کټینګ نظرونو ته نږدې وګورئ، نو سپارک، ناڅاپه، په بهرنۍ ژبه Scala کې لیکل کیږي، کوم چې دی. د عملي کولو له نظره خورا جنجالي او اوس مهال وده نه کوي. او د کمو عملیاتو لپاره د حافظې تخصیص سره د غیر منطقي او خورا شفاف کار له امله په سپارک کلستر کې په محاسبه کې منظم کمښت (ډیری کیلي په یوځل راځي) د هغې شاوخوا یو څه رامینځته کړي چې د ودې لپاره خونه لري. سربیره پردې، وضعیت د لوی شمیر عجیب خلاص بندرونو لخوا خراب شوی، لنډمهاله فایلونه په خورا نا پوهه ځایونو کې وده کوي او د جار انحصارونو دوزخ - چې د سیسټم مدیران د دې لامل شوي چې یو احساس ولري چې د ماشومتوب څخه ښه پیژندل شوی و: سخت نفرت (یا شاید دوی اړ دي چې خپل لاسونه په صابون ومینځي).

د پایلې په توګه، موږ ډیری داخلي تحلیلي پروژې "ژوندې" کړې چې په فعاله توګه د اپاچي سپارک (په شمول د سپارک سټریمینګ، سپارک SQL) او د هډوپ ایکوسیستم (او داسې نور او نور) کاروي. د دې حقیقت سره سره چې د وخت په تیریدو سره موږ د "دا" چمتو کول او نظارت کول زده کړل ، او "دا" په عملي ډول د ډیټا طبیعت کې بدلونونو او د یونیفورم RDD هیشینګ عدم توازن له امله ناڅاپه غورځیدل ودرول ، د یو څه اخیستلو لیوالتیا چې دمخه چمتو ده. ، په بادل کې په کوم ځای کې تازه او اداره کول خورا پیاوړي او پیاوړي شوي. دا په دې وخت کې و چې موږ هڅه وکړه د ایمیزون ویب خدماتو چمتو شوي کلاوډ مجلس وکاروو - EMR او، وروسته، هڅه وکړه چې د هغې په کارولو سره ستونزې حل کړي. EMR اپاچی سپارک دی چې د ایمیزون لخوا د اکوسیستم څخه اضافي سافټویر سره چمتو شوی ، لکه د کلاوډرا / هارټون ورکس جوړونه.

د تحلیلونو لپاره د ربړ فایل ذخیره بیړنۍ اړتیا ده

د بدن مختلفو برخو ته د سوځولو سره د "پخولو" هډوپ / سپارک تجربه بې ګټې نه وه. د یو واحد، ارزانه او د باور وړ فایل ذخیره رامینځته کولو اړتیا چې د هارډویر ناکامیو په وړاندې مقاومت ولري او په کوم کې به دا ممکنه وي چې فایلونه د مختلف سیسټمونو څخه په مختلف فارمیټونو کې زیرمه کړي او د دې معلوماتو څخه راپورونو لپاره مؤثره او د وخت وړ نمونې رامینځته کړي. روښانه

ما دا هم غوښتل چې د دې پلیټ فارم سافټویر تازه کول د 20 مخونو جاوا ټریسونو لوستلو او د سپارک تاریخ سرور او د بیک لایټ میګنیفاینګ شیشې په کارولو سره د کلستر د کلومیټر اوږد تفصيلي لاګونو په لوستلو سره د نوي کال خوب نه بدل شوی. ما غوښتل یو ساده او شفاف وسیله ولرم چې د هود لاندې منظم ډوبولو ته اړتیا نلري که چیرې د پراختیا کونکي معیاري MapReduce غوښتنه اجرا کول ودروي کله چې د ډیټا ډیټا کارګر د خورا ښه نه غوره شوي سرچینې ډیټا تقسیم کولو الګوریتم له امله له حافظې څخه ووتل.

ایا ایمیزون S3 د ډیټالیک لپاره نوماند دی؟

د Hadoop/MapReduce سره تجربې موږ ته دا وښودله چې موږ د توزیع وړ، د اعتبار وړ فایل سیسټم او د هغې په سر کې د توزیع وړ کارمندانو ته اړتیا لرو، ډیټا ته نږدې "راځئ" ترڅو په شبکه کې ډاټا ونه چلوي. کارګران باید د دې وړتیا ولري چې ډاټا په مختلفو فارمیټونو کې ولولي، مګر په غوره توګه غیر ضروري معلومات ونه لوستل شي او د دې وړتیا ولري چې مخکې له مخکې د کارګرانو لپاره مناسبه بڼه کې ډاټا ذخیره کړي.

یو ځل بیا، بنسټیز نظر. په یو واحد کلستر تحلیلي انجن کې د لوی ډیټا "ډېرو" کولو لپاره هیڅ لیوالتیا شتون نلري ، کوم چې ژر یا وروسته به ټکان وخوري او تاسو به یې بد رنګ کړئ. زه غواړم فایلونه، یوازې فایلونه، د پوهیدو وړ بڼه کې ذخیره کړم او د مختلف مګر د پوهیدو وړ وسیلو په کارولو سره د دوی اغیزمن تحلیلي پوښتنې ترسره کړم. او په مختلفو فارمیټونو کې به ډیر او ډیر فایلونه وي. او دا غوره ده چې انجن نه شارډ کړئ، مګر د سرچینې ډاټا. موږ د توزیع وړ او نړیوال ډیټا لیک ته اړتیا لرو ، موږ پریکړه وکړه ...

څه شی که تاسو فایلونه په پیژندل شوي او پیژندل شوي پیمانه وړ کلاوډ ذخیره ایمیزون S3 کې ذخیره کړئ ، پرته لدې چې د هډوپ څخه خپل چپس چمتو کړئ؟

دا روښانه ده چې شخصي معلومات "ټيټ" دي، مګر د نورو معلوماتو په اړه څه شی که موږ دا هلته واخلو او "په مؤثره توګه یې چلوو"؟

د ایمیزون ویب خدماتو کلستر-بګډاټا- تحلیلي اکوسیستم - په خورا ساده ټکو کې

د AWS سره زموږ د تجربې په نظر کې نیولو سره، اپاچی هډوپ/ماپریډس په فعاله توګه د اوږدې مودې لپاره د مختلفو ساسونو لاندې کارول شوی، د بیلګې په توګه د ډیټا پایپ لاین خدمت کې (زه له خپلو همکارانو سره حسد لرم، دوی زده کړل چې څنګه یې په سمه توګه چمتو کړي). دلته موږ د DynamoDB جدولونو څخه د مختلف خدماتو څخه بیک اپ ترتیب کوو:
موږ څنګه یو خورا مؤثر او ارزانه ډیټا لیک تنظیم کړ او ولې دا داسې دی

او دوی د څو کلونو راهیسې په منظم ډول په ایمبیډ شوي هډوپ / میپ ریډوس کلسترونو کې لکه د ساعت کار کوي. "دا تنظیم کړئ او هیر یې کړئ":

موږ څنګه یو خورا مؤثر او ارزانه ډیټا لیک تنظیم کړ او ولې دا داسې دی

تاسو کولی شئ په مؤثره توګه د شنونکو لپاره په بادل کې د Jupiter لپټاپونو تنظیم کولو او د AWS SageMaker خدمت کارولو سره د AI ماډلونو روزنې او په جګړه کې ځای په ځای کولو سره په مؤثره توګه د ډیټا شیطانیزم کې ښکیل شئ. دلته هغه څه دي چې زموږ لپاره ورته ښکاري:

موږ څنګه یو خورا مؤثر او ارزانه ډیټا لیک تنظیم کړ او ولې دا داسې دی

او هو، تاسو کولی شئ په کلاوډ کې د خپل ځان یا شنونکي لپاره لپ ټاپ واخلئ او د هډوپ/سپارک کلستر سره یې وصل کړئ، محاسبه وکړئ او بیا هرڅه ښکته کړئ:

موږ څنګه یو خورا مؤثر او ارزانه ډیټا لیک تنظیم کړ او ولې دا داسې دی

د انفرادي تحلیلي پروژو لپاره واقعیا اسانه او د ځینو لپاره موږ په بریالیتوب سره د لوی کچې محاسبې او تحلیلونو لپاره د EMR خدمت کارولی دی. د ډیټا لیک لپاره د سیسټم حل په اړه څه ، ایا دا به کار وکړي؟ په دې وخت کې موږ د امید او نا امیدۍ په لور روان وو او لټون ته مو دوام ورکړ.

AWS Glue - په سټرایډونو کې په پاک ډول بسته شوي اپاچی سپارک

دا معلومه شوه چې AWS د "Hive/Pig/Spark" سټیک خپله نسخه لري. د Hive رول، i.e. په ډیټالیک کې د فایلونو کتلاګ او د دوی ډولونه د "ډیټا کتلاګ" خدمت لخوا ترسره کیږي ، کوم چې د اپاچي Hive فارمیټ سره خپل مطابقت نه پټوي. تاسو اړتیا لرئ پدې خدمت کې معلومات اضافه کړئ چې ستاسو فایلونه چیرې موقعیت لري او په کوم شکل کې دي. ډاټا نه یوازې په s3 کې کیدی شي، بلکې په ډیټابیس کې هم وي، مګر دا د دې پوسټ موضوع نه ده. دلته زموږ د ډیټالیک ډیټا لارښود څنګه تنظیم شوی دی:

موږ څنګه یو خورا مؤثر او ارزانه ډیټا لیک تنظیم کړ او ولې دا داسې دی

فایلونه ثبت شوي، عالي. که فایلونه نوي شوي وي، موږ کرالرونه یا په لاسي یا مهالویش پیل کوو، کوم چې به د دوی په اړه معلومات د جهيل څخه تازه کړي او خوندي کړي. بیا د جهيل څخه ډاټا پروسس کیدی شي او پایلې یې چیرته پورته کیږي. په ساده قضیه کې، موږ s3 ته هم اپلوډ کوو. د معلوماتو پروسس کول هرچیرې ترسره کیدی شي، مګر دا وړاندیز کیږي چې تاسو د AWS Glue API له لارې د پرمختللو وړتیاو په کارولو سره په اپاچي سپارک کلستر کې پروسس تنظیم کړئ. په حقیقت کې، تاسو کولی شئ د پیسپارک کتابتون په کارولو سره ښه زوړ او پیژندل شوی پیتون کوډ واخلئ او د څارنې سره د یو څه ظرفیت په کلستر کې د N نوډونو اجرا کول تنظیم کړئ، پرته له دې چې د هډوپ زړورتیا ته ننوځي او د ډاکر-موکر کانټینرونه راوباسي او د انحصار شخړې له منځه یوسي. .

یو ځل بیا، یو ساده نظر. د اپاچي سپارک تنظیم کولو ته اړتیا نشته، تاسو یوازې د پیسپارک لپاره د python کوډ لیکلو ته اړتیا لرئ، دا په محلي ډول په خپل ډیسټاپ کې ازموینه وکړئ او بیا یې په کلاوډ کې په لوی کلستر کې پرمخ وړئ، دا مشخص کړئ چې د سرچینې ډاټا چیرته ده او پایله یې چیرته وساتئ. ځینې ​​​​وختونه دا اړین او ګټور وي، او دلته موږ دا څنګه تنظیم کوو:

موږ څنګه یو خورا مؤثر او ارزانه ډیټا لیک تنظیم کړ او ولې دا داسې دی

په دې توګه، که تاسو اړتیا لرئ چې په S3 کې د ډاټا په کارولو سره په سپارک کلستر کې یو څه محاسبه کړئ، موږ کوډ په python/pyspark کې لیکو، ازموینه یې کوو، او کلاوډ ته ښه بخت.

د آرکیسټریشن په اړه څه؟ که چیرې دنده راښکته شي او ورکه شي؟ هو، دا وړاندیز شوی چې د اپاچي سور سټایل کې یو ښکلی پایپ لاین جوړ کړي او موږ حتی هڅه کړې، مګر د اوس لپاره موږ پریکړه وکړه چې په پی ایچ پی او جاواسکریپټ کې زموږ ژور دودیز آرکیسټریشن وکاروو (زه پوهیږم، ادراکي اختلاف شتون لري، مګر دا کار کوي، د دې لپاره کلونه او پرته له خطا).

موږ څنګه یو خورا مؤثر او ارزانه ډیټا لیک تنظیم کړ او ولې دا داسې دی

په جهيل کې د ذخیره شوي فایلونو بڼه د فعالیت کلیدي ده

دا ډیره مهمه ده چې په دوو نورو مهمو ټکو پوه شو. د دې لپاره چې په جھیل کې د فایل ډیټا په اړه پوښتنو ته ژر تر ژره اجرا شي او فعالیت خراب نشي کله چې نوي معلومات اضافه شي ، تاسو اړتیا لرئ:

  • د فایلونو کالمونه په جلا توګه ذخیره کړئ (د دې لپاره چې تاسو اړتیا نلرئ ټولې کرښې ولولئ ترڅو پوه شئ چې په کالمونو کې څه دي). د دې لپاره موږ د کمپریشن سره د پارکیټ بڼه واخیسته
  • دا خورا مهم دي چې فایلونه په فولډرونو کې شارټ کړئ لکه: ژبه، کال، میاشت، ورځ، اونۍ. هغه انجنونه چې د دې ډول شارډینګ په اړه پوهیږي یوازې اړین فولډر ته ګوري، پرته له دې چې په قطار کې د ټولو معلوماتو له لارې تیریږي.

په لازمي ډول ، پدې توګه ، تاسو د تحلیلي انجنونو لپاره په خورا مؤثره بڼه د سرچینې ډیټا په سر کې ځړول ، کوم چې حتی په شارډ شوي فولډرو کې کولی شي په انتخاب سره د فایلونو څخه یوازې اړین کالمونه دننه او لوستل شي. تاسو اړتیا نلرئ هرچیرې ډیټا "ډک کړئ" (ذخیره به په ساده ډول مات شي) - سمدلاسه په هوښیارۍ سره دا په سم شکل کې د فایل سیسټم کې واچوئ. البته، دا باید دلته روښانه شي چې په ډیټالیک کې د لوی csv فایل ذخیره کول، کوم چې باید لومړی د کلستر لخوا د کرښو په واسطه لوستل شي ترڅو د کالمونو استخراج وکړي، خورا مشوره نه ده. پورتنیو دوو ټکو ته یو ځل بیا فکر وکړئ که دا لا روښانه نه وي چې دا ټول ولې پیښیږي.

AWS اتینا - جیک په بکس کې

او بیا ، د جهيل رامینځته کولو پرمهال ، موږ په ناڅاپي ډول د ایمیزون ایتینا سره مخ شو. ناڅاپه دا معلومه شوه چې زموږ د لوی لاګ فایلونو په سمه توګه (پارکیټ) کالم فارمیټ کې د فولډر شارډونو کې په احتیاط سره تنظیم کولو سره، تاسو کولی شئ په چټکۍ سره له دوی څخه خورا معلوماتي انتخابونه وکړئ او پرته له اپاچي سپارک/ګلو کلستر پرته راپورونه جوړ کړئ.

د اتینا انجن چې په s3 کې د معلوماتو لخوا پرمخ وړل کیږي د افسانوي پر بنسټ والړ دی پریزو - د ډیټا پروسس کولو ته د تګ لارې د MPP (لوی موازي پروسس کولو) کورنۍ استازی ، ډیټا اخلي چیرې چې شتون لري ، له s3 او هډوپ څخه کاسندرا او عادي متن فایلونو ته. تاسو یوازې اړتیا لرئ د اتینا څخه وغواړئ چې د SQL پوښتنې اجرا کړي، او بیا هرڅه "چټک او په اتوماتيک ډول کار کوي." دا مهمه ده چې په یاد ولرئ چې اتینا "سمارټ" ده، دا یوازې اړین شارډ فولډر ته ځي او یوازې هغه کالمونه لوستل کیږي چې په غوښتنه کې اړین دي.

اتینا ته د غوښتنو نرخ هم په زړه پوری دی. موږ پیسې ورکوو د سکین شوي معلوماتو حجم. هغوی. په یوه دقیقه کې په کلستر کې د ماشینونو شمیر لپاره نه، مګر ... په حقیقت کې په 100-500 ماشینونو کې سکین شوي ډاټا لپاره، یوازې د غوښتنې بشپړولو لپاره اړین معلومات.

او په سمه توګه شارډ شوي فولډرونو څخه یوازې د اړین کالمونو غوښتنه کولو سره، دا معلومه شوه چې د ایتینا خدمت موږ ته په میاشت کې لسګونه ډالر مصرفوي. ښه، عالي، تقریبا وړیا، په کلسترونو کې د تحلیلونو په پرتله!

په لاره کې، دلته دا دی چې موږ څنګه خپل معلومات په s3 کې شریکوو:

موږ څنګه یو خورا مؤثر او ارزانه ډیټا لیک تنظیم کړ او ولې دا داسې دی

د پایلې په توګه ، په لنډ وخت کې ، په شرکت کې په بشپړ ډول مختلف ډیپارټمنټونه ، د معلوماتو امنیت څخه تر تحلیلونو پورې ، په فعاله توګه اتینا ته غوښتنې پیل کړې او په چټکۍ سره ، په ثانیو کې ، د کافي اوږدې مودې لپاره د "لوی" ډیټا څخه ګټور ځوابونه ترلاسه کوي: میاشتې، نیم کال، etc. P.

مګر موږ نور لاړو او د ځوابونو لپاره بادل ته لاړو د ODBC چلوونکي له لارې: یو شنونکی په یوه پیژندل شوي کنسول کې د SQL پوښتنه لیکي، کوم چې په 100-500 ماشینونو کې "د پیسو لپاره" s3 ته ډاټا لیږي او یو ځواب معمولا په څو ثانیو کې بیرته راولي. آرامي. او چټک. زه لاهم باور نه شم کولی.

د پایلې په توګه، پریکړه وکړه چې ډاټا په s3 کې ذخیره کړئ، په اغیزمنه کالم فارمیټ کې او په فولډرونو کې د معلوماتو مناسب شریکولو سره ... موږ ډیټا لیک او یو ګړندی او ارزانه تحلیلي انجن ترلاسه کړ - وړیا. او هغه په ​​شرکت کې خورا مشهور شو، ځکه چې ... SQL درک کوي او د کلسترونو د پیل کولو/درولو/ تنظیم کولو په پرتله ګړندي حکمونه کار کوي. "او که پایله ورته وي، ولې نور پیسې ورکوئ؟"

اتینا ته یوه غوښتنه داسې ښکاري. که وغواړئ، البته، تاسو کولی شئ کافي بڼه جوړه کړئ پیچلې او څو پاڼې SQL پوښتنه، مګر موږ به خپل ځان ساده ګروپ کولو پورې محدود کړو. راځئ وګورو چې پیرودونکي څو اونۍ دمخه د ویب سرور لاګونو کې کوم ځواب کوډونه درلودل او ډاډ ترلاسه کړئ چې هیڅ غلطی شتون نلري:

موږ څنګه یو خورا مؤثر او ارزانه ډیټا لیک تنظیم کړ او ولې دا داسې دی

موندنو

د تیریدلو سره، د یوې اوږدې، مګر دردناکه لاره نه ویلو لپاره، په دوامداره توګه د خطرونو او کچې پیچلتیا او د ملاتړ لګښت ارزولو سره، موږ د ډیټالیک او تحلیلونو لپاره یو حل وموند چې هیڅکله د مالکیت سرعت او لګښت دواړه سره د خوښۍ مخه نه نیسي.

دا معلومه شوه چې د شرکت د بشپړ مختلف څانګو اړتیاو لپاره د ډیټا لیک چلولو لپاره مؤثره ، ګړندي او ارزانه رامینځته کول په بشپړ ډول د حتی تجربه لرونکي پراختیا کونکو وړتیاو کې دي چې هیڅکله یې د معمار په توګه کار نه دی کړی او نه پوهیږي چې څنګه په چوکونو چوکۍ رسم کړي. تیر کړئ او د هډوپ ایکوسیستم څخه 50 اصطلاحات پیژنئ.

د سفر په پیل کې، زما سر د خلاص او تړل شوي سافټویر ډیری وحشي ژوبڼونو او اولادونو ته د مسؤلیت د بار د پوهیدو څخه جلا شوی و. یوازې د ساده وسیلو څخه د خپل ډیټالیک جوړول پیل کړئ: ناګیوس/مونین -> لچک/کیبانا -> هډوپ/سپارک/s3...، د فیډبیک راټولول او د ترسره کیدو پروسو فزیک ژور درک کول. هرڅه پیچلي او پیچلي - دا دښمنانو او سیالانو ته ورکړئ.

که تاسو نه غواړئ کلاوډ ته لاړ شئ او د خلاصې سرچینې پروژې ملاتړ کول ، تازه کول او پیچ کول غواړئ ، تاسو کولی شئ په محلي کچه زموږ په څیر یو سکیم رامینځته کړئ ، په ارزانه دفتر ماشینونو کې د هډوپ او پریسټو سره په سر کې. اصلي شی دا نه ده چې ودروئ او مخ په وړاندې لاړ شئ، حساب وکړئ، ساده او روښانه حلونه وګورئ، او هرڅه به حتما کار وکړي! ټولو ته ښه راغلاست او بیا سره ګورو!

سرچینه: www.habr.com

Add a comment