Sber.DS hətta kod olmadan da modellər yaratmağa və həyata keçirməyə imkan verən platformadır

Hər gün müxtəlif ölçülü müəssisələrdə başqa hansı proseslərin avtomatlaşdırıla biləcəyi ilə bağlı fikirlər və görüşlər yaranır. Ancaq bir model yaratmaq üçün çox vaxt sərf oluna biləcəyinə əlavə olaraq, onu qiymətləndirməyə və əldə edilən nəticənin təsadüfi olmadığını yoxlamağa sərf etməlisiniz. Tətbiq edildikdən sonra istənilən modelə nəzarət edilməli və vaxtaşırı yoxlanılmalıdır.

Və bunlar ölçüsündən asılı olmayaraq hər hansı bir şirkətdə tamamlanmalı olan bütün mərhələlərdir. Sberbank-ın miqyası və mirası haqqında danışırıqsa, incə tənzimləmələrin sayı əhəmiyyətli dərəcədə artır. 2019-cu ilin sonuna qədər Sber artıq 2000-dən çox modeldən istifadə edib. Sadəcə bir model hazırlamaq kifayət deyil, sənaye sistemləri ilə inteqrasiya etmək, modellərin qurulması üçün data marketlər hazırlamaq və klasterdə onun işinə nəzarəti təmin etmək lazımdır.

Sber.DS hətta kod olmadan da modellər yaratmağa və həyata keçirməyə imkan verən platformadır

Komandamız Sber.DS platformasını inkişaf etdirir. O, maşın öyrənməsi problemlərini həll etməyə imkan verir, fərziyyələrin yoxlanılması prosesini sürətləndirir, prinsipcə modellərin işlənib hazırlanması və təsdiqlənməsi prosesini sadələşdirir, həmçinin PROM-da modelin nəticəsini idarə edir.

Gözləntilərinizi aldatmamaq üçün əvvəlcədən demək istəyirəm ki, bu yazı bir girişdir və kəsilmənin altında başlanğıc üçün, prinsipcə, Sber.DS platformasının başlığı altında nə olduğunu danışırıq. Modelin yaradılmasından tətbiqinə qədər olan həyat dövrü haqqında hekayəni ayrıca danışacağıq.

Sber.DS bir neçə komponentdən ibarətdir, bunlardan əsasları kitabxana, inkişaf sistemi və modelin icra sistemidir.

Sber.DS hətta kod olmadan da modellər yaratmağa və həyata keçirməyə imkan verən platformadır

Kitabxana modelin inkişaf etdirilməsi ideyası yarandığı andan onun PROM-da həyata keçirilməsinə, monitorinqinə və istismardan çıxarılmasına qədər onun həyat dövrünə nəzarət edir. Kitabxananın bir çox imkanları tənzimləyici qaydaları ilə diktə edilir, məsələn, təlim və yoxlama nümunələrinin hesabatı və saxlanması. Əslində bu, bütün modellərimizin reyestridir.

İnkişaf sistemi modellərin vizual inkişafı və doğrulama üsulları üçün nəzərdə tutulmuşdur. Hazırlanmış modellər ilkin yoxlamadan keçir və öz biznes funksiyalarını yerinə yetirmək üçün icra sisteminə verilir. Həmçinin, iş vaxtı sistemində model onun işinə nəzarət etmək üçün vaxtaşırı yoxlama üsullarını işə salmaq məqsədilə monitorda yerləşdirilə bilər.

Sistemdə bir neçə növ qovşaq var. Bəziləri müxtəlif məlumat mənbələrinə qoşulmaq, digərləri isə mənbə məlumatlarını çevirmək və zənginləşdirmək (işarələmə) üçün nəzərdə tutulub. Müxtəlif modellərin qurulması üçün çoxlu qovşaqlar və onları təsdiqləmək üçün qovşaqlar var. Tərtibatçı istənilən mənbədən məlumatları yükləyə, çevirə, süzgəcdən keçirə, aralıq məlumatları vizuallaşdıra və hissələrə ayıra bilər.

Platformada həmçinin dizayn sahəsinə sürüklənə və salına bilən hazır modullar var. Bütün hərəkətlər vizual interfeysdən istifadə etməklə həyata keçirilir. Əslində, bir kod sətri olmadan problemi həll edə bilərsiniz.

Daxili imkanlar kifayət deyilsə, sistem tez bir zamanda öz modullarınızı yaratmaq imkanı verir. Biz əsasında inteqrasiya edilmiş inkişaf rejimi etdik Jupyter Kernel Gateway sıfırdan yeni modullar yaradanlar üçün.

Sber.DS hətta kod olmadan da modellər yaratmağa və həyata keçirməyə imkan verən platformadır

Sber.DS arxitekturası mikroservislər üzərində qurulub. Mikroservislərin nə olduğu haqqında çoxlu fikirlər var. Bəzi insanlar monolit kodu hissələrə ayırmağın kifayət olduğunu düşünür, lakin eyni zamanda yenə də eyni verilənlər bazasına gedirlər. Mikroservisimiz başqa mikroservislə yalnız REST API vasitəsilə əlaqə saxlamalıdır. Verilənlər bazasına birbaşa daxil olmaq üçün heç bir həll yolu yoxdur.

Biz xidmətlərin çox böyük və yöndəmsiz olmamasını təmin etməyə çalışırıq: bir instansiya 4-8 giqabaytdan çox RAM istehlak etməməli və yeni instansiyaları işə salmaqla sorğuları üfüqi miqyasda miqyaslandırma qabiliyyətini təmin etməlidir. Hər bir xidmət başqaları ilə yalnız REST API vasitəsilə əlaqə qurur (Açıq API). Xidmətə cavabdeh olan komandadan API-ni ondan istifadə edən son müştəriyə qədər geriyə uyğun saxlamaq tələb olunur.

Proqramın əsas hissəsi Spring Framework istifadə edərək Java-da yazılmışdır. Həll əvvəlcə bulud infrastrukturunda sürətli yerləşdirmə üçün nəzərdə tutulmuşdu, buna görə də proqram konteynerləşdirmə sistemindən istifadə edərək qurulmuşdur. Red Hat OpenShift (Kubernetes). Platforma həm biznes funksionallığının artırılması baxımından (yeni bağlayıcılar, AutoML əlavə olunur), həm də texnoloji səmərəlilik baxımından daim inkişaf edir.

Platformamızın xüsusiyyətlərindən biri odur ki, biz vizual interfeysdə hazırlanmış kodu istənilən Sberbank model icra sistemində işlədə bilirik. İndi onlardan ikisi var: biri Hadoop-da, digəri OpenShift-də (Docker). Biz bununla dayanmırıq və hər hansı bir infrastrukturda, o cümlədən yerli və buludda kod işlətmək üçün inteqrasiya modulları yaradırıq. Sberbank ekosisteminə effektiv inteqrasiya imkanlarına gəldikdə, biz həmçinin mövcud icra mühitləri ilə işi dəstəkləməyi planlaşdırırıq. Gələcəkdə həll istənilən təşkilatın istənilən mənzərəsinə çevik şəkildə “qutudan kənarda” inteqrasiya oluna bilər.

PROM-da Hadoop-da Python-u işlədən həlli dəstəkləməyə cəhd edənlər bilirlər ki, hər bir datanode üçün Python istifadəçi mühitini hazırlamaq və çatdırmaq kifayət deyil. Python modullarından istifadə edən maşın öyrənməsi üçün çoxlu sayda C/C++ kitabxanası sizə rahat istirahət etməyə imkan verməyəcək. Yeni kitabxanalar və ya serverlər əlavə edərkən, artıq tətbiq edilmiş model kodu ilə geriyə uyğunluğu qoruyarkən paketləri yeniləməyi yadda saxlamalıyıq.

Bunu necə etmək üçün bir neçə yanaşma var. Məsələn, tez-tez istifadə olunan bir neçə kitabxananı əvvəlcədən hazırlayın və onları PROM-da tətbiq edin. Cloudera-nın Hadoop paylanmasında adətən istifadə edirlər parsel. Həmçinin indi Hadoop-da işləmək mümkündür docker- konteynerlər. Bəzi sadə hallarda kodu paketlə birlikdə çatdırmaq mümkündür python.eggs.

Bank üçüncü tərəf kodunun işlədilməsinin təhlükəsizliyinə çox ciddi yanaşır, ona görə də biz prosesin təcrid olunmuş mühitdə işlədiyi Linux nüvəsinin yeni xüsusiyyətlərindən maksimum yararlanırıq. Linux ad sahəsi, məsələn, şəbəkəyə və yerli diskə girişi məhdudlaşdıra bilərsiniz ki, bu da zərərli kodun imkanlarını əhəmiyyətli dərəcədə azaldır. Hər bir şöbənin məlumat sahələri qorunur və yalnız bu məlumatların sahibləri üçün əlçatandır. Platforma təmin edir ki, bir ərazidən olan verilənlər yalnız mənbələrə girişdən tutmuş məlumatların hədəf vitrinə enməsinə qədər bütün mərhələlərdə nəzarətlə məlumatların dərci prosesi vasitəsilə başqa bir sahəyə çata bilər.

Sber.DS hətta kod olmadan da modellər yaratmağa və həyata keçirməyə imkan verən platformadır

Bu il Hadoop-da Python/R/Java ilə yazılmış modellərin MVP-ni tamamlamağı planlaşdırırıq. Platformamızın istifadəçilərini heç bir şəkildə məhdudlaşdırmamaq üçün Hadoop-da istənilən fərdi mühiti necə idarə etməyi öyrənmək kimi iddialı bir vəzifə qoymuşuq.

Bundan əlavə, məlum oldu ki, bir çox DS mütəxəssisləri riyaziyyat və statistikada mükəmməldirlər, gözəl modellər hazırlayırlar, lakin böyük verilənlərin çevrilməsində o qədər də məlumatlı deyillər və onların təlim nümunələrini hazırlamaq üçün məlumat mühəndislərimizin köməyinə ehtiyacı var. Biz həmkarlarımıza kömək etmək və Spark mühərrikindəki modellər üçün standart transformasiya və funksiyaların hazırlanması üçün rahat modullar yaratmaq qərarına gəldik. Bu, modellərin hazırlanmasına daha çox vaxt sərf etməyə və məlumat mühəndislərinin yeni verilənlər toplusu hazırlamasını gözləməyə imkan verəcək.

Biz müxtəlif sahələrdə biliyi olan insanları işə götürürük: Linux və DevOps, Hadoop və Spark, Java və Spring, Scala və Akka, OpenShift və Kubernetes. Növbəti dəfə biz model kitabxanası, modelin şirkət daxilində həyat dövründən necə keçdiyi, doğrulama və tətbiqin necə baş verdiyi haqqında danışacağıq.

Mənbə: www.habr.com

Добавить комментарий