Təhlükəsizlik və məxfilik üçün genişləndirilə bilən məlumat təsnifatı

Təhlükəsizlik və məxfilik üçün genişləndirilə bilən məlumat təsnifatı

Məzmuna əsaslanan məlumatların təsnifatı açıq problemdir. Ənənəvi məlumat itkisinin qarşısının alınması (DLP) sistemləri bu problemi müvafiq məlumatların barmaq izinin alınması və barmaq izi üçün son nöqtələrin monitorinqi ilə həll edir. Facebook-da çoxlu sayda daim dəyişən məlumat resurslarını nəzərə alsaq, bu yanaşma nəinki genişlənə bilər, həm də məlumatların harada yerləşdiyini müəyyən etmək üçün səmərəsizdir. Bu məqalə Facebook-da həssas semantik növləri miqyasda aşkar etmək və məlumatların saxlanması və girişə nəzarəti avtomatik tətbiq etmək üçün qurulmuş uçdan-uca sistemə diqqət yetirir.

Burada təsvir edilən yanaşma, Facebook-dakı bütün məlumatları xəritələşdirmək və təsnif etmək üçün məlumat siqnalları, maşın öyrənməsi və ənənəvi barmaq izi üsullarını birləşdirərək bu problemi həll etməyə çalışan ilk uçdan-uca məxfilik sistemimizdir. Təsvir edilən sistem istehsal mühitində işlədilir, müxtəlif məxfilik sinifləri üzrə orta hesabla 2+ F0,9 balı əldə edir və onlarla repozitoriyada böyük həcmdə məlumat resurslarını emal edir. Maşın öyrənməsinə əsaslanan təhlükəsizlik və məxfilik üçün genişləndirilə bilən məlumat təsnifatı üzrə Facebook-un ArXiv sənədinin tərcüməsini təqdim edirik.

Giriş

Bu gün təşkilatlar müxtəlif formatlarda və yerlərdə böyük həcmdə məlumat toplayır və saxlayır [1], sonra məlumatlar bir çox yerlərdə istehlak edilir, bəzən dəfələrlə kopyalanır və ya keşlənir, nəticədə qiymətli və həssas biznes məlumatı bir çox müəssisə məlumatlarına səpələnir. mağazalar. Təşkilatdan müəyyən qanuni və ya tənzimləyici tələblərə cavab verməsi tələb olunduqda, məsələn, mülki prosesdə qaydalara uyğunluq tələb olunan məlumatların yerləşdiyi yer haqqında məlumat toplamaq zərurəti yaranır. Məxfilik qaydası təşkilatın şəxsi məlumatı icazəsiz qurumlarla paylaşarkən bütün Sosial Müdafiə Nömrələrini (SSN) maskalamalı olduğunu bildirdikdə, ilk təbii addım təşkilatın məlumat anbarlarında bütün SSN-ləri axtarmaqdır. Belə şəraitdə məlumatların təsnifatı kritik olur [1]. Təsnifat sistemi təşkilatlara girişə nəzarət siyasətlərini aktivləşdirmək, məlumatların saxlanması kimi məxfilik və təhlükəsizlik siyasətlərini avtomatik tətbiq etməyə imkan verəcək. Facebook həssas semantik məlumat növlərini kəşf etmək üçün çoxlu məlumat siqnalları, genişlənən sistem arxitekturası və maşın öyrənməsindən istifadə edən Facebook-da qurduğumuz sistemi təqdim edir.

Məlumatların aşkarlanması və təsnifatı, lazım olduqda müvafiq məlumatın tez və səmərəli şəkildə əldə edilməsi üçün məlumatların tapılması və etiketlənməsi prosesidir. Mövcud proses daha çox əl ilə aparılır və müvafiq qanun və ya qaydaların araşdırılmasından, hansı növ məlumatların həssas hesab edilməli olduğunu və həssaslığın müxtəlif səviyyələrinin nədən ibarət olduğunu müəyyən etməkdən və sonra müvafiq olaraq siniflər və təsnifat siyasətlərini qurmaqdan ibarətdir [1]. Məlumat itkisinin qarşısının alınması (DLP) daha sonra barmaq izlərini əldə etmək üçün məlumatları barmaq izlərini alır və aşağı axın nöqtələrinə nəzarət edir. Petabayt məlumatı olan ağır aktiv anbarı ilə işləyərkən bu yanaşma sadəcə miqyaslı deyil.

Məqsədimiz verilənlərin növü və formatı ilə bağlı heç bir əlavə məhdudiyyət olmadan həm möhkəm, həm də müvəqqəti istifadəçi məlumatlarına miqyas verən məlumat təsnifatı sistemi yaratmaqdır. Bu, cəsarətli bir məqsəddir və təbii olaraq çətinliklərlə gəlir. Verilmiş məlumat qeydi minlərlə simvol uzunluğunda ola bilər.

Təhlükəsizlik və məxfilik üçün genişləndirilə bilən məlumat təsnifatı
Şəkil 1. Onlayn və oflayn proqnozlaşdırma axınları

Buna görə də, biz onu sonradan birləşdirilə və asanlıqla dəyişdirilə bilən ümumi xüsusiyyətlər toplusundan istifadə edərək səmərəli şəkildə təmsil etməliyik. Bu xüsusiyyətlər yalnız dəqiq təsnifatı təmin etməməli, həm də gələcəkdə yeni məlumat növlərini asanlıqla əlavə etmək və kəşf etmək üçün çeviklik və genişlənmə təmin etməlidir. İkincisi, böyük oflayn cədvəllərlə məşğul olmalısınız. Davamlı məlumatlar ölçüsü çox petabayt olan cədvəllərdə saxlanıla bilər. Bu, daha yavaş tarama sürəti ilə nəticələnə bilər. Üçüncüsü, dəyişkən məlumatlar üzrə ciddi SLA təsnifatına riayət etməliyik. Bu, sistemi yüksək səmərəli, sürətli və dəqiq olmağa məcbur edir. Nəhayət, biz real vaxt təsnifatını yerinə yetirmək üçün uçucu məlumatların, eləcə də İnternetdən istifadə halları üçün aşağı gecikmə məlumat təsnifatını təmin etməliyik.

Bu sənəd yuxarıda göstərilən çətinliklərlə necə məşğul olduğumuzu təsvir edir və ümumi xüsusiyyətlər dəsti əsasında bütün növlər, formatlar və mənbələrin məlumat elementlərini təsnif edən sürətli və genişlənə bilən təsnifat sistemini təqdim edir. Biz sistem arxitekturasını genişləndirdik və oflayn və onlayn məlumatları tez təsnif etmək üçün fərdi maşın öyrənmə modeli yaratdıq. Bu sənəd aşağıdakı kimi təşkil edilmişdir: Bölmə 2 sistemin ümumi dizaynını təqdim edir. Bölmə 3 maşın öyrənmə sisteminin hissələrini müzakirə edir. 4 və 5-ci bölmələr əlaqəli işləri vurğulayır və gələcək iş istiqamətlərini təsvir edir.

memarlıq

Davamlı və Facebook miqyaslı onlayn məlumatların problemləri ilə məşğul olmaq üçün təsnifat sistemində ətraflı müzakirə edəcəyimiz iki ayrı axın var.

Davamlı Məlumat

İlkin olaraq sistem Facebook-un bir çox informasiya aktivləri haqqında öyrənməlidir. Hər bir repozitoriya üçün bəzi əsas məlumatlar, məsələn, həmin məlumatları ehtiva edən məlumat mərkəzi, həmin məlumatları ehtiva edən sistem və xüsusi məlumat anbarında yerləşən aktivlər toplanır. Bu, sistemə müştəriləri və digər mühəndislər tərəfindən istifadə olunan resursları yükləmədən məlumatları səmərəli şəkildə əldə etməyə imkan verən metadata kataloqu yaradır.

Bu metadata kataloqu bütün skan edilmiş aktivlər üçün səlahiyyətli mənbə təqdim edir və müxtəlif aktivlərin statusunu izləməyə imkan verir. Bu məlumatdan istifadə edərək, planlaşdırma prioriteti toplanmış məlumatlara və aktivin sonuncu dəfə uğurla skan edildiyi vaxt və onun yaradıldığı vaxt kimi sistemdən daxili məlumatlara, habelə bu aktiv üçün keçmiş yaddaş və CPU tələblərinə əsasən müəyyən edilir. əvvəllər skan edilib. Sonra, hər bir məlumat resursu üçün (resurslar əlçatan olduqda) resursu həqiqətən skan etmək üçün bir iş çağırılır.

Hər bir iş, hər bir aktiv üçün mövcud olan ən son məlumatlar üzrə Bernoulli nümunəsini həyata keçirən tərtib edilmiş ikili fayldır. Aktiv fərdi sütunlara bölünür, burada hər bir sütunun təsnifat nəticəsi müstəqil şəkildə işlənir. Bundan əlavə, sistem sütunlardakı hər hansı doymuş məlumatı skan edir. JSON, massivlər, kodlaşdırılmış strukturlar, URL-lər, baza 64 seriyalı məlumatlar və s. hamısı skan edilir. Bu, skan icra müddətini əhəmiyyətli dərəcədə artıra bilər, çünki tək bir cədvəldə blobda minlərlə iç içə sütun ola bilər. json.

Məlumat aktivində seçilmiş hər bir sıra üçün təsnifat sistemi float və mətn obyektlərini məzmundan çıxarır və hər bir obyekti yenidən götürüldüyü sütunla əlaqələndirir. Xüsusiyyətlərin çıxarılması addımının nəticəsi məlumat aktivində olan hər bir sütun üçün bütün xüsusiyyətlərin xəritəsidir.

İşarələr nə üçündür?

Atributlar anlayışı əsasdır. Float və mətn əlamətlərinin əvəzinə hər bir məlumat resursundan birbaşa çıxarılan xam sətir nümunələrini ötürə bilərik. Bundan əlavə, maşın öyrənmə modelləri yalnız nümunəni təxmin etməyə çalışan yüzlərlə xüsusiyyət hesablamaları əvəzinə hər bir nümunə üzrə birbaşa öyrədilə bilər. Bunun bir neçə səbəbi var:

  1. Əvvəlcə məxfilik: Ən əsası, funksiyalar konsepsiyası yaddaşda yalnız əldə etdiyimiz nümunələri saxlamağa imkan verir. Bu, nümunələri bir məqsəd üçün saxlamağımızı və heç vaxt öz səylərimizlə onları qeyd etməməyimizi təmin edir. Bu, dəyişkən məlumatlar üçün xüsusilə vacibdir, çünki xidmət proqnoz verməzdən əvvəl bəzi təsnifat vəziyyətini saxlamalıdır.
  2. Yaddaş: Bəzi nümunələr minlərlə simvol uzunluğunda ola bilər. Belə məlumatların saxlanması və sistemin hissələrinə ötürülməsi lazımsız yerə çoxlu əlavə bayt sərf edir. Minlərlə sütunlu çoxlu məlumat resurslarının olduğunu nəzərə alsaq, bu iki amil zamanla birləşdirilə bilər.
  3. Xüsusiyyətlərin yığılması: Xüsusiyyətlər sistemə eyni məlumat resursunun əvvəlki skanlarının nəticələrini rahat şəkildə birləşdirməyə imkan verən funksiyalar dəsti vasitəsilə hər bir skanın nəticələrini aydın şəkildə təmsil edir. Bu, tək bir məlumat resursundan skan nəticələrini bir neçə qaçışda toplamaq üçün faydalı ola bilər.

Xüsusiyyətlər daha sonra hər bir sütunun məlumat etiketlərini proqnozlaşdırmaq üçün qaydalara əsaslanan təsnifat və maşın öyrənməsindən istifadə etdiyimiz proqnozlaşdırma xidmətinə göndərilir. Xidmət həm qayda təsnifatçılarına, həm də maşın öyrənməsinə əsaslanır və hər bir proqnoz obyektindən verilən ən yaxşı proqnozu seçir.

Qayda təsnifatçıları əl ilə evristikadır, obyekti 0-dan 100-ə qədər diapazonda normallaşdırmaq üçün hesablamalar və əmsallardan istifadə edirlər. Hər bir məlumat növü və həmin verilənlərlə əlaqəli sütun adı üçün belə ilkin hesab yaradıldıqdan sonra o, heç bir "qadağa"ya daxil edilmir. siyahılar" ,Qayda təsnifatı bütün məlumat növləri arasında ən yüksək normallaşdırılmış balı seçir.

Təsnifatın mürəkkəbliyinə görə, yalnız əl ilə evristikaya əsaslanmaq, xüsusən də strukturlaşdırılmamış məlumatlar üçün aşağı təsnifat dəqiqliyi ilə nəticələnir. Bu səbəbdən, istifadəçi məzmunu və ünvanı kimi strukturlaşdırılmamış məlumatların təsnifatı ilə işləmək üçün maşın öyrənmə sistemi hazırladıq. Maşın öyrənməsi əl ilə evristikadan uzaqlaşmağa və əlavə məlumat siqnallarını (məsələn, sütun adları, verilənlərin mənşəyi) tətbiq etməyə imkan verdi və aşkarlama dəqiqliyini əhəmiyyətli dərəcədə yaxşılaşdırdı. Daha sonra maşın öyrənmə arxitekturamıza dərindən girəcəyik.

Proqnozlaşdırma xidməti hər bir sütun üçün nəticələri skan vaxtı və vəziyyəti ilə bağlı metadata ilə birlikdə saxlayır. Bu datadan asılı olan istənilən istehlakçılar və aşağı axın prosesləri gündəlik dərc olunan verilənlər bazasından onu oxuya bilər. Bu dəst bütün bu skan işlərinin və ya Real-Time Data Kataloq API-lərinin nəticələrini birləşdirir. Nəşr edilmiş proqnozlar məxfilik və təhlükəsizlik siyasətlərinin avtomatik tətbiqi üçün əsasdır.

Nəhayət, proqnozlaşdırma xidməti bütün məlumatları yazdıqdan və bütün proqnozlar saxlandıqdan sonra Data Catalog API resurs üçün real vaxt rejimində bütün məlumat növü proqnozlarını qaytara bilər. Hər gün sistem hər bir aktiv üçün bütün ən son proqnozları özündə əks etdirən verilənlər toplusunu dərc edir.

Dəyişən məlumatlar

Yuxarıdakı proses davamlı aktivlər üçün nəzərdə tutulsa da, davamlı olmayan trafik də təşkilat məlumatlarının bir hissəsi hesab olunur və vacib ola bilər. Bu səbəbdən sistem istənilən fasiləli trafik üçün real vaxt təsnifat proqnozlarını yaratmaq üçün onlayn API təqdim edir. Real vaxt rejimində proqnozlaşdırma sistemi gedən trafiki, daxil olan trafiki maşın öyrənmə modellərinə və reklamçı məlumatlarına təsnif etmək üçün geniş istifadə olunur.

Burada API iki əsas arqument götürür: qruplaşdırma açarı və proqnozlaşdırılmalı olan xam data. Xidmət yuxarıda təsvir edildiyi kimi eyni obyekt axtarışını həyata keçirir və eyni açar üçün obyektləri qruplaşdırır. Bu xüsusiyyətlər uğursuzluğun bərpası üçün davamlılıq keşində də dəstəklənir. Hər bir qruplaşdırma açarı üçün xidmət yuxarıda təsvir edilən prosesdən sonra proqnozlaşdırma xidmətinə zəng etməzdən əvvəl kifayət qədər nümunə gördüyünü təmin edir.

Optimallaşdırma

Bəzi saxlama yerlərini skan etmək üçün biz isti yaddaşdan oxumağı optimallaşdırmaq üçün kitabxanalardan və üsullardan istifadə edirik [2] və eyni yaddaşa daxil olan digər istifadəçilər tərəfindən heç bir maneənin olmamasına əminik.

Son dərəcə böyük cədvəllər üçün (50+ petabayt), bütün optimallaşdırmalara və yaddaş səmərəliliyinə baxmayaraq, sistem yaddaş tükənməzdən əvvəl hər şeyi skan etmək və hesablamaq üçün işləyir. Axı, skan tamamilə yaddaşda hesablanır və tarama zamanı saxlanmır. Böyük cədvəllərdə strukturlaşdırılmamış məlumat yığınları olan minlərlə sütun varsa, bütün cədvəl üzrə proqnozlar həyata keçirərkən iş kifayət qədər yaddaş resurslarının olmaması səbəbindən uğursuz ola bilər. Bu, əhatə dairəsinin azalması ilə nəticələnəcək. Bununla mübarizə aparmaq üçün sistemi optimallaşdırdıq ki, sistemin cari iş yükünü nə dərəcədə yaxşı idarə etdiyinə dair proksi kimi tarama sürətindən istifadə etsin. Yaddaş problemlərini görmək və xüsusiyyət xəritəsini proqnozlaşdıraraq hesablamaq üçün sürətdən proqnozlaşdırıcı mexanizm kimi istifadə edirik. Eyni zamanda, biz həmişəkindən daha az məlumat istifadə edirik.

Məlumat siqnalları

Təsnifat sistemi yalnız verilənlərdən gələn siqnallar qədər yaxşıdır. Burada biz təsnifat sisteminin istifadə etdiyi bütün siqnallara baxacağıq.

  • Məzmun Əsaslı: Əlbəttə ki, ilk və ən vacib siqnal məzmundur. Bernoulli nümunəsi skan etdiyimiz və verilənlərin məzmununa əsasən xüsusiyyətləri çıxardığımız hər bir məlumat aktivində həyata keçirilir. Məzmundan çoxlu əlamətlər gəlir. Müəyyən bir nümunə növünün neçə dəfə görüldüyünə dair hesablamaları təmsil edən istənilən sayda üzən obyektlər mümkündür. Məsələn, nümunədə görünən e-poçtların sayının əlamətləri və ya nümunədə neçə emojinin göründüyünə dair işarələrimiz ola bilər. Bu xüsusiyyət hesablamaları müxtəlif skanlarda normallaşdırıla və birləşdirilə bilər.
  • Məlumat mənbəyi: Əsas cədvəldən məzmun dəyişdikdə kömək edə biləcək vacib siqnal. Ümumi bir nümunə, hashed məlumatdır. Uşaq cədvəlindəki məlumatlar heşləşdirildikdə, o, çox vaxt aydın olaraq qaldığı əsas cədvəldən gəlir. Lineage məlumatları aydın oxunmadıqda və ya yuxarı cədvəldən çevrildikdə müəyyən növ məlumatları təsnif etməyə kömək edir.
  • Annotasiyalar: Strukturlaşdırılmamış məlumatları müəyyən etməyə kömək edən digər yüksək keyfiyyətli siqnal. Əslində, annotasiyalar və mənşə məlumatları müxtəlif məlumat aktivlərində atributları yaymaq üçün birlikdə işləyə bilər. Annotasiyalar strukturlaşdırılmamış məlumatların mənbəyini müəyyən etməyə kömək edir, nəsil məlumatları isə həmin məlumatların bütün depoda axını izləməyə kömək edə bilər.
  • Məlumatların inyeksiyası xüsusi, oxunmayan simvolların bilinən məlumat növlərinin məlum mənbələrinə qəsdən daxil edildiyi bir texnikadır. Sonra, eyni oxunmayan simvol ardıcıllığı ilə məzmunu skan etdiyimiz zaman məzmunun həmin məlum məlumat növündən gəldiyi qənaətinə gələ bilərik. Bu annotasiyalara bənzər başqa bir keyfiyyətli məlumat siqnalıdır. Bundan başqa, məzmuna əsaslanan aşkarlama daxil edilmiş məlumatları aşkar etməyə kömək edir.

Ölçmə Metrikləri

Mühüm komponent metriklərin ölçülməsi üçün ciddi metodologiyadır. Təsnifatın təkmilləşdirilməsi iterasiyası üçün əsas ölçülər hər bir etiketin dəqiqliyi və geri çağırılmasıdır, F2 balı ən mühümdür.

Bu ölçüləri hesablamaq üçün məlumat aktivlərinin etiketlənməsi üçün sistemin özündən asılı olmayan, lakin onunla birbaşa müqayisə üçün istifadə edilə bilən müstəqil metodologiya lazımdır. Aşağıda biz Facebook-dan əsas həqiqətləri necə topladığımızı və təsnifat sistemimizi öyrətmək üçün ondan necə istifadə etdiyimizi təsvir edirik.

Etibarlı məlumatların toplanması

Aşağıda sadalanan hər bir mənbədən etibarlı məlumatları öz cədvəlində toplayırıq. Hər bir cədvəl həmin mənbədən ən son müşahidə edilən dəyərləri toplamaqdan məsuldur. Hər bir mənbə üçün müşahidə edilən dəyərlərin yüksək keyfiyyətli olmasını və ən son məlumat növü etiketlərini ehtiva etməsini təmin etmək üçün hər bir mənbə məlumat keyfiyyətinin yoxlanılmasına malikdir.

  • Giriş platforması konfiqurasiyaları: Pətək cədvəllərindəki müəyyən sahələr xüsusi tipli məlumatlarla doldurulur. Bu məlumatların istifadəsi və yayılması etibarlı həqiqət mənbəyi kimi xidmət edir.
  • Əl ilə etiketləmə: Sistemə qulluq edən tərtibatçılar, eləcə də xarici etiketləyicilər sütunları etiketləmək üçün təlim alırlar. Bu, ümumiyyətlə, anbardakı bütün məlumat növləri üçün yaxşı işləyir və mesaj məlumatları və ya istifadəçi məzmunu kimi bəzi strukturlaşdırılmamış məlumatlar üçün əsas həqiqət mənbəyi ola bilər.
  • Əsas cədvəllərin sütunları müəyyən məlumatları ehtiva edən kimi qeyd edilə və ya şərh edilə bilər və biz uşaq cədvəllərində həmin məlumatları izləyə bilərik.
  • İcra mövzularının götürülməsi: Facebook-da icra başlıqları xüsusi növ məlumat daşıyır. Skanerimizi xidmət arxitekturası kimi istifadə edərək, biz məlum məlumat növlərinə malik axınları seçib sistem vasitəsilə göndərə bilərik. Sistem bu məlumatları saxlamayacağına söz verir.
  • Nümunə cədvəllər: Bütün məlumat korpusunu ehtiva etdiyi məlum olan böyük pətək cədvəlləri, həmçinin təlim məlumatları kimi istifadə edilə və xidmət kimi skanerdən keçə bilər. Bu, məlumat növlərinin tam çeşidinə malik cədvəllər üçün əladır, belə ki, təsadüfi bir sütun seçilməsi həmin məlumat növünün bütün dəstini seçməyə bərabərdir.
  • Sintetik məlumatlar: Biz hətta tez məlumat yaradan kitabxanalardan istifadə edə bilərik. Bu, ünvan və ya GPS kimi sadə, ictimai məlumat növləri üçün yaxşı işləyir.
  • Data Stüardları: Məxfilik proqramları adətən məlumat hissələrinə siyasətləri əl ilə təyin etmək üçün məlumat stüardlarından istifadə edir. Bu, çox dəqiq həqiqət mənbəyi kimi xidmət edir.

Biz hər bir əsas həqiqət mənbəyini bütün bu məlumatlar ilə bir korpusda birləşdiririk. Etibarlılıqla bağlı ən böyük problem onun məlumat anbarını təmsil etməsinə əmin olmaqdır. Əks halda, təsnifat mühərrikləri həddən artıq məşq edə bilər. Bununla mübarizə aparmaq üçün yuxarıda göstərilən mənbələrin hamısı modelləri öyrədərkən və ya ölçüləri hesablayarkən tarazlığı təmin etmək üçün istifadə olunur. Bundan əlavə, insan etiketləyiciləri depoda müxtəlif sütunları vahid şəkildə seçir və məlumatları müvafiq olaraq etiketləyir ki, əsas həqiqətlərin toplanması qərəzsiz qalsın.

Davamlı İnteqrasiya

Sürətli təkrarlama və təkmilləşdirməni təmin etmək üçün sistemin performansını həmişə real vaxtda ölçmək vacibdir. Biz bu gün sistemə qarşı hər bir təsnifat təkmilləşdirməsini ölçə bilərik, beləliklə, məlumatlara əsaslanaraq gələcək təkmilləşdirmələrə taktiki rəhbərlik edə bilərik. Burada sistemin etibarlı məlumatlarla təmin edilən əks əlaqə dövrəsini necə tamamladığına baxırıq.

Planlaşdırma sistemi etibarlı mənbədən etiketi olan aktivlə qarşılaşdıqda, biz iki tapşırığı planlaşdırırıq. Birincisi istehsal skanerimizdən və beləliklə istehsal imkanlarımızdan istifadə edir. İkinci tapşırıq ən son xüsusiyyətlərə malik ən son qurma skanerindən istifadə edir. Hər bir tapşırıq öz çıxışını təsnifat nəticələri ilə birlikdə versiyaları işarələyərək öz cədvəlinə yazır.

Buraxılış namizədinin təsnifat nəticələrini və istehsal modelini real vaxtda belə müqayisə edirik.

Verilənlər dəstləri RC və PROD xüsusiyyətlərini müqayisə edərkən, proqnozlaşdırma xidmətinin ML təsnifat mühərrikinin bir çox variantı qeyd olunur. Ən son qurulmuş maşın öyrənmə modeli, istehsalda olan cari model və istənilən eksperimental model. Eyni yanaşma bizə modelin müxtəlif versiyalarını (qayda təsnifatçılarımız üçün aqnostik) “dilimləməyə” və ölçüləri real vaxtda müqayisə etməyə imkan verir. Bu, ML təcrübəsinin istehsala nə vaxt hazır olduğunu müəyyən etməyi asanlaşdırır.

Hər gecə, həmin gün üçün hesablanmış RC xüsusiyyətləri ML təlim kəmərinə göndərilir, burada model ən son RC xüsusiyyətləri üzrə öyrədilir və yerüstü həqiqət verilənlər bazası ilə onun performansını qiymətləndirir.

Hər səhər model təlimi tamamlayır və avtomatik olaraq eksperimental model kimi dərc olunur. O, avtomatik olaraq eksperimental siyahıya daxil edilir.

Bəzi nəticələr

100-dən çox müxtəlif növ məlumat yüksək dəqiqliklə etiketlənir. E-poçt və telefon nömrələri kimi yaxşı strukturlaşdırılmış növlər 2-dən yuxarı f0,95 balı ilə təsnif edilir. İstifadəçi tərəfindən yaradılan məzmun və ad kimi pulsuz məlumat növləri də F2 balları 0,85-dən çox olmaqla çox yaxşı işləyir.

Davamlı və dəyişkən məlumatların çoxlu sayda fərdi sütunları hər gün bütün depolarda təsnif edilir. 500-dan çox məlumat anbarında hər gün 10 terabaytdan çox skan edilir. Bu depoların əksəriyyəti 98%-dən çox əhatə dairəsinə malikdir.

Zaman keçdikcə təsnifat çox səmərəli oldu, davamlı oflayn axındakı təsnifat işləri aktivin skan edilməsindən hər bir sütun üçün proqnozların hesablanmasına qədər orta hesabla 35 saniyə çəkir.

Təhlükəsizlik və məxfilik üçün genişləndirilə bilən məlumat təsnifatı
düyü. 2. RC obyektlərinin necə yaradıldığını və modelə göndərildiyini anlamaq üçün davamlı inteqrasiya axınını təsvir edən diaqram.

Təhlükəsizlik və məxfilik üçün genişləndirilə bilən məlumat təsnifatı
Şəkil 3. Maşın öyrənmə komponentinin yüksək səviyyəli diaqramı.

Maşın öyrənmə sistemi komponenti

Əvvəlki bölmədə miqyası, optimallaşdırmanı, oflayn və onlayn məlumat axınlarını vurğulayaraq ümumi sistem arxitekturasına dərindən nəzər saldıq. Bu bölmədə biz proqnozlaşdırma xidmətinə baxacağıq və proqnozlaşdırma xidmətini gücləndirən maşın öyrənmə sistemini təsvir edəcəyik.

100-dən çox məlumat növü və mesaj məlumatları və istifadəçi məzmunu kimi bəzi strukturlaşdırılmamış məzmunla sırf əl ilə evristikanın istifadəsi xüsusilə strukturlaşdırılmamış məlumatlar üçün subparametrik təsnifat dəqiqliyi ilə nəticələnir. Bu səbəbdən, strukturlaşdırılmamış məlumatların mürəkkəbliyi ilə məşğul olmaq üçün bir maşın öyrənmə sistemi də inkişaf etdirdik. Maşın öyrənməsindən istifadə sizə əl evristikasından uzaqlaşmağa və dəqiqliyi artırmaq üçün funksiyalar və əlavə məlumat siqnalları (məsələn, sütun adları, məlumat mənşəyi) ilə işləməyə imkan verir.

Həyata keçirilən model vektor təsvirlərini [3] sıx və seyrək obyektlər üzərində ayrı-ayrılıqda öyrənir. Daha sonra bunlar vektor yaratmaq üçün birləşdirilir və son nəticəni əldə etmək üçün bir sıra toplu normallaşdırma [4] və qeyri-xətti addımlardan keçir. Son nəticə nümunənin həmin həssaslıq növünə aid olma ehtimalını göstərən hər bir etiket üçün [0-1] arasında dəyişən nöqtə sayıdır. Model üçün PyTorch-dan istifadə bizə daha sürətli hərəkət etməyə imkan verdi, komandadan kənar tərtibatçılara dəyişiklikləri tez bir zamanda etməyə və sınaqdan keçirməyə imkan verdi.

Arxitekturanın layihələndirilməsi zamanı seyrək (məsələn, mətn) və sıx (məsələn, rəqəmli) obyektlərin xas fərqlərinə görə ayrıca modelləşdirilməsi vacib idi. Son arxitektura üçün öyrənmə sürəti, partiyanın ölçüsü və digər hiperparametrlər üçün optimal dəyəri tapmaq üçün parametr taramasını həyata keçirmək də vacib idi. Optimizator seçimi də mühüm hiperparametr idi. Populyar bir optimallaşdırıcı olduğunu tapdıq Adəmilə model isə tez-tez overfitting gətirib çıxarır SGD daha stabil. Modelə birbaşa daxil etməli olduğumuz əlavə nüanslar var idi. Məsələn, bir xüsusiyyət müəyyən bir dəyərə malik olduqda modelin deterministik proqnoz verməsini təmin edən statik qaydalar. Bu statik qaydalar müştərilərimiz tərəfindən müəyyən edilir. Biz aşkar etdik ki, onları birbaşa modelə daxil etmək, bu xüsusi kənar halları idarə etmək üçün sonrakı emal addımını həyata keçirməkdən fərqli olaraq, daha müstəqil və möhkəm bir arxitektura ilə nəticələndi. Həmçinin nəzərə alın ki, bu qaydalar məşq zamanı gradient eniş təlim prosesinə mane olmamaq üçün aradan qaldırılır.

Problemləri

Çətinliklərdən biri yüksək keyfiyyətli, etibarlı məlumatların toplanması idi. Model hər bir sinif üçün inam tələb edir ki, o, obyektlər və etiketlər arasında əlaqəni öyrənə bilsin. Əvvəlki bölmədə biz həm sistemin ölçülməsi, həm də model təlimi üçün məlumat toplama üsullarını müzakirə etdik. Təhlil göstərdi ki, anbarımızda kredit kartı və bank hesab nömrələri kimi məlumat sinifləri çox da yaygın deyil. Bu, modelləri öyrətmək üçün böyük miqdarda etibarlı məlumat toplamaq çətinləşdirir. Bu problemi həll etmək üçün biz bu siniflər üçün sintetik əsas həqiqət məlumatlarını əldə etmək üçün proseslər hazırlamışıq. Biz bu cür məlumatları həssas növlər üçün yaradırıq SSN, kredit kartı nömrələri и IBAN-modelin əvvəllər proqnozlaşdıra bilmədiyi nömrələr. Bu yanaşma faktiki həssas məlumatların gizlədilməsi ilə bağlı məxfilik riskləri olmadan həssas məlumat növlərini emal etməyə imkan verir.

Əsas həqiqətlə bağlı məsələlərlə yanaşı, üzərində işlədiyimiz açıq memarlıq məsələləri də var, məsələn izolyasiyanı dəyişdirin и erkən dayanma. Dəyişikliklərin izolyasiyası şəbəkənin müxtəlif hissələrinə müxtəlif dəyişikliklər edildikdə, təsirin xüsusi siniflər üçün təcrid olunmasını və ümumi proqnozlaşdırma performansına geniş təsir göstərməməsini təmin etmək üçün vacibdir. Erkən dayandırma meyarlarının təkmilləşdirilməsi də vacibdir ki, bəzi siniflərin həddən artıq məşq etdiyi, digərlərinin isə etmədiyi bir nöqtədə deyil, bütün siniflər üçün sabit bir nöqtədə təlim prosesini dayandıra bilək.

Xüsusiyyət əhəmiyyəti

Modelə yeni bir xüsusiyyət təqdim edildikdə, onun modelə ümumi təsirini bilmək istəyirik. Biz həmçinin əmin olmaq istəyirik ki, hər bir məlumat növü üçün hansı xüsusiyyətlərin istifadə edildiyini dəqiq başa düşə bilək ki, proqnozlar insan tərəfindən şərh edilə bilər. Bu məqsədlə biz hazırladıq və təqdim etdik sinif üzrə PyTorch modeli üçün xüsusiyyətlərin əhəmiyyəti. Nəzərə alın ki, bu, adətən dəstəklənən ümumi xüsusiyyət əhəmiyyətindən fərqlidir, çünki o, konkret sinif üçün hansı xüsusiyyətlərin vacib olduğunu bizə bildirmir. Biz obyekti yenidən təşkil etdikdən sonra proqnozlaşdırma xətasının artımını hesablayaraq obyektin əhəmiyyətini ölçürük. Dəyərləri dəyişdirərkən xüsusiyyət "vacibdir" modelin xətasını artırır, çünki bu halda model öz proqnozunu vermək üçün xüsusiyyətə güvənir. Dəyərlərini qarışdırarkən xüsusiyyət "əhəmiyyətsizdir" model xətasını dəyişməz qoyur, çünki bu halda model buna məhəl qoymur [5].

Hər bir sinif üçün xüsusiyyətin əhəmiyyəti bizə modeli şərh etmək imkanı verir ki, etiketi proqnozlaşdırarkən modelin nəyə baxdığını görə bilək. Məsələn, təhlil etdiyimiz zaman ADDR, o zaman biz zəmanət veririk ki, ünvanla əlaqəli işarə, məsələn AddressLinesCount, hər bir sinif üçün xüsusiyyət əhəmiyyəti cədvəlində yüksək yer tutur ki, bizim insan intuisiyamız modelin öyrəndikləri ilə yaxşı uyğunlaşsın.

Qiymətləndirmə

Uğur üçün vahid bir metrik müəyyən etmək vacibdir. seçdik F2 - geri çağırma və dəqiqlik arasında tarazlıq (geri çağırma meyli bir qədər böyükdür). Geri çağırma məxfilikdən istifadə halı üçün dəqiqlikdən daha vacibdir, çünki komanda üçün hər hansı həssas məlumatı əldən verməmək vacibdir (məqbul dəqiqliyi təmin etməklə). Modelimizin faktiki F2 performansının qiymətləndirilməsi bu yazının əhatə dairəsindən kənardadır. Bununla belə, diqqətli tənzimləmə ilə biz ən vacib həssas siniflər üçün yüksək (0,9+) F2 balları əldə edə bilərik.

Əlaqədar iş

Nümunə uyğunluğu, sənəd oxşarlığının axtarışı və müxtəlif maşın öyrənmə üsulları (Bayesian, qərar ağacları, k-ən yaxın qonşular və bir çox başqaları) kimi müxtəlif üsullardan istifadə etməklə strukturlaşdırılmamış sənədlərin avtomatik təsnifatı üçün bir çox alqoritmlər mövcuddur [6]. Bunlardan hər hansı biri təsnifatın bir hissəsi kimi istifadə edilə bilər. Bununla belə, problem miqyasdadır. Bu məqalədəki təsnifat yanaşması çeviklik və performansa qarşı qərəzlidir. Bu, bizə gələcəkdə yeni dərsləri dəstəkləməyə və gecikməni aşağı səviyyədə saxlamağa imkan verir.

Məlumatların barmaq izinin alınması ilə bağlı da çoxlu iş var. Məsələn, [7]-də müəlliflər həssas məlumat sızmalarını ələ keçirmək probleminə diqqət yetirən bir həlli təsvir etdilər. Əsas fərziyyə ondan ibarətdir ki, məlumatların bir sıra məlum həssas məlumatlarla uyğunlaşdırılması üçün barmaq izi götürülə bilər. [8]-də müəlliflər məxfiliyin sızması ilə bağlı oxşar problemi təsvir edir, lakin onların həlli xüsusi Android arxitekturasına əsaslanır və yalnız istifadəçi hərəkətləri şəxsi məlumatların paylaşılması ilə nəticələndikdə və ya əsas proqram istifadəçi məlumatlarını sızdırdıqda təsnif edilir. Burada vəziyyət bir qədər fərqlidir, çünki istifadəçi məlumatları da yüksək strukturlaşdırılmamış ola bilər. Ona görə də bizə barmaq izindən daha mürəkkəb texnika lazımdır.

Nəhayət, bəzi həssas məlumat növləri üçün məlumat çatışmazlığının öhdəsindən gəlmək üçün biz sintetik məlumatları təqdim etdik. Məlumatların artırılması ilə bağlı çoxlu ədəbiyyat var, məsələn, [9]-da müəlliflər təlim zamanı səs-küyün inyeksiyasının rolunu araşdırmış və nəzarət altında olan öyrənmədə müsbət nəticələr müşahidə etmişlər. Bizim məxfiliyə yanaşmamız fərqlidir, çünki səs-küylü məlumatların təqdim edilməsi əks-məhsuldar ola bilər və biz bunun əvəzinə yüksək keyfiyyətli sintetik məlumatlara diqqət yetiririk.

Nəticə

Bu yazıda bir məlumat parçasını təsnif edə bilən bir sistem təqdim etdik. Bu, bizə məxfilik və təhlükəsizlik siyasətlərini tətbiq etmək üçün sistemlər yaratmağa imkan verir. Biz göstərdik ki, genişləndirilə bilən infrastruktur, davamlı inteqrasiya, maşın öyrənməsi və yüksək keyfiyyətli məlumat təminatı bizim bir çox məxfilik təşəbbüslərimizin uğurunda əsas rol oynayır.

Gələcək iş üçün çoxlu istiqamətlər var. Bu, sxemləşdirilməmiş verilənlər (fayllar) üçün dəstəyin təmin edilməsini, təkcə məlumat növünün deyil, həm də həssaslıq səviyyəsinin təsnifləşdirilməsini və dəqiq sintetik nümunələr yaratmaqla təlim zamanı özünə nəzarət edilən öyrənmənin istifadəsini əhatə edə bilər. Bu da öz növbəsində modelə itkiləri ən böyük məbləğdə azaltmağa kömək edəcək. Gələcək iş həm də təhqiqat iş prosesinə diqqət yetirə bilər, burada biz aşkarlanmaqdan kənara çıxırıq və müxtəlif məxfilik pozuntularının əsas səbəblərinin təhlilini təqdim edirik. Bu, həssaslıq təhlili (məsələn, məlumat növünün məxfilik həssaslığının yüksək (məsələn, istifadəçi IP) və ya aşağı (məsələn, Facebook daxili IP) olub-olmaması) kimi hallarda kömək edəcək.

Biblioqrafiya

  1. David Ben-David, Tamar Domany və Abigail Tarem. Semantik veb texnologiyalarından istifadə edərək müəssisə məlumatlarının təsnifatı. Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks və Birte Glimm, redaktorlar, Semantik Veb – ISWC 2010, səhifələr 66–81, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Vişvanat Sivakumar, Linpeng Tang və Sanjeev Kumar. f4: Facebook-un isti BLOB saxlama sistemi. In Əməliyyat Sistemlərinin Dizaynı və Tətbiqi üzrə 11-ci USENIX Simpoziumu (OSDI 14), səhifələr 383–398, Broomfield, CO, oktyabr 2014. USENIX Assosiasiyası.
  3. Tomas Mikolov, İlya Sutskever, Kai Chen, Greg S Corrado və Jeff Dean. Söz və ifadələrin paylanmış təsvirləri və onların tərkibi. C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani və K. Q. Weinberger, redaktorlar, Neyro İnformasiya Emalı Sistemlərində irəliləyişlər 26, səhifələr 3111–3119. Curran Associates, Inc., 2013.
  4. Sergey Ioffe və Christian Szegedy. Toplu normallaşdırma: Daxili kovariativ sürüşməni azaltmaqla dərin şəbəkə təliminin sürətləndirilməsi. Francis Bax və David Blei, redaktorlar, Maşın Öyrənməsi üzrə 32-ci Beynəlxalq Konfransın materialları, cild 37 Maşın Öyrənmə Tədqiqatının Prosedurları, səhifələr 448–456, Lille, Fransa, 07–09 iyul 2015. PMLR.
  5. Leo Breiman. Təsadüfi meşələr. Mach. Öyrən., 45(1):5–32, oktyabr 2001.
  6. Thair Nu Phyu. Data mining-də təsnifat üsullarının tədqiqi.
  7. X. Shu, D. Yao və E. Bertino. Məxfiliyi qoruyan həssas məlumatlara məruz qalma aşkarlanması. İnformasiya Məhkəmə Ekspertizası və Təhlükəsizlik üzrə IEEE Əməliyyatları, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning və Xiaoyang Wang. Appintent: Gizlilik sızmasının aşkarlanması üçün Android-də həssas məlumat ötürülməsinin təhlili. səhifələr 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong və Quoc V. Le. Nəzarətsiz məlumat artımı.

Təhlükəsizlik və məxfilik üçün genişləndirilə bilən məlumat təsnifatı
SkillFactory onlayn kurslarını keçərək sıfırdan axtarılan peşəni necə əldə etmək və ya bacarıq və əmək haqqı baxımından Level Up haqqında ətraflı məlumat əldə edin:

Daha çox kurslar

Mənbə: www.habr.com

Добавить комментарий