Коопсуздук жана купуялык үчүн масштабдалуучу маалыматтардын классификациясы

Коопсуздук жана купуялык үчүн масштабдалуучу маалыматтардын классификациясы

Мазмунга негизделген маалыматтарды классификациялоо ачык көйгөй болуп саналат. Салттуу берилиштердин жоголушун алдын алуу (DLP) тутумдары бул көйгөйдү тиешелүү маалыматтарды манжа изин алуу жана манжа изинин акыркы чекиттерине мониторинг жүргүзүү аркылуу чечет. Фейсбукта тынымсыз өзгөрүп туруучу маалымат ресурстарынын көптүгүн эске алганда, бул ыкма масштабсыз гана эмес, маалыматтар кайда экенин аныктоо үчүн да натыйжасыз. Бул макалада Facebookтун сезгич семантикалык түрлөрүн масштабда аныктоо жана маалыматтарды сактоону жана кирүү мүмкүнчүлүгүн көзөмөлдөөнү автоматтык түрдө ишке ашыруу үчүн курулган түпкүрдөн аягына чейин тутумга багытталган.

Бул жерде сүрөттөлгөн ыкма - бул Facebook'тагы бардык маалыматтарды картага салуу жана классификациялоо үчүн маалымат сигналдарын, машинаны үйрөнүүнү жана манжа изинин салттуу ыкмаларын киргизүү аркылуу бул көйгөйдү чечүүгө аракет кылган биздин биринчи аягына чейин купуялык тутумубуз. Сүрөттөлгөн система өндүрүш чөйрөсүндө иштетилип, ар кандай купуялык класстары боюнча орточо F2 упайына 0,9+ жетет, ошол эле учурда ондогон репозиторийлерде чоң көлөмдөгү маалымат ресурстарын иштетет. Facebook'тун ArXiv кагазынын котормосун машиналык үйрөнүүгө негизделген коопсуздук жана купуялык үчүн масштабдалуучу маалыматтардын классификациясы менен тааныштыруу.

тааныштыруу

Бүгүнкү күндө уюмдар ар кандай форматтарда жана жерлерде чоң көлөмдөгү маалыматтарды чогултуп жана сакташат [1], андан кийин маалыматтар көп жерлерде керектелет, кээде бир нече жолу көчүрүлөт же кэштелет, натыйжада баалуу жана купуя бизнес маалыматы көптөгөн ишканалардын маалыматтарына чачырап кетет. дүкөндөр. Уюмдан жарандык сот өндүрүшүндөгү ченемдик укуктук актылардын сакталышы сыяктуу белгилүү бир укуктук же ченемдик талаптарга жооп бериши талап кылынганда, талап кылынган маалыматтардын жайгашкан жери жөнүндө маалыматтарды чогултуу зарыл болуп калат. Купуялык жөнүндө жободо уюм жеке маалыматты уруксатсыз жактар ​​менен бөлүшүүдө бардык Социалдык коопсуздук номерлерин (SSNs) жаап салышы керек деп айтылганда, табигый биринчи кадам бардык SSNлерди уюмдун маалымат дүкөндөрүнөн издөө болуп саналат. Мындай шарттарда маалыматтарды классификациялоо маанилүү болуп калат [1]. Классификациялоо системасы уюмдарга мүмкүндүктөрдү көзөмөлдөө саясатын иштетүү, маалыматтарды сактоо сыяктуу купуялуулук жана коопсуздук саясатын автоматтык түрдө ишке ашырууга мүмкүндүк берет. Facebook биз Фейсбукта курган системаны киргизип жатат, ал сезимтал семантикалык маалымат түрлөрүн табуу үчүн бир нече маалымат сигналдарын, масштабдалуучу системанын архитектурасын жана машина үйрөнүүсүн колдонот.

Маалыматтарды табуу жана классификациялоо зарыл болгон учурда керектүү маалыматты тез жана натыйжалуу алуу үчүн маалыматтарды табуу жана маркировкалоо процесси. Учурдагы процесс кыйла кол менен мүнөздөлөт жана тиешелүү мыйзамдарды же ченемдик укуктук актыларды изилдөөдөн, маалыматтын кандай түрлөрүн сезгич деп эсептеш керектигин жана сезимталдыктын ар кандай деңгээлдери кандай экендигин аныктоодон, андан кийин класстарды жана классификация саясатын түзүүдөн турат [1]. Берилиштерди жоготуунун алдын алуу (DLP) андан кийин манжа изин алып, манжа издерин алуу үчүн ылдыйкы акыркы чекиттерди көзөмөлдөйт. Петабайт маалыматтары бар актив-оор кампа менен иштөөдө, бул ыкма жөн эле масштабдуу эмес.

Биздин максат – берилиштердин түрүнө же форматына эч кандай кошумча чектөөлөрсүз, ишенимдүү жана убактылуу колдонуучу маалыматтарына масштабдуу маалыматтарды классификациялоо системасын куруу. Бул тайманбас максат жана албетте, кыйынчылыктар менен коштолот. Берилген маалымат жазуусу миңдеген символдорду түзүшү мүмкүн.

Коопсуздук жана купуялык үчүн масштабдалуучу маалыматтардын классификациясы
Сүрөт 1. Онлайн жана оффлайн болжолдоо агымдары

Ошондуктан, биз аны кийинчерээк бириктирип, оңой жылдырууга мүмкүн болгон жалпы функциялардын топтомун колдонуу менен натыйжалуу чагылдырышыбыз керек. Бул өзгөчөлүктөр так классификацияны гана камсыз кылбастан, ошондой эле келечекте жаңы маалымат түрлөрүн оңой кошуу жана ачуу үчүн ийкемдүүлүктү жана кеңейүүнү камсыз кылышы керек. Экинчиден, сиз чоң оффлайн таблицалары менен иштешиңиз керек. Туруктуу маалыматтар көлөмү көп петабайт болгон таблицаларда сакталышы мүмкүн. Бул сканерлөө ылдамдыгынын жайыраак болушуна алып келиши мүмкүн. Үчүнчүдөн, биз туруксуз маалыматтар боюнча катуу SLA классификациясын карманышыбыз керек. Бул системаны жогорку эффективдүү, тез жана так болууга мажбурлайт. Акыр-аягы, биз реалдуу убакыт классификациясын жүргүзүү үчүн, ошондой эле Интернетти колдонуу учурлары үчүн туруксуз маалыматтар үчүн төмөнкү кечигүү маалымат классификациясын камсыз кылышыбыз керек.

Бул документте биз жогорудагы көйгөйлөрдү кантип чечкенибиз сүрөттөлөт жана бардык типтеги, форматтардагы жана булактардагы маалымат элементтерин өзгөчөлүктөрдүн жалпы жыйындысынын негизинде классификациялоочу тез жана масштабдуу классификация тутумун сунуштайт. Биз системанын архитектурасын кеңейтип, оффлайн жана онлайн берилиштерин тез классификациялоо үчүн машинаны үйрөнүүнүн ыңгайлаштырылган моделин түздүк. Бул документ төмөнкүдөй уюштурулган: 2-бөлүм системанын жалпы дизайнын берет. 3-бөлүмдө машина үйрөнүү системасынын бөлүктөрү талкууланат. 4 жана 5-бөлүмдөр тиешелүү иштерге токтолуп, иштин келечектеги багыттарын белгилейт.

архитектура

Туруктуу жана Facebook масштабдуу онлайн маалыматтардын көйгөйлөрү менен күрөшүү үчүн классификация тутумунун эки өзүнчө агымы бар, аларды биз кеңири талкуулайбыз.

Туруктуу маалыматтар

Башында система Facebookтун көптөгөн маалыматтык активдери менен таанышышы керек. Ар бир репозиторий үчүн кээ бир негизги маалымат чогултулат, мисалы, ошол маалыматтарды камтыган маалымат борбору, ал маалыматтарды камтыган система жана конкреттүү маалымат репозиторийинде жайгашкан активдер. Бул системага кардарларды жана башка инженерлер колдонгон ресурстарды ашыкча жүктөбөстөн маалыматтарды эффективдүү алууга мүмкүндүк берген метаберилиштер каталогун түзөт.

Бул метаберилиштер каталогу бардык сканерленген активдер үчүн авторитеттүү булакты камсыз кылат жана ар кандай активдердин абалын көзөмөлдөөгө мүмкүндүк берет. Бул маалыматты колдонуу менен пландаштыруунун артыкчылыктуулугу чогултулган маалыматтардын жана системанын ички маалыматынын негизинде белгиленет, мисалы, актив акыркы жолу ийгиликтүү сканерленген убакыт жана ал түзүлгөн убакыт, ошондой эле бул активге мурунку эстутум жана CPU талаптары, эгерде ал мурун сканерленген. Андан кийин, ар бир маалымат ресурсу үчүн (ресурстар жеткиликтүү болгондон кийин), ресурсту чындап сканерлөө үчүн жумуш чакырылат.

Ар бир жумуш - бул ар бир актив үчүн жеткиликтүү болгон акыркы маалыматтар боюнча Бернулли үлгүсүн жүргүзгөн компиляцияланган бинардык файл. Актив жеке тилкелерге бөлүнөт, мында ар бир тилкенин классификациясынын натыйжасы өз алдынча иштетилет. Кошумча, система мамычалардагы каныккан маалыматтарды издейт. JSON, массивдер, коддолгон структуралар, URL'дер, базалык 64 серияланган маалыматтар жана башкалар сканерден өткөрүлөт. Бул сканерлөө убактысын бир топ көбөйтөт, анткени бир таблица блобдогу миңдеген уяча мамычаларды камтышы мүмкүн json.

Берилиштер активинде тандалган ар бир сап үчүн классификация системасы флот жана текст объекттерин мазмундан чыгарып, ар бир объектти кайра ал алынган мамыча менен байланыштырат. Функцияны чыгаруу кадамынын жыйынтыгы маалымат активинде табылган ар бир тилке үчүн бардык функциялардын картасы.

Белгилер эмне үчүн?

Атрибуттар түшүнүгү негизги болуп саналат. Калкыма жана текст белгилеринин ордуна, биз ар бир маалымат ресурсунан түздөн-түз алынган чийки сап үлгүлөрүн өткөрүп бере алабыз. Мындан тышкары, машинаны үйрөнүү моделдерин үлгүнү жакындатууга аракет кылган жүздөгөн өзгөчөлүк эсептөөлөрүнүн ордуна, ар бир үлгү боюнча түздөн-түз үйрөтсө болот. Мунун бир нече себептери бар:

  1. Биринчи купуялык: Эң негизгиси, функциялар түшүнүгү эс тутумда биз алган үлгүлөрдү гана сактоого мүмкүндүк берет. Бул үлгүлөрдү бир максатта сактообузду жана аларды эч качан өз күчүбүз менен каттабай турганыбызды камсыздайт. Бул туруксуз маалыматтар үчүн өзгөчө маанилүү, анткени кызмат болжолдоодон мурун кандайдыр бир классификация абалын сакташы керек.
  2. Эстутум: Кээ бир үлгүлөр миңдеген символдон турушу мүмкүн. Мындай маалыматтарды сактоо жана аны системанын бөлүктөрүнө өткөрүп берүү көптөгөн кошумча байттарды талап кылат. Миңдеген тилкелерден турган көптөгөн маалымат ресурстары бар экенин эске алганда, эки фактор убакыттын өтүшү менен биригип калышы мүмкүн.
  3. Функцияларды бириктирүү: Функциялар ар бир сканирлөөнүн натыйжаларын функциялардын жыйындысы аркылуу так көрсөтөт, бул системага бир эле маалымат ресурсунун мурунку сканерлеринин натыйжаларын ыңгайлуу жол менен бириктирүүгө мүмкүндүк берет. Бул бир нече иштетүү боюнча бир маалымат ресурсунан сканерлөө натыйжаларын топтоо үчүн пайдалуу болушу мүмкүн.

Функциялар болжолдоо кызматына жөнөтүлөт, анда биз эрежеге негизделген классификацияны жана машина үйрөнүүнү ар бир тилкенин маалымат энбелгилерин болжолдоо үчүн колдонобуз. Кызмат эреже классификаторлоруна жана машина үйрөнүүсүнө таянат жана ар бир болжолдоо объектисинен эң жакшы божомолду тандайт.

Эреже классификаторлору кол менен эвристика болуп саналат, алар объектти 0дөн 100гө чейинки диапазонго нормалдаштыруу үчүн эсептөөлөрдү жана коэффициенттерди колдонушат. Мындай баштапкы балл ар бир маалымат түрү жана ошол маалымат менен байланышкан тилке аталышы үчүн түзүлгөндөн кийин, ал эч кандай "тыюуга" кирбейт. тизмелер" ,Эреже классификатору бардык маалымат түрлөрүнүн ичинен эң жогорку нормалдаштырылган баллды тандайт.

Классификациянын татаалдыгынан улам, кол менен эвристикага гана таянуу, өзгөчө структураланбаган маалыматтар үчүн классификациянын тактыгына алып келет. Ушул себептен улам, биз колдонуучунун мазмуну жана дареги сыяктуу структураланбаган маалыматтардын классификациясы менен иштөө үчүн машинаны үйрөнүү системасын иштеп чыктык. Машинаны үйрөнүү кол менен эвристикадан баш тартууга жана кошумча маалымат сигналдарын (мисалы, тилкелердин аталыштары, маалыматтардын келип чыгышы) колдонууга мүмкүндүк берди, бул аныктоонун тактыгын бир топ жакшыртты. Биз машинаны үйрөнүү архитектурасына кийинчерээк тереңдеп киребиз.

Болжолдоо кызматы скандоо убактысы жана абалына байланыштуу метадайындар менен бирге ар бир тилке боюнча жыйынтыктарды сактайт. Бул маалыматтарга көз каранды болгон бардык керектөөчүлөр жана ылдыйкы процесстер аны күнүмдүк жарыяланган маалымат топтомунан окуй алышат. Бул топтом бардык ушул сканерлөө жумуштарынын натыйжаларын же Real-Time Data Catalog API'лерин бириктирет. Жарыяланган божомолдор купуялык жана коопсуздук саясатынын автоматтык түрдө аткарылышынын негизи болуп саналат.

Акыр-аягы, болжолдоо кызматы бардык маалыматтарды жазып, бардык божомолдор сакталгандан кийин, биздин Data Catalog API реалдуу убакыт режиминде ресурс үчүн бардык маалымат түрүнүн болжолдоолорун кайтара алат. Күн сайын система ар бир актив үчүн акыркы болжолдоолорду камтыган маалымат топтомун жарыялайт.

Туруктуу маалыматтар

Жогорудагы процесс туруктуу активдер үчүн иштелип чыкканы менен, туруктуу эмес трафик да уюмдун маалыматтарынын бир бөлүгү болуп эсептелет жана маанилүү болушу мүмкүн. Ушул себептен улам, система ар кандай үзгүлтүктүү трафик үчүн реалдуу убакытта классификациялык болжолдоолорду түзүү үчүн онлайн API менен камсыз кылат. Чыныгы убакытта болжолдоо системасы сыртка чыгуучу трафикти, кирүүчү трафикти машина үйрөнүү моделдерине жана жарнамачынын маалыматтарына классификациялоодо кеңири колдонулат.

Бул жерде API эки негизги аргументтерди алат: топтоо ачкычы жана болжолдонууга тийиш болгон чийки маалыматтар. Кызмат жогоруда сүрөттөлгөндөй эле объектти издөөнү ишке ашырат жана бир эле ачкыч үчүн объекттерди бириктирет. Бул өзгөчөлүктөр каталарды калыбына келтирүү үчүн туруктуу кэште да колдоого алынат. Ар бир топтоо ачкычы үчүн, кызмат жогоруда сүрөттөлгөн процессти аткарып, болжолдоо кызматына чалаардан мурун жетиштүү үлгүлөрдү көргөнүн камсыздайт.

оптималдаштыруу

Кээ бир сактагычтарды сканерлөө үчүн биз ысык сактагычтан [2] окууну оптималдаштыруу үчүн китепканаларды жана ыкмаларды колдонобуз жана башка колдонуучулардын ошол эле сактагычка кирүүсүнө тоскоолдуктар болбошуна кепилдик беребиз.

Өтө чоң таблицалар үчүн (50+ петабайт), бардык оптималдаштырууга жана эстутумдун эффективдүүлүгүнө карабастан, тутум эстутум түгөнгөнгө чейин баарын сканерлеп, эсептөө үчүн иштейт. Анткени, сканерлөө толугу менен эс тутумда эсептелет жана сканерлөө учурунда сакталбайт. Эгерде чоң таблицаларда структураланбаган маалымат топтомдору бар миңдеген тилкелер камтылса, бүткүл таблицада болжолдоолорду аткарууда эстутум ресурстарынын жетишсиздигинен жумуш иштебей калышы мүмкүн. Бул камтууну кыскартууга алып келет. Муну менен күрөшүү үчүн, системанын учурдагы жумуш жүгүн канчалык жакшы чече тургандыгы үчүн прокси катары сканерлөө ылдамдыгын колдонуу үчүн системаны оптималдаштырдык. Биз эстутум көйгөйлөрүн көрүү жана өзгөчөлүк картасын алдын ала эсептөө үчүн ылдамдыкты болжолдоочу механизм катары колдонобуз. Ошол эле учурда биз адаттагыдан азыраак маалымат колдонобуз.

Маалымат сигналдары

Классификация системасы маалыматтардан алынган сигналдар сыяктуу эле жакшы. Бул жерде биз классификация системасы колдонгон бардык сигналдарды карап чыгабыз.

  • Мазмунга негизделген: Албетте, биринчи жана эң маанилүү сигнал бул мазмун. Бернулли үлгүсү биз скандоочу жана маалыматтардын мазмунуна негизделген функцияларды бөлүп чыгарган ар бир маалымат активинде жүргүзүлөт. Көптөгөн белгилер мазмунунан келип чыгат. Белгилүү бир үлгүнүн түрү канча жолу көрүлгөндүгүн эсептөөлөрдү чагылдырган каалаган сандагы калкып жүрүүчү объектилер болушу мүмкүн. Мисалы, бизде үлгүдөгү электрондук каттардын санынын белгилери же үлгүдө канча эмодзи көрүнгөнүнүн белгилери болушу мүмкүн. Бул өзгөчөлүк эсептөөлөрү нормалдаштырылган жана ар кандай сканерлер боюнча бириктирилиши мүмкүн.
  • Маалыматтын келип чыгышы: Мазмун ата-энелик таблицадан өзгөргөндө жардам бере турган маанилүү сигнал. Жалпы мисал - хэштелген маалыматтар. Бала таблицадагы маалыматтар хэштелгенде, ал көбүнчө ата-энелик таблицадан келип, ал жерде ачык бойдон калат. Lineage маалыматтары так окулбаганда же жогорку агымдагы таблицадан айландырылганда айрым типтеги маалыматтарды классификациялоого жардам берет.
  • Аннотациялар: структураланбаган маалыматтарды аныктоого жардам берген дагы бир жогорку сапаттагы сигнал. Чынында, аннотациялар жана келип чыгуу маалыматтары атрибуттарды ар кандай маалымат активдеринде жайылтуу үчүн бирге иштей алат. Аннотациялар структураланбаган маалыматтардын булагын аныктоого жардам берет, ал эми линия маалыматтары репозиторийдеги ошол маалыматтардын агымын көзөмөлдөөгө жардам берет.
  • Маалыматтарды инъекциялоо - бул белгилүү маалымат түрлөрүнүн белгилүү булактарына атайын окулбаган белгилерди атайылап киргизүү ыкмасы. Андан кийин, биз мазмунду ошол эле окулбаган тамгалар ырааттуулугу менен сканерлегенде, мазмун ошол белгилүү маалымат түрүнөн келип чыккан деп жыйынтык чыгара алабыз. Бул аннотацияларга окшош дагы бир сапаттык маалымат сигналы. Мындан тышкары, мазмунга негизделген аныктоо киргизилген маалыматтарды табууга жардам берет.

Өлчөө метрикасы

Маанилүү компоненти метрикаларды өлчөө үчүн катуу методология болуп саналат. Классификацияны өркүндөтүү итерациясынын негизги көрсөткүчтөрү - бул ар бир белгинин тактыгы жана кайра чакыртылышы, анын ичинде F2 баллы эң маанилүү.

Бул көрсөткүчтөрдү эсептөө үчүн системанын өзүнөн көз карандысыз, бирок аны менен түз салыштыруу үчүн колдонула турган маалымат активдерин маркировкалоонун көз карандысыз методологиясы керек. Төмөндө биз фейсбуктан негизги чындыкты кантип чогултуп, аны классификация системабызды үйрөтүү үчүн колдонобуз.

Ишенимдүү маалыматтарды чогултуу

Биз төмөндө келтирилген ар бир булактан ишенимдүү маалыматтарды өз таблицасына топтойбуз. Ар бир таблица ошол белгилүү булактан акыркы байкалган баалуулуктарды топтоо үчүн жооптуу. Ар бир булак үчүн байкалган баалуулуктар жогорку сапатта жана акыркы маалымат түрү энбелгилерин камтыган камсыз кылуу үчүн маалыматтардын сапатын текшерүүлөр бар.

  • Каттоо платформасынын конфигурациялары: Уюк таблицаларындагы айрым талаалар белгилүү бир түрдөгү маалыматтар менен толтурулат. Бул маалыматтарды колдонуу жана жайылтуу чындыктын ишенимдүү булагы катары кызмат кылат.
  • Кол менен белгилөө: Системаны тейлеген иштеп чыгуучулар, ошондой эле тышкы этикеткалоочулар мамычаларды белгилөө үчүн үйрөтүлгөн. Бул жалпысынан кампадагы маалыматтардын бардык түрлөрү үчүн жакшы иштейт жана билдирүү маалыматтары же колдонуучунун мазмуну сыяктуу кээ бир структураланбаган маалыматтар үчүн чындыктын негизги булагы болушу мүмкүн.
  • Ата-энелик таблицалардагы тилкелер белгилүү бир маалыматтарды камтыган деп белгилениши же аннотацияланышы мүмкүн жана биз балдардын таблицаларында ал маалыматтарды көзөмөлдөй алабыз.
  • Аткаруу жиптерин алуу: Фейсбуктагы аткаруу жиптери маалыматтардын белгилүү түрлөрүн алып жүрөт. Сканерибизди кызмат архитектурасы катары колдонуп, биз белгилүү маалымат түрлөрү бар агымдарды тандап, аларды система аркылуу жөнөтө алабыз. Система бул маалыматтарды сактабоого убада берет.
  • Үлгү таблицалары: Бүткүл маалымат корпусун камтыганы белгилүү болгон чоң уюк таблицаларын окутуу маалыматтары катары колдонсо болот жана кызмат катары сканер аркылуу өткөрүлөт. Бул маалымат түрлөрүнүн толук диапазону бар таблицалар үчүн эң сонун, андыктан тилкени кокусунан тандап алуу ошол маалымат түрүнүн бардык топтомун тандоого барабар.
  • Синтетикалык маалыматтар: Биз атүгүл маалыматтарды тез арада түзүүчү китепканаларды колдоно алабыз. Бул дарек же GPS сыяктуу жөнөкөй, жалпыга ачык маалымат түрлөрү үчүн жакшы иштейт.
  • Берилиштерди башкаруучулар: Купуялык программалары, адатта, маалымат бөлүктөрүнө саясаттарды кол менен дайындоо үчүн маалымат башкаруучуларын колдонушат. Бул чындыктын абдан так булагы катары кызмат кылат.

Биз чындыктын ар бир негизги булагын ошол маалыматтар менен бир корпуска бириктиребиз. Жарактуулугунун эң чоң көйгөйү - бул маалымат репозиторийинин өкүлү экенине ынануу. Болбосо, классификация кыймылдаткычтары ашыкча машыгып кетиши мүмкүн. Буга каршы күрөшүү үчүн, моделдерди окутууда же метрикаларды эсептөөдө тең салмактуулукту камсыз кылуу үчүн жогоруда аталган булактардын бардыгы колдонулат. Мындан тышкары, адам этикеткалары репозиторийдеги ар кандай тилкелерди бир калыпта тандап алышат жана маалыматтарды ошого жараша белгилешет, ошондуктан негиздүү чындыктын жыйнагы калыс бойдон калууда.

Үзгүлтүксүз интеграция

Тез итерацияны жана өркүндөтүүнү камсыз кылуу үчүн системанын иштешин реалдуу убакытта өлчөө маанилүү. Биз бүгүнкү күндө системанын ар бир классификациясынын жакшыруусун өлчөй алабыз, андыктан биз тактикалык жактан тактикалык жактан маалыматтардын негизинде келечектеги жакшыртууга жетекчилик кыла алабыз. Бул жерде биз система жарактуу маалыматтар менен камсыз кылынган кайтарым байланыш циклин кантип аяктаарын карап чыгабыз.

Пландаштыруу системасы ишенимдүү булактан энбелгиси бар активге туш болгондо, биз эки тапшырманы пландаштырабыз. Биринчи биздин өндүрүш сканерин жана ошону менен биздин өндүрүш мүмкүнчүлүктөрүбүздү колдонот. Экинчи тапшырма эң акыркы мүмкүнчүлүктөрү менен эң акыркы куруу сканерин колдонот. Ар бир тапшырма классификациянын натыйжалары менен бирге версияларды белгилөө менен өзүнүн натыйжасын өзүнүн таблицасына жазат.

Бул биз реалдуу убакытта релиз талапкеринин жана өндүрүш моделинин классификация жыйынтыгын салыштырып жатат.

Берилиштер топтому RC жана PROD өзгөчөлүктөрүн салыштырып жатканда, болжолдоо кызматынын ML классификация кыймылдаткычынын көптөгөн вариациялары катталат. Эң акыркы курулган машина үйрөнүү модели, өндүрүштөгү учурдагы модель жана бардык эксперименталдык моделдер. Ошол эле ыкма бизге моделдин ар кандай версияларын (биздин эреже классификаторлорубуз үчүн агностикалык) “кесүүгө” жана реалдуу убакытта метрикаларды салыштырууга мүмкүндүк берет. Бул ML эксперименти качан өндүрүшкө кирүүгө даяр экенин аныктоону жеңилдетет.

Ар бир түнү, ошол күн үчүн эсептелген RC өзгөчөлүктөрү ML машыгуу түтүгүнө жөнөтүлөт, ал жерде модель эң акыркы RC өзгөчөлүктөрү боюнча окутулуп, анын ишинин жер үстүндөгү чындык маалымат топтомуна карата бааланат.

Ар бир эртең менен модель машыгууну аяктап, автоматтык түрдө эксперименталдык үлгү катары жарыяланат. Ал автоматтык түрдө эксперименталдык тизмеге киргизилет.

Кээ бир жыйынтыктар

100дөн ашык ар кандай маалыматтар жогорку тактык менен белгиленет. Электрондук почталар жана телефон номерлери сыяктуу жакшы структураланган түрлөр 2тен жогору f0,95 упай менен классификацияланат. Колдонуучу тарабынан түзүлгөн мазмун жана аты сыяктуу акысыз берилиштердин түрлөрү да абдан жакшы аткарат, F2 упайлары 0,85тен жогору.

Туруктуу жана туруксуз маалыматтардын көп сандагы жеке тилкелери күн сайын бардык репозиторийлер боюнча классификацияланат. 500дон ашык маалымат кампаларында күн сайын 10 терабайттан ашык сканерленет. Бул репозиторийлердин көбү 98% камтууга ээ.

Убакыттын өтүшү менен классификация абдан эффективдүү болуп калды, классификация иштери туруктуу оффлайн агымында активди сканерлөөдөн ар бир тилке боюнча болжолдоолорду эсептөөгө чейин орточо 35 секундду талап кылат.

Коопсуздук жана купуялык үчүн масштабдалуучу маалыматтардын классификациясы
Күрүч. 2. RC объектилери кантип түзүлүп, моделге жөнөтүлгөнүн түшүнүү үчүн үзгүлтүксүз интеграциялык агымды сүрөттөгөн диаграмма.

Коопсуздук жана купуялык үчүн масштабдалуучу маалыматтардын классификациясы
Сүрөт 3. Машина үйрөнүү компонентинин жогорку деңгээлдеги диаграммасы.

Машина үйрөнүү тутумунун компоненти

Мурунку бөлүмдө биз масштабды, оптималдаштырууну жана оффлайн жана онлайн маалымат агымдарын бөлүп көрсөтүү менен жалпы системанын архитектурасына терең сүңгүп кирдик. Бул бөлүмдө биз болжолдоо кызматын карап чыгабыз жана болжолдоо кызматын иштеткен машинаны үйрөнүү тутумун сүрөттөйбүз.

100дөн ашык маалымат түрлөрү жана билдирүү маалыматтары жана колдонуучунун мазмуну сыяктуу структураланбаган мазмун менен, таза кол менен эвристиканы колдонуу, өзгөчө структураланбаган маалыматтар үчүн субпараметрдик классификациянын тактыгына алып келет. Ушул себептен улам, биз структураланбаган маалыматтардын татаалдыктарын чечүү үчүн машинаны үйрөнүү системасын да иштеп чыктык. Машина менен үйрөнүүнү колдонуу кол менен эвристикадан баш тартууга жана тактыкты жакшыртуу үчүн функциялар жана кошумча маалымат сигналдары (мисалы, тилке аттары, берилиштердин келип чыгышы) менен иштөөгө мүмкүндүк берет.

Ишке ашырылган модель тыгыз жана сейрек объектилердин үстүнөн вектордук көрсөтүүлөрдү [3] өзүнчө изилдейт. Андан кийин булар векторду түзүү үчүн бириктирилет, ал акыркы натыйжаны чыгаруу үчүн сериялык нормалдаштыруу [4] жана сызыктуу эмес кадамдардан өтөт. Жыйынтыгында ар бир энбелги үчүн [0-1] ортосундагы калкыма чекит саны болуп саналат, бул мисал ошол сезгичтик түрүнө таандык болуу ыктымалдыгын көрсөтөт. Модель үчүн PyTorch колдонуу бизге тезирээк жылышыбызга, командадан тышкаркы иштеп чыгуучуларга өзгөртүүлөрдү тез киргизүүгө жана сыноого мүмкүндүк берди.

Архитектураны долбоорлоодо сейрек (мисалы, текст) жана тыгыз (мисалы, сандык) объектилерди өзүнчө моделдөө маанилүү болгон, анткени алардын мүнөздүү айырмачылыктары бар. Акыркы архитектура үчүн, үйрөнүү ылдамдыгы, партия өлчөмү жана башка гиперпараметрлер үчүн оптималдуу маанини табуу үчүн параметр шыпырууну аткаруу да маанилүү болгон. Оптимизаторду тандоо да маанилүү гиперпараметр болгон. Биз популярдуу оптимизатор экенин таптык Адамменен модели, ал эми көп учурда ашыкча туура келет SGD дагы туруктуу. Биз түз моделге киргизүүгө туура келген кошумча нюанстар бар болчу. Мисалы, өзгөчөлүк белгилүү бир мааниге ээ болгондо моделдин детерминисттик болжолдоосун камсыз кылган статикалык эрежелер. Бул статикалык эрежелер биздин кардарлар тарабынан аныкталат. Биз аларды түздөн-түз моделге киргизүү, бул өзгөчө кырдуу учурларды чечүү үчүн кайра иштетүүдөн кийинки кадамды ишке ашыруудан айырмаланып, өз алдынча жана бекем архитектурага алып келгенин таптык. Ошондой эле бул эрежелер градиенттин түшүү процессине тоскоол болбошу үчүн машыгуу учурунда өчүрүлгөндүгүн белгилей кетүү керек.

көйгөйлөр

Кыйынчылыктардын бири жогорку сапаттагы, ишенимдүү маалыматтарды чогултуу болгон. Модель ар бир класс үчүн ишенимди талап кылат, ошондуктан ал объекттер менен энбелгилердин ортосундагы байланыштарды үйрөнө алат. Мурунку бөлүмдө биз системаны өлчөө жана моделди окутуу үчүн маалымат чогултуу ыкмаларын талкууладык. Талдоо көрсөткөндөй, кредиттик карта жана банк эсебинин номерлери сыяктуу маалымат класстары биздин кампада көп кездешпейт. Бул моделдерди окутуу үчүн чоң көлөмдөгү ишенимдүү маалыматтарды чогултууну кыйындатат. Бул маселени чечүү үчүн биз бул класстар үчүн синтетикалык негиздүү чындык маалыматтарын алуу процесстерин иштеп чыктык. Биз, анын ичинде сезимтал түрлөрү үчүн мындай маалыматтарды түзөт SSN, кредиттик карта номерлери и IBAN-модель мурда алдын ала айта албаган сандар. Бул ыкма купуя маалыматтардын түрлөрүн чыныгы купуя маалыматтарды жашыруу менен байланышкан купуялык тобокелдиктерисиз иштетүүгө мүмкүндүк берет.

Негизги чындык маселелеринен тышкары, биз иштеп жаткан ачык архитектуралык маселелер бар, мисалы изоляцияны өзгөртүү и эрте токтотуу. Өзгөртүүлөрдү изоляциялоо тармактын ар кандай бөлүктөрүнө ар кандай өзгөртүүлөр киргизилгенде, таасир конкреттүү класстарга обочолонуп, жалпы болжолдоо көрсөткүчтөрүнө кеңири таасирин тийгизбеши үчүн маанилүү. Эрте токтотуу критерийлерин өркүндөтүү да абдан маанилүү, андыктан биз окуу процессин кээ бир класстар ашыкча машыккан, ал эми башкалары жок болгон жерде эмес, бардык класстар үчүн стабилдүү жерде токтото алабыз.

Өзгөчөлүк маанилүү

Моделге жаңы функция киргизилгенде, биз анын моделге жалпы таасирин билгибиз келет. Биз ошондой эле ар бир маалымат түрү үчүн кандай функциялар колдонулуп жатканын так түшүнүү үчүн, божомолдор адам чечмелей турганына ынангыбыз келет. Бул үчүн биз иштеп чыктык жана киргиздик класс боюнча PyTorch модели үчүн өзгөчөлүктөрдүн мааниси. Бул, адатта, колдоого алынган жалпы өзгөчөлүк маанилүүлүгүнөн айырмаланып турганын эске алыңыз, анткени ал белгилүү бир класс үчүн кайсы функциялар маанилүү экенин айтпайт. Объектти кайра иретке келтиргенден кийин болжолдоо катасынын көбөйүшүн эсептөө менен объекттин маанилүүлүгүн өлчөйбүз. Маанилерди алмаштырууда өзгөчөлүк "маанилүү" болуп саналат, анткени моделдин катасы көбөйөт, анткени бул учурда модель өз божомолун жасоо үчүн өзгөчөлүккө таянган. Функция "маанилүү эмес", анын маанилерин аралаштыруу моделдин катасын өзгөрүүсүз калтырат, анткени бул учурда модель аны этибарга алган эмес [5].

Ар бир класс үчүн өзгөчөлүктүн маанилүүлүгү бизге моделди чечмелөөгө мүмкүндүк берет, андыктан белгини алдын ала айтууда модель эмнени карап жатканын көрө алабыз. Мисалы, биз анализдегенде ADDR, анда биз дареги менен байланышкан белги, мисалы, кепилдик берет AddressLinesCount, ар бир класс үчүн өзгөчөлүк маанилүүлүгү таблицасында жогорку орунду ээлейт, ошондуктан биздин интуициябыз моделдин үйрөнгөн нерселерине дал келет.

баалоо

Ийгиликке жетүү үчүн бирдиктүү көрсөткүчтү аныктоо маанилүү. Биз тандадык F2 - кайра чакырып алуу менен тактыктын ортосундагы тең салмактуулук (эске алуу бир аз чоңураак). Кайра чакырып алуу тактыкка караганда купуялыкты колдонуу учуру үчүн маанилүү, анткени команда үчүн кандайдыр бир купуя маалыматтарды өткөрүп жибербөө маанилүү (акылга сыярлык тактыкты камсыз кылуу менен). Биздин моделдин иш жүзүндөгү F2 натыйжалуулугун баалоо бул документтин алкагына кирбейт. Бирок, кылдат тууралоо менен биз эң маанилүү сезгич класстар үчүн жогорку (0,9+) F2 упайларына жете алабыз.

Тиешелүү иш

Үлгү дал келүү, документтердин окшоштугун издөө жана машинаны үйрөнүүнүн ар кандай ыкмалары (Байезиан, чечим дарактары, k-жакынкы кошуналар жана башкалар) сыяктуу ар кандай ыкмаларды колдонуу менен структураланбаган документтерди автоматтык түрдө классификациялоо үчүн көптөгөн алгоритмдер бар [6]. Булардын кайсынысы болбосун классификациянын бир бөлүгү катары колдонулушу мүмкүн. Бирок, көйгөй масштабдуу болуп саналат. Бул макалада классификация ыкмасы ийкемдүүлүккө жана аткарууга багытталган. Бул бизге келечекте жаңы класстарды колдоого жана күтүү убактысын төмөн кармоого мүмкүндүк берет.

Маалыматтарды манжа изи боюнча да көп иштер жүрүп жатат. Мисалы, [7] авторлору сезимтал маалыматтардын агып кетишин басып алуу көйгөйүнө багытталган чечимди сүрөттөшкөн. Негизги болжолдоо маалыматтарга белгилүү болгон сезимтал маалыматтардын жыйындысы менен дал келүү үчүн манжа изин алууга болот. [8] авторлору купуялыктын агып кетишинин окшош көйгөйүн сүрөттөшөт, бирок алардын чечими белгилүү бир Android архитектурасына негизделген жана колдонуучунун аракеттери жеке маалыматты бөлүшүүгө алып келсе же негизги тиркеме колдонуучунун маалыматтарын сыртка чыгарса гана классификацияланат. Бул жерде абал бир аз башкача, анткени колдонуучунун маалыматтары да өтө структурасыз болушу мүмкүн. Ошондуктан биз манжа изине караганда татаалыраак техникага муктажбыз.

Акыр-аягы, купуя маалыматтардын кээ бир түрлөрү үчүн берилиштердин жетишсиздиги менен күрөшүү үчүн, биз синтетикалык маалыматтарды киргиздик. Маалыматтарды көбөйтүү боюнча көптөгөн адабияттар бар, мисалы, [9] авторлору тренинг учурунда ызы-чууну инжекциялоонун ролун изилдеп, көзөмөл астында окутууда оң натыйжаларды байкашкан. Купуялыкка болгон мамилебиз башкача, анткени ызы-чуу маалыматтарды киргизүү терс натыйжаларга алып келиши мүмкүн жана биз анын ордуна жогорку сапаттагы синтетикалык маалыматтарга басым жасайбыз.

жыйынтыктоо

Бул макалада биз маалыматтардын бир бөлүгүн классификациялай турган системаны сунуш кылдык. Бул бизге купуялык жана коопсуздук саясатын ишке ашыруу үчүн системаларды түзүүгө мүмкүндүк берет. Биз масштабдуу инфраструктура, үзгүлтүксүз интеграция, машинаны үйрөнүү жана жогорку сапаттагы маалыматтардын кепилдиги көптөгөн купуялык демилгелерибиздин ийгилигинде негизги ролду ойноорун көрсөттүк.

Келечектеги иштердин көп багыттары бар. Бул схемасыз берилиштерге (файлдарга) колдоо көрсөтүүнү, берилиштердин түрүн гана эмес, ошондой эле сезгичтик деңгээлин классификациялоону жана так синтетикалык мисалдарды түзүү аркылуу окутуу учурунда өзүн-өзү көзөмөлдөгөн окутууну колдонууну камтышы мүмкүн. Бул, өз кезегинде, моделге жоготууларды эң чоң суммага азайтууга жардам берет. Келечектеги иш иликтөөнүн процессине да көңүл бурушу мүмкүн, мында биз аныктоо мүмкүн эмес жана ар кандай купуялуулуктун бузулушунун түпкү себептеринин анализин камсыз кылабыз. Бул сезимталдыкты талдоо (мисалы, маалымат түрүнүн купуялык сезгичтиги жогору (мисалы, колдонуучунун IP) же төмөн (мисалы, Facebook ички IP)) сыяктуу учурларда жардам берет.

Bibliography

  1. Дэвид Бен-Дэвид, Тамар Домани жана Абигейил Тарем. Семантикалык веб-технологияларды колдонуу менен ишканалардын маалыматтарын классификациялоо. Питер Ф.И Пател-Шнайдер, Юэ Пан, Паскаль Гитцлер, Питер Мика, Лей Чжан, Джефф З. Пан, Ян Хоррокс жана Бирте Глимм, редакторлор, Семантикалык желе – ISWC 2010, 66–81-беттер, Берлин, Гейдельберг, 2010. Springer Berlin Heidelberg.
  2. Субраманиан Муралидхар, Вайат Ллойд, Сабьясачи Рой, Кори Хилл, Эрнест Лин, Вейвен Лю, Сатадру Пан, Шива Шанкар, Вишванат Сивакумар, Линпенг Танг жана Санжеев Кумар. f4: Facebookтун жылуу BLOB сактоо системасы. In Операциялык системаларды долбоорлоо жана ишке ашыруу боюнча 11th USENIX симпозиуму (OSDI 14), беттер 383–398, Broomfield, CO, October 2014. USENIX ассоциациясы.
  3. Томаш Миколов, Илья Суцкевер, Кай Чен, Грег Коррадо жана Джефф Дин. Сөздөрдүн жана сөз айкаштарынын бөлүштүрүлүшү жана алардын курамы. C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani жана K. Q. Weinberger, редакторлор, Нейрондук маалыматты иштетүү системаларындагы жетишкендиктер 26, 3111–3119-беттер. Curran Associates, Inc., 2013.
  4. Сергей Иоффе жана Кристиан Сегеди. Пакетти нормалдаштыруу: ички ковариаттын жылышын азайтуу аркылуу терең тармактык окутууну тездетүү. Фрэнсис Бах менен Дэвид Блейде, редакторлор, Машиналарды үйрөнүү боюнча 32-эл аралык конференциянын материалдары, 37-том Машиналарды үйрөнүүнү изилдөөнүн эмгектери, беттер 448–456, Лилль, Франция, 07–09 июл 2015. PMLR.
  5. Лео Брейман. Кокус токойлор. Мах. Үйрөнүү., 45(1):5–32, октябрь 2001.
  6. Thair Nu Phyu. Маалыматтарды иштетүүдө классификациялоо ыкмаларын изилдөө.
  7. X. Шу, Д Яо жана Э Бертино. Купуялыкты сактоочу, купуя маалыматтардын таасирин аныктоо. Маалыматтык экспертиза жана коопсуздук боюнча IEEE транзакциялары, 10(5):1092–1103, 2015.
  8. Жемин Ян, Мин Ян, Юань Чжан, Гофэй Гу, Пэн Нин жана Сяоян Ван. Appintent: Купуялыктын агып кетүүсүн аныктоо үчүн андроидде сезимтал маалыматтарды берүүнү талдоо. беттер 1043–1054, 11 2013-ж.
  9. Циже Си, Зиханг Дай, Эдуард Ховы, Минх-Тханг Луонг жана Куок В. Ле. Көзөмөлсүз маалыматтарды көбөйтүү.

Коопсуздук жана купуялык үчүн масштабдалуучу маалыматтардын классификациясы
SkillFactory онлайн курстарынан өтүү менен, нөлдөн баштап изденүүчү кесипти кантип алуу керектиги жөнүндө кененирээк маалымат алыңыз же көндүмдөр жана айлык акы боюнча Level Up:

Көбүрөөк курстар

Source: www.habr.com

Комментарий кошуу