Таснифи миқёспазири маълумот барои амният ва махфият

Таснифи миқёспазири маълумот барои амният ва махфият

Таснифи маълумот дар асоси мундариҷа вазифаи кушода аст. Системаҳои анъанавии пешгирии талафи маълумот (DLP) ин мушкилотро тавассути гирифтани изи ангуштон ва мониторинги нуқтаҳои ниҳоӣ барои изи ангушт ҳал мекунанд. Бо дарназардошти шумораи зиёди захираҳои доимо тағйирёбандаи маълумот дар Facebook, ин равиш на танҳо миқёс надорад, балки барои муайян кардани куҷо будани маълумот низ бесамар аст. Ин мақола дар бораи як системаи охири ба охир сохта шудааст, ки барои муайян кардани намудҳои ҳассос семантикӣ дар Facebook дар миқёс ва ба таври худкор нигоҳдории маълумот ва назорати дастрасӣ сохта шудааст.

Муносибати дар ин ҷо тавсифшуда аввалин системаи махфияти ниҳоии мост, ки кӯшиш мекунад ин мушкилотро тавассути ворид кардани сигналҳои додаҳо, омӯзиши мошинҳо ва усулҳои анъанавии изи ангуштҳо барои намоиш ва тасниф кардани ҳама маълумот дар Facebook ҳал кунад. Системаи тавсифшуда дар муҳити истеҳсолӣ кор карда, ба ҳисоби миёнаи F2 0,9+ барои синфҳои гуногуни махфият ҳангоми коркарди миқдори зиёди захираҳои маълумот дар даҳҳо анборҳо ноил мешавад. Муаррифии тарҷумаи як паёми Facebook дар ArXiv дар бораи таснифоти миқёспазири додаҳо барои амният ва махфият дар асоси омӯзиши мошин.

Муқаддима

Имрӯзҳо созмонҳо миқдори зиёди маълумотро дар форматҳо ва маконҳои гуногун ҷамъоварӣ ва нигоҳ медоранд [1], баъдан маълумот дар бисёр ҷойҳо истеъмол карда мешавад, баъзан якчанд маротиба нусхабардорӣ ё кэш карда мешавад, ки дар натиҷа маълумоти арзишманд ва ҳассоси тиҷоратӣ дар бисёр мағозаҳои маълумоти корпоративӣ паҳн мешавад. Вақте ки аз ташкилот талаб карда мешавад, ки талаботи муайяни ҳуқуқӣ ё танзимкунандаро риоя кунад, масалан, риояи муқаррарот дар мурофиаи шаҳрвандӣ, ҷамъоварии маълумот дар бораи ҷойгиршавии маълумоти зарурӣ зарур аст. Вақте ки дар як фармон оид ба дахолатнопазирӣ гуфта мешавад, ки ташкилот бояд ҳамаи рақамҳои амнияти иҷтимоӣ (SSN) ҳангоми интиқоли маълумоти шахсӣ ба шахсони беиҷозат ниқоб кунад, қадами табиии аввал ин ҷустуҷӯи ҳамаи SSN-ҳо дар мағозаҳои маълумоти умумист. Дар чунин шароит таснифоти маълумот муҳим мегардад [1]. Системаи таснифот ба созмонҳо имкон медиҳад, ки сиёсати махфият ва амниятро ба таври худкор татбиқ кунанд, ба монанди имкон додани сиёсати назорати дастрасӣ, нигоҳдории маълумот. Facebook системаеро муаррифӣ мекунад, ки аз ҷониби мо дар Facebook сохта шудааст, ки сигналҳои сершумори додаҳо, меъмории миқёспазири система ва омӯзиши мошинро барои муайян кардани намудҳои ҳассоси семантикии додаҳо истифода мебарад.

Кашф ва таснифоти додаҳо дар бораи дарёфт ва тамғагузорӣ кардани маълумот аст, то дар ҳолати зарурӣ иттилооти мувофиқ зуд ва ба таври муассир дарёфт карда шавад. Раванди кунунӣ бештар як раванди дастӣ аст ва аз баррасии қонунҳо ё муқаррароти дахлдор, муайян кардани кадом намуди иттилоот бояд ҳассос ҳисобида шавад ва дараҷаи гуногуни ҳассосият ва сипас сохтани синфҳо ва сиёсати таснифоти мувофиқ иборат аст [1]. Пас аз системаи пешгирии талафоти маълумот (DLP), маълумот изи ангушт гирифта мешавад ва нуқтаҳои поёнии поён барои изи ангушт назорат карда мешаванд. Ҳангоми кор бо нигоҳдорӣ бо миқдори зиёди дороиҳо ва петабайтҳои маълумот, ин равиш танҳо миқёс надорад.

Ҳадафи мо сохтани системаи таснифоти додаҳост, ки ҳам барои маълумоти корбар мустаҳкам ва ҳам ғайримуқаррарӣ, бидуни маҳдудияти иловагӣ оид ба намуд ё формати додаҳо. Ин максади далерона аст ва табиист, ки вай бо душворихо печида аст. Вуруди маълумот метавонад ҳазорҳо аломат дароз кунад.

Таснифи миқёспазири маълумот барои амният ва махфият
Тасвири 1. Ҷараёни пешгӯии онлайн ва офлайнӣ

Аз ин рӯ, мо бояд онро бо истифода аз маҷмӯи умумии хусусиятҳое, ки баъдтар якҷоя карда мешаванд ва ба осонӣ интиқол дода мешаванд, ба таври муассир муаррифӣ кунем. Ин хусусиятҳо бояд на танҳо таснифоти дақиқро таъмин кунанд, балки чандирӣ ва васеъшавиро барои ба осонӣ илова ва кашф кардани намудҳои нави маълумот дар оянда таъмин кунанд. Дуюм, шумо бояд бо мизҳои калони мустақил мубориза баред. Маълумоти доимиро дар ҷадвалҳое нигоҳ доштан мумкин аст, ки андозаашон петабайтҳои зиёд доранд. Ин метавонад суръати сканерро суст кунад. Сеюм, мо бояд ба таснифоти қатъии SLA барои маълумоти ноустувор риоя кунем. Ин системаро водор мекунад, ки хеле самаранок, зуд ва дақиқ бошад. Ниҳоят, ба мо лозим аст, ки таснифоти пасти маълумотро барои маълумоти ноустувор таъмин кунем, то таснифоти вақти воқеӣ ва инчунин ҳолатҳои истифодаи вебро анҷом диҳем.

Ин мақола шарҳ медиҳад, ки чӣ гуна мо бо мушкилоти дар боло овардашуда мубориза мебарем ва системаи таснифоти зуд ва миқёспазирро пешниҳод мекунад, ки ҷузъҳои додаҳои ҳама намудҳо, форматҳо ва манбаъҳоро дар асоси маҷмӯи умумии хусусиятҳо тасниф мекунад. Мо меъмории системаро васеъ кардем ва модели махсуси омӯзиши мошинро барои таснифоти фаврии маълумоти офлайн ва онлайн сохтем. Ин мақола ба таври зерин ташкил карда шудааст: Қисми 2 тарҳи умумии системаро пешниҳод мекунад. Қисми 3 қисмҳои системаи омӯзиши мошинро баррасӣ мекунад. Фасли 4 ва 5 кори вобастаро тавсиф мекунад ва самти ояндаи корро нишон медиҳад.

меъморӣ

Барои ҳалли мушкилоти маълумоти устувор ва онлайн дар миқёси Facebook, системаи таснифот ду ҷараёни алоҳида дорад, ки мо онҳоро ба таври муфассал баррасӣ хоҳем кард.

маълумоти устувор

Дар аввал, система бояд дар бораи дороиҳои зиёди иттилоотии Facebook маълумот гирад. Барои ҳар як мағоза, баъзе маълумоти асосӣ ҷамъоварӣ карда мешавад, ба монанди маркази додаҳо, ки ин маълумотро дар бар мегирад, системае, ки ин маълумотро нигоҳ медорад ва дороиҳое, ки дар он анбори додаҳои мушаххас ҷойгиранд. Ин феҳристи метамаълумотҳоро ташкил медиҳад, ки ба система имкон медиҳад, ки бидуни сарбории муштариён ва захираҳое, ки аз ҷониби муҳандисони дигар истифода мешаванд, ба таври муассир маълумот дарёфт кунад.

Ин каталоги метамаълумотҳо манбаи боэътимоди ҳамаи дороиҳои сканшударо таъмин мекунад ва ба шумо имкон медиҳад, ки ҳолати дороиҳои гуногунро пайгирӣ кунед. Ин маълумот ба ҷадвалбандӣ дар асоси маълумоти ҷамъовардашуда ва иттилооти дохилии система афзалият медиҳад, масалан, вақте ки дороӣ бори охир бомуваффақият скан карда шудааст ва кай офарида шудааст ва талаботи хотираи гузашта ва CPU барои ин дороиҳо, агар он қаблан скан карда шуда бошад. Сипас, барои ҳар як манбаи маълумот (ба андозаи дастрас шудани захираҳо), кори воқеии сканкунии захираҳо даъват карда мешавад.

Ҳар як кор як бинарии тартибдодашуда мебошад, ки намунаи Бернуллиро аз рӯи маълумоти охирини барои ҳар як дороии мавҷудбуда иҷро мекунад. Дороиҳо ба сутунҳои алоҳида тақсим карда мешаванд, ки дар он натиҷаи таснифоти ҳар як сутун мустақилона коркард карда мешавад. Илова бар ин, система ҳама гуна маълумоти бойро дар сутунҳо скан мекунад. JSON, массивҳо, сохторҳои рамзгузоришуда, URL-ҳо, базаи 64 маълумоти силсилавӣ ва ғайра ҳама скан карда мешаванд. Ин метавонад вақти ба итмом расонидани сканро хеле зиёд кунад, зеро як ҷадвал метавонад ҳазорҳо сутунҳои лонаро дар blob дар бар гирад json.

Барои ҳар як сатри дар дороии маълумот интихобшуда, системаи таснифот хусусиятҳои шинокунанда ва матнро аз мундариҷа ҷудо мекунад ва ҳар як хусусиятро ба сутуне, ки аз он гирифта шудааст, мепайвандад. Натиҷаи қадами истихроҷи хусусият харитаи тамоми хусусиятҳо барои ҳар як сутуни дорои маълумот мебошад.

Аломатҳо барои чӣ ҳастанд?

Консепсияи хусусиятҳо муҳим аст. Ба ҷои атрибутҳои шинокунанда ва матн, мо метавонем сатрҳои намунаи хомро гузаронем, ки мустақиман аз ҳар як манбаи маълумот гирифта мешаванд. Инчунин, моделҳои омӯзиши мошинсозӣ метавонанд мустақиман дар ҳар як намуна омӯзонида шаванд, на садҳо ҳисобҳои хусусият, ки танҳо намунаро тахминӣ мекунанд. Барои ин якчанд сабаб вуҷуд дорад:

  1. Аввалин махфият: Муҳимтар аз ҳама, мафҳуми хусусиятҳо ба мо имкон медиҳад, ки танҳо дар хотира намунаҳоеро, ки мо дарёфт мекунем, нигоҳ дорем. Ин кафолат медиҳад, ки мо намунаҳоро барои як ҳадаф нигоҳ дорем ва ҳеҷ гоҳ онҳоро бо кӯшишҳои худ сабт накунем. Ин махсусан барои маълумоти ноустувор муҳим аст, зеро хидмат бояд пеш аз пешниҳоди пешгӯӣ баъзе ҳолати таснифро нигоҳ дорад.
  2. Хотира: Баъзе намунаҳо метавонанд ҳазорҳо аломат дошта бошанд. Нигоҳ доштани ин гуна маълумот ва ба қисмҳои система интиқол додани он бе зарурат байтҳои зиёди изофаро сарф мекунад. Ин ду омил метавонанд бо мурури замон якҷоя шаванд, зеро захираҳои зиёди маълумот бо ҳазорҳо сутунҳо мавҷуданд.
  3. Ҷамъоварии хусусиятҳо: Хусусиятҳо пешниҳоди дақиқи натиҷаҳои ҳар як сканро тавассути маҷмӯи хусусиятҳо таъмин мекунанд ва ба система имкон медиҳанд, ки натиҷаҳои сканҳои қаблии ҳамон як манбаи маълумотро ба таври мувофиқ ҷамъоварӣ кунанд. Ин метавонад барои ҷамъоварӣ кардани натиҷаҳои сканкунии як манбаи маълумот дар тӯли якчанд давиш муфид бошад.

Пас аз он хусусиятҳо ба хидмати пешгӯӣ фиристода мешаванд, ки дар он мо барои пешгӯии тамғакоғазҳои додаҳои ҳар як сутун таснифоти бар қоида ва омӯзиши мошинро истифода мебарем. Хидмат ҳам ба таснифкунандагони қоидаҳо ва ҳам омӯзиши мошинсозӣ такя мекунад ва беҳтарин пешгӯии додашударо аз ҳар як объекти пешгӯӣ интихоб мекунад.

Таснифкунандагони қоидаҳо эвристикаи дастӣ мебошанд, он ҳисобҳо ва коэффитсиентҳоро барои ба эътидол овардани объект дар диапазони аз 0 то 100 истифода мебарад. Пас аз он ки чунин холи ибтидоӣ барои ҳар як намуди маълумот тавлид мешавад ва номи сутуни марбут ба ин маълумот ба ягон "инкор" намеафтад рӯйхатҳо" , таснифгари қоида баландтарин холҳои муқарраршударо дар байни ҳамаи намудҳои маълумот интихоб мекунад.

Аз сабаби мураккабии тасниф, истифодаи эвристикаи сирф дастӣ ба дақиқии таснифот, махсусан барои маълумоти сохторнашуда оварда мерасонад. Аз ин сабаб, мо як системаи омӯзиши мошинро таҳия кардем, то бо таснифоти маълумоти сохторнашуда, ба монанди мундариҷа ва суроғаи корбар кор кунем. Омӯзиши мошинсозӣ ба мо имкон дод, ки аз эвристикаи дастӣ дур шавем ва сигналҳои иловагии маълумотро (масалан, номҳои сутун, пайдоиши маълумот) истифода барем, ки дақиқии муайянкуниро хеле беҳтар созем. Мо дертар ба меъмории омӯзиши мошинҳои худ ғарқ мешавем.

Хидмати пешгӯӣ натиҷаҳоро барои ҳар як сутун дар якҷоягӣ бо метамаълумот дар бораи вақт ва ҳолати скан нигоҳ медорад. Ҳама истеъмолкунандагон ва равандҳои поёноб, ки аз ин маълумот вобастаанд, метавонанд онро аз маҷмӯаи маълумоти ҳаррӯзаи нашршуда мутолиа кунанд. Ин маҷмӯа натиҷаҳои ҳамаи ин корҳои сканкунӣ ё каталоги додаҳои API-ро дар вақти воқеӣ ҷамъ меорад. Пешгӯиҳои нашршуда асос барои татбиқи автоматии сиёсати махфият ва амният мебошанд.

Ниҳоят, пас аз сабти хидмати пешгӯӣ ҳамаи маълумотҳо ва ҳама пешгӯиҳо захира карда мешаванд, API-и каталоги маълумотҳои мо метавонад ҳама пешгӯиҳои навъи маълумотро барои манба дар вақти воқеӣ баргардонад. Ҳар рӯз система маҷмӯи маълумотро нашр мекунад, ки дорои ҳама пешгӯиҳои охирин барои ҳар як дороиҳо мебошад.

Маълумоти ноустувор

Гарчанде ки раванди дар боло зикршуда барои дороиҳои доимӣ тарҳрезӣ шудааст, трафики доимӣ низ як қисми маълумоти созмон ҳисобида мешавад ва метавонад муҳим бошад. Аз ин сабаб, система API-и онлайнро барои тавлиди пешгӯиҳои таснифоти воқеӣ барои ҳама гуна трафики номунтазам таъмин мекунад. Системаи пешгӯии вақти воқеӣ дар таснифи трафики содиротӣ, трафики воридотӣ дар моделҳои омӯзиши мошинсозӣ ва маълумоти таблиғотӣ васеъ истифода мешавад.

Дар ин ҷо API ду далели асосиро мегирад: калиди гурӯҳбандӣ ва маълумоти хоми пешбинишаванда. Хидмат ҳамон истихроҷи хусусиятеро, ки дар боло тавсиф шудааст, иҷро мекунад ва хусусиятҳоро барои як калид гурӯҳбандӣ мекунад. Ин хусусиятҳо инчунин дар кэши доимӣ барои хатогӣ дастгирӣ карда мешаванд. Барои ҳар як калиди гурӯҳбандӣ, хидмат мувофиқи раванди дар боло тавсифшуда пеш аз занг задан ба хидмати пешгӯӣ намунаҳои кофӣ дидааст.

Аҳамиятнокӣ

Барои скан кардани баъзе анборҳо, мо китобхонаҳо ва усулҳои оптимизатсияи хониши нигаҳдории гармро истифода мебарем [2] ва боварӣ ҳосил мекунем, ки аз ҷониби корбарони дигар, ки ба як анбор дастрасӣ доранд, садамаҳо вуҷуд надоранд.

Барои ҷадвалҳои ниҳоят калон (50+ петабайт), сарфи назар аз ҳама оптимизатсияҳо ва самаранокии хотира, система пеш аз тамом шудани хотира ҳама чизро скан ва ҳисоб мекунад. Баъд аз ҳама, скан пурра дар хотира ҳисоб карда мешавад ва ҳангоми скан захира карда намешавад. Агар ҷадвалҳои калон ҳазорҳо сутунҳои дорои ҷамъҳои сохторнашудаи маълумот дошта бошанд, кор метавонад аз сабаби нокифоя будани захираҳои хотира ҳангоми пешгӯиҳо дар миқёси ҷадвал ноком шавад. Ин боиси кам шудани фарогирӣ мегардад. Барои мубориза бо ин, мо системаро оптимизатсия кардем, то суръати сканро ҳамчун прокси истифода барад, то система то чӣ андоза сарбории ҷорӣро идора мекунад. Мо суръатро ҳамчун механизми пешгӯӣ барои дидани масъалаҳои хотира ва ҳисобҳои харитаи пешгӯии хусусият истифода мебарем. Дар ин кор, мо аз маълумоти муқаррарӣ камтар истифода мебарем.

Сигналҳои маълумот

Системаи таснифот танҳо ҳамчун сигналҳои додаҳо хуб аст. Дар ин ҷо мо ҳамаи сигналҳоеро, ки аз ҷониби системаи таснифот истифода мешаванд, баррасӣ хоҳем кард.

  • Дар асоси мундариҷа: Албатта, сигнали аввалин ва муҳимтарин мундариҷа аст. Намунаи Бернулли дар ҳар як дороии маълумоте анҷом дода мешавад, ки мо хусусиятҳоро аз мундариҷаи додаҳо скан ва истихроҷ мекунем. Бисёр хусусиятҳо аз мундариҷа бармеоянд. Ҳама гуна шумораи объектҳои шинокунанда имконпазиранд, ки ҳисобҳои чанд маротиба дида шудани як намуди мушаххасро ифода мекунанд. Масалан, мо метавонем аломатҳои шумораи мактубҳои дар намуна дидашуда ё нишонаҳои чанд эмодзи дар намуна дида шаванд. Ин ҳисобкуниҳои хусусиятҳоро дар сканҳои гуногун ба эътидол овардан ва ҷамъ кардан мумкин аст.
  • Пайдоиши маълумот: Як сигнали муҳиме, ки метавонад ҳангоми тағир додани мундариҷа аз ҷадвали волидайн кӯмак кунад. Мисоли маъмул ин маълумотҳои ҳашшуда мебошад. Вақте ки маълумот дар ҷадвали кӯдак ҳаш карда мешавад, он аксар вақт аз ҷадвали волидайн меояд, ки дар он ҷо равшан боқӣ мемонад. Маълумоти Lineage барои тасниф кардани баъзе намудҳои маълумот кӯмак мекунад, вақте ки онҳо равшан хонда намешаванд ё аз ҷадвали боло табдил дода мешаванд.
  • Эзоҳҳо: Боз як сигнали баландсифат барои муайян кардани маълумоти сохторнашуда. Дарвоқеъ, эзоҳҳо ва маълумоти насл метавонанд барои паҳн кардани атрибутҳо дар байни дороиҳои гуногуни додаҳо якҷоя кор кунанд. Эзоҳҳо барои муайян кардани манбаи маълумоти сохторнашуда кӯмак мекунанд, дар ҳоле ки маълумоти пайдоиш метавонад дар пайгирии ҷараёни ин маълумот дар тамоми мағоза кӯмак кунад.
  • Инъекцияи додаҳо усулест, ки дар он аломатҳои махсус ва хонданашаванда қасдан ба манбаъҳои маълум бо намудҳои маълуми додаҳо ворид карда мешаванд. Сипас, вақте ки мо мундариҷаро бо ҳамон пайдарпаии аломатҳои хонданашаванда скан мекунем, мо метавонем хулоса барорем, ки мундариҷа аз он намуди маълуми додаҳо меояд. Ин боз як сигнали сифатии маълумотест, ки ба эзоҳҳо монанд аст. Ғайр аз он, кашфи мундариҷа дар кашф кардани маълумоти воридшуда кӯмак мекунад.

Андозаи метрикӣ

Ҷузъи муҳими методологияи дақиқи ченкунии ченакҳо мебошад. Меъёрҳои асосии итератсияи такмили таснифот дақиқӣ ва бозхонди ҳар як нишона мебошанд, ки холҳои F2 аз ҳама муҳиманд.

Ҳисоб кардани ин нишондиҳандаҳо методологияи мустақили тамғагузории дороиҳои маълумотро талаб мекунад, ки аз худи система мустақил аст, аммо метавонад барои муқоисаи мустақим бо он истифода шавад. Дар зер мо тавсиф мекунем, ки чӣ тавр мо ҳақиқати заминиро аз Facebook ҷамъоварӣ мекунем ва онро барои омӯзиши системаи таснифоти худ истифода мебарем.

Ҷамъоварии маълумоти боэътимод

Мо маълумоти дурустро аз ҳар як манбаи дар поён овардашуда дар ҷадвали худ ҷамъ меорем. Ҳар як ҷадвал барои ҷамъ кардани арзишҳои охирини мушоҳидашуда аз ин манбаи мушаххас масъул аст. Ҳар як манбаъ санҷиши сифати маълумот дорад, то боварӣ ҳосил кунад, ки арзишҳои мушоҳидашуда барои ҳар як манбаъ сифати баланд доранд ва тамғакоғазҳои навтарини навъи маълумотро дар бар мегиранд.

  • Конфигуратсияҳои платформаи сабт: Майдонҳои муайяни ҷадвалҳои қуттӣ бо маълумоте, ки навъи муайян доранд, пур карда мешаванд. Истифода ва паҳн кардани ин маълумот ҳамчун манбаи боэътимоди маълумоти боэътимод хизмат мекунад.
  • Тамғагузории дастӣ: Таҳиягароне, ки системаро нигоҳ медоранд ва инчунин тамғагузорони беруна барои нишон додани сутунҳо омӯзонида мешаванд. Ин одатан барои ҳама намуди маълумот дар мағоза хуб кор мекунад ва метавонад манбаи асосии эътимод барои баъзе маълумоти сохторнашуда, ба монанди маълумоти пост ё мундариҷаи аз ҷониби корбар тавлидшуда бошад.
  • Сутунҳои ҷадвалҳои волидайн метавонанд ҳамчун дорои маълумоти муайян қайд карда шаванд ё шарҳ дода шаванд ва мо метавонем ин маълумотро дар ҷадвалҳои зер пайгирӣ кунем.
  • Риштаҳои намунавӣ: Риштаҳои Facebook маълумоти як намуди мушаххасро доранд. Бо истифода аз сканери худ ҳамчун меъмории хидмат, мо метавонем ҷараёнҳоеро, ки намудҳои маълуми маълумот доранд, интихоб кунем ва онҳоро тавассути система ирсол кунем. Система ваъда медиҳад, ки ин маълумотро нигоҳ намедорад.
  • Ҷадвалҳои намунавӣ: Ҷадвалҳои калони қутбӣ маълуманд, ки тамоми корпуси маълумотро дар бар мегиранд, инчунин метавонанд ҳамчун маълумоти омӯзишӣ истифода шаванд ва тавассути сканер ҳамчун хидмат интиқол дода шаванд. Ин барои ҷадвалҳои дорои маҷмӯи пурраи намудҳои додаҳо бузург аст, то интихоби сутун ба таври тасодуфӣ ба интихоби тамоми маҷмӯи ин навъи додаҳо баробар бошад.
  • Маълумоти синтетикӣ: Мо ҳатто метавонем китобхонаҳоеро истифода барем, ки маълумотро дар парвоз тавлид мекунанд. Ин барои намудҳои оддии маълумотҳои ҷамъиятӣ ба монанди суроға ё GPS хуб кор мекунад.
  • Идоракунандагони маълумот: Барномаҳои махфият маъмулан идоракунандагони маълумотро барои дастӣ замима кардани сиёсатҳо ба қисмҳои додаҳо истифода мебаранд. Ин ҳамчун манбаи хеле дақиқи эътимод хизмат мекунад.

Мо ҳар як манбаи асосии маълумоти сахтро дар як корпус бо ҳамаи ин маълумот муттаҳид мекунем. Мушкилоти калонтарини эътиборнокӣ ин боварӣ ҳосил кардан аст, ки он намояндаи анбори додаҳо аст. Дар акси ҳол, муҳаррикҳои таснифӣ метавонанд аз ҳад зиёд мувофиқ бошанд. Дар мубориза бо ин, ҳамаи манбаъҳои дар боло зикршуда барои таъмини мувозинат ҳангоми омӯзиши моделҳо ё ҳисоб кардани метрика истифода мешаванд. Илова бар ин, аломатҳои инсонӣ сутунҳои гуногунро дар мағоза яксон интихоб мекунанд ва маълумотро ба таври мувофиқ нишон медиҳанд, то ҷамъоварии арзишҳои дуруст беғаразона боқӣ монанд.

Интегратсияи доимӣ

Барои таъмини такрори зуд ва такмилдиҳӣ, ҳамеша дар вақти воқеӣ чен кардани кори система муҳим аст. Мо метавонем ҳар як беҳбудии таснифро дар муқоиса бо системаи имрӯза чен кунем, аз ин рӯ мо метавонем маълумоти тактикиро барои беҳбудии минбаъда равона кунем. Дар ин ҷо мо мебинем, ки чӣ тавр система ҳалқаи фикру мулоҳизаро, ки бо маълумоти дуруст таъмин карда мешавад, анҷом медиҳад.

Вақте ки системаи банақшагирӣ бо дороие дучор мешавад, ки аз манбаи боэътимод нишона дорад, мо ду вазифаро ба нақша мегирем. Аввалин сканери истеҳсолии мо ва аз ин рӯ, қобилиятҳои истеҳсолии моро истифода мебарад. Вазифаи дуюм сканери навтаринро бо хусусиятҳои навтарин истифода мебарад. Ҳар як вазифа натиҷаи худро ба ҷадвали худ менависад ва версияҳоро дар баробари натиҷаҳои таснифот нишон медиҳад.

Ҳамин тавр мо натиҷаҳои таснифоти номзади релиз ва модели истеҳсолиро дар вақти воқеӣ муқоиса мекунем.

Ҳангоме ки маҷмӯаҳои додаҳо хусусиятҳои RC ва PROD-ро муқоиса мекунанд, вариантҳои зиёди хидмати пешгӯии муҳаррики таснифоти ML сабт карда мешаванд. Модели охирини омӯзиши мошинсозӣ, модели ҷорӣ дар истеҳсолот ва ҳама гуна моделҳои таҷрибавӣ. Ҳамин равиш ба мо имкон медиҳад, ки версияҳои гуногуни моделро "бурида" (ба таснифкунандагони қоидаҳои мо агностикӣ) ва муқоисаи ченакҳоро дар вақти воқеӣ. Муайян кардан хеле осон аст, ки таҷрибаи ML кай ба истеҳсолот омода аст.

Ҳар шаб, хусусиятҳои RC, ки барои он рӯз ҳисоб карда шудаанд, ба лӯлаи омӯзишии ML фиристода мешаванд, ки дар он модел дар бораи хусусиятҳои навтарини RC таълим дода мешавад ва иҷрои онро дар муқоиса бо маҷмӯи додаҳои дуруст арзёбӣ мекунад.

Ҳар саҳар модел омӯзишро анҷом медиҳад ва ба таври худкор ҳамчун модели таҷрибавӣ нашр мешавад. Он ба таври худкор ба рӯйхати таҷрибавӣ дохил карда мешавад.

Баъзе натиҷаҳо

Зиёда аз 100 намуди гуногуни маълумот бо дақиқии баланд қайд карда шудаанд. Намудҳои хуби сохторӣ ба монанди почтаи электронӣ ва рақамҳои телефон бо холҳои f2 аз 0,95 зиёдтар тасниф карда мешаванд. Намудҳои ройгони додаҳо ба монанди мундариҷаи фармоишӣ ва ном низ хеле хуб кор мекунанд, бо холҳои F2 аз 0,85 зиёдтар.

Миқдори зиёди сутунҳои мушаххаси маълумоти устувор ва доимӣ ҳамарӯза дар тамоми анборҳо тасниф карда мешаванд. Ҳар рӯз зиёда аз 500 терабайт дар зиёда аз 10 мағозаи маълумот скан карда мешавад. Фарогирии аксари ин анборҳо зиёда аз 98% -ро ташкил медиҳад.

Бо гузашти вақт, таснифкунӣ хеле муассир гардид, зеро корҳои таснифкунӣ дар ҷараёни доимии офлайнӣ аз сканкунии дороиҳо то пешгӯиҳои ҳисоббарорӣ барои ҳар як сутун ба ҳисоби миёна 35 сонияро мегирад.

Таснифи миқёспазири маълумот барои амният ва махфият
Райс. 2. Диаграммаи тавсифи ҷараёни муттасили ҳамгироӣ барои фаҳмидани он ки объектҳои RC чӣ гуна тавлид мешаванд ва ба модел фиристода мешаванд.

Таснифи миқёспазири маълумот барои амният ва махфият
Расми 3. Диаграммаи сатҳи баланди ҷузъи омӯзиши мошин.

Компоненти системаи омӯзиши мошинсозӣ

Дар фасли қаблӣ, мо ба меъмории тамоми система ғарқ шуда, миқёс, оптимизатсия ва ҷараёнҳои офлайн ва онлайнро таъкид кардем. Дар ин бахш, мо хидмати пешгӯиро дида мебароем ва системаи омӯзиши мошинро тавсиф мекунем, ки хидмати пешгӯиро тақвият медиҳад.

Бо зиёда аз 100 намуди додаҳо ва баъзе мундариҷаи сохторнашуда, аз қабили маълумоти пост ва мундариҷаи аз ҷониби корбар тавлидшуда, истифодаи эвристикаи сирф дастӣ ба дақиқии таснифоти зерпараметрӣ, махсусан барои додаҳои сохторнашуда оварда мерасонад. Аз ин сабаб, мо инчунин як системаи омӯзиши мошинро таҳия кардем, то бо мураккабии маълумоти сохторнашуда мубориза барем. Истифодаи омӯзиши мошинсозӣ ба шумо имкон медиҳад, ки аз эвристикаи дастӣ дур шавед ва бо хусусиятҳо ва сигналҳои иловагии додаҳо (масалан, номҳои сутун, пайдоиши маълумот) барои беҳтар кардани дақиқӣ кор кунед.

Модели амалишуда намоишҳои векториро [3] дар болои объектҳои зиччи ва пароканда алоҳида меомӯзад. Пас аз он онҳо як вектореро ташкил медиҳанд, ки аз як қатор нормализатсияи партия [4] ва қадамҳои ғайрихаттӣ барои ба даст овардани натиҷаи ниҳоӣ мегузарад. Натиҷаи ниҳоӣ рақами нуқтаи шинокунанда байни [0-1] барои ҳар як нишона мебошад, ки эҳтимолияти ба ин навъи ҳассосият тааллуқ доштани мисолро нишон медиҳад. Истифодаи PyTorch барои модел ба мо имкон дод, ки зудтар ҳаракат кунем ва ба таҳиягарон берун аз даста имкон дод, ки тағиротро зуд ворид ва озмоиш кунанд.

Ҳангоми тарҳрезии меъморӣ аз сабаби тафовути дохилии объектҳои камёфт (масалан, матн) ва зич (масалан, ададӣ) алоҳида модел кардан муҳим буд. Барои меъмории ниҳоӣ инчунин муҳим буд, ки тозакунии параметрҳо барои дарёфти арзиши оптималии суръати омӯзиш, андозаи партия ва гиперпараметрҳои дигар. Интихоби оптимизатор низ як гиперпараметри муҳим буд. Мо дарёфтем, ки оптимизатори маъмул Одамаксар вақт боиси overfitting, дар ҳоле ки модели бо SGD устувортар. Нозукиҳои иловагӣ буданд, ки мо бояд бевосита ба модел дохил кунем. Масалан, қоидаҳои статикӣ, ки кафолат медоданд, ки модел пешгӯии детерминалистиро ҳангоми доштани хусусият арзиши муайян мекунад. Ин қоидаҳои статикӣ аз ҷониби мизоҷони мо муайян карда мешаванд. Мо дарёфтем, ки ворид кардани онҳо мустақиман ба модел як меъмории мустақилтар ва мустаҳкамтар мешавад, дар муқоиса бо татбиқи як қадами пас аз коркард барои коркарди ин ҳолатҳои махсуси канорӣ. Инчунин қайд кунед, ки ин қоидаҳо ҳангоми омӯзиш ғайрифаъол карда мешаванд, то ба раванди омӯзиши градиент халал нарасонанд.

Масъалаҳо

Яке аз мушкилот ҷамъоварии маълумоти баландсифат ва боэътимод буд. Модел ба эътибори ҳар як синф ниёз дорад, то он метавонад ассотсиатсияҳоро байни объектҳо ва нишонаҳо омӯзад. Дар фасли қаблӣ мо усулҳои ҷамъоварии маълумотро ҳам барои андозагирии система ва ҳам омӯзиши модел баррасӣ кардем. Таҳлил нишон дод, ки синфҳои маълумот ба монанди корти кредитӣ ва рақамҳои суратҳисоби бонкӣ дар анбори мо чандон маъмул нестанд. Ин ҷамъ овардани миқдори зиёди маълумоти боэътимодро барои омӯзиши модел мушкил месозад. Барои ҳалли ин мушкилот, мо равандҳои тавлиди маълумотҳои синтетикиро барои ин синфҳо таҳия кардем. Мо чунин маълумотро барои намудҳои ҳассос тавлид мекунем, аз ҷумла NHS, рақамҳои корти кредитӣ и IBAN-рақамҳое, ки модел қаблан онҳоро пешгӯӣ карда наметавонист. Ин равиш имкон медиҳад, ки намудҳои ҳассоси додаҳо бидуни хатари махфият, ки бо пинҳон кардани маълумоти ҳассос алоқаманданд, коркард карда шаванд.

Илова ба масъалаҳои эътимоднокии додаҳо, масъалаҳои меъмории кушода мавҷуданд, ки мо дар рӯи он кор мекунем, ба монанди изолятсияро тағир диҳед и боздоштани барвақт. Ҷудокунии тағирот муҳим аст, то вақте ки тағиротҳои гуногун ба қисмҳои гуногуни шабака ворид карда шаванд, таъсир ба синфҳои мушаххас ҷудо карда мешавад ва ба иҷрои умумии пешгӯӣ таъсири васеъ нарасонад. Такмили меъёрҳои боздоштани бармаҳал низ муҳим аст, то мо тавонем раванди таълимро дар як нуқтаи устувор барои ҳама синфҳо қатъ кунем, на дар он ҷое, ки баъзе синфҳо бозомӯзӣ мекунанд ва дигарон не.

Аҳамияти хусусият

Вақте ки хусусияти нав ба модел ҷорӣ карда мешавад, мо мехоҳем, ки таъсири умумии он ба моделро бидонем. Мо инчунин мехоҳем боварӣ ҳосил кунем, ки пешгӯиҳо ба одамон тафсир карда мешаванд, то бифаҳмем, ки кадом хусусиятҳо барои ҳар як намуди маълумот истифода мешаванд. Бо ин максад мо кор карда баромадем ва чорй намудем аз рӯи синф аҳамияти хусусиятҳо барои модели PyTorch. Аҳамият диҳед, ки ин аз аҳамияти хусусияти умумӣ фарқ мекунад, ки одатан дастгирӣ мешавад, зеро он ба мо намегӯяд, ки кадом хусусиятҳо барои синфи мушаххас муҳиманд. Мо аҳамияти объектро тавассути ҳисоб кардани афзоиши хатогии пешгӯӣ пас аз иваз кардани объект чен мекунем. Хусусият "муҳим" аст, вақте ки иваз кардани арзишҳо хатогии моделро зиёд мекунад, зеро дар ин ҳолат модел дар пешгӯии худ ба хусусият такя мекард. Аломат "муҳим нест" вақте ки омехта кардани арзишҳои он хатогии моделро бетағйир мегузорад, зеро дар ин ҳолат модел онро сарфи назар кардааст [5].

Аҳамияти хусусият барои ҳар як синф ба мо имкон медиҳад, ки моделро тафсир кунем, то мо бубинем, ки модел ҳангоми пешгӯии тамға ба чӣ диққат медиҳад. Масалан, вақте ки мо таҳлил мекунем ADDR, он гоҳ мо кафолат медиҳем, ки атрибути марбут ба суроға, ба монанди AddressLinesCount, дар ҷадвали аҳамияти хусусият барои ҳар як синф мавқеи баландро ишғол мекунад, то интуитсияи инсонии мо бо он чизе, ки модел омӯхтааст, мувофиқат кунад.

баҳодиҳӣ

Муҳим аст, ки як нишондиҳандаи ягона барои муваффақият муайян карда шавад. Мо интихоб кардем F2 - мувозинат байни бозхонд ва саҳеҳӣ (ғарази бозхонд каме калонтар аст). Бекоркунӣ барои парвандаи истифодаи махфият назар ба дақиқӣ муҳимтар аст, зеро барои даста муҳим аст, ки ягон маълумоти ҳассосро аз даст надиҳад (дар ҳоле ки дақиқии оқилона нигоҳ дошта мешавад). Холи воқеии иҷрои F2 модели мо аз доираи ин мақола берун аст. Бо вуҷуди ин, бо танзими бодиққат мо метавонем ба дараҷаи баланди (0,9+) F2 барои синфҳои муҳимтарини ҳассос ноил шавем.

Корҳои марбут

Барои таснифоти автоматии ҳуҷҷатҳои сохторнашуда алгоритмҳои зиёде мавҷуданд, ки бо истифода аз усулҳои гуногун, аз қабили мувофиқати намуна, ҷустуҷӯи шабоҳати ҳуҷҷатҳо ва усулҳои гуногуни омӯзиши мошинсозӣ (Байезӣ, дарахтони қарорҳо, k-наздиктарин ҳамсояҳо ва бисёр дигарон) [6]. Ҳар яке аз инҳоро метавон ҳамчун як қисми тасниф истифода бурд. Бо вуҷуди ин, мушкилот миқёспазирӣ аст. Равиши таснифот дар ин мақола ба чандирӣ ва иҷроиш ғаразнок аст. Ин ба мо имкон медиҳад, ки дар оянда синфҳои навро дастгирӣ кунем ва таъхирро паст нигоҳ дорем.

Инчунин кори зиёди изи ангуштони маълумот вуҷуд дорад. Масалан, муаллифон дар [7] ҳалли худро тавсиф кардаанд, ки ба мушкилоти дарёфти ихроҷи маълумоти махфӣ тамаркуз мекунад. Фарзияи асосӣ ин аст, ки изи ангуштони маълумотро бо маҷмӯи маълумоти ҳассоси маълум мувофиқ кардан мумкин аст. Муаллифон дар [8] мушкилоти шабеҳи ихроҷи махфиятро тавсиф мекунанд, аммо ҳалли онҳо ба меъмории мушаххаси Android асос ёфтааст ва танҳо дар сурате тасниф карда мешавад, ки агар амали корбар боиси ирсоли маълумоти шахсӣ шуда бошад ё барномаи асосӣ маълумоти корбарро ифшо кунад. Вазъият дар ин ҷо то андозае дигар аст, зеро маълумоти корбар низ метавонад хеле сохторбандӣ бошад. Аз ин рӯ, ба мо нисбат ба изи ангуштҳо техникаи мураккабтар лозим аст.

Ниҳоят, барои мубориза бо набудани маълумот барои баъзе намудҳои маълумоти ҳассос, мо маълумоти синтетикиро ҷорӣ кардем. Маҷмӯаи зиёди адабиёт оид ба афзоиш додани маълумот мавҷуд аст, масалан, муаллифон дар [9] нақши тазриқи садоро ҳангоми омӯзиш таҳқиқ кардаанд ва дар омӯзиши назоратӣ натиҷаҳои мусбӣ мушоҳида кардаанд. Муносибати мо ба махфият гуногун аст, зеро ҷорӣ кардани маълумоти пурғавғо метавонад баръакс бошад ва ба ҷои он мо ба маълумоти баландсифати синтетикӣ тамаркуз мекунем.

хулоса

Дар ин мақола мо системаеро пешниҳод кардем, ки метавонад як пораи маълумотро тасниф кунад. Ин ба мо имкон медиҳад, ки системаҳоро барои татбиқи сиёсати махфият ва амният эҷод кунем. Мо нишон додем, ки инфрасохтори миқёспазир, ҳамгироии муттасил, омӯзиши мошинсозӣ ва маълумоти баландсифати тамомияти маълумот калиди муваффақияти бисёре аз ташаббусҳои махфияти мо мебошанд.

Барои кори оянда бисьёр майдонхо мавчуданд. Ин метавонад таъмин намудани дастгирии маълумоти хом (файлҳо), тасниф кардани на танҳо намуди додаҳо, балки сатҳи ҳассосият ва истифодаи омӯзиши худидоракунии бевосита ҳангоми омӯзиш тавассути тавлиди мисолҳои дақиқи синтетикиро дар бар гирад. Ин, дар навбати худ, ба модел кӯмак мекунад, ки талафотро ба миқдори бештар кам кунад. Кори оянда метавонад инчунин ба ҷараёни кории тафтишот тамаркуз кунад, ки дар он мо аз доираи ошкор берун меравем ва таҳлили сабабҳои асосии вайронкуниҳои гуногуни махфиятро пешниҳод мекунем. Ин дар ҳолатҳое, ба монанди таҳлили ҳассосият (яъне ҳассосияти махфияти навъи маълумот баланд аст (масалан, IP-и корбар) ё паст (масалан, IP-и дохилии Facebook) кӯмак хоҳад кард.

Муаллиф

  1. Дэвид Бен-Дэвид, Тамар Домани ва Абиҷайл Тарем. Таснифи маълумоти корхона бо истифода аз технологияҳои семантикии веб. Дар Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks, and Birte Glimm, муҳаррирон, Веби семантикӣ - ISWC 2010, саҳифаҳои 66–81, Берлин, Ҳейделберг, 2010. Springer Berlin Heidelberg.
  2. Субраманиан Муралидхар, Вайат Ллойд, Сабьясачи Рой, Кори Хилл, Эрнест Лин, Вейвен Лю, Сатадру Пан, Шива Шанкар, Вишванат Сивакумар, Линпенг Танг ва Санжеев Кумар. f4: Системаи гарми нигоҳдории BLOB дар Facebook. Дар Симпозиуми 11-уми USENIX оид ба тарҳрезӣ ва татбиқи системаҳои оператсионӣ (OSDI 14), саҳифаҳои 383–398, Брумфилд, CO, октябри 2014. Ассотсиатсияи USENIX.
  3. Томаш Миколов, Илья Сутскевер, Кай Чен, Грег С Коррадо ва Ҷефф Дин. Намоишҳои тақсимшудаи калимаҳо ва ибораҳо ва таркиби онҳо. Дар CJC Burges, L. Bottou, M. Welling, Z. Ghahramani ва KQ Weinberger, муҳаррирон, Пешрафтҳо дар системаҳои коркарди иттилооти асабӣ 26, саҳифаҳои 3111–3119. Curran Associates, Inc., 2013.
  4. Сергей Иоффе ва Кристиан Сегеди. Нормализатсияи партия: суръат бахшидан ба омӯзиши амиқи шабака тавассути коҳиш додани тағирёбии ковариати дохилӣ. Дар Фрэнсис Бах ва Дэвид Блей, муҳаррирон, Маводи конфронси 32-юми байналмилалӣ оид ба омӯзиши мошинҳо, ҷилди 37 аз Маҷмӯаҳои таҳқиқоти омӯзиши мошинҳо, саҳифаҳои 448–456, Лил, Фаронса, 07–09 июли 2015. PMLR.
  5. Лео Брейман. Ҷангалҳои тасодуфӣ. Мах. омӯзанд., 45(1):5–32, октябри 2001.
  6. Тайр Ну Фю. Тадқиқоти усулҳои тасниф дар истихроҷи додаҳо.
  7. X. Шу, Д Яо ва Э Бертино. Муайян кардани махфияти махфияти махфӣ. Амалиётҳои IEEE оид ба криминалистии иттилоотӣ ва амнияти, 10(5):1092–1103, 2015.
  8. Чжэмин Ян, Мин Ян, Юан Чжан, Гофэй Гу, Пэн Нин ва Сяоян Ванг. Appintent: Таҳлили интиқоли маълумоти ҳассос дар Android барои ошкор кардани ихроҷи махфият. саҳифаҳои 1043–1054, 11 2013.
  9. Циже Си, Зиханг Дай, Эдуард Хови, Минх-Тханг Луонг ва Куок В. Ле. Афзоиши маълумотҳои беназорат.

Таснифи миқёспазири маълумот барои амният ва махфият
Бо гирифтани курсҳои онлайни SkillFactory тафсилотро дар бораи чӣ гуна аз сифр ба даст овардани касби серталаб ё Level Up дар малакаҳо ва маош пайдо кунед:

Курсҳои бештар

Манбаъ: will.com

Илова Эзоҳ