Uainishaji wa data unaoweza kuongezeka kwa usalama na faragha

Uainishaji wa data unaoweza kuongezeka kwa usalama na faragha

Uainishaji wa data unaotegemea maudhui ni tatizo lililo wazi. Mifumo ya jadi ya kuzuia upotevu wa data (DLP) hutatua tatizo hili kwa kuchapa data husika na kufuatilia ncha za uchukuaji alama za vidole. Kwa kuzingatia idadi kubwa ya rasilimali za data zinazobadilika kila mara kwenye Facebook, mbinu hii sio tu kwamba inaweza kuongezeka, lakini pia haifai kwa kuamua mahali data inakaa. Karatasi hii inaangazia mfumo wa mwisho hadi mwisho ulioundwa kugundua aina nyeti za kisemantiki katika Facebook kwa kiwango na kutekeleza kiotomatiki uhifadhi wa data na udhibiti wa ufikiaji.

Mbinu iliyofafanuliwa hapa ni mfumo wetu wa kwanza wa faragha unaojaribu kutatua tatizo hili kwa kujumuisha mawimbi ya data, kujifunza kwa mashine na mbinu za kitamaduni za kuweka alama za vidole ili kuweka ramani na kuainisha data zote kwenye Facebook. Mfumo uliofafanuliwa unaendeshwa katika mazingira ya uzalishaji, na kufikia wastani wa alama F2 ya 0,9+ katika madarasa mbalimbali ya faragha huku ukichakata kiasi kikubwa cha rasilimali za data kwenye hifadhi nyingi. Tunakuletea tafsiri ya karatasi ya ArXiv ya Facebook kuhusu uainishaji wa data hatarishi kwa usalama na faragha kulingana na ujifunzaji wa mashine.

Utangulizi

Leo, mashirika hukusanya na kuhifadhi kiasi kikubwa cha data katika miundo na maeneo mbalimbali [1], kisha data hiyo hutumiwa katika maeneo mengi, wakati mwingine kunakiliwa au kuakibishwa mara nyingi, na hivyo kusababisha taarifa muhimu na nyeti za biashara kutawanywa katika data nyingi za biashara. maduka. Shirika linapohitajika kutimiza mahitaji fulani ya kisheria au ya udhibiti, kama vile kufuata kanuni katika kesi za madai, inakuwa muhimu kukusanya data kuhusu eneo la data inayohitajika. Kanuni ya faragha inaposema kwamba shirika lazima lifunge Nambari zote za Usalama wa Jamii (SSNs) linaposhiriki maelezo ya kibinafsi na mashirika ambayo hayajaidhinishwa, hatua ya kwanza ya kawaida ni kutafuta SSN zote kwenye hifadhi za data za shirika. Katika hali kama hizi, uainishaji wa data unakuwa muhimu [1]. Mfumo wa uainishaji utaruhusu mashirika kutekeleza kiotomatiki sera za faragha na usalama, kama vile kuwezesha sera za udhibiti wa ufikiaji, uhifadhi wa data. Facebook inatanguliza mfumo tuliounda kwenye Facebook unaotumia mawimbi mengi ya data, usanifu wa mfumo unaoweza kupanuka na kujifunza kwa mashine ili kugundua aina nyeti za data za kisemantiki.

Ugunduzi na uainishaji wa data ni mchakato wa kutafuta na kuweka lebo data ili taarifa muhimu ziweze kupatikana kwa haraka na kwa ufanisi inapohitajika. Mchakato wa sasa ni wa mwongozo kwa asili na unajumuisha kuchunguza sheria au kanuni husika, kubainisha ni aina gani za taarifa zinafaa kuchukuliwa kuwa nyeti na viwango tofauti vya unyeti ni nini, na kisha kuunda madarasa na sera za uainishaji ipasavyo [1]. Uzuiaji wa upotezaji wa data (DLP) kisha alama za vidole na kufuatilia ncha za chini za mkondo ili kupata alama za vidole. Wakati wa kushughulika na ghala nzito ya mali na petabytes ya data, mbinu hii haina kiwango.

Lengo letu ni kuunda mfumo wa uainishaji wa data ambao unalingana na data thabiti na ya muda mfupi ya mtumiaji, bila vikwazo vyovyote vya ziada kwenye aina au umbizo la data. Hili ni lengo la ujasiri, na kwa kawaida linakuja na changamoto. Rekodi fulani ya data inaweza kuwa na urefu wa maelfu ya wahusika.

Uainishaji wa data unaoweza kuongezeka kwa usalama na faragha
Kielelezo 1. Mitiririko ya utabiri wa mtandaoni na nje ya mtandao

Kwa hiyo, ni lazima tuwakilishe kwa ufanisi kwa kutumia seti ya kawaida ya vipengele ambavyo vinaweza kuunganishwa baadaye na kusongeshwa kwa urahisi. Vipengele hivi havipaswi tu kutoa uainishaji sahihi, lakini pia kutoa unyumbulifu na upanuzi wa kuongeza na kugundua aina mpya za data kwa urahisi katika siku zijazo. Pili, unahitaji kushughulika na meza kubwa za nje ya mtandao. Data ya kudumu inaweza kuhifadhiwa katika majedwali ambayo yana ukubwa wa petabytes nyingi. Hii inaweza kusababisha kasi ya chini ya utambazaji. Tatu, lazima tuzingatie uainishaji mkali wa SLA kwenye data tete. Hii inalazimisha mfumo kuwa mzuri sana, haraka na sahihi. Hatimaye, ni lazima tutoe uainishaji wa data wa kusubiri kwa muda wa chini kwa data tete ili kutekeleza uainishaji wa wakati halisi na vile vile kwa matukio ya matumizi ya Intaneti.

Karatasi hii inaeleza jinsi tulivyokabiliana na changamoto zilizo hapo juu na inatoa mfumo wa uainishaji wa haraka na hatari ambao unaainisha vipengele vya data vya aina zote, miundo na vyanzo kulingana na vipengele vingi vya pamoja. Tulipanua usanifu wa mfumo na kuunda muundo maalum wa kujifunza mashine ili kuainisha kwa haraka data ya nje ya mtandao na mtandaoni. Karatasi hii imepangwa kama ifuatavyo: Sehemu ya 2 inawasilisha muundo wa jumla wa mfumo. Sehemu ya 3 inajadili sehemu za mfumo wa kujifunza kwa mashine. Sehemu ya 4 na 5 zinaangazia kazi zinazohusiana na kuelezea miongozo ya kazi ya siku zijazo.

usanifu

Ili kukabiliana na changamoto za data ya mtandaoni inayoendelea na ya kiwango cha Facebook, mfumo wa uainishaji una mikondo miwili tofauti, ambayo tutaijadili kwa kina.

Data Endelevu

Awali, mfumo lazima ujifunze kuhusu vipengee vingi vya habari vya Facebook. Kwa kila hifadhi, baadhi ya taarifa za kimsingi hukusanywa, kama vile kituo cha data kilicho na data hiyo, mfumo ulio na data hiyo, na vipengee vilivyo katika hazina mahususi ya data. Hii huunda katalogi ya metadata ambayo inaruhusu mfumo kurejesha data kwa ufanisi bila kupakia wateja na rasilimali zinazotumiwa na wahandisi wengine.

Katalogi hii ya metadata hutoa chanzo kinachoidhinishwa kwa vipengee vyote vilivyochanganuliwa na hukuruhusu kufuatilia hali ya vipengee mbalimbali. Kwa kutumia maelezo haya, kipaumbele cha kuratibu huwekwa kulingana na data iliyokusanywa na taarifa ya ndani kutoka kwa mfumo, kama vile wakati ambapo kipengee kilichanganuliwa kwa ufanisi na wakati kilipoundwa, pamoja na kumbukumbu ya awali na mahitaji ya CPU kwa kipengee hicho iwapo imechanganuliwa hapo awali. Kisha, kwa kila rasilimali ya data (kama rasilimali zinavyopatikana), kazi inaitwa kuchanganua rasilimali hiyo.

Kila kazi ni faili ya binary iliyokusanywa ambayo hufanya sampuli za Bernoulli kwenye data ya hivi punde inayopatikana kwa kila kipengee. Kipengee kimegawanywa katika safu wima mahususi, ambapo matokeo ya uainishaji wa kila safu huchakatwa kivyake. Zaidi ya hayo, mfumo hutafuta data yoyote iliyojaa ndani ya safu wima. JSON, safu, miundo iliyosimbwa, URL, data ya msingi ya 64 na zaidi zote zimechanganuliwa. Hii inaweza kuongeza kwa kiasi kikubwa muda wa utekelezaji wa kuchanganua kwa sababu jedwali moja linaweza kuwa na maelfu ya safu wima zilizowekwa kwenye blob. json.

Kwa kila safu mlalo iliyochaguliwa katika kipengee cha data, mfumo wa uainishaji hutoa vitu vya kuelea na maandishi kutoka kwenye maudhui na kuhusisha kila kitu hadi kwenye safu wima ambayo kilichukuliwa. Matokeo ya hatua ya uchimbaji wa kipengele ni ramani ya vipengele vyote kwa kila safu inayopatikana kwenye kipengee cha data.

Dalili ni za nini?

Dhana ya sifa ni muhimu. Badala ya sifa za kuelea na maandishi, tunaweza kupitisha sampuli za kamba ghafi ambazo hutolewa moja kwa moja kutoka kwa kila rasilimali ya data. Aidha, miundo ya kujifunza kwa mashine inaweza kufunzwa moja kwa moja kwenye kila sampuli, badala ya mamia ya hesabu za vipengele ambazo hujaribu kukadiria sampuli pekee. Kuna sababu kadhaa za hii:

  1. Faragha kwanza: Muhimu zaidi, dhana ya vipengele huturuhusu kuhifadhi katika kumbukumbu tu ruwaza zile tunazozipata. Hii inahakikisha kwamba tunahifadhi sampuli kwa lengo moja na kamwe tusiziweke kupitia juhudi zetu wenyewe. Hii ni muhimu haswa kwa data tete, kwani huduma lazima idumishe hali fulani ya uainishaji kabla ya kutoa utabiri.
  2. Kumbukumbu: Baadhi ya sampuli zinaweza kuwa na maelfu ya vibambo. Kuhifadhi data kama hiyo na kuipeleka kwa sehemu za mfumo bila lazima hutumia baiti nyingi za ziada. Sababu hizi mbili zinaweza kuunganishwa kwa wakati, ikizingatiwa kuwa kuna rasilimali nyingi za data zilizo na maelfu ya safu wima.
  3. Ujumlishaji wa vipengele: Vipengele vinawakilisha kwa uwazi matokeo ya kila uchanganuzi kupitia seti ya vipengele, vinavyoruhusu mfumo kuchanganya matokeo ya utafutaji wa awali wa rasilimali sawa ya data kwa njia rahisi. Hii inaweza kuwa muhimu kwa kujumlisha matokeo ya skanisho kutoka kwa rasilimali moja ya data katika utendakazi nyingi.

Kisha vipengele hutumwa kwa huduma ya utabiri ambapo tunatumia uainishaji unaozingatia kanuni na kujifunza kwa mashine ili kutabiri lebo za data za kila safu. Huduma hutegemea viainishaji kanuni na ujifunzaji wa mashine na huchagua utabiri bora unaotolewa kutoka kwa kila kitu cha ubashiri.

Viainishi vya kanuni ni viambajengo vinavyofanywa na mtu mwenyewe, hutumia hesabu na hesabu kurekebisha kitu hadi kati ya 0 hadi 100. Mara tu alama kama hiyo ya awali inapotolewa kwa kila aina ya data na jina la safu wima inayohusishwa na data hiyo, haijajumuishwa katika "marufuku" yoyote. lists" , Kiainishi cha sheria huchagua alama ya juu zaidi iliyosawazishwa kati ya , aina zote za data.

Kwa sababu ya ugumu wa uainishaji, kuegemea tu kwenye utabiri wa kutumia mikono husababisha usahihi wa chini wa uainishaji, hasa kwa data isiyo na muundo. Kwa sababu hii, tulitengeneza mfumo wa kujifunza kwa mashine ili kufanya kazi na uainishaji wa data ambayo haijaundwa kama vile maudhui ya mtumiaji na anwani. Kujifunza kwa mashine kumefanya iwezekane kuanza kujiepusha na utabiri na kutumia mawimbi ya data ya ziada (k.m. majina ya safu wima, asili ya data), kuboresha kwa kiasi kikubwa usahihi wa ugunduzi. Tutazama katika usanifu wetu wa kujifunza mashine baadaye.

Huduma ya utabiri huhifadhi matokeo ya kila safu pamoja na metadata kuhusu saa na hali ya tambazo. Wateja na michakato ya chini inayotegemea data hii wanaweza kuisoma kutoka kwa mkusanyiko wa data unaochapishwa kila siku. Seti hii hujumlisha matokeo ya kazi hizi zote za kuchanganua, au API za Katalogi ya Data ya Wakati Halisi. Utabiri uliochapishwa ndio msingi wa utekelezaji kiotomatiki wa sera za faragha na usalama.

Hatimaye, baada ya huduma ya utabiri kuandika data zote na utabiri wote kuhifadhiwa, API yetu ya Katalogi ya Data inaweza kurejesha utabiri wa aina zote za data kwa rasilimali kwa wakati halisi. Kila siku mfumo huchapisha seti ya data iliyo na utabiri wa hivi punde kwa kila kipengee.

Data tete

Ingawa mchakato ulio hapo juu umeundwa kwa ajili ya vipengee vinavyoendelea, trafiki isiyoendelea pia inachukuliwa kuwa sehemu ya data ya shirika na inaweza kuwa muhimu. Kwa sababu hii, mfumo hutoa API ya mtandaoni kwa ajili ya kuzalisha utabiri wa uainishaji wa wakati halisi kwa trafiki yoyote ya vipindi. Mfumo wa utabiri wa wakati halisi unatumika sana katika kuainisha trafiki inayotoka nje, trafiki inayoingia ndani ya miundo ya mashine ya kujifunza na data ya watangazaji.

Hapa API inachukua hoja kuu mbili: ufunguo wa kambi na data mbichi ambayo inapaswa kutabiriwa. Huduma hufanya urejeshaji wa kitu sawa kama ilivyoelezwa hapo juu na kuweka vitu pamoja kwa ufunguo sawa. Vipengele hivi pia vinatumika katika akiba ya kudumu kwa urejeshaji wa kushindwa. Kwa kila ufunguo wa kupanga, huduma huhakikisha kwamba imeona sampuli za kutosha kabla ya kupiga huduma ya utabiri, kufuatia mchakato ulioelezwa hapo juu.

Uboreshaji

Ili kuchanganua baadhi ya hifadhi, tunatumia maktaba na mbinu ili kuboresha usomaji kutoka kwa hifadhi motomoto [2] na kuhakikisha kuwa hakuna kukatizwa na watumiaji wengine wanaofikia hifadhi sawa.

Kwa majedwali makubwa sana (petabaiti 50+), licha ya uboreshaji wote na ufanisi wa kumbukumbu, mfumo hufanya kazi kuchanganua na kukokotoa kila kitu kabla ya kukosa kumbukumbu. Baada ya yote, skanisho imehesabiwa kabisa kwenye kumbukumbu na haihifadhiwa wakati wa tambazo. Ikiwa majedwali makubwa yana maelfu ya safu wima zilizo na data isiyo na mpangilio, kazi inaweza kushindwa kwa sababu ya rasilimali zisizo za kutosha za kumbukumbu wakati wa kufanya utabiri kwenye jedwali zima. Hii itasababisha kupungua kwa chanjo. Ili kukabiliana na hili, tuliboresha mfumo utumie kasi ya kuchanganua kama seva mbadala ya jinsi mfumo unavyoshughulikia mzigo wa sasa wa kazi. Tunatumia kasi kama njia ya kutabiri kuona matatizo ya kumbukumbu na kukokotoa ramani ya vipengele kwa utabiri. Wakati huo huo, tunatumia data kidogo kuliko kawaida.

Ishara za data

Mfumo wa uainishaji ni mzuri tu kama ishara kutoka kwa data. Hapa tutaangalia ishara zote zinazotumiwa na mfumo wa uainishaji.

  • Kulingana na Maudhui: Bila shaka, ishara ya kwanza na muhimu zaidi ni maudhui. Sampuli ya Bernoulli inafanywa kwa kila kipengee cha data tunachochanganua na kutoa vipengele kulingana na maudhui ya data. Ishara nyingi hutoka kwa yaliyomo. Idadi yoyote ya vitu vinavyoelea inawezekana, ambayo inawakilisha mahesabu ya mara ngapi aina fulani ya sampuli imeonekana. Kwa mfano, tunaweza kuwa na ishara za idadi ya barua pepe zinazoonekana kwenye sampuli, au ishara za idadi ya emoji zinazoonekana kwenye sampuli. Hesabu hizi za vipengele zinaweza kusawazishwa na kujumlishwa kwenye skana tofauti.
  • Asili ya data: Ishara muhimu inayoweza kusaidia wakati maudhui yamebadilika kutoka kwa jedwali kuu. Mfano wa kawaida ni data ya haraka. Wakati data katika jedwali la mtoto imeharakishwa, mara nyingi hutoka kwa meza ya mzazi, ambapo inabaki wazi. Data ya ukoo husaidia kuainisha aina fulani za data wakati hazijasomwa vizuri au kubadilishwa kutoka kwa jedwali la juu.
  • Ufafanuzi: Mawimbi mengine ya ubora wa juu ambayo husaidia katika kutambua data isiyo na muundo. Kwa hakika, maelezo na data ya asili inaweza kufanya kazi pamoja ili kueneza sifa kwenye vipengee tofauti vya data. Ufafanuzi husaidia kutambua chanzo cha data ambayo haijaundwa, ilhali data ya ukoo inaweza kusaidia kufuatilia mtiririko wa data hiyo katika hazina yote.
  • Uingizaji data ni mbinu ambapo herufi maalum, zisizoweza kusomeka huletwa kimakusudi katika vyanzo vinavyojulikana vya aina za data zinazojulikana. Kisha, wakati wowote tunapochanganua maudhui kwa mpangilio sawa wa herufi zisizoweza kusomeka, tunaweza kukisia kuwa maudhui hayo yanatoka kwa aina hiyo ya data inayojulikana. Hii ni ishara nyingine ya ubora wa data sawa na maelezo. Isipokuwa kwamba ugunduzi unaotegemea maudhui husaidia kugundua data iliyoingizwa.

Vipimo vya Kupima

Kipengele muhimu ni mbinu madhubuti ya kupima vipimo. Vipimo vikuu vya marudio ya uboreshaji wa uainishaji ni usahihi na kumbukumbu ya kila lebo, na alama ya F2 ikiwa muhimu zaidi.

Ili kukokotoa vipimo hivi, mbinu huru ya kuweka lebo za data inahitajika ambayo haitegemei mfumo wenyewe, lakini inaweza kutumika kwa kulinganisha nayo moja kwa moja. Hapa chini tunaelezea jinsi tunavyokusanya ukweli wa msingi kutoka kwa Facebook na kuutumia kufunza mfumo wetu wa uainishaji.

Ukusanyaji wa data za kuaminika

Tunakusanya data ya kuaminika kutoka kwa kila chanzo kilichoorodheshwa hapa chini kwenye jedwali lake. Kila jedwali lina jukumu la kujumlisha thamani za hivi punde zilizozingatiwa kutoka kwa chanzo hicho mahususi. Kila chanzo kina ukaguzi wa ubora wa data ili kuhakikisha kuwa thamani zinazozingatiwa kwa kila chanzo ni za ubora wa juu na zina lebo za aina za data za hivi punde.

  • Mipangilio ya jukwaa la ukataji miti: Sehemu fulani katika majedwali ya mizinga hujaa data ambayo ni ya aina mahususi. Matumizi na usambazaji wa data hii hutumika kama chanzo cha kuaminika cha ukweli.
  • Kuweka lebo kwa mikono: Wasanidi programu wanaodumisha mfumo na vile vile waweka lebo za nje wanafunzwa kuweka lebo kwenye safu wima. Hii kwa ujumla hufanya kazi vyema kwa aina zote za data kwenye ghala, na inaweza kuwa chanzo kikuu cha ukweli kwa baadhi ya data ambayo haijaundwa, kama vile data ya ujumbe au maudhui ya mtumiaji.
  • Safu wima kutoka kwa majedwali kuu zinaweza kutiwa alama au kufafanuliwa kuwa zina data fulani, na tunaweza kufuatilia data hiyo katika majedwali ya watoto.
  • Kuleta nyuzi za utekelezaji: nyuzi za utekelezaji katika Facebook hubeba aina maalum za data. Kwa kutumia kichanganuzi chetu kama usanifu wa huduma, tunaweza kuiga mitiririko ambayo ina aina za data zinazojulikana na kuzituma kupitia mfumo. Mfumo unaahidi kutohifadhi data hii.
  • Sampuli za jedwali: Meza kubwa za mizinga, ambazo zinajulikana kuwa na mkusanyiko mzima wa data, zinaweza pia kutumika kama data ya mafunzo na kupitishwa kupitia kichanganuzi kama huduma. Hii ni nzuri kwa jedwali zilizo na anuwai kamili ya aina za data, ili sampuli ya safu bila mpangilio ni sawa na kuchukua sampuli nzima ya aina hiyo ya data.
  • Data ya syntetisk: Tunaweza hata kutumia maktaba zinazozalisha data kwa kuruka. Hii inafanya kazi vyema kwa aina rahisi za data za umma kama vile anwani au GPS.
  • Wasimamizi wa Data: Programu za faragha kwa kawaida hutumia wasimamizi wa data kugawa sera kwa vipande vya data. Hiki kinatumika kama chanzo sahihi sana cha ukweli.

Tunachanganya kila chanzo kikuu cha ukweli kuwa shirika moja na data hiyo yote. Changamoto kubwa ya uhalali ni kuhakikisha kuwa inawakilisha hazina ya data. Vinginevyo, injini za uainishaji zinaweza kuzidi. Ili kukabiliana na hili, vyanzo vyote vilivyo hapo juu vinatumika kuhakikisha usawa wakati wa mafunzo ya miundo au kukokotoa vipimo. Kwa kuongezea, waweka lebo za kibinadamu kwa usawa sampuli safu wima tofauti katika hazina na kuweka data lebo ipasavyo ili mkusanyiko wa ukweli wa msingi ubaki bila upendeleo.

Kuendelea Kuunganishwa

Ili kuhakikisha kurudia na uboreshaji wa haraka, ni muhimu kupima utendaji wa mfumo kila wakati kwa wakati halisi. Tunaweza kupima kila uboreshaji wa uainishaji dhidi ya mfumo wa leo, ili tuweze kuongoza kwa mbinu maboresho ya siku zijazo kulingana na data. Hapa tunaangalia jinsi mfumo unavyokamilisha kitanzi cha maoni ambacho hutolewa na data halali.

Mfumo wa kuratibu unapokutana na kipengee ambacho kina lebo kutoka kwa chanzo kinachoaminika, tunaratibu kazi mbili. Ya kwanza hutumia kichanganuzi chetu cha uzalishaji na hivyo basi uwezo wetu wa uzalishaji. Jukumu la pili linatumia kichanganuzi kipya zaidi cha muundo kilicho na vipengele vipya zaidi. Kila kazi huandika matokeo yake kwenye jedwali lake, ikiweka matoleo pamoja na matokeo ya uainishaji.

Hivi ndivyo tunavyolinganisha matokeo ya uainishaji ya mgombeaji wa toleo na muundo wa toleo kwa wakati halisi.

Ingawa hifadhidata zinalinganisha vipengele vya RC na PROD, tofauti nyingi za injini ya uainishaji ya ML ya huduma ya utabiri zimeingia. Muundo wa hivi majuzi wa kujifunza mashine, muundo wa sasa katika uzalishaji na miundo yoyote ya majaribio. Mtazamo sawa huturuhusu "kukata" matoleo tofauti ya muundo (waainishi wasioaminika kwa viainishaji kanuni zetu) na kulinganisha vipimo katika muda halisi. Hii hurahisisha kubainisha wakati jaribio la ML liko tayari kuanza uzalishaji.

Kila usiku, vipengele vya RC vinavyokokotolewa kwa siku hiyo hutumwa kwa bomba la mafunzo la ML, ambapo muundo huo hufunzwa vipengele vya hivi punde vya RC na kutathmini utendakazi wake dhidi ya mkusanyiko wa data wa ukweli wa msingi.

Kila asubuhi, modeli hukamilisha mafunzo na huchapishwa kiotomatiki kama kielelezo cha majaribio. Imejumuishwa kiotomatiki kwenye orodha ya majaribio.

Baadhi ya matokeo

Zaidi ya aina 100 tofauti za data zimewekwa lebo kwa usahihi wa juu. Aina zilizoundwa vizuri kama vile barua pepe na nambari za simu zimeainishwa kwa alama f2 kubwa kuliko 0,95. Aina za data zisizolipishwa kama vile maudhui na jina zinazozalishwa na mtumiaji pia hufanya kazi vizuri sana, zikiwa na alama za F2 zaidi ya 0,85.

Idadi kubwa ya safu wima mahususi za data inayoendelea na tete huainishwa kila siku katika hazina zote. Zaidi ya terabaiti 500 huchanganuliwa kila siku katika zaidi ya maghala 10 ya data. Nyingi za hazina hizi zina zaidi ya 98%.

Baada ya muda, uainishaji umekuwa mzuri sana, huku kazi za uainishaji katika mtiririko unaoendelea wa nje ya mtandao zikichukua wastani wa sekunde 35 kutoka kuchanganua kipengee hadi kukokotoa ubashiri kwa kila safu.

Uainishaji wa data unaoweza kuongezeka kwa usalama na faragha
Mchele. 2. Mchoro unaoelezea mtiririko wa ushirikiano unaoendelea ili kuelewa jinsi vitu vya RC vinavyozalishwa na kutumwa kwa mfano.

Uainishaji wa data unaoweza kuongezeka kwa usalama na faragha
Kielelezo 3. Mchoro wa kiwango cha juu wa sehemu ya kujifunza mashine.

Kipengele cha mfumo wa kujifunza mashine

Katika sehemu iliyotangulia, tulizama kwa kina katika usanifu wa jumla wa mfumo, tukiangazia ukubwa, uboreshaji, na mtiririko wa data nje ya mtandao na mtandaoni. Katika sehemu hii, tutaangalia huduma ya utabiri na kuelezea mfumo wa kujifunza kwa mashine unaosimamia huduma ya utabiri.

Na zaidi ya aina 100 za data na baadhi ya maudhui ambayo hayajaundwa kama vile data ya ujumbe na maudhui ya mtumiaji, kwa kutumia utabiri unaofanywa na mtu mwenyewe husababisha usahihi wa uainishaji wa vigezo vidogo, hasa kwa data isiyo na muundo. Kwa sababu hii, pia tumeunda mfumo wa kujifunza kwa mashine ili kukabiliana na matatizo ya data ambayo haijaundwa. Kutumia mashine ya kujifunza hukuruhusu kuanza kujiepusha na utabiri wa maandishi na kufanya kazi na vipengele na mawimbi ya ziada ya data (kwa mfano, majina ya safu wima, asili ya data) ili kuboresha usahihi.

Muundo uliotekelezwa huchunguza uwakilishi wa vekta [3] juu ya vitu vizito na vichache kando. Hizi kisha huunganishwa ili kuunda vekta, ambayo hupitia mfululizo wa urekebishaji wa bechi [4] na hatua zisizo za mstari ili kutoa matokeo ya mwisho. Matokeo ya mwisho ni nambari ya sehemu inayoelea kati ya [0-1] kwa kila lebo, ikionyesha uwezekano kwamba mfano huo ni wa aina hiyo ya unyeti. Kutumia PyTorch kwa modeli kulituruhusu kusonga haraka, na kuwaruhusu wasanidi programu nje ya timu kufanya na kujaribu mabadiliko kwa haraka.

Wakati wa kubuni usanifu, ilikuwa muhimu kutoa mfano wa vitu vichache (kwa mfano, maandishi) na mnene (kwa mfano, nambari) kando kwa sababu ya tofauti zao za asili. Kwa usanifu wa mwisho, ilikuwa muhimu pia kufanya ufagiaji wa kigezo ili kupata thamani bora zaidi ya kiwango cha kujifunza, saizi ya bechi na vigezo vingine. Chaguo la optimizer pia lilikuwa hyperparameter muhimu. Tumegundua kuwa kiboreshaji maarufu Adamumara nyingi husababisha overfitting, ambapo mtindo na SGD imara zaidi. Kulikuwa na nuances ya ziada ambayo tulipaswa kujumuisha moja kwa moja kwenye mfano. Kwa mfano, sheria tuli ambazo zilihakikisha kwamba muundo hufanya ubashiri wa kubainisha wakati kipengele kina thamani fulani. Sheria hizi tuli zinafafanuliwa na wateja wetu. Tuligundua kuwa kuzijumuisha moja kwa moja kwenye kielelezo kulisababisha usanifu unaojitosheleza zaidi na thabiti, kinyume na kutekeleza hatua ya baada ya kuchakata ili kushughulikia kesi hizi za makali maalum. Pia kumbuka kuwa sheria hizi zimezimwa wakati wa mafunzo ili zisiingiliane na mchakato wa mafunzo ya asili ya gradient.

Shida

Changamoto mojawapo ilikuwa ni kukusanya data za hali ya juu na zinazotegemewa. Muundo unahitaji kujiamini kwa kila darasa ili uweze kujifunza uhusiano kati ya vitu na lebo. Katika sehemu iliyotangulia, tulijadili mbinu za kukusanya data za upimaji wa mfumo na mafunzo ya kielelezo. Uchanganuzi ulionyesha kuwa madarasa ya data kama vile kadi ya mkopo na nambari za akaunti ya benki si ya kawaida sana katika ghala letu. Hii inafanya kuwa vigumu kukusanya kiasi kikubwa cha data ya kuaminika ili kutoa mafunzo kwa miundo. Ili kushughulikia suala hili, tumeunda michakato ya kupata data ya msingi ya msingi ya darasa hili. Tunatoa data kama hii kwa aina nyeti zikiwemo SSN, nambari za kadi ya mkopo ΠΈ IBAN-nambari ambazo mtindo haukuweza kutabiri hapo awali. Mbinu hii inaruhusu aina nyeti za data kuchakatwa bila hatari za faragha zinazohusiana na kuficha data nyeti halisi.

Kando na maswala ya ukweli wa msingi, kuna maswala wazi ya usanifu tunayoshughulikia, kama vile badilisha kutengwa ΠΈ kuacha mapema. Kutenganisha mabadiliko ni muhimu ili kuhakikisha kuwa mabadiliko tofauti yanapofanywa kwa sehemu tofauti za mtandao, athari hutengwa kwa aina mahususi na haina athari pana kwa utendakazi wa jumla wa utabiri. Kuboresha vigezo vya kusitisha mapema pia ni muhimu ili tuweze kusimamisha mchakato wa mafunzo katika hatua thabiti kwa madarasa yote, badala ya wakati ambapo baadhi ya madarasa yanazidi na mengine hayafanyi.

Umuhimu wa kipengele

Kipengele kipya kinapoanzishwa katika muundo, tunataka kujua athari yake kwa jumla kwenye muundo. Pia tunataka kuhakikisha kuwa utabiri unaweza kufasiriwa na binadamu ili tuweze kuelewa ni vipengele vipi hasa vinavyotumika kwa kila aina ya data. Kwa kusudi hili tumeanzisha na kuanzisha kwa darasa umuhimu wa huduma kwa mfano wa PyTorch. Kumbuka kuwa hii ni tofauti na umuhimu wa kipengele kwa ujumla, ambayo kwa kawaida hutumiwa, kwa sababu haituelezi ni vipengele vipi ni muhimu kwa darasa fulani. Tunapima umuhimu wa kitu kwa kuhesabu ongezeko la kosa la utabiri baada ya kupanga upya kitu. Kipengele ni "muhimu" wakati kubadilishana maadili huongeza hitilafu ya mfano kwa sababu katika kesi hii mtindo ulikuwa unategemea kipengele kufanya ubashiri wake. Kipengele sio "muhimu" wakati wa kuchanganya maadili yake huacha kosa la mfano bila kubadilika, kwa kuwa katika kesi hii mtindo ulipuuza [5].

Umuhimu wa kipengele kwa kila darasa huturuhusu kufanya modeli iweze kufasiriwa ili tuweze kuona kile ambacho kielelezo kinaangalia wakati wa kutabiri lebo. Kwa mfano, tunapochambua ADDR, basi tunahakikisha kwamba ishara inayohusishwa na anwani, kama vile AnwaniLinesCount, inashika nafasi ya juu katika jedwali la umuhimu wa vipengele kwa kila darasa ili angavu yetu ya kibinadamu ilingane vizuri na kile ambacho kielelezo kimejifunza.

Tathmini

Ni muhimu kufafanua kipimo kimoja cha mafanikio. Tulichagua F2 - usawa kati ya kukumbuka na usahihi (kumbuka upendeleo ni kubwa kidogo). Kukumbuka ni muhimu zaidi kwa kesi ya utumiaji wa faragha kuliko usahihi kwa sababu ni muhimu kwa timu kutokosa data yoyote nyeti (huku inahakikisha usahihi unaokubalika). Tathmini halisi ya utendaji wa F2 ya modeli yetu iko nje ya upeo wa karatasi hii. Hata hivyo, kwa kupanga kwa uangalifu tunaweza kupata alama za juu (0,9+) F2 kwa madarasa muhimu zaidi nyeti.

Kazi inayohusiana

Kuna algoriti nyingi za uainishaji wa kiotomatiki wa hati ambazo hazijaundwa kwa kutumia mbinu mbalimbali kama vile kulinganisha muundo, utafutaji wa kufanana kwa hati na mbinu mbalimbali za kujifunza kwa mashine (Bayesian, miti ya maamuzi, majirani wa k-karibu zaidi na wengine wengi) [6]. Yoyote kati ya hizi inaweza kutumika kama sehemu ya uainishaji. Hata hivyo, tatizo ni scalability. Mbinu ya uainishaji katika makala hii inaegemea upande wa kubadilika na utendaji. Hii huturuhusu kusaidia madarasa mapya katika siku zijazo na kupunguza muda wa kusubiri.

Pia kuna kazi nyingi kwenye uwekaji alama za vidole vya data. Kwa mfano, waandishi katika [7] walielezea suluhu inayoangazia tatizo la kunasa uvujaji wa data nyeti. Wazo la msingi ni kwamba data inaweza kutiwa alama za vidole ili kuilinganisha na seti ya data nyeti inayojulikana. Waandishi katika [8] wanaelezea tatizo sawa la uvujaji wa faragha, lakini suluhisho lao linatokana na usanifu mahususi wa Android na huainishwa tu ikiwa vitendo vya mtumiaji husababisha kushirikiwa kwa taarifa za kibinafsi au ikiwa programu msingi itavuja data ya mtumiaji. Hali hapa ni tofauti kwa sababu data ya mtumiaji pia inaweza kuwa isiyo na muundo. Kwa hiyo, tunahitaji mbinu ngumu zaidi kuliko alama za vidole.

Hatimaye, ili kukabiliana na uhaba wa data kwa baadhi ya aina za data nyeti, tulianzisha data sanisi. Kuna kundi kubwa la fasihi kuhusu uongezaji data, kwa mfano, waandishi katika [9] waligundua dhima ya kudunga kelele wakati wa mafunzo na waliona matokeo chanya katika ujifunzaji unaosimamiwa. Mtazamo wetu wa faragha ni tofauti kwa sababu kuwasilisha data yenye kelele kunaweza kuwa na madhara, na badala yake tunazingatia data ya syntetisk ya ubora wa juu.

Hitimisho

Katika karatasi hii, tuliwasilisha mfumo ambao unaweza kuainisha kipande cha data. Hii huturuhusu kuunda mifumo ya kutekeleza sera za faragha na usalama. Tumeonyesha kuwa miundomsingi inayoweza kuongezeka, ujumuishaji unaoendelea, kujifunza kwa mashine na uhakikisho wa data wa ubora wa juu vina jukumu muhimu katika mafanikio ya mipango yetu mingi ya faragha.

Kuna maelekezo mengi kwa kazi ya baadaye. Hii inaweza kujumuisha kutoa usaidizi kwa data (faili) ambazo hazijapangiliwa), kuainisha sio tu aina ya data lakini pia kiwango cha unyeti, na kutumia mafunzo ya kujidhibiti wakati wa mafunzo kwa kutoa mifano sahihi ya sanisi. Ambayo, kwa upande wake, itasaidia mfano kupunguza hasara kwa kiasi kikubwa zaidi. Kazi ya baadaye inaweza pia kulenga utendakazi wa uchunguzi, ambapo tunapita zaidi ya kugunduliwa na kutoa uchanganuzi wa sababu kuu za ukiukaji mbalimbali wa faragha. Hii itasaidia katika hali kama vile uchanganuzi wa unyeti (yaani ikiwa unyeti wa faragha wa aina ya data ni wa juu (k.m. IP ya mtumiaji) au chini (k.m. IP ya ndani ya Facebook)).

Bibliography

  1. Daudi Ben-Daudi, Tamari Domany, na Abigail Tarem. Uainishaji wa data ya biashara kwa kutumia teknolojia za wavuti za semantiki. Katika Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks, na Birte Glimm, wahariri, Wavuti ya Semantiki - ISWC 2010, ukurasa wa 66–81, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang, na Sanjeev Kumar. f4: Mfumo wa kuhifadhi joto wa BLOB wa Facebook. Katika Kongamano la 11 la USENIX kuhusu Usanifu na Utekelezaji wa Mifumo ya Uendeshaji (OSDI 14), kurasa 383–398, Broomfield, CO, Oktoba 2014. USENIX Association.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, na Jeff Dean. Uwasilishaji uliosambazwa wa maneno na misemo na muundo wao. Katika C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, na K. Q. Weinberger, wahariri, Maendeleo katika Mifumo ya Uchakataji wa Taarifa za Neural 26, ukurasa wa 3111–3119. Curran Associates, Inc., 2013.
  4. Sergey Ioff na Christian Szegedy. Urekebishaji wa kundi: Kuharakisha mafunzo ya kina ya mtandao kwa kupunguza mabadiliko ya ndani ya ushirika. Katika Francis Bach na David Blei, wahariri, Kesi za Mkutano wa 32 wa Kimataifa wa Kujifunza kwa Mashine, juzuu 37 ya Kesi za Utafiti wa Kujifunza kwa Mashine, kurasa 448–456, Lille, Ufaransa, 07–09 Jul 2015. PMLR.
  5. Leo Breiman. Misitu ya nasibu. Mach. Jifunze., 45(1):5–32, Oktoba 2001.
  6. Thair Nu Phyu. Utafiti wa mbinu za uainishaji katika uchimbaji wa data.
  7. X. Shu, D. Yao, na E. Bertino. Ugunduzi wa kuhifadhi faragha wa kufichua data nyeti. Shughuli za IEEE juu ya Uchunguzi wa Habari na Usalama, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning, na Xiaoyang Wang. Appintent: Inachanganua utumaji data nyeti katika android kwa ugunduzi wa uvujaji wa faragha. kurasa 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, na Quoc V. Le. Uboreshaji wa data usiosimamiwa.

Uainishaji wa data unaoweza kuongezeka kwa usalama na faragha
Jua maelezo kuhusu jinsi ya kupata taaluma inayotafutwa kuanzia mwanzo au Kupanda Juu kulingana na ujuzi na mshahara kwa kuchukua kozi za mtandaoni za SkillFactory:

Kozi zaidi

Chanzo: mapenzi.com

Kuongeza maoni