భద్రత మరియు గోప్యత కోసం స్కేలబుల్ డేటా వర్గీకరణ

భద్రత మరియు గోప్యత కోసం స్కేలబుల్ డేటా వర్గీకరణ

కంటెంట్ ఆధారిత డేటా వర్గీకరణ అనేది బహిరంగ సమస్య. సాంప్రదాయ డేటా లాస్ ప్రివెన్షన్ (DLP) సిస్టమ్‌లు సంబంధిత డేటాను వేలిముద్ర వేయడం మరియు వేలిముద్రల కోసం ముగింపు పాయింట్‌లను పర్యవేక్షించడం ద్వారా ఈ సమస్యను పరిష్కరిస్తాయి. Facebookలో నిరంతరం మారుతున్న డేటా వనరులు పెద్ద సంఖ్యలో ఉన్నందున, ఈ విధానం స్కేలబుల్ కాదు, డేటా ఎక్కడ ఉందో నిర్ణయించడానికి కూడా పనికిరాదు. ఈ పేపర్ Facebookలో సున్నితమైన అర్థ రకాలను స్కేల్‌లో గుర్తించడానికి మరియు స్వయంచాలకంగా డేటా నిల్వ మరియు యాక్సెస్ నియంత్రణను అమలు చేయడానికి నిర్మించిన ఎండ్-టు-ఎండ్ సిస్టమ్‌పై దృష్టి పెడుతుంది.

ఫేస్‌బుక్‌లోని మొత్తం డేటాను మ్యాప్ చేయడానికి మరియు వర్గీకరించడానికి డేటా సిగ్నల్‌లు, మెషిన్ లెర్నింగ్ మరియు సాంప్రదాయ ఫింగర్‌ప్రింటింగ్ టెక్నిక్‌లను చేర్చడం ద్వారా ఈ సమస్యను పరిష్కరించడానికి ప్రయత్నించే మా మొదటి ఎండ్-టు-ఎండ్ గోప్యతా సిస్టమ్ ఇక్కడ వివరించిన విధానం. వివరించిన సిస్టమ్ ఉత్పత్తి వాతావరణంలో నిర్వహించబడుతుంది, డజన్ల కొద్దీ రిపోజిటరీలలో పెద్ద మొత్తంలో డేటా వనరులను ప్రాసెస్ చేస్తున్నప్పుడు వివిధ గోప్యతా తరగతుల్లో సగటు F2 స్కోర్ 0,9+ని సాధించింది. మెషీన్ లెర్నింగ్ ఆధారంగా భద్రత మరియు గోప్యత కోసం స్కేలబుల్ డేటా వర్గీకరణపై Facebook యొక్క ArXiv పేపర్ యొక్క అనువాదాన్ని పరిచయం చేస్తున్నాము.

పరిచయం

నేడు, సంస్థలు వివిధ రకాల ఫార్మాట్‌లు మరియు స్థానాల్లో పెద్ద మొత్తంలో డేటాను సేకరించి నిల్వ చేస్తాయి [1], ఆ తర్వాత డేటా చాలా చోట్ల వినియోగించబడుతుంది, కొన్నిసార్లు అనేక సార్లు కాపీ చేయబడుతుంది లేదా కాష్ చేయబడుతుంది, దీని ఫలితంగా విలువైన మరియు సున్నితమైన వ్యాపార సమాచారం అనేక ఎంటర్‌ప్రైజ్ డేటాలో చెల్లాచెదురుగా ఉంటుంది. దుకాణాలు. సివిల్ ప్రొసీడింగ్స్‌లో నిబంధనలకు అనుగుణంగా ఉండటం వంటి నిర్దిష్ట చట్టపరమైన లేదా నియంత్రణ అవసరాలను తీర్చడానికి ఒక సంస్థ అవసరమైనప్పుడు, అవసరమైన డేటా యొక్క స్థానం గురించి డేటాను సేకరించడం అవసరం. అనధికారిక సంస్థలతో వ్యక్తిగత సమాచారాన్ని పంచుకునేటప్పుడు సంస్థ తప్పనిసరిగా అన్ని సామాజిక భద్రతా నంబర్‌లను (SSNలు) మాస్క్ చేయాలని గోప్యతా నియంత్రణ పేర్కొన్నప్పుడు, సంస్థ యొక్క డేటా స్టోర్‌లలో అన్ని SSNలను శోధించడం సహజమైన మొదటి దశ. అటువంటి పరిస్థితులలో, డేటా వర్గీకరణ క్లిష్టమైనది [1]. యాక్సెస్ నియంత్రణ విధానాలను ప్రారంభించడం, డేటా నిలుపుదల వంటి గోప్యత మరియు భద్రతా విధానాలను స్వయంచాలకంగా అమలు చేయడానికి వర్గీకరణ వ్యవస్థ సంస్థలను అనుమతిస్తుంది. Facebookలో మేము Facebookలో రూపొందించిన సిస్టమ్‌ను పరిచయం చేస్తోంది, ఇది సున్నితమైన సెమాంటిక్ డేటా రకాలను కనుగొనడానికి బహుళ డేటా సిగ్నల్‌లు, స్కేలబుల్ సిస్టమ్ ఆర్కిటెక్చర్ మరియు మెషిన్ లెర్నింగ్‌ని ఉపయోగిస్తుంది.

డేటా డిస్కవరీ మరియు వర్గీకరణ అనేది డేటాను కనుగొని లేబుల్ చేసే ప్రక్రియ, తద్వారా అవసరమైనప్పుడు సంబంధిత సమాచారాన్ని త్వరగా మరియు సమర్ధవంతంగా తిరిగి పొందవచ్చు. ప్రస్తుత ప్రక్రియ ప్రకృతిలో కాకుండా మాన్యువల్ మరియు సంబంధిత చట్టాలు లేదా నిబంధనలను పరిశీలించడం, ఏ రకమైన సమాచారాన్ని సున్నితంగా పరిగణించాలి మరియు వివిధ స్థాయిల సున్నితత్వం ఏమిటో నిర్ణయించడం, ఆపై తరగతులు మరియు వర్గీకరణ విధానాలను రూపొందించడం వంటివి ఉంటాయి [1]. డేటా లాస్ ప్రివెన్షన్ (DLP) అప్పుడు డేటాను వేలిముద్రలు చేస్తుంది మరియు వేలిముద్రలను పొందేందుకు దిగువ ముగింపు బిందువులను పర్యవేక్షిస్తుంది. పెటాబైట్‌ల డేటాతో అసెట్-హెవీ వేర్‌హౌస్‌తో వ్యవహరించేటప్పుడు, ఈ విధానం కేవలం స్కేల్ చేయదు.

డేటా రకం లేదా ఫార్మాట్‌పై ఎలాంటి అదనపు పరిమితులు లేకుండా, బలమైన మరియు తాత్కాలిక వినియోగదారు డేటా రెండింటికి స్కేల్ చేసే డేటా వర్గీకరణ వ్యవస్థను రూపొందించడం మా లక్ష్యం. ఇది సాహసోపేతమైన లక్ష్యం మరియు సహజంగానే ఇది సవాళ్లతో వస్తుంది. ఇచ్చిన డేటా రికార్డ్ వేల అక్షరాల పొడవు ఉంటుంది.

భద్రత మరియు గోప్యత కోసం స్కేలబుల్ డేటా వర్గీకరణ
మూర్తి 1. ఆన్‌లైన్ మరియు ఆఫ్‌లైన్ అంచనా ప్రవాహాలు

అందువల్ల, మేము దానిని సమర్ధవంతంగా అందించాలి, తర్వాత వాటిని కలపవచ్చు మరియు సులభంగా తరలించవచ్చు. ఈ లక్షణాలు ఖచ్చితమైన వర్గీకరణను అందించడమే కాకుండా, భవిష్యత్తులో కొత్త డేటా రకాలను సులభంగా జోడించడానికి మరియు కనుగొనడానికి సౌలభ్యం మరియు విస్తరణను కూడా అందిస్తాయి. రెండవది, మీరు పెద్ద ఆఫ్‌లైన్ పట్టికలతో వ్యవహరించాలి. మన్నికైన డేటాను అనేక పెటాబైట్ల పరిమాణంలో ఉండే పట్టికలలో నిల్వ చేయవచ్చు. దీని వలన స్కాన్ వేగం తగ్గుతుంది. మూడవది, అస్థిర డేటాపై మేము ఖచ్చితంగా SLA వర్గీకరణకు కట్టుబడి ఉండాలి. ఇది వ్యవస్థను అత్యంత సమర్థవంతమైన, వేగవంతమైన మరియు ఖచ్చితమైనదిగా బలవంతం చేస్తుంది. చివరగా, మేము నిజ-సమయ వర్గీకరణను అలాగే ఇంటర్నెట్ వినియోగ కేసులను నిర్వహించడానికి అస్థిర డేటా కోసం తక్కువ జాప్యం డేటా వర్గీకరణను అందించాలి.

ఈ పేపర్ మేము పైన ఉన్న సవాళ్లతో ఎలా వ్యవహరించామో వివరిస్తుంది మరియు సాధారణ లక్షణాల ఆధారంగా అన్ని రకాలు, ఫార్మాట్‌లు మరియు మూలాల డేటా మూలకాలను వర్గీకరించే వేగవంతమైన మరియు స్కేలబుల్ వర్గీకరణ వ్యవస్థను అందిస్తుంది. మేము సిస్టమ్ నిర్మాణాన్ని విస్తరించాము మరియు ఆఫ్‌లైన్ మరియు ఆన్‌లైన్ డేటాను త్వరగా వర్గీకరించడానికి అనుకూల మెషీన్ లెర్నింగ్ మోడల్‌ని సృష్టించాము. ఈ పత్రం క్రింది విధంగా నిర్వహించబడింది: విభాగం 2 వ్యవస్థ యొక్క మొత్తం రూపకల్పనను అందిస్తుంది. విభాగం 3 యంత్ర అభ్యాస వ్యవస్థ యొక్క భాగాలను చర్చిస్తుంది. సెక్షన్లు 4 మరియు 5 సంబంధిత పనిని హైలైట్ చేస్తాయి మరియు పని యొక్క భవిష్యత్తు దిశలను వివరిస్తాయి.

నిర్మాణం

నిరంతర మరియు Facebook-స్థాయి ఆన్‌లైన్ డేటా యొక్క సవాళ్లను ఎదుర్కోవటానికి, వర్గీకరణ వ్యవస్థలో రెండు వేర్వేరు స్ట్రీమ్‌లు ఉన్నాయి, వీటిని మేము వివరంగా చర్చిస్తాము.

స్థిరమైన డేటా

ప్రారంభంలో, సిస్టమ్ Facebook యొక్క అనేక సమాచార ఆస్తుల గురించి తెలుసుకోవాలి. ప్రతి రిపోజిటరీ కోసం, ఆ డేటాను కలిగి ఉన్న డేటా సెంటర్, ఆ డేటాను కలిగి ఉన్న సిస్టమ్ మరియు నిర్దిష్ట డేటా రిపోజిటరీలో ఉన్న ఆస్తులు వంటి కొన్ని ప్రాథమిక సమాచారం సేకరించబడుతుంది. ఇది ఇతర ఇంజనీర్లు ఉపయోగించే క్లయింట్లు మరియు వనరులను ఓవర్‌లోడ్ చేయకుండా డేటాను సమర్ధవంతంగా తిరిగి పొందేందుకు సిస్టమ్‌ను అనుమతించే మెటాడేటా కేటలాగ్‌ను సృష్టిస్తుంది.

ఈ మెటాడేటా కేటలాగ్ స్కాన్ చేయబడిన అన్ని ఆస్తులకు అధికారిక మూలాన్ని అందిస్తుంది మరియు వివిధ ఆస్తుల స్థితిని ట్రాక్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది. ఈ సమాచారాన్ని ఉపయోగించి, సిస్టమ్ నుండి సేకరించిన డేటా మరియు అంతర్గత సమాచారం ఆధారంగా షెడ్యూలింగ్ ప్రాధాన్యత ఏర్పడుతుంది, అంటే ఆస్తి చివరిసారిగా విజయవంతంగా స్కాన్ చేయబడిన సమయం మరియు అది సృష్టించబడిన సమయం, అలాగే ఆ ఆస్తికి గత మెమరీ మరియు CPU అవసరాలు ఇది ఇంతకు ముందు స్కాన్ చేయబడింది. అప్పుడు, ప్రతి డేటా వనరు కోసం (వనరులు అందుబాటులోకి వచ్చినప్పుడు), వాస్తవానికి వనరును స్కాన్ చేయడానికి ఉద్యోగం అంటారు.

ప్రతి ఉద్యోగం అనేది ప్రతి ఆస్తికి అందుబాటులో ఉన్న తాజా డేటాపై బెర్నౌలీ నమూనాను నిర్వహించే సంకలనం చేయబడిన బైనరీ ఫైల్. ఆస్తి వ్యక్తిగత నిలువు వరుసలుగా విభజించబడింది, ఇక్కడ ప్రతి నిలువు వరుస యొక్క వర్గీకరణ ఫలితం స్వతంత్రంగా ప్రాసెస్ చేయబడుతుంది. అదనంగా, సిస్టమ్ నిలువు వరుసలలో ఏదైనా సంతృప్త డేటా కోసం స్కాన్ చేస్తుంది. JSON, శ్రేణులు, ఎన్‌కోడ్ చేయబడిన నిర్మాణాలు, URLలు, బేస్ 64 సీరియలైజ్ చేసిన డేటా మరియు మరిన్ని అన్నీ స్కాన్ చేయబడతాయి. ఇది స్కాన్ ఎగ్జిక్యూషన్ సమయాన్ని గణనీయంగా పెంచుతుంది ఎందుకంటే ఒక టేబుల్‌లో వేలకొద్దీ సమూహ నిలువు వరుసలు ఉంటాయి json.

డేటా అసెట్‌లో ఎంపిక చేయబడిన ప్రతి అడ్డు వరుస కోసం, వర్గీకరణ వ్యవస్థ కంటెంట్ నుండి ఫ్లోట్ మరియు టెక్స్ట్ ఆబ్జెక్ట్‌లను సంగ్రహిస్తుంది మరియు ప్రతి వస్తువును అది తీసిన కాలమ్‌కు తిరిగి అనుబంధిస్తుంది. ఫీచర్ వెలికితీత దశ యొక్క అవుట్‌పుట్ అనేది డేటా ఆస్తిలో కనుగొనబడిన ప్రతి నిలువు వరుస కోసం అన్ని లక్షణాల మ్యాప్.

సంకేతాలు దేనికి?

గుణాల భావన కీలకం. ఫ్లోట్ మరియు టెక్స్ట్ లక్షణాలకు బదులుగా, మేము ప్రతి డేటా వనరు నుండి నేరుగా సంగ్రహించబడిన ముడి స్ట్రింగ్ నమూనాలను పాస్ చేయవచ్చు. అదనంగా, కేవలం నమూనాను అంచనా వేయడానికి ప్రయత్నించే వందలాది ఫీచర్ గణనల కంటే మెషిన్ లెర్నింగ్ మోడల్‌లు ప్రతి నమూనాపై నేరుగా శిక్షణ పొందవచ్చు. దీనికి అనేక కారణాలు ఉన్నాయి:

  1. ముందుగా గోప్యత: మరీ ముఖ్యంగా, ఫీచర్ల భావన మనం తిరిగి పొందే నమూనాలను మాత్రమే మెమరీలో నిల్వ చేయడానికి అనుమతిస్తుంది. మేము ఒకే ప్రయోజనం కోసం నమూనాలను నిల్వ చేస్తాము మరియు మా స్వంత ప్రయత్నాల ద్వారా వాటిని ఎప్పుడూ లాగిన్ చేయమని ఇది నిర్ధారిస్తుంది. అస్థిర డేటా కోసం ఇది చాలా ముఖ్యమైనది, ఎందుకంటే సేవ అంచనాను అందించే ముందు కొంత వర్గీకరణ స్థితిని నిర్వహించాలి.
  2. మెమరీ: కొన్ని నమూనాలు వేల అక్షరాల పొడవు ఉండవచ్చు. అటువంటి డేటాను నిల్వ చేయడం మరియు సిస్టమ్ యొక్క భాగాలకు ప్రసారం చేయడం అనవసరంగా అనేక అదనపు బైట్‌లను వినియోగిస్తుంది. వేలకొలది నిలువు వరుసలతో అనేక డేటా వనరులు ఉన్నందున, రెండు కారకాలు కాలక్రమేణా మిళితం అవుతాయి.
  3. ఫీచర్ అగ్రిగేషన్: ఫీచర్‌లు ప్రతి స్కాన్ ఫలితాలను లక్షణాల సమితి ద్వారా స్పష్టంగా సూచిస్తాయి, అదే డేటా వనరు యొక్క మునుపటి స్కాన్‌ల ఫలితాలను అనుకూలమైన మార్గంలో కలపడానికి సిస్టమ్‌ను అనుమతిస్తుంది. బహుళ పరుగుల అంతటా ఒకే డేటా వనరు నుండి స్కాన్ ఫలితాలను సమగ్రపరచడానికి ఇది ఉపయోగపడుతుంది.

ఫీచర్‌లు అంచనా సేవకు పంపబడతాయి, ఇక్కడ మేము ప్రతి నిలువు వరుస యొక్క డేటా లేబుల్‌లను అంచనా వేయడానికి నియమ-ఆధారిత వర్గీకరణ మరియు యంత్ర అభ్యాసాన్ని ఉపయోగిస్తాము. సేవ నియమ వర్గీకరణలు మరియు మెషిన్ లెర్నింగ్ రెండింటిపై ఆధారపడుతుంది మరియు ప్రతి ప్రిడిక్షన్ ఆబ్జెక్ట్ నుండి ఇవ్వబడిన ఉత్తమ అంచనాను ఎంచుకుంటుంది.

రూల్ వర్గీకరణలు మాన్యువల్ హ్యూరిస్టిక్స్, అవి 0 నుండి 100 పరిధికి ఒక వస్తువును సాధారణీకరించడానికి గణనలు మరియు గుణకాలను ఉపయోగిస్తాయి. అటువంటి ప్రారంభ స్కోర్ ప్రతి డేటా రకం మరియు ఆ డేటాతో అనుబంధించబడిన కాలమ్ పేరు కోసం రూపొందించబడిన తర్వాత, అది ఏ "నిషేధంలో చేర్చబడదు. జాబితాలు" ,రూల్ క్లాసిఫైయర్ అన్ని డేటా రకాల్లో అత్యధిక సాధారణీకరించిన స్కోర్‌ను ఎంచుకుంటుంది.

వర్గీకరణ యొక్క సంక్లిష్టత కారణంగా, కేవలం మాన్యువల్ హ్యూరిస్టిక్స్‌పై ఆధారపడటం వలన తక్కువ వర్గీకరణ ఖచ్చితత్వం వస్తుంది, ముఖ్యంగా నిర్మాణాత్మక డేటా కోసం. ఈ కారణంగా, వినియోగదారు కంటెంట్ మరియు చిరునామా వంటి నిర్మాణాత్మక డేటా వర్గీకరణతో పని చేయడానికి మేము మెషిన్ లెర్నింగ్ సిస్టమ్‌ను అభివృద్ధి చేసాము. మెషిన్ లెర్నింగ్ మాన్యువల్ హ్యూరిస్టిక్స్ నుండి దూరంగా వెళ్లడం మరియు అదనపు డేటా సిగ్నల్‌లను (ఉదా. నిలువు పేర్లు, డేటా ప్రోవెన్స్) వర్తింపజేయడం సాధ్యం చేసింది, గుర్తించే ఖచ్చితత్వాన్ని గణనీయంగా మెరుగుపరుస్తుంది. మేము తర్వాత మా మెషిన్ లెర్నింగ్ ఆర్కిటెక్చర్‌లో లోతుగా ప్రవేశిస్తాము.

ప్రిడిక్షన్ సర్వీస్ స్కాన్ సమయం మరియు స్థితికి సంబంధించిన మెటాడేటాతో పాటు ప్రతి నిలువు వరుస ఫలితాలను నిల్వ చేస్తుంది. ఈ డేటాపై ఆధారపడే ఏవైనా వినియోగదారులు మరియు దిగువ ప్రక్రియలు రోజువారీ ప్రచురించిన డేటాసెట్ నుండి దీన్ని చదవగలవు. ఈ సెట్ ఈ అన్ని స్కాన్ జాబ్‌ల ఫలితాలను లేదా రియల్-టైమ్ డేటా కేటలాగ్ APIలను సమగ్రపరుస్తుంది. ప్రచురించబడిన అంచనాలు గోప్యత మరియు భద్రతా విధానాలను స్వయంచాలకంగా అమలు చేయడానికి పునాది.

చివరగా, అంచనా సేవ మొత్తం డేటాను వ్రాసిన తర్వాత మరియు అన్ని అంచనాలు నిల్వ చేయబడిన తర్వాత, మా డేటా కేటలాగ్ API నిజ సమయంలో వనరు కోసం అన్ని డేటా రకం సూచనలను తిరిగి ఇవ్వగలదు. ప్రతి రోజు సిస్టమ్ ప్రతి ఆస్తికి సంబంధించిన అన్ని తాజా అంచనాలను కలిగి ఉన్న డేటాసెట్‌ను ప్రచురిస్తుంది.

అస్థిర డేటా

పై ప్రక్రియ స్థిరమైన ఆస్తుల కోసం రూపొందించబడినప్పటికీ, నిరంతర ట్రాఫిక్ కూడా సంస్థ యొక్క డేటాలో భాగంగా పరిగణించబడుతుంది మరియు ముఖ్యమైనది కావచ్చు. ఈ కారణంగా, ఏదైనా అడపాదడపా ట్రాఫిక్ కోసం నిజ-సమయ వర్గీకరణ అంచనాలను రూపొందించడానికి సిస్టమ్ ఆన్‌లైన్ APIని అందిస్తుంది. అవుట్‌బౌండ్ ట్రాఫిక్, ఇన్‌బౌండ్ ట్రాఫిక్‌ను మెషిన్ లెర్నింగ్ మోడల్‌లు మరియు అడ్వర్టైజర్ డేటాగా వర్గీకరించడంలో రియల్ టైమ్ ఫోర్‌కాస్టింగ్ సిస్టమ్ విస్తృతంగా ఉపయోగించబడుతుంది.

ఇక్కడ API రెండు ప్రధాన వాదనలను తీసుకుంటుంది: గ్రూపింగ్ కీ మరియు అంచనా వేయవలసిన ముడి డేటా. సేవ పైన వివరించిన విధంగా అదే ఆబ్జెక్ట్ రిట్రీవల్‌ను నిర్వహిస్తుంది మరియు ఒకే కీ కోసం వస్తువులను సమూహపరుస్తుంది. వైఫల్య పునరుద్ధరణ కోసం నిలకడ కాష్‌లో కూడా ఈ ఫీచర్‌లకు మద్దతు ఉంది. ప్రతి సమూహ కీ కోసం, పైన వివరించిన ప్రక్రియను అనుసరించి ప్రిడిక్షన్ సర్వీస్‌కి కాల్ చేయడానికి ముందు తగినన్ని నమూనాలను చూసినట్లు సేవ నిర్ధారిస్తుంది.

ఆప్టిమైజేషన్

కొన్ని స్టోరేజ్‌లను స్కాన్ చేయడానికి, మేము హాట్ స్టోరేజ్ [2] నుండి రీడింగ్‌ని ఆప్టిమైజ్ చేయడానికి లైబ్రరీలు మరియు టెక్నిక్‌లను ఉపయోగిస్తాము మరియు అదే స్టోరేజ్‌ని యాక్సెస్ చేసే ఇతర యూజర్‌ల నుండి ఎటువంటి అంతరాయాలు లేవని నిర్ధారిస్తాము.

చాలా పెద్ద పట్టికల కోసం (50+ పెటాబైట్‌లు), అన్ని ఆప్టిమైజేషన్‌లు మరియు మెమరీ సామర్థ్యం ఉన్నప్పటికీ, సిస్టమ్ మెమరీ అయిపోకముందే ప్రతిదీ స్కాన్ చేయడానికి మరియు గణించడానికి పని చేస్తుంది. అన్నింటికంటే, స్కాన్ పూర్తిగా మెమరీలో లెక్కించబడుతుంది మరియు స్కాన్ సమయంలో నిల్వ చేయబడదు. పెద్ద పట్టికలు నిర్మాణాత్మకంగా లేని డేటా క్లంప్‌లతో వేలకొద్దీ నిలువు వరుసలను కలిగి ఉంటే, మొత్తం టేబుల్‌పై అంచనాలను అమలు చేస్తున్నప్పుడు తగినంత మెమరీ వనరుల కారణంగా ఉద్యోగం విఫలం కావచ్చు. దీనివల్ల కవరేజీ తగ్గుతుంది. దీన్ని ఎదుర్కోవడానికి, సిస్టమ్ ప్రస్తుత పనిభారాన్ని ఎంతవరకు నిర్వహిస్తుందనే దాని కోసం ప్రాక్సీగా స్కాన్ వేగాన్ని ఉపయోగించడానికి మేము సిస్టమ్‌ను ఆప్టిమైజ్ చేసాము. మెమరీ సమస్యలను చూడటానికి మరియు ఫీచర్ మ్యాప్‌ను అంచనా వేయడానికి మేము వేగాన్ని అంచనా వేసే విధానంగా ఉపయోగిస్తాము. అదే సమయంలో, మేము సాధారణం కంటే తక్కువ డేటాను ఉపయోగిస్తాము.

డేటా సంకేతాలు

వర్గీకరణ వ్యవస్థ డేటా నుండి వచ్చే సిగ్నల్‌ల వలె మాత్రమే మంచిది. ఇక్కడ మేము వర్గీకరణ వ్యవస్థ ఉపయోగించే అన్ని సంకేతాలను పరిశీలిస్తాము.

  • కంటెంట్ ఆధారితం: వాస్తవానికి, మొదటి మరియు అతి ముఖ్యమైన సిగ్నల్ కంటెంట్. మేము డేటా కంటెంట్ ఆధారంగా ఫీచర్‌లను స్కాన్ చేసి, సంగ్రహించే ప్రతి డేటా ఆస్తిపై బెర్నౌలీ నమూనా నిర్వహించబడుతుంది. కంటెంట్ నుండి చాలా సంకేతాలు వస్తాయి. ఏవైనా తేలియాడే వస్తువులు సాధ్యమే, ఇది నిర్దిష్ట నమూనా రకం ఎన్నిసార్లు కనిపించింది అనే గణనలను సూచిస్తుంది. ఉదాహరణకు, నమూనాలో ఎన్ని ఇమెయిల్‌లు కనిపించాయనే సంకేతాలు లేదా నమూనాలో ఎన్ని ఎమోజీలు కనిపించాయనే సంకేతాలను మేము కలిగి ఉండవచ్చు. విభిన్న స్కాన్‌లలో ఈ ఫీచర్ గణనలను సాధారణీకరించవచ్చు మరియు సమగ్రపరచవచ్చు.
  • డేటా మూలాధారం: పేరెంట్ టేబుల్ నుండి కంటెంట్ మారినప్పుడు సహాయపడే ముఖ్యమైన సిగ్నల్. ఒక సాధారణ ఉదాహరణ హాష్ చేసిన డేటా. చైల్డ్ టేబుల్‌లోని డేటా హ్యాష్ చేయబడినప్పుడు, అది తరచుగా పేరెంట్ టేబుల్ నుండి వస్తుంది, అక్కడ అది స్పష్టంగా ఉంటుంది. నిర్దిష్ట రకాల డేటా స్పష్టంగా చదవనప్పుడు లేదా అప్‌స్ట్రీమ్ టేబుల్ నుండి మార్చబడినప్పుడు వాటిని వర్గీకరించడానికి వంశ డేటా సహాయపడుతుంది.
  • ఉల్లేఖనాలు: నిర్మాణాత్మక డేటాను గుర్తించడంలో సహాయపడే మరొక అధిక-నాణ్యత సిగ్నల్. వాస్తవానికి, ఉల్లేఖనాలు మరియు రుజువు డేటా వేర్వేరు డేటా ఆస్తులలో గుణాలను ప్రచారం చేయడానికి కలిసి పని చేయవచ్చు. అన్‌స్ట్రక్చర్డ్ డేటా యొక్క మూలాన్ని గుర్తించడంలో ఉల్లేఖనాలు సహాయపడతాయి, అయితే వంశ డేటా రిపోజిటరీ అంతటా ఆ డేటా యొక్క ప్రవాహాన్ని ట్రాక్ చేయడంలో సహాయపడుతుంది.
  • డేటా ఇంజెక్షన్ అనేది ప్రత్యేకమైన, చదవలేని అక్షరాలు ఉద్దేశపూర్వకంగా తెలిసిన డేటా రకాల తెలిసిన మూలాల్లోకి ప్రవేశపెట్టబడే సాంకేతికత. ఆపై, మేము అదే చదవలేని అక్షర క్రమంతో కంటెంట్‌ని స్కాన్ చేసినప్పుడు, ఆ కంటెంట్ తెలిసిన డేటా రకం నుండి వస్తుందని మేము ఊహించవచ్చు. ఇది ఉల్లేఖనాల మాదిరిగానే మరొక గుణాత్మక డేటా సిగ్నల్. కంటెంట్-ఆధారిత గుర్తింపు నమోదు చేసిన డేటాను కనుగొనడంలో సహాయపడుతుంది.

కొలమానాలు

కొలమానాలను కొలిచే ఒక కఠినమైన పద్దతి ఒక ముఖ్యమైన భాగం. వర్గీకరణ మెరుగుదల పునరావృతం యొక్క ప్రధాన కొలమానాలు ప్రతి లేబుల్ యొక్క ఖచ్చితత్వం మరియు రీకాల్, F2 స్కోర్ అత్యంత ముఖ్యమైనది.

ఈ కొలమానాలను గణించడానికి, డేటా ఆస్తులను లేబులింగ్ చేయడానికి ఒక స్వతంత్ర పద్దతి అవసరం, అది సిస్టమ్ నుండి స్వతంత్రంగా ఉంటుంది, కానీ దానితో ప్రత్యక్ష పోలిక కోసం ఉపయోగించవచ్చు. మేము Facebook నుండి గ్రౌండ్ ట్రూత్‌ని ఎలా సేకరిస్తాము మరియు మా వర్గీకరణ వ్యవస్థకు శిక్షణ ఇవ్వడానికి దానిని ఎలా ఉపయోగిస్తాము అనేదానిని మేము క్రింద వివరిస్తాము.

విశ్వసనీయ డేటా సేకరణ

మేము దిగువ జాబితా చేయబడిన ప్రతి మూలాధారం నుండి విశ్వసనీయమైన డేటాను దాని స్వంత పట్టికలో సేకరిస్తాము. ప్రతి పట్టిక నిర్దిష్ట మూలం నుండి తాజా గమనించిన విలువలను సమగ్రపరచడానికి బాధ్యత వహిస్తుంది. ప్రతి మూలం కోసం గమనించిన విలువలు అధిక నాణ్యతతో ఉన్నాయని మరియు తాజా డేటా రకం లేబుల్‌లను కలిగి ఉన్నాయని నిర్ధారించడానికి ప్రతి మూలం డేటా నాణ్యత తనిఖీలను కలిగి ఉంటుంది.

  • లాగింగ్ ప్లాట్‌ఫారమ్ కాన్ఫిగరేషన్‌లు: హైవ్ టేబుల్‌లలోని కొన్ని ఫీల్డ్‌లు నిర్దిష్ట రకం డేటాతో నిండి ఉంటాయి. ఈ డేటా యొక్క ఉపయోగం మరియు వ్యాప్తి సత్యం యొక్క నమ్మకమైన మూలంగా పనిచేస్తుంది.
  • మాన్యువల్ లేబులింగ్: సిస్టమ్‌ను నిర్వహించే డెవలపర్‌లు అలాగే బాహ్య లేబులర్‌లు నిలువు వరుసలను లేబుల్ చేయడానికి శిక్షణ పొందుతారు. ఇది సాధారణంగా వేర్‌హౌస్‌లోని అన్ని రకాల డేటాకు బాగా పని చేస్తుంది మరియు మెసేజ్ డేటా లేదా యూజర్ కంటెంట్ వంటి కొన్ని నిర్మాణాత్మక డేటాకు సత్యం యొక్క ప్రాథమిక మూలం కావచ్చు.
  • పేరెంట్ టేబుల్‌ల నుండి నిలువు వరుసలు నిర్దిష్ట డేటాను కలిగి ఉన్నట్లు గుర్తించబడతాయి లేదా ఉల్లేఖించబడతాయి మరియు మేము ఆ డేటాను పిల్లల పట్టికలలో ట్రాక్ చేయవచ్చు.
  • ఎగ్జిక్యూషన్ థ్రెడ్‌లను పొందడం: Facebookలోని ఎగ్జిక్యూషన్ థ్రెడ్‌లు నిర్దిష్ట రకాల డేటాను కలిగి ఉంటాయి. మా స్కానర్‌ను సర్వీస్ ఆర్కిటెక్చర్‌గా ఉపయోగించి, మేము తెలిసిన డేటా రకాలను కలిగి ఉన్న స్ట్రీమ్‌లను నమూనా చేయవచ్చు మరియు వాటిని సిస్టమ్ ద్వారా పంపవచ్చు. సిస్టమ్ ఈ డేటాను నిల్వ చేయదని వాగ్దానం చేస్తుంది.
  • నమూనా పట్టికలు: మొత్తం డేటా కార్పస్‌ని కలిగి ఉన్న పెద్ద హైవ్ టేబుల్‌లను శిక్షణ డేటాగా కూడా ఉపయోగించవచ్చు మరియు స్కానర్ ద్వారా సేవగా పంపవచ్చు. పూర్తి స్థాయి డేటా రకాలను కలిగి ఉన్న పట్టికలకు ఇది చాలా బాగుంది, తద్వారా నిలువు వరుసను యాదృచ్ఛికంగా నమూనా చేయడం ఆ డేటా రకం యొక్క మొత్తం సెట్‌ను నమూనా చేయడానికి సమానం.
  • సింథటిక్ డేటా: మేము ఫ్లైలో డేటాను రూపొందించే లైబ్రరీలను కూడా ఉపయోగించవచ్చు. ఇది చిరునామా లేదా GPS వంటి సాధారణ, పబ్లిక్ డేటా రకాలకు బాగా పని చేస్తుంది.
  • డేటా స్టీవార్డ్స్: గోప్యతా ప్రోగ్రామ్‌లు సాధారణంగా డేటా ముక్కలకు విధానాలను మాన్యువల్‌గా కేటాయించడానికి డేటా స్టీవార్డ్‌లను ఉపయోగిస్తాయి. ఇది నిజం యొక్క అత్యంత ఖచ్చితమైన మూలంగా పనిచేస్తుంది.

మేము సత్యం యొక్క ప్రతి ప్రధాన మూలాన్ని ఆ డేటా మొత్తంతో ఒక కార్పస్‌గా కలుపుతాము. ఇది డేటా రిపోజిటరీకి ప్రతినిధిగా ఉందని నిర్ధారించుకోవడం చెల్లుబాటుతో ఉన్న అతిపెద్ద సవాలు. లేకపోతే, వర్గీకరణ ఇంజిన్లు ఓవర్‌ట్రైన్ కావచ్చు. దీన్ని ఎదుర్కోవడానికి, మోడల్‌లకు శిక్షణ ఇస్తున్నప్పుడు లేదా కొలమానాలను లెక్కించేటప్పుడు బ్యాలెన్స్‌ని నిర్ధారించడానికి పైన పేర్కొన్న అన్ని మూలాధారాలు ఉపయోగించబడతాయి. అదనంగా, మానవ లేబులర్‌లు రిపోజిటరీలోని వివిధ నిలువు వరుసలను ఏకరీతిగా నమూనా చేస్తారు మరియు తదనుగుణంగా డేటాను లేబుల్ చేస్తారు, తద్వారా గ్రౌండ్ ట్రూత్ సేకరణ నిష్పాక్షికంగా ఉంటుంది.

నిరంతర ఏకీకరణ

వేగవంతమైన పునరావృతం మరియు మెరుగుదలని నిర్ధారించడానికి, ఎల్లప్పుడూ నిజ సమయంలో సిస్టమ్ పనితీరును కొలవడం ముఖ్యం. మేము ఈ రోజు సిస్టమ్‌కు వ్యతిరేకంగా ప్రతి వర్గీకరణ మెరుగుదలని కొలవగలము, కాబట్టి మేము డేటా ఆధారంగా భవిష్యత్తు మెరుగుదలలను వ్యూహాత్మకంగా మార్గనిర్దేశం చేయవచ్చు. చెల్లుబాటు అయ్యే డేటా ద్వారా అందించబడిన ఫీడ్‌బ్యాక్ లూప్‌ను సిస్టమ్ ఎలా పూర్తి చేస్తుందో ఇక్కడ చూద్దాం.

షెడ్యూలింగ్ సిస్టమ్ విశ్వసనీయ మూలం నుండి లేబుల్‌ను కలిగి ఉన్న ఆస్తిని ఎదుర్కొన్నప్పుడు, మేము రెండు టాస్క్‌లను షెడ్యూల్ చేస్తాము. మొదటిది మా ఉత్పత్తి స్కానర్‌ను ఉపయోగిస్తుంది మరియు తద్వారా మా ఉత్పత్తి సామర్థ్యాలు. రెండవ టాస్క్ తాజా ఫీచర్‌లతో సరికొత్త బిల్డ్ స్కానర్‌ని ఉపయోగిస్తుంది. ప్రతి టాస్క్ దాని అవుట్‌పుట్‌ను దాని స్వంత టేబుల్‌కి వ్రాస్తుంది, వర్గీకరణ ఫలితాలతో పాటు సంస్కరణలను ట్యాగ్ చేస్తుంది.

నిజ సమయంలో విడుదల అభ్యర్థి మరియు ఉత్పత్తి నమూనా యొక్క వర్గీకరణ ఫలితాలను మేము ఈ విధంగా పోల్చాము.

డేటాసెట్‌లు RC మరియు PROD ఫీచర్‌లను పోల్చినప్పుడు, ప్రిడిక్షన్ సర్వీస్ యొక్క ML వర్గీకరణ ఇంజిన్ యొక్క అనేక వైవిధ్యాలు లాగ్ చేయబడ్డాయి. ఇటీవల రూపొందించిన మెషీన్ లెర్నింగ్ మోడల్, ఉత్పత్తిలో ప్రస్తుత మోడల్ మరియు ఏదైనా ప్రయోగాత్మక నమూనాలు. అదే విధానం మోడల్ యొక్క విభిన్న వెర్షన్‌లను "స్లైస్" చేయడానికి (మా రూల్ వర్గీకరణదారులకు అజ్ఞాతవాసి) మరియు నిజ సమయంలో కొలమానాలను సరిపోల్చడానికి అనుమతిస్తుంది. ఇది ML ప్రయోగం ఎప్పుడు ఉత్పత్తికి సిద్ధంగా ఉందో గుర్తించడం సులభం చేస్తుంది.

ప్రతి రాత్రి, ఆ రోజు కోసం లెక్కించిన RC ఫీచర్‌లు ML ట్రైనింగ్ పైప్‌లైన్‌కి పంపబడతాయి, ఇక్కడ మోడల్ తాజా RC ఫీచర్‌లపై శిక్షణ పొందింది మరియు గ్రౌండ్ ట్రూత్ డేటాసెట్‌కు వ్యతిరేకంగా దాని పనితీరును అంచనా వేస్తుంది.

ప్రతి ఉదయం, మోడల్ శిక్షణను పూర్తి చేస్తుంది మరియు ప్రయోగాత్మక నమూనాగా స్వయంచాలకంగా ప్రచురించబడుతుంది. ఇది ప్రయోగాత్మక జాబితాలో స్వయంచాలకంగా చేర్చబడుతుంది.

కొన్ని ఫలితాలు

100 కంటే ఎక్కువ విభిన్న రకాల డేటా అధిక ఖచ్చితత్వంతో లేబుల్ చేయబడింది. ఇమెయిల్‌లు మరియు ఫోన్ నంబర్‌లు వంటి చక్కటి నిర్మాణాత్మక రకాలు 2 కంటే ఎక్కువ f0,95 స్కోర్‌తో వర్గీకరించబడ్డాయి. వినియోగదారు సృష్టించిన కంటెంట్ మరియు పేరు వంటి ఉచిత డేటా రకాలు కూడా 2 కంటే ఎక్కువ F0,85 స్కోర్‌లతో బాగా పని చేస్తాయి.

నిరంతర మరియు అస్థిర డేటా యొక్క పెద్ద సంఖ్యలో వ్యక్తిగత నిలువు వరుసలు అన్ని రిపోజిటరీలలో ప్రతిరోజూ వర్గీకరించబడతాయి. 500 కంటే ఎక్కువ డేటా వేర్‌హౌస్‌లలో ప్రతిరోజూ 10 కంటే ఎక్కువ టెరాబైట్‌లు స్కాన్ చేయబడతాయి. ఈ రిపోజిటరీలలో ఎక్కువ భాగం 98% కంటే ఎక్కువ కవరేజీని కలిగి ఉన్నాయి.

కాలక్రమేణా, వర్గీకరణ చాలా ప్రభావవంతంగా మారింది, స్థిరమైన ఆఫ్‌లైన్ స్ట్రీమ్‌లో వర్గీకరణ ఉద్యోగాలు ఒక ఆస్తిని స్కాన్ చేయడం నుండి ప్రతి నిలువు వరుస కోసం అంచనాలను లెక్కించడం వరకు సగటున 35 సెకన్లు తీసుకుంటాయి.

భద్రత మరియు గోప్యత కోసం స్కేలబుల్ డేటా వర్గీకరణ
అన్నం. 2. RC వస్తువులు ఎలా ఉత్పత్తి చేయబడతాయో మరియు మోడల్‌కు ఎలా పంపబడతాయో అర్థం చేసుకోవడానికి నిరంతర ఏకీకరణ ప్రవాహాన్ని వివరించే రేఖాచిత్రం.

భద్రత మరియు గోప్యత కోసం స్కేలబుల్ డేటా వర్గీకరణ
మూర్తి 3. మెషిన్ లెర్నింగ్ భాగం యొక్క ఉన్నత-స్థాయి రేఖాచిత్రం.

మెషిన్ లెర్నింగ్ సిస్టమ్ భాగం

మునుపటి విభాగంలో, మేము మొత్తం సిస్టమ్ ఆర్కిటెక్చర్, హైలైట్ స్కేల్, ఆప్టిమైజేషన్ మరియు ఆఫ్‌లైన్ మరియు ఆన్‌లైన్ డేటా ఫ్లోలను లోతుగా పరిశీలించాము. ఈ విభాగంలో, మేము అంచనా సేవను పరిశీలిస్తాము మరియు అంచనా సేవకు శక్తినిచ్చే యంత్ర అభ్యాస వ్యవస్థను వివరిస్తాము.

100 కంటే ఎక్కువ డేటా రకాలు మరియు సందేశ డేటా మరియు వినియోగదారు కంటెంట్ వంటి కొన్ని నిర్మాణాత్మక కంటెంట్‌తో, పూర్తిగా మాన్యువల్ హ్యూరిస్టిక్‌లను ఉపయోగించడం వలన సబ్‌పారామెట్రిక్ వర్గీకరణ ఖచ్చితత్వం లభిస్తుంది, ముఖ్యంగా నిర్మాణాత్మక డేటా కోసం. ఈ కారణంగా, నిర్మాణాత్మక డేటా యొక్క సంక్లిష్టతలను ఎదుర్కోవటానికి మేము మెషిన్ లెర్నింగ్ సిస్టమ్‌ను కూడా అభివృద్ధి చేసాము. మెషిన్ లెర్నింగ్‌ని ఉపయోగించడం వలన మీరు మాన్యువల్ హ్యూరిస్టిక్స్ నుండి దూరంగా వెళ్లడం ప్రారంభించవచ్చు మరియు ఖచ్చితత్వాన్ని మెరుగుపరచడానికి ఫీచర్లు మరియు అదనపు డేటా సిగ్నల్‌లతో (ఉదాహరణకు, కాలమ్ పేర్లు, డేటా మూలం) పని చేయవచ్చు.

అమలు చేయబడిన నమూనా దట్టమైన మరియు చిన్న వస్తువులపై వెక్టర్ ప్రాతినిధ్యాలను [3] విడిగా అధ్యయనం చేస్తుంది. ఇవి వెక్టార్‌ను ఏర్పరుస్తాయి, ఇది బ్యాచ్ సాధారణీకరణ [4] మరియు తుది ఫలితాన్ని ఉత్పత్తి చేయడానికి నాన్‌లీనియారిటీ దశల ద్వారా వెళుతుంది. తుది ఫలితం ప్రతి లేబుల్‌కు [0-1] మధ్య ఫ్లోటింగ్ పాయింట్ సంఖ్య, ఉదాహరణ ఆ సున్నితత్వ రకానికి చెందినదనే సంభావ్యతను సూచిస్తుంది. మోడల్ కోసం PyTorchని ఉపయోగించడం వలన మేము వేగంగా కదలగలుగుతాము, జట్టు వెలుపల ఉన్న డెవలపర్‌లు త్వరగా మార్పులు చేయడానికి మరియు పరీక్షించడానికి అనుమతిస్తుంది.

వాస్తుశిల్పాన్ని రూపొందించేటప్పుడు, వాటి స్వాభావిక వ్యత్యాసాల కారణంగా చిన్న (ఉదా. వచనం) మరియు దట్టమైన (ఉదా సంఖ్యా) వస్తువులను విడివిడిగా మోడల్ చేయడం ముఖ్యం. చివరి ఆర్కిటెక్చర్ కోసం, అభ్యాస రేటు, బ్యాచ్ పరిమాణం మరియు ఇతర హైపర్‌పారామీటర్‌ల కోసం సరైన విలువను కనుగొనడానికి పారామీటర్ స్వీప్ చేయడం కూడా ముఖ్యం. ఆప్టిమైజర్ ఎంపిక కూడా ఒక ముఖ్యమైన హైపర్‌పారామీటర్. మేము జనాదరణ పొందిన ఆప్టిమైజర్‌ని కనుగొన్నాము ఆడంతరచుగా అతిగా అమర్చడానికి దారితీస్తుంది, అయితే ఒక మోడల్ SGD మరింత స్థిరంగా. మేము నేరుగా మోడల్‌లో చేర్చవలసిన అదనపు సూక్ష్మ నైపుణ్యాలు ఉన్నాయి. ఉదాహరణకు, ఒక ఫీచర్ నిర్దిష్ట విలువను కలిగి ఉన్నప్పుడు మోడల్ నిర్ణీత అంచనాను చేస్తుందని నిర్ధారించే స్టాటిక్ నియమాలు. ఈ స్టాటిక్ నియమాలు మా క్లయింట్లచే నిర్వచించబడ్డాయి. ఈ ప్రత్యేక ఎడ్జ్ కేసులను నిర్వహించడానికి పోస్ట్-ప్రాసెసింగ్ దశను అమలు చేయడానికి విరుద్ధంగా, వాటిని నేరుగా మోడల్‌లో చేర్చడం వలన మరింత స్వీయ-నియంత్రణ మరియు పటిష్టమైన నిర్మాణం ఏర్పడిందని మేము కనుగొన్నాము. గ్రేడియంట్ డీసెంట్ శిక్షణ ప్రక్రియలో జోక్యం చేసుకోకుండా శిక్షణ సమయంలో ఈ నియమాలు నిలిపివేయబడతాయని కూడా గమనించండి.

సమస్యలు

సవాళ్లలో ఒకటి అధిక-నాణ్యత, నమ్మదగిన డేటాను సేకరించడం. మోడల్‌కు ప్రతి తరగతికి విశ్వాసం అవసరం, తద్వారా అది వస్తువులు మరియు లేబుల్‌ల మధ్య అనుబంధాలను నేర్చుకోగలదు. మునుపటి విభాగంలో, మేము సిస్టమ్ కొలత మరియు మోడల్ శిక్షణ రెండింటికీ డేటా సేకరణ పద్ధతులను చర్చించాము. క్రెడిట్ కార్డ్ మరియు బ్యాంక్ ఖాతా నంబర్‌ల వంటి డేటా తరగతులు మా గిడ్డంగిలో చాలా సాధారణం కాదని విశ్లేషణలో తేలింది. ఇది మోడల్‌లకు శిక్షణ ఇవ్వడానికి పెద్ద మొత్తంలో విశ్వసనీయ డేటాను సేకరించడం కష్టతరం చేస్తుంది. ఈ సమస్యను పరిష్కరించడానికి, మేము ఈ తరగతుల కోసం సింథటిక్ గ్రౌండ్ ట్రూత్ డేటాను పొందడం కోసం ప్రక్రియలను అభివృద్ధి చేసాము. మేము సున్నితమైన రకాలతో సహా అటువంటి డేటాను రూపొందిస్తాము ఎస్ఎస్ఎన్, క్రెడిట్ కార్డ్ నంబర్లు и IBANమోడల్ ఇంతకు ముందు అంచనా వేయలేని సంఖ్యలు. ఈ విధానం అసలు సున్నితమైన డేటాను దాచడం వల్ల కలిగే గోప్యతా ప్రమాదాలు లేకుండా సున్నితమైన డేటా రకాలను ప్రాసెస్ చేయడానికి అనుమతిస్తుంది.

గ్రౌండ్ ట్రూత్ సమస్యలతో పాటు, మేము పని చేస్తున్న ఓపెన్ ఆర్కిటెక్చరల్ సమస్యలు ఉన్నాయి ఐసోలేషన్‌ని మార్చండి и ప్రారంభ స్టాప్. నెట్‌వర్క్‌లోని వివిధ భాగాలకు వేర్వేరు మార్పులు చేసినప్పుడు, ప్రభావం నిర్దిష్ట తరగతులకు వేరు చేయబడిందని మరియు మొత్తం అంచనా పనితీరుపై విస్తృత ప్రభావాన్ని చూపదని నిర్ధారించడానికి మార్పు ఐసోలేషన్ ముఖ్యం. ముందస్తుగా నిలిపివేసే ప్రమాణాలను మెరుగుపరచడం కూడా చాలా కీలకం, తద్వారా కొన్ని తరగతులు ఓవర్‌ట్రెయిన్ చేసే మరియు ఇతరులు చేయని పాయింట్‌లో కాకుండా అన్ని తరగతులకు స్థిరమైన పాయింట్‌లో శిక్షణ ప్రక్రియను ఆపవచ్చు.

ఫీచర్ ప్రాముఖ్యత

మోడల్‌లో కొత్త ఫీచర్ ప్రవేశపెట్టబడినప్పుడు, మోడల్‌పై దాని మొత్తం ప్రభావాన్ని మేము తెలుసుకోవాలనుకుంటున్నాము. ప్రతి రకమైన డేటాకు ఏ ఫీచర్లు ఉపయోగించబడుతున్నాయో ఖచ్చితంగా అర్థం చేసుకోవడానికి, అంచనాలు మానవులకు అర్థమయ్యేలా ఉన్నాయని కూడా మేము నిర్ధారించుకోవాలనుకుంటున్నాము. ఈ ప్రయోజనం కోసం మేము అభివృద్ధి మరియు పరిచయం తరగతి ద్వారా PyTorch మోడల్ కోసం లక్షణాల యొక్క ప్రాముఖ్యత. ఇది సాధారణంగా మద్దతిచ్చే మొత్తం ఫీచర్ ప్రాముఖ్యత నుండి భిన్నంగా ఉంటుందని గమనించండి, ఎందుకంటే నిర్దిష్ట తరగతికి ఏ ఫీచర్లు ముఖ్యమైనవో ఇది మాకు చెప్పదు. వస్తువును పునర్వ్యవస్థీకరించిన తర్వాత అంచనా లోపం పెరుగుదలను లెక్కించడం ద్వారా మేము ఒక వస్తువు యొక్క ప్రాముఖ్యతను కొలుస్తాము. విలువలను మార్చుకోవడం మోడల్ యొక్క లోపాన్ని పెంచుతున్నప్పుడు ఒక లక్షణం "ముఖ్యమైనది" ఎందుకంటే ఈ సందర్భంలో మోడల్ దాని అంచనా వేయడానికి ఫీచర్‌పై ఆధారపడుతుంది. ఒక లక్షణం దాని విలువలను షఫుల్ చేసినప్పుడు "ముఖ్యమైనది కాదు" మోడల్ లోపం మారదు, ఎందుకంటే ఈ సందర్భంలో మోడల్ దానిని విస్మరించింది [5].

ప్రతి తరగతికి సంబంధించిన ఫీచర్ యొక్క ప్రాముఖ్యత మోడల్‌ను అర్థమయ్యేలా చేయడానికి అనుమతిస్తుంది, తద్వారా లేబుల్‌ను అంచనా వేసేటప్పుడు మోడల్ ఏమి చూస్తుందో మనం చూడవచ్చు. ఉదాహరణకు, మేము విశ్లేషించినప్పుడు ADDR, అప్పుడు మేము చిరునామాతో అనుబంధించబడిన గుర్తుకు హామీ ఇస్తున్నాము అడ్రస్ లైన్స్ కౌంట్, ప్రతి తరగతికి సంబంధించిన ఫీచర్ ఇంపార్టెన్స్ టేబుల్‌లో అధిక ర్యాంక్‌ను కలిగి ఉంటుంది, తద్వారా మోడల్ నేర్చుకున్న దానితో మన మానవ అంతర్ దృష్టి బాగా సరిపోతుంది.

మూల్యాంకనం

విజయం కోసం ఒకే మెట్రిక్‌ని నిర్వచించడం ముఖ్యం. మేము ఎంచుకున్నాము F2 - రీకాల్ మరియు ఖచ్చితత్వం మధ్య సంతులనం (రీకాల్ బయాస్ కొంచెం పెద్దది). గోప్యతా వినియోగ సందర్భంలో ఖచ్చితత్వం కంటే రీకాల్ చేయడం చాలా ముఖ్యం ఎందుకంటే బృందం ఎటువంటి సున్నితమైన డేటాను కోల్పోకుండా ఉండటం (సహేతుకమైన ఖచ్చితత్వాన్ని నిర్ధారించేటప్పుడు) కీలకం. మా మోడల్ యొక్క వాస్తవ F2 పనితీరు మూల్యాంకనం ఈ పేపర్ పరిధికి మించినది. అయినప్పటికీ, జాగ్రత్తగా ట్యూనింగ్ చేయడం ద్వారా మనం అత్యంత ముఖ్యమైన సున్నితమైన తరగతులకు అధిక (0,9+) F2 స్కోర్‌లను సాధించవచ్చు.

సంబంధిత పని

నమూనా సరిపోలిక, డాక్యుమెంట్ సారూప్యత శోధన మరియు వివిధ యంత్ర అభ్యాస పద్ధతులు (బయేసియన్, డెసిషన్ ట్రీలు, k-సమీప పొరుగువారు మరియు అనేక ఇతరాలు) [6] వంటి వివిధ పద్ధతులను ఉపయోగించి నిర్మాణాత్మక పత్రాల యొక్క స్వయంచాలక వర్గీకరణ కోసం అనేక అల్గారిథమ్‌లు ఉన్నాయి. వీటిలో దేనినైనా వర్గీకరణలో భాగంగా ఉపయోగించవచ్చు. అయితే, సమస్య స్కేలబిలిటీ. ఈ వ్యాసంలోని వర్గీకరణ విధానం వశ్యత మరియు పనితీరు పట్ల పక్షపాతంతో ఉంటుంది. ఇది భవిష్యత్తులో కొత్త తరగతులకు మద్దతు ఇవ్వడానికి మరియు జాప్యాన్ని తక్కువగా ఉంచడానికి అనుమతిస్తుంది.

డేటా ఫింగర్ ప్రింటింగ్‌పై కూడా చాలా పని ఉంది. ఉదాహరణకు, [7]లోని రచయితలు సున్నితమైన డేటా లీక్‌లను సంగ్రహించే సమస్యపై దృష్టి సారించే పరిష్కారాన్ని వివరించారు. తెలిసిన సెన్సిటివ్ డేటా సెట్‌తో సరిపోలడానికి డేటా వేలిముద్ర వేయబడుతుందనేది అంతర్లీన ఊహ. [8]లోని రచయితలు ఇదే విధమైన గోప్యతా లీకేజీ సమస్యను వివరిస్తారు, అయితే వారి పరిష్కారం ఒక నిర్దిష్ట ఆండ్రాయిడ్ ఆర్కిటెక్చర్‌పై ఆధారపడి ఉంటుంది మరియు వినియోగదారు చర్యలు వ్యక్తిగత సమాచారాన్ని భాగస్వామ్యం చేయడంలో లేదా అంతర్లీన అప్లికేషన్ వినియోగదారు డేటాను లీక్ చేసినట్లయితే మాత్రమే వర్గీకరించబడుతుంది. ఇక్కడ పరిస్థితి కొంత భిన్నంగా ఉంటుంది ఎందుకంటే వినియోగదారు డేటా కూడా చాలా నిర్మాణాత్మకంగా ఉండదు. అందువల్ల, వేలిముద్ర కంటే మనకు మరింత క్లిష్టమైన సాంకేతికత అవసరం.

చివరగా, కొన్ని రకాల సున్నితమైన డేటా కోసం డేటా కొరతను ఎదుర్కోవడానికి, మేము సింథటిక్ డేటాను పరిచయం చేసాము. డేటా ఆగ్మెంటేషన్‌పై పెద్ద మొత్తంలో సాహిత్యం ఉంది, ఉదాహరణకు, [9]లోని రచయితలు శిక్షణ సమయంలో నాయిస్ ఇంజెక్షన్ పాత్రను అన్వేషించారు మరియు పర్యవేక్షించబడిన అభ్యాసంలో సానుకూల ఫలితాలను గమనించారు. గోప్యతకు మా విధానం భిన్నంగా ఉంటుంది, ఎందుకంటే ధ్వనించే డేటాను పరిచయం చేయడం ప్రతికూలంగా ఉంటుంది మరియు బదులుగా మేము అధిక-నాణ్యత సింథటిక్ డేటాపై దృష్టి పెడతాము.

తీర్మానం

ఈ పేపర్‌లో, మేము డేటా భాగాన్ని వర్గీకరించగల సిస్టమ్‌ను అందించాము. ఇది గోప్యత మరియు భద్రతా విధానాలను అమలు చేయడానికి సిస్టమ్‌లను రూపొందించడానికి మమ్మల్ని అనుమతిస్తుంది. స్కేలబుల్ ఇన్‌ఫ్రాస్ట్రక్చర్, నిరంతర ఏకీకరణ, మెషిన్ లెర్నింగ్ మరియు అధిక-నాణ్యత డేటా హామీ మా అనేక గోప్యతా కార్యక్రమాల విజయంలో కీలక పాత్ర పోషిస్తాయని మేము చూపించాము.

భవిష్యత్ పని కోసం అనేక దిశలు ఉన్నాయి. ఇందులో అన్‌స్కీమటైజ్డ్ డేటా (ఫైల్స్) కోసం సపోర్ట్ అందించడం, డేటా రకాన్ని మాత్రమే కాకుండా సెన్సిటివిటీ స్థాయిని కూడా వర్గీకరించడం మరియు ఖచ్చితమైన సింథటిక్ ఉదాహరణలను రూపొందించడం ద్వారా శిక్షణ సమయంలో స్వీయ-పర్యవేక్షించే అభ్యాసాన్ని ఉపయోగించడం వంటివి ఉండవచ్చు. ఇది, మోడల్ నష్టాలను అత్యధిక మొత్తంలో తగ్గించడంలో సహాయపడుతుంది. భవిష్యత్ పని పరిశోధన వర్క్‌ఫ్లోపై కూడా దృష్టి సారించవచ్చు, ఇక్కడ మేము గుర్తించడాన్ని మించి వివిధ గోప్యతా ఉల్లంఘనలకు మూలకారణ విశ్లేషణను అందిస్తాము. సున్నితత్వ విశ్లేషణ (అనగా, డేటా రకం యొక్క గోప్యతా సున్నితత్వం ఎక్కువగా ఉందా (ఉదా. వినియోగదారు IP) లేదా తక్కువగా ఉందా (ఉదా. Facebook అంతర్గత IP) వంటి సందర్భాల్లో ఇది సహాయపడుతుంది.

బిబ్లియోగ్రఫీ

  1. డేవిడ్ బెన్-డేవిడ్, తమర్ డొమనీ మరియు అబిగైల్ తారెమ్. సెమాంటిక్ వెబ్ టెక్నాలజీలను ఉపయోగించి ఎంటర్‌ప్రైజ్ డేటా వర్గీకరణ. పీటర్ F.Ï పటేల్-ష్నీడర్, యు పాన్, పాస్కల్ హిట్జ్లర్, పీటర్ మికా, లీ జాంగ్, జెఫ్ Z. పాన్, ఇయాన్ హారోక్స్ మరియు బిర్టే గ్లిమ్, సంపాదకులు, ది సెమాంటిక్ వెబ్ – ISWC 2010, పేజీలు 66–81, బెర్లిన్, హైడెల్బర్గ్, 2010. స్ప్రింగర్ బెర్లిన్ హైడెల్బర్గ్.
  2. సుబ్రమణియన్ మురళీధర్, వ్యాట్ లాయిడ్, సబ్యసాచి రాయ్, కోరి హిల్, ఎర్నెస్ట్ లిన్, వీవెన్ లియు, సతద్రు పాన్, శివ శంకర్, విశ్వనాథ్ శివకుమార్, లిన్‌పెంగ్ టాంగ్ మరియు సంజీవ్ కుమార్. f4: Facebook యొక్క వెచ్చని BLOB నిల్వ వ్యవస్థ. లో ఆపరేటింగ్ సిస్టమ్స్ డిజైన్ మరియు ఇంప్లిమెంటేషన్‌పై 11వ USENIX సింపోజియం (OSDI 14), పేజీలు 383–398, బ్రూమ్‌ఫీల్డ్, CO, అక్టోబర్ 2014. USENIX అసోసియేషన్.
  3. టోమస్ మికోలోవ్, ఇల్యా సుట్‌స్కేవర్, కై చెన్, గ్రెగ్ ఎస్ కొరాడో మరియు జెఫ్ డీన్. పదాలు మరియు పదబంధాల యొక్క పంపిణీ ప్రాతినిధ్యాలు మరియు వాటి కూర్పు. C. J. C. బర్గెస్‌లో, L. బొట్టౌ, M. వెల్లింగ్, Z. ఘహ్రామణి మరియు K. Q. వీన్‌బెర్గర్, సంపాదకులు, న్యూరల్ ఇన్ఫర్మేషన్ ప్రాసెసింగ్ సిస్టమ్స్‌లో పురోగతి 26, పేజీలు 3111–3119. కుర్రాన్ అసోసియేట్స్, ఇంక్., 2013.
  4. సెర్గీ ఐయోఫ్ మరియు క్రిస్టియన్ స్జెగెడీ. బ్యాచ్ సాధారణీకరణ: అంతర్గత కోవేరియేట్ షిఫ్ట్‌ని తగ్గించడం ద్వారా లోతైన నెట్‌వర్క్ శిక్షణను వేగవంతం చేయడం. ఫ్రాన్సిస్ బాచ్ మరియు డేవిడ్ బ్లీ, సంపాదకులు, మెషిన్ లెర్నింగ్‌పై 32వ అంతర్జాతీయ సదస్సు ప్రొసీడింగ్స్, వాల్యూమ్ 37 యొక్క మెషిన్ లెర్నింగ్ రీసెర్చ్ యొక్క ప్రొసీడింగ్స్, పేజీలు 448–456, లిల్లే, ఫ్రాన్స్, 07–09 జూలై 2015. PMLR.
  5. లియో బ్రీమాన్. యాదృచ్ఛిక అడవులు. మాక్. నేర్చుకో., 45(1):5–32, అక్టోబర్ 2001.
  6. థైర్ ను ఫ్యూ. డేటా మైనింగ్‌లో వర్గీకరణ పద్ధతుల సర్వే.
  7. X. షు, D. యావో మరియు E. బెర్టినో. సెన్సిటివ్ డేటా ఎక్స్‌పోజర్‌ని గోప్యతను సంరక్షించడం. సమాచార ఫోరెన్సిక్స్ మరియు భద్రతపై IEEE లావాదేవీలు, 10(5):1092–1103, 2015.
  8. జెమిన్ యాంగ్, మిన్ యాంగ్, యువాన్ జాంగ్, గుఫీ గు, పెంగ్ నింగ్ మరియు జియోయాంగ్ వాంగ్. సంబంధిత: గోప్యతా లీకేజీని గుర్తించడం కోసం ఆండ్రాయిడ్‌లో సున్నితమైన డేటా ప్రసారాన్ని విశ్లేషించడం. పేజీలు 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, మరియు Quoc V. Le. పర్యవేక్షించబడని డేటా ఆగ్మెంటేషన్.

భద్రత మరియు గోప్యత కోసం స్కేలబుల్ డేటా వర్గీకరణ
SkillFactory ఆన్‌లైన్ కోర్సులను తీసుకోవడం ద్వారా నైపుణ్యాలు మరియు జీతం పరంగా మొదటి నుండి లేదా లెవెల్ అప్ నుండి కోరుకునే వృత్తిని ఎలా పొందాలనే దానిపై వివరాలను కనుగొనండి:

మరిన్ని కోర్సులు

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి