కంటెంట్ ఆధారిత డేటా వర్గీకరణ అనేది బహిరంగ సమస్య. సాంప్రదాయ డేటా లాస్ ప్రివెన్షన్ (DLP) సిస్టమ్లు సంబంధిత డేటాను వేలిముద్ర వేయడం మరియు వేలిముద్రల కోసం ముగింపు పాయింట్లను పర్యవేక్షించడం ద్వారా ఈ సమస్యను పరిష్కరిస్తాయి. Facebookలో నిరంతరం మారుతున్న డేటా వనరులు పెద్ద సంఖ్యలో ఉన్నందున, ఈ విధానం స్కేలబుల్ కాదు, డేటా ఎక్కడ ఉందో నిర్ణయించడానికి కూడా పనికిరాదు. ఈ పేపర్ Facebookలో సున్నితమైన అర్థ రకాలను స్కేల్లో గుర్తించడానికి మరియు స్వయంచాలకంగా డేటా నిల్వ మరియు యాక్సెస్ నియంత్రణను అమలు చేయడానికి నిర్మించిన ఎండ్-టు-ఎండ్ సిస్టమ్పై దృష్టి పెడుతుంది.
ఫేస్బుక్లోని మొత్తం డేటాను మ్యాప్ చేయడానికి మరియు వర్గీకరించడానికి డేటా సిగ్నల్లు, మెషిన్ లెర్నింగ్ మరియు సాంప్రదాయ ఫింగర్ప్రింటింగ్ టెక్నిక్లను చేర్చడం ద్వారా ఈ సమస్యను పరిష్కరించడానికి ప్రయత్నించే మా మొదటి ఎండ్-టు-ఎండ్ గోప్యతా సిస్టమ్ ఇక్కడ వివరించిన విధానం. వివరించిన సిస్టమ్ ఉత్పత్తి వాతావరణంలో నిర్వహించబడుతుంది, డజన్ల కొద్దీ రిపోజిటరీలలో పెద్ద మొత్తంలో డేటా వనరులను ప్రాసెస్ చేస్తున్నప్పుడు వివిధ గోప్యతా తరగతుల్లో సగటు F2 స్కోర్ 0,9+ని సాధించింది. మెషీన్ లెర్నింగ్ ఆధారంగా భద్రత మరియు గోప్యత కోసం స్కేలబుల్ డేటా వర్గీకరణపై Facebook యొక్క ArXiv పేపర్ యొక్క అనువాదాన్ని పరిచయం చేస్తున్నాము.
పరిచయం
నేడు, సంస్థలు వివిధ రకాల ఫార్మాట్లు మరియు స్థానాల్లో పెద్ద మొత్తంలో డేటాను సేకరించి నిల్వ చేస్తాయి [1], ఆ తర్వాత డేటా చాలా చోట్ల వినియోగించబడుతుంది, కొన్నిసార్లు అనేక సార్లు కాపీ చేయబడుతుంది లేదా కాష్ చేయబడుతుంది, దీని ఫలితంగా విలువైన మరియు సున్నితమైన వ్యాపార సమాచారం అనేక ఎంటర్ప్రైజ్ డేటాలో చెల్లాచెదురుగా ఉంటుంది. దుకాణాలు. సివిల్ ప్రొసీడింగ్స్లో నిబంధనలకు అనుగుణంగా ఉండటం వంటి నిర్దిష్ట చట్టపరమైన లేదా నియంత్రణ అవసరాలను తీర్చడానికి ఒక సంస్థ అవసరమైనప్పుడు, అవసరమైన డేటా యొక్క స్థానం గురించి డేటాను సేకరించడం అవసరం. అనధికారిక సంస్థలతో వ్యక్తిగత సమాచారాన్ని పంచుకునేటప్పుడు సంస్థ తప్పనిసరిగా అన్ని సామాజిక భద్రతా నంబర్లను (SSNలు) మాస్క్ చేయాలని గోప్యతా నియంత్రణ పేర్కొన్నప్పుడు, సంస్థ యొక్క డేటా స్టోర్లలో అన్ని SSNలను శోధించడం సహజమైన మొదటి దశ. అటువంటి పరిస్థితులలో, డేటా వర్గీకరణ క్లిష్టమైనది [1]. యాక్సెస్ నియంత్రణ విధానాలను ప్రారంభించడం, డేటా నిలుపుదల వంటి గోప్యత మరియు భద్రతా విధానాలను స్వయంచాలకంగా అమలు చేయడానికి వర్గీకరణ వ్యవస్థ సంస్థలను అనుమతిస్తుంది. Facebookలో మేము Facebookలో రూపొందించిన సిస్టమ్ను పరిచయం చేస్తోంది, ఇది సున్నితమైన సెమాంటిక్ డేటా రకాలను కనుగొనడానికి బహుళ డేటా సిగ్నల్లు, స్కేలబుల్ సిస్టమ్ ఆర్కిటెక్చర్ మరియు మెషిన్ లెర్నింగ్ని ఉపయోగిస్తుంది.
డేటా డిస్కవరీ మరియు వర్గీకరణ అనేది డేటాను కనుగొని లేబుల్ చేసే ప్రక్రియ, తద్వారా అవసరమైనప్పుడు సంబంధిత సమాచారాన్ని త్వరగా మరియు సమర్ధవంతంగా తిరిగి పొందవచ్చు. ప్రస్తుత ప్రక్రియ ప్రకృతిలో కాకుండా మాన్యువల్ మరియు సంబంధిత చట్టాలు లేదా నిబంధనలను పరిశీలించడం, ఏ రకమైన సమాచారాన్ని సున్నితంగా పరిగణించాలి మరియు వివిధ స్థాయిల సున్నితత్వం ఏమిటో నిర్ణయించడం, ఆపై తరగతులు మరియు వర్గీకరణ విధానాలను రూపొందించడం వంటివి ఉంటాయి [1]. డేటా లాస్ ప్రివెన్షన్ (DLP) అప్పుడు డేటాను వేలిముద్రలు చేస్తుంది మరియు వేలిముద్రలను పొందేందుకు దిగువ ముగింపు బిందువులను పర్యవేక్షిస్తుంది. పెటాబైట్ల డేటాతో అసెట్-హెవీ వేర్హౌస్తో వ్యవహరించేటప్పుడు, ఈ విధానం కేవలం స్కేల్ చేయదు.
డేటా రకం లేదా ఫార్మాట్పై ఎలాంటి అదనపు పరిమితులు లేకుండా, బలమైన మరియు తాత్కాలిక వినియోగదారు డేటా రెండింటికి స్కేల్ చేసే డేటా వర్గీకరణ వ్యవస్థను రూపొందించడం మా లక్ష్యం. ఇది సాహసోపేతమైన లక్ష్యం మరియు సహజంగానే ఇది సవాళ్లతో వస్తుంది. ఇచ్చిన డేటా రికార్డ్ వేల అక్షరాల పొడవు ఉంటుంది.
మూర్తి 1. ఆన్లైన్ మరియు ఆఫ్లైన్ అంచనా ప్రవాహాలు
అందువల్ల, మేము దానిని సమర్ధవంతంగా అందించాలి, తర్వాత వాటిని కలపవచ్చు మరియు సులభంగా తరలించవచ్చు. ఈ లక్షణాలు ఖచ్చితమైన వర్గీకరణను అందించడమే కాకుండా, భవిష్యత్తులో కొత్త డేటా రకాలను సులభంగా జోడించడానికి మరియు కనుగొనడానికి సౌలభ్యం మరియు విస్తరణను కూడా అందిస్తాయి. రెండవది, మీరు పెద్ద ఆఫ్లైన్ పట్టికలతో వ్యవహరించాలి. మన్నికైన డేటాను అనేక పెటాబైట్ల పరిమాణంలో ఉండే పట్టికలలో నిల్వ చేయవచ్చు. దీని వలన స్కాన్ వేగం తగ్గుతుంది. మూడవది, అస్థిర డేటాపై మేము ఖచ్చితంగా SLA వర్గీకరణకు కట్టుబడి ఉండాలి. ఇది వ్యవస్థను అత్యంత సమర్థవంతమైన, వేగవంతమైన మరియు ఖచ్చితమైనదిగా బలవంతం చేస్తుంది. చివరగా, మేము నిజ-సమయ వర్గీకరణను అలాగే ఇంటర్నెట్ వినియోగ కేసులను నిర్వహించడానికి అస్థిర డేటా కోసం తక్కువ జాప్యం డేటా వర్గీకరణను అందించాలి.
ఈ పేపర్ మేము పైన ఉన్న సవాళ్లతో ఎలా వ్యవహరించామో వివరిస్తుంది మరియు సాధారణ లక్షణాల ఆధారంగా అన్ని రకాలు, ఫార్మాట్లు మరియు మూలాల డేటా మూలకాలను వర్గీకరించే వేగవంతమైన మరియు స్కేలబుల్ వర్గీకరణ వ్యవస్థను అందిస్తుంది. మేము సిస్టమ్ నిర్మాణాన్ని విస్తరించాము మరియు ఆఫ్లైన్ మరియు ఆన్లైన్ డేటాను త్వరగా వర్గీకరించడానికి అనుకూల మెషీన్ లెర్నింగ్ మోడల్ని సృష్టించాము. ఈ పత్రం క్రింది విధంగా నిర్వహించబడింది: విభాగం 2 వ్యవస్థ యొక్క మొత్తం రూపకల్పనను అందిస్తుంది. విభాగం 3 యంత్ర అభ్యాస వ్యవస్థ యొక్క భాగాలను చర్చిస్తుంది. సెక్షన్లు 4 మరియు 5 సంబంధిత పనిని హైలైట్ చేస్తాయి మరియు పని యొక్క భవిష్యత్తు దిశలను వివరిస్తాయి.
నిర్మాణం
నిరంతర మరియు Facebook-స్థాయి ఆన్లైన్ డేటా యొక్క సవాళ్లను ఎదుర్కోవటానికి, వర్గీకరణ వ్యవస్థలో రెండు వేర్వేరు స్ట్రీమ్లు ఉన్నాయి, వీటిని మేము వివరంగా చర్చిస్తాము.
స్థిరమైన డేటా
ప్రారంభంలో, సిస్టమ్ Facebook యొక్క అనేక సమాచార ఆస్తుల గురించి తెలుసుకోవాలి. ప్రతి రిపోజిటరీ కోసం, ఆ డేటాను కలిగి ఉన్న డేటా సెంటర్, ఆ డేటాను కలిగి ఉన్న సిస్టమ్ మరియు నిర్దిష్ట డేటా రిపోజిటరీలో ఉన్న ఆస్తులు వంటి కొన్ని ప్రాథమిక సమాచారం సేకరించబడుతుంది. ఇది ఇతర ఇంజనీర్లు ఉపయోగించే క్లయింట్లు మరియు వనరులను ఓవర్లోడ్ చేయకుండా డేటాను సమర్ధవంతంగా తిరిగి పొందేందుకు సిస్టమ్ను అనుమతించే మెటాడేటా కేటలాగ్ను సృష్టిస్తుంది.
ఈ మెటాడేటా కేటలాగ్ స్కాన్ చేయబడిన అన్ని ఆస్తులకు అధికారిక మూలాన్ని అందిస్తుంది మరియు వివిధ ఆస్తుల స్థితిని ట్రాక్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది. ఈ సమాచారాన్ని ఉపయోగించి, సిస్టమ్ నుండి సేకరించిన డేటా మరియు అంతర్గత సమాచారం ఆధారంగా షెడ్యూలింగ్ ప్రాధాన్యత ఏర్పడుతుంది, అంటే ఆస్తి చివరిసారిగా విజయవంతంగా స్కాన్ చేయబడిన సమయం మరియు అది సృష్టించబడిన సమయం, అలాగే ఆ ఆస్తికి గత మెమరీ మరియు CPU అవసరాలు ఇది ఇంతకు ముందు స్కాన్ చేయబడింది. అప్పుడు, ప్రతి డేటా వనరు కోసం (వనరులు అందుబాటులోకి వచ్చినప్పుడు), వాస్తవానికి వనరును స్కాన్ చేయడానికి ఉద్యోగం అంటారు.
ప్రతి ఉద్యోగం అనేది ప్రతి ఆస్తికి అందుబాటులో ఉన్న తాజా డేటాపై బెర్నౌలీ నమూనాను నిర్వహించే సంకలనం చేయబడిన బైనరీ ఫైల్. ఆస్తి వ్యక్తిగత నిలువు వరుసలుగా విభజించబడింది, ఇక్కడ ప్రతి నిలువు వరుస యొక్క వర్గీకరణ ఫలితం స్వతంత్రంగా ప్రాసెస్ చేయబడుతుంది. అదనంగా, సిస్టమ్ నిలువు వరుసలలో ఏదైనా సంతృప్త డేటా కోసం స్కాన్ చేస్తుంది. JSON, శ్రేణులు, ఎన్కోడ్ చేయబడిన నిర్మాణాలు, URLలు, బేస్ 64 సీరియలైజ్ చేసిన డేటా మరియు మరిన్ని అన్నీ స్కాన్ చేయబడతాయి. ఇది స్కాన్ ఎగ్జిక్యూషన్ సమయాన్ని గణనీయంగా పెంచుతుంది ఎందుకంటే ఒక టేబుల్లో వేలకొద్దీ సమూహ నిలువు వరుసలు ఉంటాయి json.
డేటా అసెట్లో ఎంపిక చేయబడిన ప్రతి అడ్డు వరుస కోసం, వర్గీకరణ వ్యవస్థ కంటెంట్ నుండి ఫ్లోట్ మరియు టెక్స్ట్ ఆబ్జెక్ట్లను సంగ్రహిస్తుంది మరియు ప్రతి వస్తువును అది తీసిన కాలమ్కు తిరిగి అనుబంధిస్తుంది. ఫీచర్ వెలికితీత దశ యొక్క అవుట్పుట్ అనేది డేటా ఆస్తిలో కనుగొనబడిన ప్రతి నిలువు వరుస కోసం అన్ని లక్షణాల మ్యాప్.
సంకేతాలు దేనికి?
గుణాల భావన కీలకం. ఫ్లోట్ మరియు టెక్స్ట్ లక్షణాలకు బదులుగా, మేము ప్రతి డేటా వనరు నుండి నేరుగా సంగ్రహించబడిన ముడి స్ట్రింగ్ నమూనాలను పాస్ చేయవచ్చు. అదనంగా, కేవలం నమూనాను అంచనా వేయడానికి ప్రయత్నించే వందలాది ఫీచర్ గణనల కంటే మెషిన్ లెర్నింగ్ మోడల్లు ప్రతి నమూనాపై నేరుగా శిక్షణ పొందవచ్చు. దీనికి అనేక కారణాలు ఉన్నాయి:
ముందుగా గోప్యత: మరీ ముఖ్యంగా, ఫీచర్ల భావన మనం తిరిగి పొందే నమూనాలను మాత్రమే మెమరీలో నిల్వ చేయడానికి అనుమతిస్తుంది. మేము ఒకే ప్రయోజనం కోసం నమూనాలను నిల్వ చేస్తాము మరియు మా స్వంత ప్రయత్నాల ద్వారా వాటిని ఎప్పుడూ లాగిన్ చేయమని ఇది నిర్ధారిస్తుంది. అస్థిర డేటా కోసం ఇది చాలా ముఖ్యమైనది, ఎందుకంటే సేవ అంచనాను అందించే ముందు కొంత వర్గీకరణ స్థితిని నిర్వహించాలి.
మెమరీ: కొన్ని నమూనాలు వేల అక్షరాల పొడవు ఉండవచ్చు. అటువంటి డేటాను నిల్వ చేయడం మరియు సిస్టమ్ యొక్క భాగాలకు ప్రసారం చేయడం అనవసరంగా అనేక అదనపు బైట్లను వినియోగిస్తుంది. వేలకొలది నిలువు వరుసలతో అనేక డేటా వనరులు ఉన్నందున, రెండు కారకాలు కాలక్రమేణా మిళితం అవుతాయి.
ఫీచర్ అగ్రిగేషన్: ఫీచర్లు ప్రతి స్కాన్ ఫలితాలను లక్షణాల సమితి ద్వారా స్పష్టంగా సూచిస్తాయి, అదే డేటా వనరు యొక్క మునుపటి స్కాన్ల ఫలితాలను అనుకూలమైన మార్గంలో కలపడానికి సిస్టమ్ను అనుమతిస్తుంది. బహుళ పరుగుల అంతటా ఒకే డేటా వనరు నుండి స్కాన్ ఫలితాలను సమగ్రపరచడానికి ఇది ఉపయోగపడుతుంది.
ఫీచర్లు అంచనా సేవకు పంపబడతాయి, ఇక్కడ మేము ప్రతి నిలువు వరుస యొక్క డేటా లేబుల్లను అంచనా వేయడానికి నియమ-ఆధారిత వర్గీకరణ మరియు యంత్ర అభ్యాసాన్ని ఉపయోగిస్తాము. సేవ నియమ వర్గీకరణలు మరియు మెషిన్ లెర్నింగ్ రెండింటిపై ఆధారపడుతుంది మరియు ప్రతి ప్రిడిక్షన్ ఆబ్జెక్ట్ నుండి ఇవ్వబడిన ఉత్తమ అంచనాను ఎంచుకుంటుంది.
రూల్ వర్గీకరణలు మాన్యువల్ హ్యూరిస్టిక్స్, అవి 0 నుండి 100 పరిధికి ఒక వస్తువును సాధారణీకరించడానికి గణనలు మరియు గుణకాలను ఉపయోగిస్తాయి. అటువంటి ప్రారంభ స్కోర్ ప్రతి డేటా రకం మరియు ఆ డేటాతో అనుబంధించబడిన కాలమ్ పేరు కోసం రూపొందించబడిన తర్వాత, అది ఏ "నిషేధంలో చేర్చబడదు. జాబితాలు" ,రూల్ క్లాసిఫైయర్ అన్ని డేటా రకాల్లో అత్యధిక సాధారణీకరించిన స్కోర్ను ఎంచుకుంటుంది.
వర్గీకరణ యొక్క సంక్లిష్టత కారణంగా, కేవలం మాన్యువల్ హ్యూరిస్టిక్స్పై ఆధారపడటం వలన తక్కువ వర్గీకరణ ఖచ్చితత్వం వస్తుంది, ముఖ్యంగా నిర్మాణాత్మక డేటా కోసం. ఈ కారణంగా, వినియోగదారు కంటెంట్ మరియు చిరునామా వంటి నిర్మాణాత్మక డేటా వర్గీకరణతో పని చేయడానికి మేము మెషిన్ లెర్నింగ్ సిస్టమ్ను అభివృద్ధి చేసాము. మెషిన్ లెర్నింగ్ మాన్యువల్ హ్యూరిస్టిక్స్ నుండి దూరంగా వెళ్లడం మరియు అదనపు డేటా సిగ్నల్లను (ఉదా. నిలువు పేర్లు, డేటా ప్రోవెన్స్) వర్తింపజేయడం సాధ్యం చేసింది, గుర్తించే ఖచ్చితత్వాన్ని గణనీయంగా మెరుగుపరుస్తుంది. మేము తర్వాత మా మెషిన్ లెర్నింగ్ ఆర్కిటెక్చర్లో లోతుగా ప్రవేశిస్తాము.
ప్రిడిక్షన్ సర్వీస్ స్కాన్ సమయం మరియు స్థితికి సంబంధించిన మెటాడేటాతో పాటు ప్రతి నిలువు వరుస ఫలితాలను నిల్వ చేస్తుంది. ఈ డేటాపై ఆధారపడే ఏవైనా వినియోగదారులు మరియు దిగువ ప్రక్రియలు రోజువారీ ప్రచురించిన డేటాసెట్ నుండి దీన్ని చదవగలవు. ఈ సెట్ ఈ అన్ని స్కాన్ జాబ్ల ఫలితాలను లేదా రియల్-టైమ్ డేటా కేటలాగ్ APIలను సమగ్రపరుస్తుంది. ప్రచురించబడిన అంచనాలు గోప్యత మరియు భద్రతా విధానాలను స్వయంచాలకంగా అమలు చేయడానికి పునాది.
చివరగా, అంచనా సేవ మొత్తం డేటాను వ్రాసిన తర్వాత మరియు అన్ని అంచనాలు నిల్వ చేయబడిన తర్వాత, మా డేటా కేటలాగ్ API నిజ సమయంలో వనరు కోసం అన్ని డేటా రకం సూచనలను తిరిగి ఇవ్వగలదు. ప్రతి రోజు సిస్టమ్ ప్రతి ఆస్తికి సంబంధించిన అన్ని తాజా అంచనాలను కలిగి ఉన్న డేటాసెట్ను ప్రచురిస్తుంది.
అస్థిర డేటా
పై ప్రక్రియ స్థిరమైన ఆస్తుల కోసం రూపొందించబడినప్పటికీ, నిరంతర ట్రాఫిక్ కూడా సంస్థ యొక్క డేటాలో భాగంగా పరిగణించబడుతుంది మరియు ముఖ్యమైనది కావచ్చు. ఈ కారణంగా, ఏదైనా అడపాదడపా ట్రాఫిక్ కోసం నిజ-సమయ వర్గీకరణ అంచనాలను రూపొందించడానికి సిస్టమ్ ఆన్లైన్ APIని అందిస్తుంది. అవుట్బౌండ్ ట్రాఫిక్, ఇన్బౌండ్ ట్రాఫిక్ను మెషిన్ లెర్నింగ్ మోడల్లు మరియు అడ్వర్టైజర్ డేటాగా వర్గీకరించడంలో రియల్ టైమ్ ఫోర్కాస్టింగ్ సిస్టమ్ విస్తృతంగా ఉపయోగించబడుతుంది.
ఇక్కడ API రెండు ప్రధాన వాదనలను తీసుకుంటుంది: గ్రూపింగ్ కీ మరియు అంచనా వేయవలసిన ముడి డేటా. సేవ పైన వివరించిన విధంగా అదే ఆబ్జెక్ట్ రిట్రీవల్ను నిర్వహిస్తుంది మరియు ఒకే కీ కోసం వస్తువులను సమూహపరుస్తుంది. వైఫల్య పునరుద్ధరణ కోసం నిలకడ కాష్లో కూడా ఈ ఫీచర్లకు మద్దతు ఉంది. ప్రతి సమూహ కీ కోసం, పైన వివరించిన ప్రక్రియను అనుసరించి ప్రిడిక్షన్ సర్వీస్కి కాల్ చేయడానికి ముందు తగినన్ని నమూనాలను చూసినట్లు సేవ నిర్ధారిస్తుంది.
ఆప్టిమైజేషన్
కొన్ని స్టోరేజ్లను స్కాన్ చేయడానికి, మేము హాట్ స్టోరేజ్ [2] నుండి రీడింగ్ని ఆప్టిమైజ్ చేయడానికి లైబ్రరీలు మరియు టెక్నిక్లను ఉపయోగిస్తాము మరియు అదే స్టోరేజ్ని యాక్సెస్ చేసే ఇతర యూజర్ల నుండి ఎటువంటి అంతరాయాలు లేవని నిర్ధారిస్తాము.
చాలా పెద్ద పట్టికల కోసం (50+ పెటాబైట్లు), అన్ని ఆప్టిమైజేషన్లు మరియు మెమరీ సామర్థ్యం ఉన్నప్పటికీ, సిస్టమ్ మెమరీ అయిపోకముందే ప్రతిదీ స్కాన్ చేయడానికి మరియు గణించడానికి పని చేస్తుంది. అన్నింటికంటే, స్కాన్ పూర్తిగా మెమరీలో లెక్కించబడుతుంది మరియు స్కాన్ సమయంలో నిల్వ చేయబడదు. పెద్ద పట్టికలు నిర్మాణాత్మకంగా లేని డేటా క్లంప్లతో వేలకొద్దీ నిలువు వరుసలను కలిగి ఉంటే, మొత్తం టేబుల్పై అంచనాలను అమలు చేస్తున్నప్పుడు తగినంత మెమరీ వనరుల కారణంగా ఉద్యోగం విఫలం కావచ్చు. దీనివల్ల కవరేజీ తగ్గుతుంది. దీన్ని ఎదుర్కోవడానికి, సిస్టమ్ ప్రస్తుత పనిభారాన్ని ఎంతవరకు నిర్వహిస్తుందనే దాని కోసం ప్రాక్సీగా స్కాన్ వేగాన్ని ఉపయోగించడానికి మేము సిస్టమ్ను ఆప్టిమైజ్ చేసాము. మెమరీ సమస్యలను చూడటానికి మరియు ఫీచర్ మ్యాప్ను అంచనా వేయడానికి మేము వేగాన్ని అంచనా వేసే విధానంగా ఉపయోగిస్తాము. అదే సమయంలో, మేము సాధారణం కంటే తక్కువ డేటాను ఉపయోగిస్తాము.
డేటా సంకేతాలు
వర్గీకరణ వ్యవస్థ డేటా నుండి వచ్చే సిగ్నల్ల వలె మాత్రమే మంచిది. ఇక్కడ మేము వర్గీకరణ వ్యవస్థ ఉపయోగించే అన్ని సంకేతాలను పరిశీలిస్తాము.
కంటెంట్ ఆధారితం: వాస్తవానికి, మొదటి మరియు అతి ముఖ్యమైన సిగ్నల్ కంటెంట్. మేము డేటా కంటెంట్ ఆధారంగా ఫీచర్లను స్కాన్ చేసి, సంగ్రహించే ప్రతి డేటా ఆస్తిపై బెర్నౌలీ నమూనా నిర్వహించబడుతుంది. కంటెంట్ నుండి చాలా సంకేతాలు వస్తాయి. ఏవైనా తేలియాడే వస్తువులు సాధ్యమే, ఇది నిర్దిష్ట నమూనా రకం ఎన్నిసార్లు కనిపించింది అనే గణనలను సూచిస్తుంది. ఉదాహరణకు, నమూనాలో ఎన్ని ఇమెయిల్లు కనిపించాయనే సంకేతాలు లేదా నమూనాలో ఎన్ని ఎమోజీలు కనిపించాయనే సంకేతాలను మేము కలిగి ఉండవచ్చు. విభిన్న స్కాన్లలో ఈ ఫీచర్ గణనలను సాధారణీకరించవచ్చు మరియు సమగ్రపరచవచ్చు.
డేటా మూలాధారం: పేరెంట్ టేబుల్ నుండి కంటెంట్ మారినప్పుడు సహాయపడే ముఖ్యమైన సిగ్నల్. ఒక సాధారణ ఉదాహరణ హాష్ చేసిన డేటా. చైల్డ్ టేబుల్లోని డేటా హ్యాష్ చేయబడినప్పుడు, అది తరచుగా పేరెంట్ టేబుల్ నుండి వస్తుంది, అక్కడ అది స్పష్టంగా ఉంటుంది. నిర్దిష్ట రకాల డేటా స్పష్టంగా చదవనప్పుడు లేదా అప్స్ట్రీమ్ టేబుల్ నుండి మార్చబడినప్పుడు వాటిని వర్గీకరించడానికి వంశ డేటా సహాయపడుతుంది.
ఉల్లేఖనాలు: నిర్మాణాత్మక డేటాను గుర్తించడంలో సహాయపడే మరొక అధిక-నాణ్యత సిగ్నల్. వాస్తవానికి, ఉల్లేఖనాలు మరియు రుజువు డేటా వేర్వేరు డేటా ఆస్తులలో గుణాలను ప్రచారం చేయడానికి కలిసి పని చేయవచ్చు. అన్స్ట్రక్చర్డ్ డేటా యొక్క మూలాన్ని గుర్తించడంలో ఉల్లేఖనాలు సహాయపడతాయి, అయితే వంశ డేటా రిపోజిటరీ అంతటా ఆ డేటా యొక్క ప్రవాహాన్ని ట్రాక్ చేయడంలో సహాయపడుతుంది.
డేటా ఇంజెక్షన్ అనేది ప్రత్యేకమైన, చదవలేని అక్షరాలు ఉద్దేశపూర్వకంగా తెలిసిన డేటా రకాల తెలిసిన మూలాల్లోకి ప్రవేశపెట్టబడే సాంకేతికత. ఆపై, మేము అదే చదవలేని అక్షర క్రమంతో కంటెంట్ని స్కాన్ చేసినప్పుడు, ఆ కంటెంట్ తెలిసిన డేటా రకం నుండి వస్తుందని మేము ఊహించవచ్చు. ఇది ఉల్లేఖనాల మాదిరిగానే మరొక గుణాత్మక డేటా సిగ్నల్. కంటెంట్-ఆధారిత గుర్తింపు నమోదు చేసిన డేటాను కనుగొనడంలో సహాయపడుతుంది.
కొలమానాలు
కొలమానాలను కొలిచే ఒక కఠినమైన పద్దతి ఒక ముఖ్యమైన భాగం. వర్గీకరణ మెరుగుదల పునరావృతం యొక్క ప్రధాన కొలమానాలు ప్రతి లేబుల్ యొక్క ఖచ్చితత్వం మరియు రీకాల్, F2 స్కోర్ అత్యంత ముఖ్యమైనది.
ఈ కొలమానాలను గణించడానికి, డేటా ఆస్తులను లేబులింగ్ చేయడానికి ఒక స్వతంత్ర పద్దతి అవసరం, అది సిస్టమ్ నుండి స్వతంత్రంగా ఉంటుంది, కానీ దానితో ప్రత్యక్ష పోలిక కోసం ఉపయోగించవచ్చు. మేము Facebook నుండి గ్రౌండ్ ట్రూత్ని ఎలా సేకరిస్తాము మరియు మా వర్గీకరణ వ్యవస్థకు శిక్షణ ఇవ్వడానికి దానిని ఎలా ఉపయోగిస్తాము అనేదానిని మేము క్రింద వివరిస్తాము.
విశ్వసనీయ డేటా సేకరణ
మేము దిగువ జాబితా చేయబడిన ప్రతి మూలాధారం నుండి విశ్వసనీయమైన డేటాను దాని స్వంత పట్టికలో సేకరిస్తాము. ప్రతి పట్టిక నిర్దిష్ట మూలం నుండి తాజా గమనించిన విలువలను సమగ్రపరచడానికి బాధ్యత వహిస్తుంది. ప్రతి మూలం కోసం గమనించిన విలువలు అధిక నాణ్యతతో ఉన్నాయని మరియు తాజా డేటా రకం లేబుల్లను కలిగి ఉన్నాయని నిర్ధారించడానికి ప్రతి మూలం డేటా నాణ్యత తనిఖీలను కలిగి ఉంటుంది.
లాగింగ్ ప్లాట్ఫారమ్ కాన్ఫిగరేషన్లు: హైవ్ టేబుల్లలోని కొన్ని ఫీల్డ్లు నిర్దిష్ట రకం డేటాతో నిండి ఉంటాయి. ఈ డేటా యొక్క ఉపయోగం మరియు వ్యాప్తి సత్యం యొక్క నమ్మకమైన మూలంగా పనిచేస్తుంది.
మాన్యువల్ లేబులింగ్: సిస్టమ్ను నిర్వహించే డెవలపర్లు అలాగే బాహ్య లేబులర్లు నిలువు వరుసలను లేబుల్ చేయడానికి శిక్షణ పొందుతారు. ఇది సాధారణంగా వేర్హౌస్లోని అన్ని రకాల డేటాకు బాగా పని చేస్తుంది మరియు మెసేజ్ డేటా లేదా యూజర్ కంటెంట్ వంటి కొన్ని నిర్మాణాత్మక డేటాకు సత్యం యొక్క ప్రాథమిక మూలం కావచ్చు.
పేరెంట్ టేబుల్ల నుండి నిలువు వరుసలు నిర్దిష్ట డేటాను కలిగి ఉన్నట్లు గుర్తించబడతాయి లేదా ఉల్లేఖించబడతాయి మరియు మేము ఆ డేటాను పిల్లల పట్టికలలో ట్రాక్ చేయవచ్చు.
ఎగ్జిక్యూషన్ థ్రెడ్లను పొందడం: Facebookలోని ఎగ్జిక్యూషన్ థ్రెడ్లు నిర్దిష్ట రకాల డేటాను కలిగి ఉంటాయి. మా స్కానర్ను సర్వీస్ ఆర్కిటెక్చర్గా ఉపయోగించి, మేము తెలిసిన డేటా రకాలను కలిగి ఉన్న స్ట్రీమ్లను నమూనా చేయవచ్చు మరియు వాటిని సిస్టమ్ ద్వారా పంపవచ్చు. సిస్టమ్ ఈ డేటాను నిల్వ చేయదని వాగ్దానం చేస్తుంది.
నమూనా పట్టికలు: మొత్తం డేటా కార్పస్ని కలిగి ఉన్న పెద్ద హైవ్ టేబుల్లను శిక్షణ డేటాగా కూడా ఉపయోగించవచ్చు మరియు స్కానర్ ద్వారా సేవగా పంపవచ్చు. పూర్తి స్థాయి డేటా రకాలను కలిగి ఉన్న పట్టికలకు ఇది చాలా బాగుంది, తద్వారా నిలువు వరుసను యాదృచ్ఛికంగా నమూనా చేయడం ఆ డేటా రకం యొక్క మొత్తం సెట్ను నమూనా చేయడానికి సమానం.
సింథటిక్ డేటా: మేము ఫ్లైలో డేటాను రూపొందించే లైబ్రరీలను కూడా ఉపయోగించవచ్చు. ఇది చిరునామా లేదా GPS వంటి సాధారణ, పబ్లిక్ డేటా రకాలకు బాగా పని చేస్తుంది.
డేటా స్టీవార్డ్స్: గోప్యతా ప్రోగ్రామ్లు సాధారణంగా డేటా ముక్కలకు విధానాలను మాన్యువల్గా కేటాయించడానికి డేటా స్టీవార్డ్లను ఉపయోగిస్తాయి. ఇది నిజం యొక్క అత్యంత ఖచ్చితమైన మూలంగా పనిచేస్తుంది.
మేము సత్యం యొక్క ప్రతి ప్రధాన మూలాన్ని ఆ డేటా మొత్తంతో ఒక కార్పస్గా కలుపుతాము. ఇది డేటా రిపోజిటరీకి ప్రతినిధిగా ఉందని నిర్ధారించుకోవడం చెల్లుబాటుతో ఉన్న అతిపెద్ద సవాలు. లేకపోతే, వర్గీకరణ ఇంజిన్లు ఓవర్ట్రైన్ కావచ్చు. దీన్ని ఎదుర్కోవడానికి, మోడల్లకు శిక్షణ ఇస్తున్నప్పుడు లేదా కొలమానాలను లెక్కించేటప్పుడు బ్యాలెన్స్ని నిర్ధారించడానికి పైన పేర్కొన్న అన్ని మూలాధారాలు ఉపయోగించబడతాయి. అదనంగా, మానవ లేబులర్లు రిపోజిటరీలోని వివిధ నిలువు వరుసలను ఏకరీతిగా నమూనా చేస్తారు మరియు తదనుగుణంగా డేటాను లేబుల్ చేస్తారు, తద్వారా గ్రౌండ్ ట్రూత్ సేకరణ నిష్పాక్షికంగా ఉంటుంది.
నిరంతర ఏకీకరణ
వేగవంతమైన పునరావృతం మరియు మెరుగుదలని నిర్ధారించడానికి, ఎల్లప్పుడూ నిజ సమయంలో సిస్టమ్ పనితీరును కొలవడం ముఖ్యం. మేము ఈ రోజు సిస్టమ్కు వ్యతిరేకంగా ప్రతి వర్గీకరణ మెరుగుదలని కొలవగలము, కాబట్టి మేము డేటా ఆధారంగా భవిష్యత్తు మెరుగుదలలను వ్యూహాత్మకంగా మార్గనిర్దేశం చేయవచ్చు. చెల్లుబాటు అయ్యే డేటా ద్వారా అందించబడిన ఫీడ్బ్యాక్ లూప్ను సిస్టమ్ ఎలా పూర్తి చేస్తుందో ఇక్కడ చూద్దాం.
షెడ్యూలింగ్ సిస్టమ్ విశ్వసనీయ మూలం నుండి లేబుల్ను కలిగి ఉన్న ఆస్తిని ఎదుర్కొన్నప్పుడు, మేము రెండు టాస్క్లను షెడ్యూల్ చేస్తాము. మొదటిది మా ఉత్పత్తి స్కానర్ను ఉపయోగిస్తుంది మరియు తద్వారా మా ఉత్పత్తి సామర్థ్యాలు. రెండవ టాస్క్ తాజా ఫీచర్లతో సరికొత్త బిల్డ్ స్కానర్ని ఉపయోగిస్తుంది. ప్రతి టాస్క్ దాని అవుట్పుట్ను దాని స్వంత టేబుల్కి వ్రాస్తుంది, వర్గీకరణ ఫలితాలతో పాటు సంస్కరణలను ట్యాగ్ చేస్తుంది.
నిజ సమయంలో విడుదల అభ్యర్థి మరియు ఉత్పత్తి నమూనా యొక్క వర్గీకరణ ఫలితాలను మేము ఈ విధంగా పోల్చాము.
డేటాసెట్లు RC మరియు PROD ఫీచర్లను పోల్చినప్పుడు, ప్రిడిక్షన్ సర్వీస్ యొక్క ML వర్గీకరణ ఇంజిన్ యొక్క అనేక వైవిధ్యాలు లాగ్ చేయబడ్డాయి. ఇటీవల రూపొందించిన మెషీన్ లెర్నింగ్ మోడల్, ఉత్పత్తిలో ప్రస్తుత మోడల్ మరియు ఏదైనా ప్రయోగాత్మక నమూనాలు. అదే విధానం మోడల్ యొక్క విభిన్న వెర్షన్లను "స్లైస్" చేయడానికి (మా రూల్ వర్గీకరణదారులకు అజ్ఞాతవాసి) మరియు నిజ సమయంలో కొలమానాలను సరిపోల్చడానికి అనుమతిస్తుంది. ఇది ML ప్రయోగం ఎప్పుడు ఉత్పత్తికి సిద్ధంగా ఉందో గుర్తించడం సులభం చేస్తుంది.
ప్రతి రాత్రి, ఆ రోజు కోసం లెక్కించిన RC ఫీచర్లు ML ట్రైనింగ్ పైప్లైన్కి పంపబడతాయి, ఇక్కడ మోడల్ తాజా RC ఫీచర్లపై శిక్షణ పొందింది మరియు గ్రౌండ్ ట్రూత్ డేటాసెట్కు వ్యతిరేకంగా దాని పనితీరును అంచనా వేస్తుంది.
ప్రతి ఉదయం, మోడల్ శిక్షణను పూర్తి చేస్తుంది మరియు ప్రయోగాత్మక నమూనాగా స్వయంచాలకంగా ప్రచురించబడుతుంది. ఇది ప్రయోగాత్మక జాబితాలో స్వయంచాలకంగా చేర్చబడుతుంది.
కొన్ని ఫలితాలు
100 కంటే ఎక్కువ విభిన్న రకాల డేటా అధిక ఖచ్చితత్వంతో లేబుల్ చేయబడింది. ఇమెయిల్లు మరియు ఫోన్ నంబర్లు వంటి చక్కటి నిర్మాణాత్మక రకాలు 2 కంటే ఎక్కువ f0,95 స్కోర్తో వర్గీకరించబడ్డాయి. వినియోగదారు సృష్టించిన కంటెంట్ మరియు పేరు వంటి ఉచిత డేటా రకాలు కూడా 2 కంటే ఎక్కువ F0,85 స్కోర్లతో బాగా పని చేస్తాయి.
నిరంతర మరియు అస్థిర డేటా యొక్క పెద్ద సంఖ్యలో వ్యక్తిగత నిలువు వరుసలు అన్ని రిపోజిటరీలలో ప్రతిరోజూ వర్గీకరించబడతాయి. 500 కంటే ఎక్కువ డేటా వేర్హౌస్లలో ప్రతిరోజూ 10 కంటే ఎక్కువ టెరాబైట్లు స్కాన్ చేయబడతాయి. ఈ రిపోజిటరీలలో ఎక్కువ భాగం 98% కంటే ఎక్కువ కవరేజీని కలిగి ఉన్నాయి.
కాలక్రమేణా, వర్గీకరణ చాలా ప్రభావవంతంగా మారింది, స్థిరమైన ఆఫ్లైన్ స్ట్రీమ్లో వర్గీకరణ ఉద్యోగాలు ఒక ఆస్తిని స్కాన్ చేయడం నుండి ప్రతి నిలువు వరుస కోసం అంచనాలను లెక్కించడం వరకు సగటున 35 సెకన్లు తీసుకుంటాయి.
అన్నం. 2. RC వస్తువులు ఎలా ఉత్పత్తి చేయబడతాయో మరియు మోడల్కు ఎలా పంపబడతాయో అర్థం చేసుకోవడానికి నిరంతర ఏకీకరణ ప్రవాహాన్ని వివరించే రేఖాచిత్రం.
మూర్తి 3. మెషిన్ లెర్నింగ్ భాగం యొక్క ఉన్నత-స్థాయి రేఖాచిత్రం.
మెషిన్ లెర్నింగ్ సిస్టమ్ భాగం
మునుపటి విభాగంలో, మేము మొత్తం సిస్టమ్ ఆర్కిటెక్చర్, హైలైట్ స్కేల్, ఆప్టిమైజేషన్ మరియు ఆఫ్లైన్ మరియు ఆన్లైన్ డేటా ఫ్లోలను లోతుగా పరిశీలించాము. ఈ విభాగంలో, మేము అంచనా సేవను పరిశీలిస్తాము మరియు అంచనా సేవకు శక్తినిచ్చే యంత్ర అభ్యాస వ్యవస్థను వివరిస్తాము.
100 కంటే ఎక్కువ డేటా రకాలు మరియు సందేశ డేటా మరియు వినియోగదారు కంటెంట్ వంటి కొన్ని నిర్మాణాత్మక కంటెంట్తో, పూర్తిగా మాన్యువల్ హ్యూరిస్టిక్లను ఉపయోగించడం వలన సబ్పారామెట్రిక్ వర్గీకరణ ఖచ్చితత్వం లభిస్తుంది, ముఖ్యంగా నిర్మాణాత్మక డేటా కోసం. ఈ కారణంగా, నిర్మాణాత్మక డేటా యొక్క సంక్లిష్టతలను ఎదుర్కోవటానికి మేము మెషిన్ లెర్నింగ్ సిస్టమ్ను కూడా అభివృద్ధి చేసాము. మెషిన్ లెర్నింగ్ని ఉపయోగించడం వలన మీరు మాన్యువల్ హ్యూరిస్టిక్స్ నుండి దూరంగా వెళ్లడం ప్రారంభించవచ్చు మరియు ఖచ్చితత్వాన్ని మెరుగుపరచడానికి ఫీచర్లు మరియు అదనపు డేటా సిగ్నల్లతో (ఉదాహరణకు, కాలమ్ పేర్లు, డేటా మూలం) పని చేయవచ్చు.
అమలు చేయబడిన నమూనా దట్టమైన మరియు చిన్న వస్తువులపై వెక్టర్ ప్రాతినిధ్యాలను [3] విడిగా అధ్యయనం చేస్తుంది. ఇవి వెక్టార్ను ఏర్పరుస్తాయి, ఇది బ్యాచ్ సాధారణీకరణ [4] మరియు తుది ఫలితాన్ని ఉత్పత్తి చేయడానికి నాన్లీనియారిటీ దశల ద్వారా వెళుతుంది. తుది ఫలితం ప్రతి లేబుల్కు [0-1] మధ్య ఫ్లోటింగ్ పాయింట్ సంఖ్య, ఉదాహరణ ఆ సున్నితత్వ రకానికి చెందినదనే సంభావ్యతను సూచిస్తుంది. మోడల్ కోసం PyTorchని ఉపయోగించడం వలన మేము వేగంగా కదలగలుగుతాము, జట్టు వెలుపల ఉన్న డెవలపర్లు త్వరగా మార్పులు చేయడానికి మరియు పరీక్షించడానికి అనుమతిస్తుంది.
వాస్తుశిల్పాన్ని రూపొందించేటప్పుడు, వాటి స్వాభావిక వ్యత్యాసాల కారణంగా చిన్న (ఉదా. వచనం) మరియు దట్టమైన (ఉదా సంఖ్యా) వస్తువులను విడివిడిగా మోడల్ చేయడం ముఖ్యం. చివరి ఆర్కిటెక్చర్ కోసం, అభ్యాస రేటు, బ్యాచ్ పరిమాణం మరియు ఇతర హైపర్పారామీటర్ల కోసం సరైన విలువను కనుగొనడానికి పారామీటర్ స్వీప్ చేయడం కూడా ముఖ్యం. ఆప్టిమైజర్ ఎంపిక కూడా ఒక ముఖ్యమైన హైపర్పారామీటర్. మేము జనాదరణ పొందిన ఆప్టిమైజర్ని కనుగొన్నాము ఆడంతరచుగా అతిగా అమర్చడానికి దారితీస్తుంది, అయితే ఒక మోడల్ SGD మరింత స్థిరంగా. మేము నేరుగా మోడల్లో చేర్చవలసిన అదనపు సూక్ష్మ నైపుణ్యాలు ఉన్నాయి. ఉదాహరణకు, ఒక ఫీచర్ నిర్దిష్ట విలువను కలిగి ఉన్నప్పుడు మోడల్ నిర్ణీత అంచనాను చేస్తుందని నిర్ధారించే స్టాటిక్ నియమాలు. ఈ స్టాటిక్ నియమాలు మా క్లయింట్లచే నిర్వచించబడ్డాయి. ఈ ప్రత్యేక ఎడ్జ్ కేసులను నిర్వహించడానికి పోస్ట్-ప్రాసెసింగ్ దశను అమలు చేయడానికి విరుద్ధంగా, వాటిని నేరుగా మోడల్లో చేర్చడం వలన మరింత స్వీయ-నియంత్రణ మరియు పటిష్టమైన నిర్మాణం ఏర్పడిందని మేము కనుగొన్నాము. గ్రేడియంట్ డీసెంట్ శిక్షణ ప్రక్రియలో జోక్యం చేసుకోకుండా శిక్షణ సమయంలో ఈ నియమాలు నిలిపివేయబడతాయని కూడా గమనించండి.
సమస్యలు
సవాళ్లలో ఒకటి అధిక-నాణ్యత, నమ్మదగిన డేటాను సేకరించడం. మోడల్కు ప్రతి తరగతికి విశ్వాసం అవసరం, తద్వారా అది వస్తువులు మరియు లేబుల్ల మధ్య అనుబంధాలను నేర్చుకోగలదు. మునుపటి విభాగంలో, మేము సిస్టమ్ కొలత మరియు మోడల్ శిక్షణ రెండింటికీ డేటా సేకరణ పద్ధతులను చర్చించాము. క్రెడిట్ కార్డ్ మరియు బ్యాంక్ ఖాతా నంబర్ల వంటి డేటా తరగతులు మా గిడ్డంగిలో చాలా సాధారణం కాదని విశ్లేషణలో తేలింది. ఇది మోడల్లకు శిక్షణ ఇవ్వడానికి పెద్ద మొత్తంలో విశ్వసనీయ డేటాను సేకరించడం కష్టతరం చేస్తుంది. ఈ సమస్యను పరిష్కరించడానికి, మేము ఈ తరగతుల కోసం సింథటిక్ గ్రౌండ్ ట్రూత్ డేటాను పొందడం కోసం ప్రక్రియలను అభివృద్ధి చేసాము. మేము సున్నితమైన రకాలతో సహా అటువంటి డేటాను రూపొందిస్తాము ఎస్ఎస్ఎన్, క్రెడిట్ కార్డ్ నంబర్లు и IBANమోడల్ ఇంతకు ముందు అంచనా వేయలేని సంఖ్యలు. ఈ విధానం అసలు సున్నితమైన డేటాను దాచడం వల్ల కలిగే గోప్యతా ప్రమాదాలు లేకుండా సున్నితమైన డేటా రకాలను ప్రాసెస్ చేయడానికి అనుమతిస్తుంది.
గ్రౌండ్ ట్రూత్ సమస్యలతో పాటు, మేము పని చేస్తున్న ఓపెన్ ఆర్కిటెక్చరల్ సమస్యలు ఉన్నాయి ఐసోలేషన్ని మార్చండి и ప్రారంభ స్టాప్. నెట్వర్క్లోని వివిధ భాగాలకు వేర్వేరు మార్పులు చేసినప్పుడు, ప్రభావం నిర్దిష్ట తరగతులకు వేరు చేయబడిందని మరియు మొత్తం అంచనా పనితీరుపై విస్తృత ప్రభావాన్ని చూపదని నిర్ధారించడానికి మార్పు ఐసోలేషన్ ముఖ్యం. ముందస్తుగా నిలిపివేసే ప్రమాణాలను మెరుగుపరచడం కూడా చాలా కీలకం, తద్వారా కొన్ని తరగతులు ఓవర్ట్రెయిన్ చేసే మరియు ఇతరులు చేయని పాయింట్లో కాకుండా అన్ని తరగతులకు స్థిరమైన పాయింట్లో శిక్షణ ప్రక్రియను ఆపవచ్చు.
ఫీచర్ ప్రాముఖ్యత
మోడల్లో కొత్త ఫీచర్ ప్రవేశపెట్టబడినప్పుడు, మోడల్పై దాని మొత్తం ప్రభావాన్ని మేము తెలుసుకోవాలనుకుంటున్నాము. ప్రతి రకమైన డేటాకు ఏ ఫీచర్లు ఉపయోగించబడుతున్నాయో ఖచ్చితంగా అర్థం చేసుకోవడానికి, అంచనాలు మానవులకు అర్థమయ్యేలా ఉన్నాయని కూడా మేము నిర్ధారించుకోవాలనుకుంటున్నాము. ఈ ప్రయోజనం కోసం మేము అభివృద్ధి మరియు పరిచయం తరగతి ద్వారా PyTorch మోడల్ కోసం లక్షణాల యొక్క ప్రాముఖ్యత. ఇది సాధారణంగా మద్దతిచ్చే మొత్తం ఫీచర్ ప్రాముఖ్యత నుండి భిన్నంగా ఉంటుందని గమనించండి, ఎందుకంటే నిర్దిష్ట తరగతికి ఏ ఫీచర్లు ముఖ్యమైనవో ఇది మాకు చెప్పదు. వస్తువును పునర్వ్యవస్థీకరించిన తర్వాత అంచనా లోపం పెరుగుదలను లెక్కించడం ద్వారా మేము ఒక వస్తువు యొక్క ప్రాముఖ్యతను కొలుస్తాము. విలువలను మార్చుకోవడం మోడల్ యొక్క లోపాన్ని పెంచుతున్నప్పుడు ఒక లక్షణం "ముఖ్యమైనది" ఎందుకంటే ఈ సందర్భంలో మోడల్ దాని అంచనా వేయడానికి ఫీచర్పై ఆధారపడుతుంది. ఒక లక్షణం దాని విలువలను షఫుల్ చేసినప్పుడు "ముఖ్యమైనది కాదు" మోడల్ లోపం మారదు, ఎందుకంటే ఈ సందర్భంలో మోడల్ దానిని విస్మరించింది [5].
ప్రతి తరగతికి సంబంధించిన ఫీచర్ యొక్క ప్రాముఖ్యత మోడల్ను అర్థమయ్యేలా చేయడానికి అనుమతిస్తుంది, తద్వారా లేబుల్ను అంచనా వేసేటప్పుడు మోడల్ ఏమి చూస్తుందో మనం చూడవచ్చు. ఉదాహరణకు, మేము విశ్లేషించినప్పుడు ADDR, అప్పుడు మేము చిరునామాతో అనుబంధించబడిన గుర్తుకు హామీ ఇస్తున్నాము అడ్రస్ లైన్స్ కౌంట్, ప్రతి తరగతికి సంబంధించిన ఫీచర్ ఇంపార్టెన్స్ టేబుల్లో అధిక ర్యాంక్ను కలిగి ఉంటుంది, తద్వారా మోడల్ నేర్చుకున్న దానితో మన మానవ అంతర్ దృష్టి బాగా సరిపోతుంది.
మూల్యాంకనం
విజయం కోసం ఒకే మెట్రిక్ని నిర్వచించడం ముఖ్యం. మేము ఎంచుకున్నాము F2 - రీకాల్ మరియు ఖచ్చితత్వం మధ్య సంతులనం (రీకాల్ బయాస్ కొంచెం పెద్దది). గోప్యతా వినియోగ సందర్భంలో ఖచ్చితత్వం కంటే రీకాల్ చేయడం చాలా ముఖ్యం ఎందుకంటే బృందం ఎటువంటి సున్నితమైన డేటాను కోల్పోకుండా ఉండటం (సహేతుకమైన ఖచ్చితత్వాన్ని నిర్ధారించేటప్పుడు) కీలకం. మా మోడల్ యొక్క వాస్తవ F2 పనితీరు మూల్యాంకనం ఈ పేపర్ పరిధికి మించినది. అయినప్పటికీ, జాగ్రత్తగా ట్యూనింగ్ చేయడం ద్వారా మనం అత్యంత ముఖ్యమైన సున్నితమైన తరగతులకు అధిక (0,9+) F2 స్కోర్లను సాధించవచ్చు.
సంబంధిత పని
నమూనా సరిపోలిక, డాక్యుమెంట్ సారూప్యత శోధన మరియు వివిధ యంత్ర అభ్యాస పద్ధతులు (బయేసియన్, డెసిషన్ ట్రీలు, k-సమీప పొరుగువారు మరియు అనేక ఇతరాలు) [6] వంటి వివిధ పద్ధతులను ఉపయోగించి నిర్మాణాత్మక పత్రాల యొక్క స్వయంచాలక వర్గీకరణ కోసం అనేక అల్గారిథమ్లు ఉన్నాయి. వీటిలో దేనినైనా వర్గీకరణలో భాగంగా ఉపయోగించవచ్చు. అయితే, సమస్య స్కేలబిలిటీ. ఈ వ్యాసంలోని వర్గీకరణ విధానం వశ్యత మరియు పనితీరు పట్ల పక్షపాతంతో ఉంటుంది. ఇది భవిష్యత్తులో కొత్త తరగతులకు మద్దతు ఇవ్వడానికి మరియు జాప్యాన్ని తక్కువగా ఉంచడానికి అనుమతిస్తుంది.
డేటా ఫింగర్ ప్రింటింగ్పై కూడా చాలా పని ఉంది. ఉదాహరణకు, [7]లోని రచయితలు సున్నితమైన డేటా లీక్లను సంగ్రహించే సమస్యపై దృష్టి సారించే పరిష్కారాన్ని వివరించారు. తెలిసిన సెన్సిటివ్ డేటా సెట్తో సరిపోలడానికి డేటా వేలిముద్ర వేయబడుతుందనేది అంతర్లీన ఊహ. [8]లోని రచయితలు ఇదే విధమైన గోప్యతా లీకేజీ సమస్యను వివరిస్తారు, అయితే వారి పరిష్కారం ఒక నిర్దిష్ట ఆండ్రాయిడ్ ఆర్కిటెక్చర్పై ఆధారపడి ఉంటుంది మరియు వినియోగదారు చర్యలు వ్యక్తిగత సమాచారాన్ని భాగస్వామ్యం చేయడంలో లేదా అంతర్లీన అప్లికేషన్ వినియోగదారు డేటాను లీక్ చేసినట్లయితే మాత్రమే వర్గీకరించబడుతుంది. ఇక్కడ పరిస్థితి కొంత భిన్నంగా ఉంటుంది ఎందుకంటే వినియోగదారు డేటా కూడా చాలా నిర్మాణాత్మకంగా ఉండదు. అందువల్ల, వేలిముద్ర కంటే మనకు మరింత క్లిష్టమైన సాంకేతికత అవసరం.
చివరగా, కొన్ని రకాల సున్నితమైన డేటా కోసం డేటా కొరతను ఎదుర్కోవడానికి, మేము సింథటిక్ డేటాను పరిచయం చేసాము. డేటా ఆగ్మెంటేషన్పై పెద్ద మొత్తంలో సాహిత్యం ఉంది, ఉదాహరణకు, [9]లోని రచయితలు శిక్షణ సమయంలో నాయిస్ ఇంజెక్షన్ పాత్రను అన్వేషించారు మరియు పర్యవేక్షించబడిన అభ్యాసంలో సానుకూల ఫలితాలను గమనించారు. గోప్యతకు మా విధానం భిన్నంగా ఉంటుంది, ఎందుకంటే ధ్వనించే డేటాను పరిచయం చేయడం ప్రతికూలంగా ఉంటుంది మరియు బదులుగా మేము అధిక-నాణ్యత సింథటిక్ డేటాపై దృష్టి పెడతాము.
తీర్మానం
ఈ పేపర్లో, మేము డేటా భాగాన్ని వర్గీకరించగల సిస్టమ్ను అందించాము. ఇది గోప్యత మరియు భద్రతా విధానాలను అమలు చేయడానికి సిస్టమ్లను రూపొందించడానికి మమ్మల్ని అనుమతిస్తుంది. స్కేలబుల్ ఇన్ఫ్రాస్ట్రక్చర్, నిరంతర ఏకీకరణ, మెషిన్ లెర్నింగ్ మరియు అధిక-నాణ్యత డేటా హామీ మా అనేక గోప్యతా కార్యక్రమాల విజయంలో కీలక పాత్ర పోషిస్తాయని మేము చూపించాము.
భవిష్యత్ పని కోసం అనేక దిశలు ఉన్నాయి. ఇందులో అన్స్కీమటైజ్డ్ డేటా (ఫైల్స్) కోసం సపోర్ట్ అందించడం, డేటా రకాన్ని మాత్రమే కాకుండా సెన్సిటివిటీ స్థాయిని కూడా వర్గీకరించడం మరియు ఖచ్చితమైన సింథటిక్ ఉదాహరణలను రూపొందించడం ద్వారా శిక్షణ సమయంలో స్వీయ-పర్యవేక్షించే అభ్యాసాన్ని ఉపయోగించడం వంటివి ఉండవచ్చు. ఇది, మోడల్ నష్టాలను అత్యధిక మొత్తంలో తగ్గించడంలో సహాయపడుతుంది. భవిష్యత్ పని పరిశోధన వర్క్ఫ్లోపై కూడా దృష్టి సారించవచ్చు, ఇక్కడ మేము గుర్తించడాన్ని మించి వివిధ గోప్యతా ఉల్లంఘనలకు మూలకారణ విశ్లేషణను అందిస్తాము. సున్నితత్వ విశ్లేషణ (అనగా, డేటా రకం యొక్క గోప్యతా సున్నితత్వం ఎక్కువగా ఉందా (ఉదా. వినియోగదారు IP) లేదా తక్కువగా ఉందా (ఉదా. Facebook అంతర్గత IP) వంటి సందర్భాల్లో ఇది సహాయపడుతుంది.
బిబ్లియోగ్రఫీ
డేవిడ్ బెన్-డేవిడ్, తమర్ డొమనీ మరియు అబిగైల్ తారెమ్. సెమాంటిక్ వెబ్ టెక్నాలజీలను ఉపయోగించి ఎంటర్ప్రైజ్ డేటా వర్గీకరణ. పీటర్ F.Ï పటేల్-ష్నీడర్, యు పాన్, పాస్కల్ హిట్జ్లర్, పీటర్ మికా, లీ జాంగ్, జెఫ్ Z. పాన్, ఇయాన్ హారోక్స్ మరియు బిర్టే గ్లిమ్, సంపాదకులు, ది సెమాంటిక్ వెబ్ – ISWC 2010, పేజీలు 66–81, బెర్లిన్, హైడెల్బర్గ్, 2010. స్ప్రింగర్ బెర్లిన్ హైడెల్బర్గ్.
సుబ్రమణియన్ మురళీధర్, వ్యాట్ లాయిడ్, సబ్యసాచి రాయ్, కోరి హిల్, ఎర్నెస్ట్ లిన్, వీవెన్ లియు, సతద్రు పాన్, శివ శంకర్, విశ్వనాథ్ శివకుమార్, లిన్పెంగ్ టాంగ్ మరియు సంజీవ్ కుమార్. f4: Facebook యొక్క వెచ్చని BLOB నిల్వ వ్యవస్థ. లో ఆపరేటింగ్ సిస్టమ్స్ డిజైన్ మరియు ఇంప్లిమెంటేషన్పై 11వ USENIX సింపోజియం (OSDI 14), పేజీలు 383–398, బ్రూమ్ఫీల్డ్, CO, అక్టోబర్ 2014. USENIX అసోసియేషన్.
టోమస్ మికోలోవ్, ఇల్యా సుట్స్కేవర్, కై చెన్, గ్రెగ్ ఎస్ కొరాడో మరియు జెఫ్ డీన్. పదాలు మరియు పదబంధాల యొక్క పంపిణీ ప్రాతినిధ్యాలు మరియు వాటి కూర్పు. C. J. C. బర్గెస్లో, L. బొట్టౌ, M. వెల్లింగ్, Z. ఘహ్రామణి మరియు K. Q. వీన్బెర్గర్, సంపాదకులు, న్యూరల్ ఇన్ఫర్మేషన్ ప్రాసెసింగ్ సిస్టమ్స్లో పురోగతి 26, పేజీలు 3111–3119. కుర్రాన్ అసోసియేట్స్, ఇంక్., 2013.
సెర్గీ ఐయోఫ్ మరియు క్రిస్టియన్ స్జెగెడీ. బ్యాచ్ సాధారణీకరణ: అంతర్గత కోవేరియేట్ షిఫ్ట్ని తగ్గించడం ద్వారా లోతైన నెట్వర్క్ శిక్షణను వేగవంతం చేయడం. ఫ్రాన్సిస్ బాచ్ మరియు డేవిడ్ బ్లీ, సంపాదకులు, మెషిన్ లెర్నింగ్పై 32వ అంతర్జాతీయ సదస్సు ప్రొసీడింగ్స్, వాల్యూమ్ 37 యొక్క మెషిన్ లెర్నింగ్ రీసెర్చ్ యొక్క ప్రొసీడింగ్స్, పేజీలు 448–456, లిల్లే, ఫ్రాన్స్, 07–09 జూలై 2015. PMLR.
లియో బ్రీమాన్. యాదృచ్ఛిక అడవులు. మాక్. నేర్చుకో., 45(1):5–32, అక్టోబర్ 2001.
థైర్ ను ఫ్యూ. డేటా మైనింగ్లో వర్గీకరణ పద్ధతుల సర్వే.
X. షు, D. యావో మరియు E. బెర్టినో. సెన్సిటివ్ డేటా ఎక్స్పోజర్ని గోప్యతను సంరక్షించడం. సమాచార ఫోరెన్సిక్స్ మరియు భద్రతపై IEEE లావాదేవీలు, 10(5):1092–1103, 2015.
జెమిన్ యాంగ్, మిన్ యాంగ్, యువాన్ జాంగ్, గుఫీ గు, పెంగ్ నింగ్ మరియు జియోయాంగ్ వాంగ్. సంబంధిత: గోప్యతా లీకేజీని గుర్తించడం కోసం ఆండ్రాయిడ్లో సున్నితమైన డేటా ప్రసారాన్ని విశ్లేషించడం. పేజీలు 1043–1054, 11 2013.
Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, మరియు Quoc V. Le. పర్యవేక్షించబడని డేటా ఆగ్మెంటేషన్.
SkillFactory ఆన్లైన్ కోర్సులను తీసుకోవడం ద్వారా నైపుణ్యాలు మరియు జీతం పరంగా మొదటి నుండి లేదా లెవెల్ అప్ నుండి కోరుకునే వృత్తిని ఎలా పొందాలనే దానిపై వివరాలను కనుగొనండి: