tl; dr:
- మెషిన్ లెర్నింగ్ డేటాలోని నమూనాల కోసం చూస్తుంది. కానీ కృత్రిమ మేధస్సు "పక్షపాతంతో" ఉంటుంది-అంటే, తప్పుగా ఉన్న నమూనాలను కనుగొనండి. ఉదాహరణకు, ఫోటో ఆధారిత చర్మ క్యాన్సర్ గుర్తింపు వ్యవస్థ వైద్యుని కార్యాలయంలో తీసిన చిత్రాలపై ప్రత్యేక శ్రద్ధ చూపుతుంది. మెషిన్ లెర్నింగ్ సాధ్యం కాదు అర్థం చేసుకోవడానికి: దాని అల్గోరిథంలు సంఖ్యలలోని నమూనాలను మాత్రమే గుర్తిస్తాయి మరియు డేటా ప్రతినిధి కానట్లయితే, దాని ప్రాసెసింగ్ ఫలితం కూడా ఉంటుంది. మరియు మెషిన్ లెర్నింగ్ యొక్క మెకానిక్స్ కారణంగా అటువంటి బగ్లను పట్టుకోవడం కష్టంగా ఉంటుంది.
- అత్యంత స్పష్టమైన మరియు భయంకరమైన సమస్య ప్రాంతం మానవ వైవిధ్యం. వ్యక్తులకు సంబంధించిన డేటా సేకరణ దశలో కూడా నిష్పాక్షికతను కోల్పోవడానికి అనేక కారణాలు ఉన్నాయి. కానీ ఈ సమస్య ప్రజలను మాత్రమే ప్రభావితం చేస్తుందని అనుకోకండి: గిడ్డంగిలో లేదా విఫలమైన గ్యాస్ టర్బైన్లో వరదను గుర్తించడానికి ప్రయత్నిస్తున్నప్పుడు సరిగ్గా అదే ఇబ్బందులు తలెత్తుతాయి. కొన్ని సిస్టమ్లు చర్మం రంగు పట్ల పక్షపాతంతో ఉండవచ్చు, మరికొన్ని సిమెన్స్ సెన్సార్ల పట్ల పక్షపాతంతో ఉంటాయి.
- ఇటువంటి సమస్యలు మెషిన్ లెర్నింగ్కి కొత్త కాదు మరియు అవి దానికి చాలా ప్రత్యేకమైనవి కావు. ఏదైనా సంక్లిష్టమైన నిర్మాణంలో తప్పు అంచనాలు తయారు చేయబడతాయి మరియు నిర్దిష్ట నిర్ణయం ఎందుకు తీసుకున్నారో అర్థం చేసుకోవడం ఎల్లప్పుడూ కష్టం. మేము దీనిని సమగ్ర మార్గంలో ఎదుర్కోవాలి: ధృవీకరణ కోసం సాధనాలు మరియు ప్రక్రియలను సృష్టించండి - మరియు వినియోగదారులు AI సిఫార్సులను గుడ్డిగా అనుసరించకుండా వారికి అవగాహన కల్పించండి. మెషిన్ లెర్నింగ్ కొన్ని పనులను మనం చేయగలిగిన దానికంటే మెరుగ్గా చేస్తుంది - అయితే కుక్కలు, ఉదాహరణకు, డ్రగ్స్ని గుర్తించడంలో మనుషుల కంటే చాలా ప్రభావవంతంగా ఉంటాయి, ఇది వారిని సాక్షులుగా ఉపయోగించుకోవడానికి మరియు వారి సాక్ష్యం ఆధారంగా తీర్పులు ఇవ్వడానికి కారణం కాదు. మరియు కుక్కలు, ఏ మెషిన్ లెర్నింగ్ సిస్టమ్ కంటే చాలా తెలివిగా ఉంటాయి.
మెషిన్ లెర్నింగ్ అనేది నేడు అత్యంత ముఖ్యమైన ప్రాథమిక సాంకేతిక పోకడలలో ఒకటి. రాబోయే దశాబ్దంలో టెక్నాలజీ మన చుట్టూ ఉన్న ప్రపంచాన్ని మార్చే ప్రధాన మార్గాలలో ఇది ఒకటి. ఈ మార్పులలోని కొన్ని అంశాలు ఆందోళన కలిగిస్తున్నాయి. ఉదాహరణకు, లేబర్ మార్కెట్పై యంత్ర అభ్యాసం యొక్క సంభావ్య ప్రభావం లేదా అనైతిక ప్రయోజనాల కోసం దాని ఉపయోగం (ఉదాహరణకు, అధికార పాలనల ద్వారా). ఈ పోస్ట్ ప్రస్తావించే మరో సమస్య ఉంది: కృత్రిమ మేధస్సు పక్షపాతం.
ఇది అంత తేలికైన కథ కాదు.
Google యొక్క AI పిల్లులను కనుగొనగలదు. 2012 నుండి వచ్చిన ఈ వార్త అప్పట్లో చాలా ప్రత్యేకమైనది.
"AI బయాస్" అంటే ఏమిటి?
"రా డేటా" అనేది ఆక్సిమోరాన్ మరియు చెడు ఆలోచన రెండూ; డేటా బాగా మరియు జాగ్రత్తగా తయారు చేయాలి. -జెఫ్రీ బోకర్
ఎక్కడో 2013కి ముందు, ఛాయాచిత్రాలలో పిల్లులను గుర్తించే వ్యవస్థను రూపొందించడానికి, మీరు తార్కిక దశలను వివరించాలి. చిత్రంలో మూలలను ఎలా కనుగొనాలి, కళ్ళను గుర్తించడం, బొచ్చు కోసం అల్లికలను విశ్లేషించడం, పాదాలను లెక్కించడం మరియు మొదలైనవి. ఆపై అన్ని భాగాలను ఒకచోట చేర్చి, అది నిజంగా పని చేయదని కనుగొనండి. యాంత్రిక గుర్రం లాగా - సిద్ధాంతపరంగా దీనిని తయారు చేయవచ్చు, కానీ ఆచరణలో ఇది వివరించడానికి చాలా క్లిష్టంగా ఉంటుంది. అంతిమ ఫలితం వందల (లేదా వేల) చేతివ్రాత నియమాలు. మరియు ఒక్క వర్కింగ్ మోడల్ కూడా లేదు.
మెషిన్ లెర్నింగ్ రావడంతో, మేము నిర్దిష్ట వస్తువును గుర్తించడం కోసం "మాన్యువల్" నియమాలను ఉపయోగించడం మానేశాము. బదులుగా, మేము "ఇది", X యొక్క వెయ్యి నమూనాలను, "ఇతర", Y యొక్క వెయ్యి నమూనాలను తీసుకుంటాము మరియు కంప్యూటర్ వారి గణాంక విశ్లేషణ ఆధారంగా ఒక నమూనాను రూపొందించాము. మేము ఈ మోడల్కు కొంత నమూనా డేటాను ఇస్తాము మరియు ఇది సెట్లలో ఒకదానికి సరిపోతుందో లేదో కొంత ఖచ్చితత్వంతో నిర్ణయిస్తుంది. మెషిన్ లెర్నింగ్ అనేది మానవుడు వ్రాసే దాని నుండి కాకుండా డేటా నుండి ఒక నమూనాను రూపొందిస్తుంది. ముఖ్యంగా ఇమేజ్ మరియు ప్యాటర్న్ రికగ్నిషన్ రంగంలో ఫలితాలు ఆకట్టుకుంటున్నాయి మరియు అందుకే మొత్తం టెక్ పరిశ్రమ ఇప్పుడు మెషిన్ లెర్నింగ్ (ML)కి మారుతోంది.
కానీ అది అంత సులభం కాదు. వాస్తవ ప్రపంచంలో, మీ వేలకొద్దీ X లేదా Y ఉదాహరణలు A, B, J, L, O, R మరియు L కూడా కలిగి ఉంటాయి. ఇవి సమానంగా పంపిణీ చేయబడకపోవచ్చు మరియు కొన్ని చాలా తరచుగా సంభవించవచ్చు, తద్వారా సిస్టమ్ ఎక్కువ చెల్లించబడుతుంది మీకు ఆసక్తి ఉన్న వస్తువుల కంటే వాటిపై దృష్టి పెట్టండి.
ఆచరణలో దీని అర్థం ఏమిటి? ఇమేజ్ రికగ్నిషన్ సిస్టమ్లు ఉన్నప్పుడు నాకు ఇష్టమైన ఉదాహరణ
మరింత తీవ్రమైన ఉదాహరణలు ఉన్నాయి. ఒకటి ఇటీవలిది
ఇక్కడ ప్రధాన విషయం ఏమిటంటే, వ్యవస్థకు అది చూస్తున్న దాని గురించి అర్థపరమైన అవగాహన లేదు. మేము పిక్సెల్ల సమితిని చూస్తాము మరియు వాటిలో గొర్రెలు, చర్మం లేదా పాలకులను చూస్తాము, కానీ సిస్టమ్ సంఖ్యా రేఖ మాత్రమే. ఆమె త్రిమితీయ స్థలాన్ని చూడదు, వస్తువులు, అల్లికలు లేదా గొర్రెలను చూడదు. ఆమె కేవలం డేటాలోని నమూనాలను చూస్తుంది.
అటువంటి సమస్యలను నిర్ధారించడంలో ఇబ్బంది ఏమిటంటే, న్యూరల్ నెట్వర్క్ (మీ మెషీన్ లెర్నింగ్ సిస్టమ్ ద్వారా రూపొందించబడిన మోడల్) వేల వందల వేల నోడ్లను కలిగి ఉంటుంది. మోడల్ను పరిశీలించి, అది ఎలా నిర్ణయం తీసుకుంటుందో చూడడానికి సులభమైన మార్గం లేదు. మెషీన్ లెర్నింగ్ని ఉపయోగించకుండా, అన్ని నియమాలను మాన్యువల్గా వివరించేంత సరళమైన ప్రక్రియ అని అర్థం. మెషీన్ లెర్నింగ్ బ్లాక్ బాక్స్గా మారిందని ప్రజలు ఆందోళన చెందుతున్నారు. (ఈ పోలిక ఇంకా ఎందుకు ఎక్కువగా ఉందో నేను కొంచెం తరువాత వివరిస్తాను.)
ఇది సాధారణ పరంగా, ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ లేదా మెషిన్ లెర్నింగ్లో పక్షపాత సమస్య: డేటాలో నమూనాలను కనుగొనే వ్యవస్థ తప్పు నమూనాలను కనుగొనవచ్చు మరియు మీరు దానిని గమనించకపోవచ్చు. ఇది సాంకేతికత యొక్క ప్రాథమిక లక్షణం, మరియు విద్యారంగంలో మరియు పెద్ద టెక్ కంపెనీలలో దానితో పనిచేసే ప్రతి ఒక్కరికీ ఇది స్పష్టంగా ఉంటుంది. కానీ దాని పర్యవసానాలు సంక్లిష్టంగా ఉంటాయి మరియు ఆ పరిణామాలకు మా సాధ్యమైన పరిష్కారాలు కూడా ఉన్నాయి.
ముందు పరిణామాల గురించి మాట్లాడుకుందాం.
AI, మన కోసం పరోక్షంగా, పెద్ద సంఖ్యలో కనిపించని సంకేతాల ఆధారంగా నిర్దిష్ట వర్గాల వ్యక్తులకు అనుకూలంగా ఎంపిక చేసుకోవచ్చు.
AI బయాస్ దృశ్యాలు
చాలా స్పష్టంగా మరియు భయానకంగా, మానవ వైవిధ్యం విషయానికి వస్తే ఈ సమస్య స్వయంగా వ్యక్తమవుతుంది. ఇటీవల
ఈ ఉదాహరణలో చాలా ముఖ్యమైన విషయం ఏమిటంటే, రెజ్యూమ్లో లింగం పేర్కొనబడనప్పటికీ, సిస్టమ్ పురుష దరఖాస్తుదారులకు అనుకూలంగా ఉన్నట్లు పుకారు వచ్చింది. వ్యవస్థ "మంచి నియామకాల" ఉదాహరణలలో ఇతర నమూనాలను చూసింది: ఉదాహరణకు, మహిళలు విజయాలను వివరించడానికి ప్రత్యేక పదాలను ఉపయోగించవచ్చు లేదా ప్రత్యేక అభిరుచులను కలిగి ఉండవచ్చు. వాస్తవానికి, “హాకీ” అంటే ఏమిటి, లేదా “ప్రజలు” ఎవరు, లేదా “విజయం” అంటే ఏమిటో సిస్టమ్కి తెలియదు - ఇది కేవలం టెక్స్ట్ యొక్క గణాంక విశ్లేషణను నిర్వహించింది. కానీ ఆమె చూసిన నమూనాలు చాలా మటుకు మానవులచే గుర్తించబడవు మరియు వాటిలో కొన్ని (ఉదాహరణకు, విభిన్న లింగాల వ్యక్తులు విజయాన్ని భిన్నంగా వివరిస్తారు) మనం వాటిని చూసినప్పటికీ చూడటం చాలా కష్టం.
మరింత - అధ్వాన్నంగా. లేత చర్మంపై క్యాన్సర్ను కనుగొనడంలో చాలా మంచి మెషీన్ లెర్నింగ్ సిస్టమ్ డార్క్ స్కిన్పై కూడా పని చేయకపోవచ్చు లేదా దీనికి విరుద్ధంగా ఉంటుంది. పక్షపాతం కారణంగా అవసరం లేదు, కానీ మీరు బహుశా వివిధ లక్షణాలను ఎంచుకోవడం, వేరే చర్మం రంగు కోసం ప్రత్యేక మోడల్ను నిర్మించాల్సిన అవసరం ఉన్నందున. ఇమేజ్ రికగ్నిషన్ వంటి ఇరుకైన ప్రాంతంలో కూడా మెషిన్ లెర్నింగ్ సిస్టమ్లు పరస్పరం మార్చుకోలేవు. మీరు కోరుకున్న ఖచ్చితత్వాన్ని సాధించే వరకు మీకు ఆసక్తి ఉన్న డేటాలోని ఫీచర్లపై మంచి హ్యాండిల్ని పొందడానికి మీరు సిస్టమ్ను కొన్నిసార్లు ట్రయల్ మరియు ఎర్రర్ ద్వారా సర్దుబాటు చేయాలి. కానీ మీరు గమనించని విషయమేమిటంటే, సిస్టమ్ ఒక సమూహంతో 98% ఖచ్చితమైనది మరియు మరొకదానితో 91% (మానవ విశ్లేషణ కంటే మరింత ఖచ్చితమైనది) మాత్రమే ఉంటుంది.
ఇప్పటివరకు నేను వ్యక్తులు మరియు వారి లక్షణాలకు సంబంధించిన ఉదాహరణలను ప్రధానంగా ఉపయోగించాను. ఈ సమస్య చుట్టూ చర్చ ప్రధానంగా ఈ అంశంపై దృష్టి పెడుతుంది. కానీ ప్రజల పట్ల పక్షపాతం సమస్యలో ఒక భాగం మాత్రమే అని అర్థం చేసుకోవడం ముఖ్యం. మేము చాలా విషయాల కోసం మెషిన్ లెర్నింగ్ని ఉపయోగిస్తాము మరియు నమూనా లోపం వాటన్నింటికీ సంబంధితంగా ఉంటుంది. మరోవైపు, మీరు వ్యక్తులతో పని చేస్తే, డేటాలోని పక్షపాతం వారికి సంబంధించినది కాకపోవచ్చు.
దీన్ని అర్థం చేసుకోవడానికి, చర్మ క్యాన్సర్ ఉదాహరణకి తిరిగి వెళ్దాం మరియు సిస్టమ్ వైఫల్యానికి మూడు ఊహాత్మక అవకాశాలను పరిశీలిద్దాం.
- వ్యక్తుల యొక్క భిన్నమైన పంపిణీ: వివిధ చర్మపు టోన్ల యొక్క అసమతుల్య ఛాయాచిత్రాలు, పిగ్మెంటేషన్ కారణంగా తప్పుడు పాజిటివ్లు లేదా తప్పుడు ప్రతికూలతలకు దారితీస్తాయి.
- సిస్టమ్ శిక్షణ పొందిన డేటాలో వ్యక్తులతో సంబంధం లేని మరియు రోగనిర్ధారణ విలువ లేని తరచుగా సంభవించే మరియు భిన్నమైన పంపిణీ లక్షణాన్ని కలిగి ఉంటుంది: చర్మ క్యాన్సర్ లేదా గొర్రెల ఛాయాచిత్రాలలో గడ్డి యొక్క ఛాయాచిత్రాలలో పాలకుడు. ఈ సందర్భంలో, సిస్టమ్ మానవ కన్ను "పాలకుడు"గా గుర్తించే ఏదైనా చిత్రంలో పిక్సెల్లను కనుగొంటే ఫలితం భిన్నంగా ఉంటుంది.
- డేటా ఒక వ్యక్తి కోసం వెతికినా చూడలేని మూడవ పక్ష లక్షణాన్ని కలిగి ఉంది.
దాని అర్థం ఏమిటి? డేటా వేర్వేరు వ్యక్తుల సమూహాలను విభిన్నంగా సూచిస్తుందని మాకు తెలుసు మరియు కనీసం అటువంటి మినహాయింపుల కోసం మేము ప్లాన్ చేయవచ్చు. మరో మాటలో చెప్పాలంటే, వ్యక్తుల సమూహాల గురించిన డేటాలో ఇప్పటికే కొంత పక్షపాతం ఉందని భావించడానికి చాలా సామాజిక కారణాలు ఉన్నాయి. పాలకుడితో ఉన్న ఫోటో చూస్తే ఈ పాలకుడు కనిపిస్తాడు- ఇంతకు ముందు పర్వాలేదని తెలిసి, వ్యవస్థకు ఏమీ తెలియదని మర్చిపోయాము.
అయితే మీ అనారోగ్య చర్మానికి సంబంధించిన అన్ని ఫోటోలు ఒక కార్యాలయంలో ప్రకాశించే కాంతిలో తీయబడితే మరియు మీ ఆరోగ్యకరమైన చర్మం ఫ్లోరోసెంట్ కాంతిలో తీయబడితే? మీరు ఆరోగ్యకరమైన చర్మాన్ని చిత్రీకరించడం పూర్తి చేసిన తర్వాత, అనారోగ్య చర్మాన్ని షూట్ చేసే ముందు, మీరు మీ ఫోన్లోని ఆపరేటింగ్ సిస్టమ్ను అప్డేట్ చేసి, Apple లేదా Google నాయిస్ రిడక్షన్ అల్గారిథమ్ను కొద్దిగా మార్చినట్లయితే? అటువంటి లక్షణాల కోసం ఎంత వెతికినా ఒక వ్యక్తి దీనిని గమనించలేడు. కానీ మెషిన్-యూజ్ సిస్టమ్ వెంటనే దీన్ని చూసి ఉపయోగిస్తుంది. ఆమెకు ఏమీ తెలియదు.
ఇప్పటివరకు మేము నకిలీ సహసంబంధాల గురించి మాట్లాడాము, కానీ అది డేటా ఖచ్చితమైనది మరియు ఫలితాలు సరైనవి కావచ్చు, కానీ మీరు వాటిని నైతిక, చట్టపరమైన లేదా నిర్వహణ కారణాల కోసం ఉపయోగించకూడదు. ఉదాహరణకు, కొన్ని అధికార పరిధులు, మహిళలు సురక్షితమైన డ్రైవర్లుగా ఉన్నప్పటికీ, వారి బీమాపై తగ్గింపును పొందేందుకు మహిళలను అనుమతించవు. చారిత్రక డేటాను విశ్లేషించేటప్పుడు, స్త్రీ పేర్లకు తక్కువ ప్రమాద కారకాన్ని కేటాయించే వ్యవస్థను మనం సులభంగా ఊహించవచ్చు. సరే, ఎంపిక నుండి పేర్లను తీసివేద్దాం. కానీ అమెజాన్ ఉదాహరణను గుర్తుంచుకోండి: సిస్టమ్ ఇతర కారకాల ఆధారంగా లింగాన్ని నిర్ణయించగలదు (లింగం అంటే ఏమిటో లేదా కారు ఏమిటో కూడా తెలియదు), మరియు రెగ్యులేటర్ మీ సుంకాలను ముందస్తుగా విశ్లేషించే వరకు మీరు దీనిని గమనించలేరు. ఆఫర్ మరియు ఛార్జీలు మీకు జరిమానా విధించబడతాయి.
చివరగా, వ్యక్తులు మరియు సామాజిక పరస్పర చర్యలతో కూడిన ప్రాజెక్ట్ల కోసం మాత్రమే మేము అటువంటి వ్యవస్థలను ఉపయోగిస్తామని తరచుగా భావించబడుతుంది. ఇది తప్పు. మీరు గ్యాస్ టర్బైన్లను తయారు చేస్తే, మీ ఉత్పత్తిపై (ఆడియో, వీడియో, ఉష్ణోగ్రత మరియు ఏదైనా ఇతర సెన్సార్లు మెషీన్ను రూపొందించడానికి చాలా సులభంగా స్వీకరించగల డేటాను ఉత్పత్తి చేసే పదుల లేదా వందల సెన్సార్ల ద్వారా ప్రసారం చేయబడిన టెలిమెట్రీకి మెషిన్ లెర్నింగ్ను వర్తింపజేయవచ్చు. లెర్నింగ్ మోడల్). ఊహాత్మకంగా, మీరు ఇలా చెప్పవచ్చు, “వెయ్యి టర్బైన్ల నుండి అవి విఫలమయ్యే ముందు విఫలమైన డేటా ఇక్కడ ఉంది మరియు విఫలం కాని వెయ్యి టర్బైన్ల నుండి డేటా ఇక్కడ ఉంది. వాటి మధ్య తేడా ఏమిటో చెప్పడానికి ఒక నమూనాను రూపొందించండి. బాగా, ఇప్పుడు సిమెన్స్ సెన్సార్లు 75% చెడ్డ టర్బైన్లలో ఇన్స్టాల్ చేయబడతాయని ఊహించుకోండి మరియు మంచి వాటిలో 12% మాత్రమే (వైఫల్యాలతో సంబంధం లేదు). సిమెన్స్ సెన్సార్లతో టర్బైన్లను కనుగొనడానికి సిస్టమ్ ఒక నమూనాను రూపొందిస్తుంది. అయ్యో!
చిత్రం - మోరిట్జ్ హార్డ్, UC బర్కిలీ
AI బయాస్ను నిర్వహించడం
దాని గురించి మనం ఏమి చేయగలం? మీరు సమస్యను మూడు కోణాల నుండి సంప్రదించవచ్చు:
- సిస్టమ్కు శిక్షణ ఇవ్వడానికి డేటాను సేకరించడం మరియు నిర్వహించడంలో మెథడాలాజికల్ కఠినత.
- మోడల్ ప్రవర్తనను విశ్లేషించడానికి మరియు నిర్ధారించడానికి సాంకేతిక సాధనాలు.
- మెషిన్ లెర్నింగ్ను ఉత్పత్తులలో అమలు చేస్తున్నప్పుడు శిక్షణ ఇవ్వండి, అవగాహన కల్పించండి మరియు జాగ్రత్తగా ఉండండి.
మోలియెర్ పుస్తకంలో "ది బూర్జువా ఇన్ ది నోబిలిటీ"లో ఒక జోక్ ఉంది: సాహిత్యం గద్య మరియు కవిత్వంగా విభజించబడిందని ఒక వ్యక్తికి చెప్పబడింది మరియు అతను తన జీవితమంతా తనకు తెలియకుండానే గద్యంలో మాట్లాడుతున్నాడని తెలుసుకున్నందుకు అతను సంతోషించాడు. ఈ రోజు గణాంకవేత్తలు ఈ విధంగా భావిస్తారు: దానిని గ్రహించకుండా, వారు తమ వృత్తిని కృత్రిమ మేధస్సు మరియు నమూనా దోషానికి అంకితం చేశారు. నమూనా లోపం కోసం వెతకడం మరియు దాని గురించి చింతించడం కొత్త సమస్య కాదు, మేము దాని పరిష్కారాన్ని క్రమపద్ధతిలో సంప్రదించాలి. పైన చెప్పినట్లుగా, కొన్ని సందర్భాల్లో వ్యక్తుల డేటాకు సంబంధించిన సమస్యలను అధ్యయనం చేయడం ద్వారా దీన్ని చేయడం చాలా సులభం. మేము వివిధ సమూహాల వ్యక్తులకు సంబంధించి పక్షపాతాలను కలిగి ఉండవచ్చని మేము ముందుగా ఊహించాము, కానీ సిమెన్స్ సెన్సార్ల గురించి పక్షపాతాన్ని ఊహించడం కూడా మాకు కష్టం.
వీటన్నింటిలో కొత్త విషయం ఏమిటంటే, ప్రజలు ఇకపై నేరుగా గణాంక విశ్లేషణ చేయరు. ఇది పెద్ద, సంక్లిష్టమైన నమూనాలను రూపొందించే యంత్రాల ద్వారా నిర్వహించబడుతుంది, అది అర్థం చేసుకోవడం కష్టం. పక్షపాత సమస్య యొక్క ప్రధాన అంశాలలో పారదర్శకత సమస్య ఒకటి. సిస్టమ్ కేవలం పక్షపాతంతో కూడుకున్నది కాదని, దాని పక్షపాతాన్ని గుర్తించే మార్గం లేదని మరియు మెషిన్ లెర్నింగ్ అనేది ఇతర రకాల ఆటోమేషన్ల నుండి భిన్నంగా ఉంటుందని మేము భయపడుతున్నాము, ఇవి పరీక్షించగల స్పష్టమైన తార్కిక దశలను కలిగి ఉంటాయి.
ఇక్కడ రెండు సమస్యలు ఉన్నాయి. మేము ఇప్పటికీ మెషిన్ లెర్నింగ్ సిస్టమ్ల యొక్క ఒక రకమైన ఆడిట్ను నిర్వహించగలము. మరియు ఏ ఇతర సిస్టమ్ను ఆడిట్ చేయడం నిజానికి అంత సులభం కాదు.
ముందుగా, మెషీన్ లెర్నింగ్ రంగంలో ఆధునిక పరిశోధన యొక్క దిశలలో ఒకటి మెషీన్ లెర్నింగ్ సిస్టమ్స్ యొక్క ముఖ్యమైన కార్యాచరణను గుర్తించే పద్ధతుల కోసం అన్వేషణ. మెషీన్ లెర్నింగ్ (ప్రస్తుత స్థితిలో) అనేది పూర్తిగా కొత్త సైన్స్ రంగం, ఇది త్వరగా మారుతోంది, కాబట్టి ఈ రోజు అసాధ్యమైన విషయాలు త్వరలో వాస్తవమైనవి కావు అని అనుకోకండి. ప్రాజెక్ట్
రెండవది, మీరు ఇప్పటికే ఉన్న సిస్టమ్లు లేదా సంస్థల యొక్క నిర్ణయాత్మక ప్రక్రియను పరీక్షించి అర్థం చేసుకోగలరనే ఆలోచన సిద్ధాంతంలో మంచిది, కానీ ఆచరణలో అలా ఉంటుంది. పెద్ద సంస్థలో నిర్ణయాలు ఎలా తీసుకోవాలో అర్థం చేసుకోవడం అంత సులభం కాదు. అధికారికంగా నిర్ణయం తీసుకునే ప్రక్రియ ఉన్నప్పటికీ, వ్యక్తులు వాస్తవానికి ఎలా పరస్పర చర్య చేస్తారో అది ప్రతిబింబించదు మరియు వారి నిర్ణయాలు తీసుకునే తార్కిక, క్రమబద్ధమైన విధానాన్ని వారు తరచుగా కలిగి ఉండరు. నా సహోద్యోగి చెప్పినట్లు
అనేక అతివ్యాప్తి చెందుతున్న కంపెనీలు మరియు సంస్థలలో వెయ్యి మంది వ్యక్తులను తీసుకోండి మరియు సమస్య మరింత క్లిష్టంగా మారుతుంది. అంతరిక్ష నౌక తిరిగి రాగానే విడిపోవాలని నిర్ణయించుకున్న సంగతి తెలిసిందే, మరియు NASAలోని వ్యక్తులకు ఏదైనా చెడు జరగవచ్చని భావించే కారణాన్ని అందించిన సమాచారం ఉంది, కానీ వ్యవస్థ సాధారణంగా ఇది నాకు తెలియదు. NASA దాని మునుపటి షటిల్ను కోల్పోయిన తర్వాత కూడా ఇదే విధమైన ఆడిట్ ద్వారా వెళ్ళింది, ఇంకా ఇదే కారణంతో మరొక దానిని కోల్పోయింది. సంస్థలు మరియు వ్యక్తులు స్పష్టమైన, తార్కిక నియమాలను అనుసరిస్తారని వాదించడం చాలా సులభం-కాని అనుభవం రుజువు చేస్తుంది. ఈ "
నేను తరచుగా మెషీన్ లెర్నింగ్ని డేటాబేస్లతో, ప్రత్యేకించి రిలేషనల్తో పోలుస్తాను - కంప్యూటర్ సైన్స్ మరియు దాని చుట్టూ ఉన్న ప్రపంచం యొక్క సామర్థ్యాలను మార్చిన కొత్త ప్రాథమిక సాంకేతికత, ఇది ప్రతిదానిలో భాగమైంది, ఇది మనం గుర్తించకుండా నిరంతరం ఉపయోగిస్తాము. డేటాబేస్లు కూడా సమస్యలను కలిగి ఉంటాయి మరియు అవి సారూప్య స్వభావం కలిగి ఉంటాయి: సిస్టమ్ చెడు అంచనాలు లేదా చెడు డేటాపై నిర్మించబడి ఉండవచ్చు, కానీ దానిని గమనించడం కష్టంగా ఉంటుంది మరియు సిస్టమ్ను ఉపయోగించే వ్యక్తులు ప్రశ్నలు అడగకుండానే అది వారికి చెప్పేది చేస్తారు. ఒకసారి మీ పేరును తప్పుగా వ్రాసిన పన్ను వ్యక్తుల గురించి చాలా పాత జోకులు ఉన్నాయి మరియు తప్పును సరిదిద్దడానికి వారిని ఒప్పించడం మీ పేరును మార్చడం కంటే చాలా కష్టం. దీని గురించి ఆలోచించడానికి అనేక మార్గాలు ఉన్నాయి, కానీ ఏది మంచిదో స్పష్టంగా లేదు: SQLలో సాంకేతిక సమస్యగా లేదా ఒరాకిల్ విడుదలలో బగ్గా లేదా బ్యూరోక్రాటిక్ సంస్థల వైఫల్యంగా? సిస్టమ్లో అక్షర దోషం దిద్దుబాటు ఫీచర్ లేకపోవడానికి దారితీసిన ప్రక్రియలో బగ్ను కనుగొనడం ఎంత కష్టం? ప్రజలు ఫిర్యాదు చేయడం ప్రారంభించడానికి ముందు ఇది గుర్తించబడిందా?
నావిగేటర్లోని పాత డేటా కారణంగా డ్రైవర్లు నదుల్లోకి వెళ్లినప్పుడు ఈ సమస్య కథనాల ద్వారా మరింత సరళంగా వివరించబడింది. సరే, మ్యాప్లు నిరంతరం నవీకరించబడాలి. అయితే మీ కారు సముద్రంలోకి దూసుకెళ్లినందుకు టామ్టామ్ ఎంతవరకు నిందించాలి?
నేను ఇలా చెప్పడానికి కారణం అవును, మెషిన్ లెర్నింగ్ బయాస్ సమస్యలను సృష్టిస్తుంది. కానీ ఈ సమస్యలు మనం గతంలో ఎదుర్కొన్న వాటికి సమానంగా ఉంటాయి మరియు వాటిని మనం గతంలో చేయగలిగినట్లు గుర్తించవచ్చు మరియు పరిష్కరించవచ్చు (లేదా కాదు). అందువల్ల, AI పక్షపాతం హాని కలిగించే దృశ్యం పెద్ద సంస్థలో పనిచేస్తున్న సీనియర్ పరిశోధకులకు సంభవించే అవకాశం లేదు. చాలా మటుకు, కొందరు అప్రధానమైన సాంకేతిక కాంట్రాక్టర్ లేదా సాఫ్ట్వేర్ విక్రేతలు తమకు అర్థం కాని ఓపెన్ సోర్స్ భాగాలు, లైబ్రరీలు మరియు సాధనాలను ఉపయోగించి వారి మోకాళ్లపై ఏదైనా వ్రాస్తారు. మరియు దురదృష్టకర క్లయింట్ ఉత్పత్తి వివరణలో "కృత్రిమ మేధస్సు" అనే పదబంధాన్ని కొనుగోలు చేస్తాడు మరియు ఎటువంటి ప్రశ్నలు అడగకుండా, తన తక్కువ-చెల్లింపు ఉద్యోగులకు పంపిణీ చేస్తాడు, AI చెప్పినట్లుగా చేయమని వారిని ఆదేశిస్తాడు. డేటాబేస్లతో సరిగ్గా ఇదే జరిగింది. ఇది కృత్రిమ మేధస్సు సమస్య కాదు, లేదా సాఫ్ట్వేర్ సమస్య కూడా కాదు. ఇది మానవ కారకం.
తీర్మానం
మెషిన్ లెర్నింగ్ మీరు కుక్కకు నేర్పించగలిగే ఏదైనా చేయగలదు - కానీ మీరు కుక్కకు సరిగ్గా ఏమి నేర్పించారో మీరు ఖచ్చితంగా చెప్పలేరు.
"కృత్రిమ మేధస్సు" అనే పదం ఇలాంటి సంభాషణల మార్గంలో మాత్రమే వస్తుందని నాకు తరచుగా అనిపిస్తుంది. ఈ పదం వాస్తవానికి మనం సృష్టించినట్లు తప్పుడు అభిప్రాయాన్ని ఇస్తుంది - ఈ మేధస్సు. మేము HAL9000 లేదా స్కైనెట్కి వెళ్తున్నాము - నిజానికి అది అర్థం చేసుకుంటుంది. కానీ కాదు. ఇవి కేవలం యంత్రాలు మాత్రమే మరియు వాటిని వాషింగ్ మెషీన్తో పోల్చడం చాలా ఖచ్చితమైనది. ఆమె మనిషి కంటే మెరుగ్గా లాండ్రీ చేస్తుంది, కానీ మీరు ఆమెలో లాండ్రీకి బదులుగా గిన్నెలు వేస్తే, ఆమె... వాటిని కడుగుతారు. వంటలు కూడా శుభ్రంగా మారతాయి. కానీ ఇది మీరు ఊహించినది కాదు మరియు ఇది జరగదు ఎందుకంటే సిస్టమ్ వంటకాలకు సంబంధించి ఏవైనా పక్షపాతాలను కలిగి ఉంది. వాషింగ్ మెషీన్కు వంటకాలు ఏమిటో లేదా బట్టలు ఏమిటో తెలియదు - ఇది ఆటోమేషన్కు కేవలం ఒక ఉదాహరణ, సంభావితంగా ప్రక్రియలు ఇంతకు ముందు ఎలా ఆటోమేటెడ్ అయ్యాయో దానికి భిన్నంగా లేదు.
మేము కార్లు, విమానాలు లేదా డేటాబేస్ల గురించి మాట్లాడుతున్నా, ఈ సిస్టమ్లు చాలా శక్తివంతమైనవి మరియు చాలా పరిమితంగా ఉంటాయి. వ్యక్తులు ఈ వ్యవస్థలను ఎలా ఉపయోగిస్తున్నారు, వారి ఉద్దేశాలు మంచివి లేదా చెడ్డవి కాదా మరియు వారు ఎలా పని చేస్తారో వారు ఎంతవరకు అర్థం చేసుకుంటారు అనే దానిపై వారు పూర్తిగా ఆధారపడి ఉంటారు.
అందువల్ల, “కృత్రిమ మేధస్సు గణితం, కాబట్టి దీనికి పక్షపాతాలు ఉండవు” అని చెప్పడం పూర్తిగా తప్పు. కానీ మెషిన్ లెర్నింగ్ అనేది "సబ్జెక్టివ్ స్వభావం" అని చెప్పడం కూడా అంతే తప్పు. మెషిన్ లెర్నింగ్ డేటాలో నమూనాలను కనుగొంటుంది మరియు అది ఏ నమూనాలను కనుగొంటుందో డేటాపై ఆధారపడి ఉంటుంది మరియు డేటా మనపై ఆధారపడి ఉంటుంది. వారితో మనం చేసే పనిలాగే. మెషిన్ లెర్నింగ్ కొన్ని పనులను మనం చేయగలిగిన దానికంటే మెరుగ్గా చేస్తుంది - అయితే కుక్కలు, ఉదాహరణకు, డ్రగ్స్ని గుర్తించడంలో మనుషుల కంటే చాలా ప్రభావవంతంగా ఉంటాయి, ఇది వారిని సాక్షులుగా ఉపయోగించుకోవడానికి మరియు వారి సాక్ష్యం ఆధారంగా తీర్పులు ఇవ్వడానికి కారణం కాదు. మరియు కుక్కలు, ఏ మెషిన్ లెర్నింగ్ సిస్టమ్ కంటే చాలా తెలివిగా ఉంటాయి.
అనువాదం:
సవరణ:
సంఘం:
మూలం: www.habr.com