ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ బయాస్ గురించి

ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ బయాస్ గురించి

tl; dr:

  • మెషిన్ లెర్నింగ్ డేటాలోని నమూనాల కోసం చూస్తుంది. కానీ కృత్రిమ మేధస్సు "పక్షపాతంతో" ఉంటుంది-అంటే, తప్పుగా ఉన్న నమూనాలను కనుగొనండి. ఉదాహరణకు, ఫోటో ఆధారిత చర్మ క్యాన్సర్ గుర్తింపు వ్యవస్థ వైద్యుని కార్యాలయంలో తీసిన చిత్రాలపై ప్రత్యేక శ్రద్ధ చూపుతుంది. మెషిన్ లెర్నింగ్ సాధ్యం కాదు అర్థం చేసుకోవడానికి: దాని అల్గోరిథంలు సంఖ్యలలోని నమూనాలను మాత్రమే గుర్తిస్తాయి మరియు డేటా ప్రతినిధి కానట్లయితే, దాని ప్రాసెసింగ్ ఫలితం కూడా ఉంటుంది. మరియు మెషిన్ లెర్నింగ్ యొక్క మెకానిక్స్ కారణంగా అటువంటి బగ్‌లను పట్టుకోవడం కష్టంగా ఉంటుంది.
  • అత్యంత స్పష్టమైన మరియు భయంకరమైన సమస్య ప్రాంతం మానవ వైవిధ్యం. వ్యక్తులకు సంబంధించిన డేటా సేకరణ దశలో కూడా నిష్పాక్షికతను కోల్పోవడానికి అనేక కారణాలు ఉన్నాయి. కానీ ఈ సమస్య ప్రజలను మాత్రమే ప్రభావితం చేస్తుందని అనుకోకండి: గిడ్డంగిలో లేదా విఫలమైన గ్యాస్ టర్బైన్లో వరదను గుర్తించడానికి ప్రయత్నిస్తున్నప్పుడు సరిగ్గా అదే ఇబ్బందులు తలెత్తుతాయి. కొన్ని సిస్టమ్‌లు చర్మం రంగు పట్ల పక్షపాతంతో ఉండవచ్చు, మరికొన్ని సిమెన్స్ సెన్సార్‌ల పట్ల పక్షపాతంతో ఉంటాయి.
  • ఇటువంటి సమస్యలు మెషిన్ లెర్నింగ్‌కి కొత్త కాదు మరియు అవి దానికి చాలా ప్రత్యేకమైనవి కావు. ఏదైనా సంక్లిష్టమైన నిర్మాణంలో తప్పు అంచనాలు తయారు చేయబడతాయి మరియు నిర్దిష్ట నిర్ణయం ఎందుకు తీసుకున్నారో అర్థం చేసుకోవడం ఎల్లప్పుడూ కష్టం. మేము దీనిని సమగ్ర మార్గంలో ఎదుర్కోవాలి: ధృవీకరణ కోసం సాధనాలు మరియు ప్రక్రియలను సృష్టించండి - మరియు వినియోగదారులు AI సిఫార్సులను గుడ్డిగా అనుసరించకుండా వారికి అవగాహన కల్పించండి. మెషిన్ లెర్నింగ్ కొన్ని పనులను మనం చేయగలిగిన దానికంటే మెరుగ్గా చేస్తుంది - అయితే కుక్కలు, ఉదాహరణకు, డ్రగ్స్‌ని గుర్తించడంలో మనుషుల కంటే చాలా ప్రభావవంతంగా ఉంటాయి, ఇది వారిని సాక్షులుగా ఉపయోగించుకోవడానికి మరియు వారి సాక్ష్యం ఆధారంగా తీర్పులు ఇవ్వడానికి కారణం కాదు. మరియు కుక్కలు, ఏ మెషిన్ లెర్నింగ్ సిస్టమ్ కంటే చాలా తెలివిగా ఉంటాయి.

మెషిన్ లెర్నింగ్ అనేది నేడు అత్యంత ముఖ్యమైన ప్రాథమిక సాంకేతిక పోకడలలో ఒకటి. రాబోయే దశాబ్దంలో టెక్నాలజీ మన చుట్టూ ఉన్న ప్రపంచాన్ని మార్చే ప్రధాన మార్గాలలో ఇది ఒకటి. ఈ మార్పులలోని కొన్ని అంశాలు ఆందోళన కలిగిస్తున్నాయి. ఉదాహరణకు, లేబర్ మార్కెట్‌పై యంత్ర అభ్యాసం యొక్క సంభావ్య ప్రభావం లేదా అనైతిక ప్రయోజనాల కోసం దాని ఉపయోగం (ఉదాహరణకు, అధికార పాలనల ద్వారా). ఈ పోస్ట్ ప్రస్తావించే మరో సమస్య ఉంది: కృత్రిమ మేధస్సు పక్షపాతం.

ఇది అంత తేలికైన కథ కాదు.

ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ బయాస్ గురించి
Google యొక్క AI పిల్లులను కనుగొనగలదు. 2012 నుండి వచ్చిన ఈ వార్త అప్పట్లో చాలా ప్రత్యేకమైనది.

"AI బయాస్" అంటే ఏమిటి?

"రా డేటా" అనేది ఆక్సిమోరాన్ మరియు చెడు ఆలోచన రెండూ; డేటా బాగా మరియు జాగ్రత్తగా తయారు చేయాలి. -జెఫ్రీ బోకర్

ఎక్కడో 2013కి ముందు, ఛాయాచిత్రాలలో పిల్లులను గుర్తించే వ్యవస్థను రూపొందించడానికి, మీరు తార్కిక దశలను వివరించాలి. చిత్రంలో మూలలను ఎలా కనుగొనాలి, కళ్ళను గుర్తించడం, బొచ్చు కోసం అల్లికలను విశ్లేషించడం, పాదాలను లెక్కించడం మరియు మొదలైనవి. ఆపై అన్ని భాగాలను ఒకచోట చేర్చి, అది నిజంగా పని చేయదని కనుగొనండి. యాంత్రిక గుర్రం లాగా - సిద్ధాంతపరంగా దీనిని తయారు చేయవచ్చు, కానీ ఆచరణలో ఇది వివరించడానికి చాలా క్లిష్టంగా ఉంటుంది. అంతిమ ఫలితం వందల (లేదా వేల) చేతివ్రాత నియమాలు. మరియు ఒక్క వర్కింగ్ మోడల్ కూడా లేదు.

మెషిన్ లెర్నింగ్ రావడంతో, మేము నిర్దిష్ట వస్తువును గుర్తించడం కోసం "మాన్యువల్" నియమాలను ఉపయోగించడం మానేశాము. బదులుగా, మేము "ఇది", X యొక్క వెయ్యి నమూనాలను, "ఇతర", Y యొక్క వెయ్యి నమూనాలను తీసుకుంటాము మరియు కంప్యూటర్ వారి గణాంక విశ్లేషణ ఆధారంగా ఒక నమూనాను రూపొందించాము. మేము ఈ మోడల్‌కు కొంత నమూనా డేటాను ఇస్తాము మరియు ఇది సెట్‌లలో ఒకదానికి సరిపోతుందో లేదో కొంత ఖచ్చితత్వంతో నిర్ణయిస్తుంది. మెషిన్ లెర్నింగ్ అనేది మానవుడు వ్రాసే దాని నుండి కాకుండా డేటా నుండి ఒక నమూనాను రూపొందిస్తుంది. ముఖ్యంగా ఇమేజ్ మరియు ప్యాటర్న్ రికగ్నిషన్ రంగంలో ఫలితాలు ఆకట్టుకుంటున్నాయి మరియు అందుకే మొత్తం టెక్ పరిశ్రమ ఇప్పుడు మెషిన్ లెర్నింగ్ (ML)కి మారుతోంది.

కానీ అది అంత సులభం కాదు. వాస్తవ ప్రపంచంలో, మీ వేలకొద్దీ X లేదా Y ఉదాహరణలు A, B, J, L, O, R మరియు L కూడా కలిగి ఉంటాయి. ఇవి సమానంగా పంపిణీ చేయబడకపోవచ్చు మరియు కొన్ని చాలా తరచుగా సంభవించవచ్చు, తద్వారా సిస్టమ్ ఎక్కువ చెల్లించబడుతుంది మీకు ఆసక్తి ఉన్న వస్తువుల కంటే వాటిపై దృష్టి పెట్టండి.

ఆచరణలో దీని అర్థం ఏమిటి? ఇమేజ్ రికగ్నిషన్ సిస్టమ్‌లు ఉన్నప్పుడు నాకు ఇష్టమైన ఉదాహరణ గడ్డి కొండను చూసి "గొర్రెలు" అని చెప్పండి. ఎందుకు అనేది స్పష్టంగా ఉంది: "గొర్రెలు" యొక్క చాలా ఉదాహరణ ఛాయాచిత్రాలు వారు నివసించే పచ్చికభూములలో తీయబడ్డాయి మరియు ఈ చిత్రాలలో గడ్డి చిన్న తెల్లటి మెత్తనికలపల కంటే చాలా ఎక్కువ స్థలాన్ని తీసుకుంటుంది మరియు ఇది వ్యవస్థ అత్యంత ముఖ్యమైనదిగా భావించే గడ్డి. .

మరింత తీవ్రమైన ఉదాహరణలు ఉన్నాయి. ఒకటి ఇటీవలిది ప్రాజెక్ట్ ఛాయాచిత్రాలలో చర్మ క్యాన్సర్‌ను గుర్తించడం కోసం. నిర్మాణాల పరిమాణాన్ని రికార్డ్ చేయడానికి చర్మ క్యాన్సర్ యొక్క వ్యక్తీకరణలతో పాటు చర్మవ్యాధి నిపుణులు తరచుగా పాలకుడిని ఫోటో తీస్తారని తేలింది. ఆరోగ్యకరమైన చర్మం యొక్క ఉదాహరణ ఛాయాచిత్రాలలో పాలకులు లేరు. AI వ్యవస్థ కోసం, అటువంటి పాలకులు (మరింత ఖచ్చితంగా, మేము "పాలకుడు"గా నిర్వచించే పిక్సెల్‌లు) ఉదాహరణల సెట్ల మధ్య తేడాలలో ఒకటిగా మారాయి మరియు కొన్నిసార్లు చర్మంపై చిన్న దద్దుర్లు కంటే చాలా ముఖ్యమైనవి. కాబట్టి చర్మ క్యాన్సర్‌ను గుర్తించడానికి రూపొందించబడిన వ్యవస్థ కొన్నిసార్లు బదులుగా పాలకులను గుర్తించింది.

ఇక్కడ ప్రధాన విషయం ఏమిటంటే, వ్యవస్థకు అది చూస్తున్న దాని గురించి అర్థపరమైన అవగాహన లేదు. మేము పిక్సెల్‌ల సమితిని చూస్తాము మరియు వాటిలో గొర్రెలు, చర్మం లేదా పాలకులను చూస్తాము, కానీ సిస్టమ్ సంఖ్యా రేఖ మాత్రమే. ఆమె త్రిమితీయ స్థలాన్ని చూడదు, వస్తువులు, అల్లికలు లేదా గొర్రెలను చూడదు. ఆమె కేవలం డేటాలోని నమూనాలను చూస్తుంది.

అటువంటి సమస్యలను నిర్ధారించడంలో ఇబ్బంది ఏమిటంటే, న్యూరల్ నెట్‌వర్క్ (మీ మెషీన్ లెర్నింగ్ సిస్టమ్ ద్వారా రూపొందించబడిన మోడల్) వేల వందల వేల నోడ్‌లను కలిగి ఉంటుంది. మోడల్‌ను పరిశీలించి, అది ఎలా నిర్ణయం తీసుకుంటుందో చూడడానికి సులభమైన మార్గం లేదు. మెషీన్ లెర్నింగ్‌ని ఉపయోగించకుండా, అన్ని నియమాలను మాన్యువల్‌గా వివరించేంత సరళమైన ప్రక్రియ అని అర్థం. మెషీన్ లెర్నింగ్ బ్లాక్ బాక్స్‌గా మారిందని ప్రజలు ఆందోళన చెందుతున్నారు. (ఈ పోలిక ఇంకా ఎందుకు ఎక్కువగా ఉందో నేను కొంచెం తరువాత వివరిస్తాను.)

ఇది సాధారణ పరంగా, ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ లేదా మెషిన్ లెర్నింగ్‌లో పక్షపాత సమస్య: డేటాలో నమూనాలను కనుగొనే వ్యవస్థ తప్పు నమూనాలను కనుగొనవచ్చు మరియు మీరు దానిని గమనించకపోవచ్చు. ఇది సాంకేతికత యొక్క ప్రాథమిక లక్షణం, మరియు విద్యారంగంలో మరియు పెద్ద టెక్ కంపెనీలలో దానితో పనిచేసే ప్రతి ఒక్కరికీ ఇది స్పష్టంగా ఉంటుంది. కానీ దాని పర్యవసానాలు సంక్లిష్టంగా ఉంటాయి మరియు ఆ పరిణామాలకు మా సాధ్యమైన పరిష్కారాలు కూడా ఉన్నాయి.

ముందు పరిణామాల గురించి మాట్లాడుకుందాం.

ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ బయాస్ గురించి
AI, మన కోసం పరోక్షంగా, పెద్ద సంఖ్యలో కనిపించని సంకేతాల ఆధారంగా నిర్దిష్ట వర్గాల వ్యక్తులకు అనుకూలంగా ఎంపిక చేసుకోవచ్చు.

AI బయాస్ దృశ్యాలు

చాలా స్పష్టంగా మరియు భయానకంగా, మానవ వైవిధ్యం విషయానికి వస్తే ఈ సమస్య స్వయంగా వ్యక్తమవుతుంది. ఇటీవల ఒక పుకారు వచ్చిందిజాబ్ అభ్యర్థుల ప్రారంభ స్క్రీనింగ్ కోసం అమెజాన్ మెషీన్ లెర్నింగ్ సిస్టమ్‌ను రూపొందించడానికి ప్రయత్నించింది. అమెజాన్ కార్మికులలో ఎక్కువ మంది పురుషులు ఉన్నందున, "విజయవంతమైన నియామకం" యొక్క ఉదాహరణలు కూడా చాలా తరచుగా పురుషులు మరియు సిస్టమ్ సూచించిన రెజ్యూమ్‌ల ఎంపికలో ఎక్కువ మంది పురుషులు ఉన్నారు. అమెజాన్ దీనిని గమనించి సిస్టమ్‌ను ఉత్పత్తికి విడుదల చేయలేదు.

ఈ ఉదాహరణలో చాలా ముఖ్యమైన విషయం ఏమిటంటే, రెజ్యూమ్‌లో లింగం పేర్కొనబడనప్పటికీ, సిస్టమ్ పురుష దరఖాస్తుదారులకు అనుకూలంగా ఉన్నట్లు పుకారు వచ్చింది. వ్యవస్థ "మంచి నియామకాల" ఉదాహరణలలో ఇతర నమూనాలను చూసింది: ఉదాహరణకు, మహిళలు విజయాలను వివరించడానికి ప్రత్యేక పదాలను ఉపయోగించవచ్చు లేదా ప్రత్యేక అభిరుచులను కలిగి ఉండవచ్చు. వాస్తవానికి, “హాకీ” అంటే ఏమిటి, లేదా “ప్రజలు” ఎవరు, లేదా “విజయం” అంటే ఏమిటో సిస్టమ్‌కి తెలియదు - ఇది కేవలం టెక్స్ట్ యొక్క గణాంక విశ్లేషణను నిర్వహించింది. కానీ ఆమె చూసిన నమూనాలు చాలా మటుకు మానవులచే గుర్తించబడవు మరియు వాటిలో కొన్ని (ఉదాహరణకు, విభిన్న లింగాల వ్యక్తులు విజయాన్ని భిన్నంగా వివరిస్తారు) మనం వాటిని చూసినప్పటికీ చూడటం చాలా కష్టం.

మరింత - అధ్వాన్నంగా. లేత చర్మంపై క్యాన్సర్‌ను కనుగొనడంలో చాలా మంచి మెషీన్ లెర్నింగ్ సిస్టమ్ డార్క్ స్కిన్‌పై కూడా పని చేయకపోవచ్చు లేదా దీనికి విరుద్ధంగా ఉంటుంది. పక్షపాతం కారణంగా అవసరం లేదు, కానీ మీరు బహుశా వివిధ లక్షణాలను ఎంచుకోవడం, వేరే చర్మం రంగు కోసం ప్రత్యేక మోడల్‌ను నిర్మించాల్సిన అవసరం ఉన్నందున. ఇమేజ్ రికగ్నిషన్ వంటి ఇరుకైన ప్రాంతంలో కూడా మెషిన్ లెర్నింగ్ సిస్టమ్‌లు పరస్పరం మార్చుకోలేవు. మీరు కోరుకున్న ఖచ్చితత్వాన్ని సాధించే వరకు మీకు ఆసక్తి ఉన్న డేటాలోని ఫీచర్‌లపై మంచి హ్యాండిల్‌ని పొందడానికి మీరు సిస్టమ్‌ను కొన్నిసార్లు ట్రయల్ మరియు ఎర్రర్ ద్వారా సర్దుబాటు చేయాలి. కానీ మీరు గమనించని విషయమేమిటంటే, సిస్టమ్ ఒక సమూహంతో 98% ఖచ్చితమైనది మరియు మరొకదానితో 91% (మానవ విశ్లేషణ కంటే మరింత ఖచ్చితమైనది) మాత్రమే ఉంటుంది.

ఇప్పటివరకు నేను వ్యక్తులు మరియు వారి లక్షణాలకు సంబంధించిన ఉదాహరణలను ప్రధానంగా ఉపయోగించాను. ఈ సమస్య చుట్టూ చర్చ ప్రధానంగా ఈ అంశంపై దృష్టి పెడుతుంది. కానీ ప్రజల పట్ల పక్షపాతం సమస్యలో ఒక భాగం మాత్రమే అని అర్థం చేసుకోవడం ముఖ్యం. మేము చాలా విషయాల కోసం మెషిన్ లెర్నింగ్‌ని ఉపయోగిస్తాము మరియు నమూనా లోపం వాటన్నింటికీ సంబంధితంగా ఉంటుంది. మరోవైపు, మీరు వ్యక్తులతో పని చేస్తే, డేటాలోని పక్షపాతం వారికి సంబంధించినది కాకపోవచ్చు.

దీన్ని అర్థం చేసుకోవడానికి, చర్మ క్యాన్సర్ ఉదాహరణకి తిరిగి వెళ్దాం మరియు సిస్టమ్ వైఫల్యానికి మూడు ఊహాత్మక అవకాశాలను పరిశీలిద్దాం.

  1. వ్యక్తుల యొక్క భిన్నమైన పంపిణీ: వివిధ చర్మపు టోన్‌ల యొక్క అసమతుల్య ఛాయాచిత్రాలు, పిగ్మెంటేషన్ కారణంగా తప్పుడు పాజిటివ్‌లు లేదా తప్పుడు ప్రతికూలతలకు దారితీస్తాయి.
  2. సిస్టమ్ శిక్షణ పొందిన డేటాలో వ్యక్తులతో సంబంధం లేని మరియు రోగనిర్ధారణ విలువ లేని తరచుగా సంభవించే మరియు భిన్నమైన పంపిణీ లక్షణాన్ని కలిగి ఉంటుంది: చర్మ క్యాన్సర్ లేదా గొర్రెల ఛాయాచిత్రాలలో గడ్డి యొక్క ఛాయాచిత్రాలలో పాలకుడు. ఈ సందర్భంలో, సిస్టమ్ మానవ కన్ను "పాలకుడు"గా గుర్తించే ఏదైనా చిత్రంలో పిక్సెల్‌లను కనుగొంటే ఫలితం భిన్నంగా ఉంటుంది.
  3. డేటా ఒక వ్యక్తి కోసం వెతికినా చూడలేని మూడవ పక్ష లక్షణాన్ని కలిగి ఉంది.

దాని అర్థం ఏమిటి? డేటా వేర్వేరు వ్యక్తుల సమూహాలను విభిన్నంగా సూచిస్తుందని మాకు తెలుసు మరియు కనీసం అటువంటి మినహాయింపుల కోసం మేము ప్లాన్ చేయవచ్చు. మరో మాటలో చెప్పాలంటే, వ్యక్తుల సమూహాల గురించిన డేటాలో ఇప్పటికే కొంత పక్షపాతం ఉందని భావించడానికి చాలా సామాజిక కారణాలు ఉన్నాయి. పాలకుడితో ఉన్న ఫోటో చూస్తే ఈ పాలకుడు కనిపిస్తాడు- ఇంతకు ముందు పర్వాలేదని తెలిసి, వ్యవస్థకు ఏమీ తెలియదని మర్చిపోయాము.

అయితే మీ అనారోగ్య చర్మానికి సంబంధించిన అన్ని ఫోటోలు ఒక కార్యాలయంలో ప్రకాశించే కాంతిలో తీయబడితే మరియు మీ ఆరోగ్యకరమైన చర్మం ఫ్లోరోసెంట్ కాంతిలో తీయబడితే? మీరు ఆరోగ్యకరమైన చర్మాన్ని చిత్రీకరించడం పూర్తి చేసిన తర్వాత, అనారోగ్య చర్మాన్ని షూట్ చేసే ముందు, మీరు మీ ఫోన్‌లోని ఆపరేటింగ్ సిస్టమ్‌ను అప్‌డేట్ చేసి, Apple లేదా Google నాయిస్ రిడక్షన్ అల్గారిథమ్‌ను కొద్దిగా మార్చినట్లయితే? అటువంటి లక్షణాల కోసం ఎంత వెతికినా ఒక వ్యక్తి దీనిని గమనించలేడు. కానీ మెషిన్-యూజ్ సిస్టమ్ వెంటనే దీన్ని చూసి ఉపయోగిస్తుంది. ఆమెకు ఏమీ తెలియదు.

ఇప్పటివరకు మేము నకిలీ సహసంబంధాల గురించి మాట్లాడాము, కానీ అది డేటా ఖచ్చితమైనది మరియు ఫలితాలు సరైనవి కావచ్చు, కానీ మీరు వాటిని నైతిక, చట్టపరమైన లేదా నిర్వహణ కారణాల కోసం ఉపయోగించకూడదు. ఉదాహరణకు, కొన్ని అధికార పరిధులు, మహిళలు సురక్షితమైన డ్రైవర్లుగా ఉన్నప్పటికీ, వారి బీమాపై తగ్గింపును పొందేందుకు మహిళలను అనుమతించవు. చారిత్రక డేటాను విశ్లేషించేటప్పుడు, స్త్రీ పేర్లకు తక్కువ ప్రమాద కారకాన్ని కేటాయించే వ్యవస్థను మనం సులభంగా ఊహించవచ్చు. సరే, ఎంపిక నుండి పేర్లను తీసివేద్దాం. కానీ అమెజాన్ ఉదాహరణను గుర్తుంచుకోండి: సిస్టమ్ ఇతర కారకాల ఆధారంగా లింగాన్ని నిర్ణయించగలదు (లింగం అంటే ఏమిటో లేదా కారు ఏమిటో కూడా తెలియదు), మరియు రెగ్యులేటర్ మీ సుంకాలను ముందస్తుగా విశ్లేషించే వరకు మీరు దీనిని గమనించలేరు. ఆఫర్ మరియు ఛార్జీలు మీకు జరిమానా విధించబడతాయి.

చివరగా, వ్యక్తులు మరియు సామాజిక పరస్పర చర్యలతో కూడిన ప్రాజెక్ట్‌ల కోసం మాత్రమే మేము అటువంటి వ్యవస్థలను ఉపయోగిస్తామని తరచుగా భావించబడుతుంది. ఇది తప్పు. మీరు గ్యాస్ టర్బైన్‌లను తయారు చేస్తే, మీ ఉత్పత్తిపై (ఆడియో, వీడియో, ఉష్ణోగ్రత మరియు ఏదైనా ఇతర సెన్సార్‌లు మెషీన్‌ను రూపొందించడానికి చాలా సులభంగా స్వీకరించగల డేటాను ఉత్పత్తి చేసే పదుల లేదా వందల సెన్సార్‌ల ద్వారా ప్రసారం చేయబడిన టెలిమెట్రీకి మెషిన్ లెర్నింగ్‌ను వర్తింపజేయవచ్చు. లెర్నింగ్ మోడల్). ఊహాత్మకంగా, మీరు ఇలా చెప్పవచ్చు, “వెయ్యి టర్బైన్‌ల నుండి అవి విఫలమయ్యే ముందు విఫలమైన డేటా ఇక్కడ ఉంది మరియు విఫలం కాని వెయ్యి టర్బైన్‌ల నుండి డేటా ఇక్కడ ఉంది. వాటి మధ్య తేడా ఏమిటో చెప్పడానికి ఒక నమూనాను రూపొందించండి. బాగా, ఇప్పుడు సిమెన్స్ సెన్సార్లు 75% చెడ్డ టర్బైన్లలో ఇన్స్టాల్ చేయబడతాయని ఊహించుకోండి మరియు మంచి వాటిలో 12% మాత్రమే (వైఫల్యాలతో సంబంధం లేదు). సిమెన్స్ సెన్సార్‌లతో టర్బైన్‌లను కనుగొనడానికి సిస్టమ్ ఒక నమూనాను రూపొందిస్తుంది. అయ్యో!

ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ బయాస్ గురించి
చిత్రం - మోరిట్జ్ హార్డ్, UC బర్కిలీ

AI బయాస్‌ను నిర్వహించడం

దాని గురించి మనం ఏమి చేయగలం? మీరు సమస్యను మూడు కోణాల నుండి సంప్రదించవచ్చు:

  1. సిస్టమ్‌కు శిక్షణ ఇవ్వడానికి డేటాను సేకరించడం మరియు నిర్వహించడంలో మెథడాలాజికల్ కఠినత.
  2. మోడల్ ప్రవర్తనను విశ్లేషించడానికి మరియు నిర్ధారించడానికి సాంకేతిక సాధనాలు.
  3. మెషిన్ లెర్నింగ్‌ను ఉత్పత్తులలో అమలు చేస్తున్నప్పుడు శిక్షణ ఇవ్వండి, అవగాహన కల్పించండి మరియు జాగ్రత్తగా ఉండండి.

మోలియెర్ పుస్తకంలో "ది బూర్జువా ఇన్ ది నోబిలిటీ"లో ఒక జోక్ ఉంది: సాహిత్యం గద్య మరియు కవిత్వంగా విభజించబడిందని ఒక వ్యక్తికి చెప్పబడింది మరియు అతను తన జీవితమంతా తనకు తెలియకుండానే గద్యంలో మాట్లాడుతున్నాడని తెలుసుకున్నందుకు అతను సంతోషించాడు. ఈ రోజు గణాంకవేత్తలు ఈ విధంగా భావిస్తారు: దానిని గ్రహించకుండా, వారు తమ వృత్తిని కృత్రిమ మేధస్సు మరియు నమూనా దోషానికి అంకితం చేశారు. నమూనా లోపం కోసం వెతకడం మరియు దాని గురించి చింతించడం కొత్త సమస్య కాదు, మేము దాని పరిష్కారాన్ని క్రమపద్ధతిలో సంప్రదించాలి. పైన చెప్పినట్లుగా, కొన్ని సందర్భాల్లో వ్యక్తుల డేటాకు సంబంధించిన సమస్యలను అధ్యయనం చేయడం ద్వారా దీన్ని చేయడం చాలా సులభం. మేము వివిధ సమూహాల వ్యక్తులకు సంబంధించి పక్షపాతాలను కలిగి ఉండవచ్చని మేము ముందుగా ఊహించాము, కానీ సిమెన్స్ సెన్సార్ల గురించి పక్షపాతాన్ని ఊహించడం కూడా మాకు కష్టం.

వీటన్నింటిలో కొత్త విషయం ఏమిటంటే, ప్రజలు ఇకపై నేరుగా గణాంక విశ్లేషణ చేయరు. ఇది పెద్ద, సంక్లిష్టమైన నమూనాలను రూపొందించే యంత్రాల ద్వారా నిర్వహించబడుతుంది, అది అర్థం చేసుకోవడం కష్టం. పక్షపాత సమస్య యొక్క ప్రధాన అంశాలలో పారదర్శకత సమస్య ఒకటి. సిస్టమ్ కేవలం పక్షపాతంతో కూడుకున్నది కాదని, దాని పక్షపాతాన్ని గుర్తించే మార్గం లేదని మరియు మెషిన్ లెర్నింగ్ అనేది ఇతర రకాల ఆటోమేషన్‌ల నుండి భిన్నంగా ఉంటుందని మేము భయపడుతున్నాము, ఇవి పరీక్షించగల స్పష్టమైన తార్కిక దశలను కలిగి ఉంటాయి.

ఇక్కడ రెండు సమస్యలు ఉన్నాయి. మేము ఇప్పటికీ మెషిన్ లెర్నింగ్ సిస్టమ్‌ల యొక్క ఒక రకమైన ఆడిట్‌ను నిర్వహించగలము. మరియు ఏ ఇతర సిస్టమ్‌ను ఆడిట్ చేయడం నిజానికి అంత సులభం కాదు.

ముందుగా, మెషీన్ లెర్నింగ్ రంగంలో ఆధునిక పరిశోధన యొక్క దిశలలో ఒకటి మెషీన్ లెర్నింగ్ సిస్టమ్స్ యొక్క ముఖ్యమైన కార్యాచరణను గుర్తించే పద్ధతుల కోసం అన్వేషణ. మెషీన్ లెర్నింగ్ (ప్రస్తుత స్థితిలో) అనేది పూర్తిగా కొత్త సైన్స్ రంగం, ఇది త్వరగా మారుతోంది, కాబట్టి ఈ రోజు అసాధ్యమైన విషయాలు త్వరలో వాస్తవమైనవి కావు అని అనుకోకండి. ప్రాజెక్ట్ OpenAI - దీనికి ఒక ఆసక్తికరమైన ఉదాహరణ.

రెండవది, మీరు ఇప్పటికే ఉన్న సిస్టమ్‌లు లేదా సంస్థల యొక్క నిర్ణయాత్మక ప్రక్రియను పరీక్షించి అర్థం చేసుకోగలరనే ఆలోచన సిద్ధాంతంలో మంచిది, కానీ ఆచరణలో అలా ఉంటుంది. పెద్ద సంస్థలో నిర్ణయాలు ఎలా తీసుకోవాలో అర్థం చేసుకోవడం అంత సులభం కాదు. అధికారికంగా నిర్ణయం తీసుకునే ప్రక్రియ ఉన్నప్పటికీ, వ్యక్తులు వాస్తవానికి ఎలా పరస్పర చర్య చేస్తారో అది ప్రతిబింబించదు మరియు వారి నిర్ణయాలు తీసుకునే తార్కిక, క్రమబద్ధమైన విధానాన్ని వారు తరచుగా కలిగి ఉండరు. నా సహోద్యోగి చెప్పినట్లు విజయ్ పాండే, ప్రజలు కూడా బ్లాక్ బాక్స్‌లు.

అనేక అతివ్యాప్తి చెందుతున్న కంపెనీలు మరియు సంస్థలలో వెయ్యి మంది వ్యక్తులను తీసుకోండి మరియు సమస్య మరింత క్లిష్టంగా మారుతుంది. అంతరిక్ష నౌక తిరిగి రాగానే విడిపోవాలని నిర్ణయించుకున్న సంగతి తెలిసిందే, మరియు NASAలోని వ్యక్తులకు ఏదైనా చెడు జరగవచ్చని భావించే కారణాన్ని అందించిన సమాచారం ఉంది, కానీ వ్యవస్థ సాధారణంగా ఇది నాకు తెలియదు. NASA దాని మునుపటి షటిల్‌ను కోల్పోయిన తర్వాత కూడా ఇదే విధమైన ఆడిట్ ద్వారా వెళ్ళింది, ఇంకా ఇదే కారణంతో మరొక దానిని కోల్పోయింది. సంస్థలు మరియు వ్యక్తులు స్పష్టమైన, తార్కిక నియమాలను అనుసరిస్తారని వాదించడం చాలా సులభం-కాని అనుభవం రుజువు చేస్తుంది. ఈ "గోస్ప్లాన్ యొక్క మాయ".

నేను తరచుగా మెషీన్ లెర్నింగ్‌ని డేటాబేస్‌లతో, ప్రత్యేకించి రిలేషనల్‌తో పోలుస్తాను - కంప్యూటర్ సైన్స్ మరియు దాని చుట్టూ ఉన్న ప్రపంచం యొక్క సామర్థ్యాలను మార్చిన కొత్త ప్రాథమిక సాంకేతికత, ఇది ప్రతిదానిలో భాగమైంది, ఇది మనం గుర్తించకుండా నిరంతరం ఉపయోగిస్తాము. డేటాబేస్‌లు కూడా సమస్యలను కలిగి ఉంటాయి మరియు అవి సారూప్య స్వభావం కలిగి ఉంటాయి: సిస్టమ్ చెడు అంచనాలు లేదా చెడు డేటాపై నిర్మించబడి ఉండవచ్చు, కానీ దానిని గమనించడం కష్టంగా ఉంటుంది మరియు సిస్టమ్‌ను ఉపయోగించే వ్యక్తులు ప్రశ్నలు అడగకుండానే అది వారికి చెప్పేది చేస్తారు. ఒకసారి మీ పేరును తప్పుగా వ్రాసిన పన్ను వ్యక్తుల గురించి చాలా పాత జోకులు ఉన్నాయి మరియు తప్పును సరిదిద్దడానికి వారిని ఒప్పించడం మీ పేరును మార్చడం కంటే చాలా కష్టం. దీని గురించి ఆలోచించడానికి అనేక మార్గాలు ఉన్నాయి, కానీ ఏది మంచిదో స్పష్టంగా లేదు: SQLలో సాంకేతిక సమస్యగా లేదా ఒరాకిల్ విడుదలలో బగ్‌గా లేదా బ్యూరోక్రాటిక్ సంస్థల వైఫల్యంగా? సిస్టమ్‌లో అక్షర దోషం దిద్దుబాటు ఫీచర్ లేకపోవడానికి దారితీసిన ప్రక్రియలో బగ్‌ను కనుగొనడం ఎంత కష్టం? ప్రజలు ఫిర్యాదు చేయడం ప్రారంభించడానికి ముందు ఇది గుర్తించబడిందా?

నావిగేటర్‌లోని పాత డేటా కారణంగా డ్రైవర్లు నదుల్లోకి వెళ్లినప్పుడు ఈ సమస్య కథనాల ద్వారా మరింత సరళంగా వివరించబడింది. సరే, మ్యాప్‌లు నిరంతరం నవీకరించబడాలి. అయితే మీ కారు సముద్రంలోకి దూసుకెళ్లినందుకు టామ్‌టామ్ ఎంతవరకు నిందించాలి?

నేను ఇలా చెప్పడానికి కారణం అవును, మెషిన్ లెర్నింగ్ బయాస్ సమస్యలను సృష్టిస్తుంది. కానీ ఈ సమస్యలు మనం గతంలో ఎదుర్కొన్న వాటికి సమానంగా ఉంటాయి మరియు వాటిని మనం గతంలో చేయగలిగినట్లు గుర్తించవచ్చు మరియు పరిష్కరించవచ్చు (లేదా కాదు). అందువల్ల, AI పక్షపాతం హాని కలిగించే దృశ్యం పెద్ద సంస్థలో పనిచేస్తున్న సీనియర్ పరిశోధకులకు సంభవించే అవకాశం లేదు. చాలా మటుకు, కొందరు అప్రధానమైన సాంకేతిక కాంట్రాక్టర్ లేదా సాఫ్ట్‌వేర్ విక్రేతలు తమకు అర్థం కాని ఓపెన్ సోర్స్ భాగాలు, లైబ్రరీలు మరియు సాధనాలను ఉపయోగించి వారి మోకాళ్లపై ఏదైనా వ్రాస్తారు. మరియు దురదృష్టకర క్లయింట్ ఉత్పత్తి వివరణలో "కృత్రిమ మేధస్సు" అనే పదబంధాన్ని కొనుగోలు చేస్తాడు మరియు ఎటువంటి ప్రశ్నలు అడగకుండా, తన తక్కువ-చెల్లింపు ఉద్యోగులకు పంపిణీ చేస్తాడు, AI చెప్పినట్లుగా చేయమని వారిని ఆదేశిస్తాడు. డేటాబేస్‌లతో సరిగ్గా ఇదే జరిగింది. ఇది కృత్రిమ మేధస్సు సమస్య కాదు, లేదా సాఫ్ట్‌వేర్ సమస్య కూడా కాదు. ఇది మానవ కారకం.

తీర్మానం

మెషిన్ లెర్నింగ్ మీరు కుక్కకు నేర్పించగలిగే ఏదైనా చేయగలదు - కానీ మీరు కుక్కకు సరిగ్గా ఏమి నేర్పించారో మీరు ఖచ్చితంగా చెప్పలేరు.

"కృత్రిమ మేధస్సు" అనే పదం ఇలాంటి సంభాషణల మార్గంలో మాత్రమే వస్తుందని నాకు తరచుగా అనిపిస్తుంది. ఈ పదం వాస్తవానికి మనం సృష్టించినట్లు తప్పుడు అభిప్రాయాన్ని ఇస్తుంది - ఈ మేధస్సు. మేము HAL9000 లేదా స్కైనెట్‌కి వెళ్తున్నాము - నిజానికి అది అర్థం చేసుకుంటుంది. కానీ కాదు. ఇవి కేవలం యంత్రాలు మాత్రమే మరియు వాటిని వాషింగ్ మెషీన్‌తో పోల్చడం చాలా ఖచ్చితమైనది. ఆమె మనిషి కంటే మెరుగ్గా లాండ్రీ చేస్తుంది, కానీ మీరు ఆమెలో లాండ్రీకి బదులుగా గిన్నెలు వేస్తే, ఆమె... వాటిని కడుగుతారు. వంటలు కూడా శుభ్రంగా మారతాయి. కానీ ఇది మీరు ఊహించినది కాదు మరియు ఇది జరగదు ఎందుకంటే సిస్టమ్ వంటకాలకు సంబంధించి ఏవైనా పక్షపాతాలను కలిగి ఉంది. వాషింగ్ మెషీన్‌కు వంటకాలు ఏమిటో లేదా బట్టలు ఏమిటో తెలియదు - ఇది ఆటోమేషన్‌కు కేవలం ఒక ఉదాహరణ, సంభావితంగా ప్రక్రియలు ఇంతకు ముందు ఎలా ఆటోమేటెడ్ అయ్యాయో దానికి భిన్నంగా లేదు.

మేము కార్లు, విమానాలు లేదా డేటాబేస్‌ల గురించి మాట్లాడుతున్నా, ఈ సిస్టమ్‌లు చాలా శక్తివంతమైనవి మరియు చాలా పరిమితంగా ఉంటాయి. వ్యక్తులు ఈ వ్యవస్థలను ఎలా ఉపయోగిస్తున్నారు, వారి ఉద్దేశాలు మంచివి లేదా చెడ్డవి కాదా మరియు వారు ఎలా పని చేస్తారో వారు ఎంతవరకు అర్థం చేసుకుంటారు అనే దానిపై వారు పూర్తిగా ఆధారపడి ఉంటారు.

అందువల్ల, “కృత్రిమ మేధస్సు గణితం, కాబట్టి దీనికి పక్షపాతాలు ఉండవు” అని చెప్పడం పూర్తిగా తప్పు. కానీ మెషిన్ లెర్నింగ్ అనేది "సబ్జెక్టివ్ స్వభావం" అని చెప్పడం కూడా అంతే తప్పు. మెషిన్ లెర్నింగ్ డేటాలో నమూనాలను కనుగొంటుంది మరియు అది ఏ నమూనాలను కనుగొంటుందో డేటాపై ఆధారపడి ఉంటుంది మరియు డేటా మనపై ఆధారపడి ఉంటుంది. వారితో మనం చేసే పనిలాగే. మెషిన్ లెర్నింగ్ కొన్ని పనులను మనం చేయగలిగిన దానికంటే మెరుగ్గా చేస్తుంది - అయితే కుక్కలు, ఉదాహరణకు, డ్రగ్స్‌ని గుర్తించడంలో మనుషుల కంటే చాలా ప్రభావవంతంగా ఉంటాయి, ఇది వారిని సాక్షులుగా ఉపయోగించుకోవడానికి మరియు వారి సాక్ష్యం ఆధారంగా తీర్పులు ఇవ్వడానికి కారణం కాదు. మరియు కుక్కలు, ఏ మెషిన్ లెర్నింగ్ సిస్టమ్ కంటే చాలా తెలివిగా ఉంటాయి.

అనువాదం: డయానా లెట్స్కాయ.
సవరణ: అలెక్సీ ఇవనోవ్.
సంఘం: @PonchikNews.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి