డేటా సైన్స్ నుండి చార్లటన్‌ను ఎలా గుర్తించాలి?

డేటా సైన్స్ నుండి చార్లటన్‌ను ఎలా గుర్తించాలి?
మీరు విశ్లేషకులు, మెషిన్ లెర్నింగ్ మరియు ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ స్పెషలిస్ట్‌ల గురించి విని ఉండవచ్చు, కానీ అన్యాయంగా ఎక్కువ చెల్లించే వారి గురించి మీరు విన్నారా? కలుసుకోవడం డేటా చార్లటన్! లాభదాయకమైన ఉద్యోగాల ద్వారా ఆకర్షించబడిన ఈ హ్యాక్‌లు నిజమైన డేటా సైంటిస్టులకు చెడ్డ పేరు తెచ్చిపెడతాయి. అటువంటి వ్యక్తులను శుభ్రమైన నీటికి ఎలా తీసుకురావాలో పదార్థంలో మేము అర్థం చేసుకున్నాము.

డేటా చార్లటన్‌లు ప్రతిచోటా ఉన్నాయి

డేటా చార్లటాన్‌లు మీరు చూడగలిగేలా దాక్కోవడంలో చాలా మంచివి వారిలో ఒకరిగా ఉండండితనకు తెలియకుండానే. అవకాశాలు ఉన్నాయి, మీ సంస్థ ఈ తప్పుడు కుర్రాళ్లను సంవత్సరాలుగా ఆశ్రయిస్తోంది, అయితే శుభవార్త ఏమిటంటే, మీరు దేని కోసం వెతకాలో మీకు తెలిస్తే వారు సులభంగా గుర్తించగలరు.
అనే విషయాన్ని అర్థం చేసుకోకపోవడమే మొదటి హెచ్చరిక విశ్లేషణలు మరియు గణాంకాలు చాలా భిన్నమైన విభాగాలు. నేను దీనిని మరింత వివరిస్తాను.

వివిధ విభాగాలు

గణాంకవేత్తలు వారి డేటాకు మించిన వాటి గురించి తీర్మానాలు చేయడానికి శిక్షణ పొందుతారు, విశ్లేషకులు డేటా సెట్ యొక్క కంటెంట్‌ను పరిశీలించడానికి శిక్షణ పొందుతారు. మరో మాటలో చెప్పాలంటే, విశ్లేషకులు తమ డేటాలో ఉన్న వాటి గురించి తీర్మానాలు చేస్తారు మరియు గణాంక నిపుణులు డేటాలో లేని వాటి గురించి తీర్మానాలు చేస్తారు. విశ్లేషకులు మీకు మంచి ప్రశ్నలను అడగడంలో సహాయపడతారు (పరికల్పనలను రూపొందించండి), మరియు గణాంక నిపుణులు మీకు మంచి సమాధానాలను పొందడంలో సహాయపడతారు (మీ పరికల్పనలను పరీక్షించండి).

ఒక వ్యక్తి రెండు కుర్చీలపై కూర్చోవడానికి ప్రయత్నించే విచిత్రమైన హైబ్రిడ్ పాత్రలు కూడా ఉన్నాయి... ఎందుకు కాదు? డేటా సైన్స్ యొక్క ప్రాథమిక సూత్రం: మీరు అనిశ్చితితో వ్యవహరిస్తుంటే, మీరు ఉపయోగించలేరు అదే పరికల్పనలు మరియు పరీక్ష కోసం డేటా పాయింట్. డేటా పరిమితం అయినప్పుడు, అనిశ్చితి గణాంకాలు లేదా విశ్లేషణల మధ్య ఎంపికను బలవంతం చేస్తుంది. వివరణ ఇక్కడ.

గణాంకాలు లేకుండా, మీరు ఇప్పుడే రూపొందించిన తీర్పు నిలకడగా ఉందో లేదో అర్థం చేసుకోలేక చిక్కుకుపోతారు మరియు విశ్లేషణ లేకుండా, మీరు తెలియని వారిని మచ్చిక చేసుకునే అవకాశం లేకుండా గుడ్డిగా కదులుతున్నారు. ఇది కష్టమైన ఎంపిక.

ఈ గందరగోళం నుండి బయటపడే మార్గం ఏమిటంటే, దానిని విస్మరించి, అకస్మాత్తుగా ఏమి జరిగిందో చూసి ఆశ్చర్యపోయినట్లు నటించడం. గణాంక పరికల్పనలను పరీక్షించడం వెనుక ఉన్న తర్కం డేటా మన మనస్సులను మార్చుకునేంతగా ఆశ్చర్యాన్ని కలిగిస్తుందా అనే ప్రశ్నకు వస్తుంది. మేము ఇప్పటికే డేటాను చూసినట్లయితే, మేము దానిని ఎలా ఆశ్చర్యపరుస్తాము?

చార్లటన్లు ఒక నమూనాను కనుగొన్నప్పుడల్లా, వారు ప్రేరణ పొందుతారు, ఆపై తనిఖీ చేస్తారు అదే డేటా కోసం అదే నమూనా, వారి సిద్ధాంతం పక్కన చట్టబద్ధమైన p-విలువ లేదా రెండింటితో ఫలితాన్ని ప్రచురించడానికి. అందువలన, వారు మీకు అబద్ధం చెబుతున్నారు (మరియు, బహుశా, తమకు కూడా). మీరు మీ పరికల్పనకు కట్టుబడి ఉండకపోతే ఈ p-విలువ పట్టింపు లేదు కు మీరు మీ డేటాను ఎలా వీక్షించారు. చార్లటన్లు కారణాలను అర్థం చేసుకోకుండా విశ్లేషకులు మరియు గణాంకవేత్తల చర్యలను అనుకరిస్తారు. ఫలితంగా, డేటా సైన్స్ యొక్క మొత్తం రంగం చెడ్డ పేరును పొందుతుంది.

నిజమైన గణాంకవేత్తలు ఎల్లప్పుడూ వారి స్వంత తీర్మానాలను తీసుకుంటారు

వారి కఠినమైన తార్కికం కోసం గణాంకవేత్తల దాదాపు ఆధ్యాత్మిక కీర్తికి ధన్యవాదాలు, డేటా సైన్స్‌లో నకిలీ సమాచారం మొత్తం అత్యధికంగా ఉంది. మోసం చేయడం సులభం మరియు చిక్కుకోకుండా ఉంటుంది, ప్రత్యేకించి అనుమానం లేని బాధితుడు ఇదంతా సమీకరణాలు మరియు డేటా గురించి అనుకుంటే. డేటాసెట్ అనేది డేటాసెట్, సరియైనదా? సంఖ్య మీరు దీన్ని ఎలా ఉపయోగించారనేది ముఖ్యం.

అదృష్టవశాత్తూ, చార్లటన్‌లను పట్టుకోవడానికి మీకు ఒక క్లూ మాత్రమే అవసరం: వారు "అమెరికాను తిరిగి కనుగొన్నారు." డేటాలో ఉన్నాయని వారికి ఇప్పటికే తెలిసిన దృగ్విషయాలను మళ్లీ కనుగొనడం ద్వారా.

చార్లటన్‌ల మాదిరిగా కాకుండా, మంచి విశ్లేషకులు ఓపెన్ మైండెడ్ మరియు స్ఫూర్తిదాయకమైన ఆలోచనలు అనేక విభిన్న వివరణలను కలిగి ఉంటాయని అర్థం చేసుకుంటారు. అదే సమయంలో, మంచి గణాంకవేత్తలు తమ తీర్మానాలను రూపొందించే ముందు వాటిని జాగ్రత్తగా నిర్వచిస్తారు.

విశ్లేషకులు తమ డేటా పరిధిలో ఉన్నంత వరకు... బాధ్యత నుండి మినహాయించబడతారు. వారు చూడని దాన్ని క్లెయిమ్ చేయడానికి శోదించబడితే, అది వేరే పని. వారు విశ్లేషకుల బూట్లను తీసివేసి, స్టాటిస్టిషియన్ బూట్లు ధరించాలి. అంతెందుకు, అఫీషియల్ జాబ్ టైటిల్ ఏదయినా సరే, కావాలంటే రెండు వృత్తులూ చదవకూడదు అనే రూల్ లేదు. కేవలం వాటిని గందరగోళానికి గురి చేయవద్దు.

మీరు గణాంకాలలో బాగా ఉన్నందున మీరు విశ్లేషణలలో మంచివారని అర్థం కాదు, మరియు దీనికి విరుద్ధంగా. ఎవరైనా మీకు వేరే చెప్పడానికి ప్రయత్నిస్తే, మీరు జాగ్రత్తగా ఉండాలి. మీరు ఇప్పటికే అధ్యయనం చేసిన డేటా నుండి గణాంక తీర్మానాలను రూపొందించడం అనుమతించబడుతుందని ఈ వ్యక్తి మీకు చెబితే, ఇది రెట్టింపు జాగ్రత్తగా ఉండటానికి కారణం.

వింత వివరణలు

అడవిలో డేటా చార్లటన్‌లను గమనిస్తున్నప్పుడు, వారు గమనించిన డేటాను "వివరించడానికి" అద్భుతమైన కథలను రూపొందించడానికి వారు ఇష్టపడతారని మీరు గమనించవచ్చు. మరింత విద్యాపరంగా, మంచిది. ఈ క‌థ‌ల‌ను ప‌రిశీలించి స‌ర్దుబాటు చేసినా ఫ‌ర్వాలేదు.

చార్లటన్‌లు ఇలా చేసినప్పుడు - నేను స్పష్టంగా చెప్పనివ్వండి - వారు అబద్ధం చెబుతున్నారు. వారు తమ సిద్ధాంతాలకు సున్నా రుజువును అందించారనే వాస్తవాన్ని ఏ సమీకరణాలు లేదా ఫాన్సీ భావనలు భర్తీ చేయలేవు. వారి వివరణలు ఎంత అసాధారణంగా ఉన్నాయో ఆశ్చర్యపోకండి.

ఇది మొదట మీ చేతుల్లోని కార్డులను చూసి, ఆపై మీరు ఏమి పట్టుకున్నారో... మీరు ఏమి పట్టుకుంటున్నారో అంచనా వేయడం ద్వారా మీ "మానసిక" సామర్థ్యాలను ప్రదర్శించడం వంటిదే. ఇది హిండ్‌సైట్ బయాస్, మరియు డేటా సైన్స్ వృత్తి దానితో అంచుకు నిండి ఉంది.

డేటా సైన్స్ నుండి చార్లటన్‌ను ఎలా గుర్తించాలి?

విశ్లేషకులు ఇలా అంటున్నారు: "మీరు ఇప్పుడే వజ్రాల రాణితో వెళ్ళారు." గణాంకవేత్తలు ఇలా అంటారు, “మేము ప్రారంభించడానికి ముందు నేను ఈ కాగితంపై నా పరికల్పనలను వ్రాసాను. చుట్టూ ఆడుకుందాం మరియు కొంత డేటాను చూద్దాం మరియు నేను సరైనదేనా అని చూద్దాం." చార్లటన్స్ ఇలా అంటారు: "మీరు ఈ డైమండ్స్ రాణి అవుతారని నాకు తెలుసు ఎందుకంటే..."

ప్రతి ఒక్కరికీ అవసరమైన శీఘ్ర పరిష్కారం డేటా షేరింగ్.

ఎక్కువ డేటా లేనప్పుడు, మీరు గణాంకాలు మరియు విశ్లేషణల మధ్య ఎంచుకోవాలి, కానీ తగినంత కంటే ఎక్కువ డేటా ఉన్నప్పుడు, మోసం లేకుండా విశ్లేషణలను ఉపయోగించడానికి గొప్ప అవకాశం ఉంది и గణాంకాలు. చార్లటన్‌లకు వ్యతిరేకంగా మీకు ఖచ్చితమైన రక్షణ ఉంది - డేటా వేరు మరియు, నా అభిప్రాయం ప్రకారం, ఇది డేటా సైన్స్‌లో అత్యంత శక్తివంతమైన ఆలోచన.

చార్లటన్‌ల నుండి మిమ్మల్ని మీరు రక్షించుకోవడానికి, మీరు చేయవలసిందల్లా మీరు కొన్ని పరీక్ష డేటాను వారి కంటికి కనిపించకుండా ఉంచారని, ఆపై మిగిలిన వాటిని విశ్లేషణలుగా పరిగణించండి. మీరు అంగీకరించే ప్రమాదం ఉన్న సిద్ధాంతాన్ని మీరు చూసినప్పుడు, పరిస్థితిని అంచనా వేయడానికి దాన్ని ఉపయోగించండి, ఆపై ఆ సిద్ధాంతం అర్ధంలేనిది కాదని తనిఖీ చేయడానికి మీ రహస్య పరీక్ష డేటాను బహిర్గతం చేయండి. ఇది చాలా సులభం!

డేటా సైన్స్ నుండి చార్లటన్‌ను ఎలా గుర్తించాలి?
అన్వేషణ దశలో పరీక్ష డేటాను వీక్షించడానికి ఎవరూ అనుమతించబడరని నిర్ధారించుకోండి. దీన్ని చేయడానికి, పరిశోధన డేటాకు కట్టుబడి ఉండండి. పరీక్ష డేటాను విశ్లేషణ కోసం ఉపయోగించకూడదు.

"చిన్న డేటా" యుగంలో వ్యక్తులు ఉపయోగించిన దానికంటే ఇది ఒక పెద్ద మెట్టు, ఇక్కడ మీకు నిజంగా ఏదో తెలుసని వ్యక్తులను ఒప్పించడానికి మీకు తెలిసిన వాటిని మీకు ఎలా తెలుసని వివరించాలి.

అదే నియమాలను ML/AIకి వర్తింపజేయండి

ML/AI నిపుణులుగా నటిస్తున్న కొంతమంది చార్లటన్‌లను గుర్తించడం కూడా సులభం. మీరు ఏ ఇతర చెడ్డ ఇంజనీర్‌ను పట్టుకున్నారో అదే విధంగా మీరు వారిని పట్టుకుంటారు: వారు నిర్మించడానికి ప్రయత్నించే "పరిష్కారాలు" నిరంతరం విఫలమవుతాయి. పరిశ్రమ ప్రామాణిక ప్రోగ్రామింగ్ భాషలు మరియు లైబ్రరీలతో అనుభవం లేకపోవడం ముందస్తు హెచ్చరిక సంకేతం.

కానీ పని చేస్తున్నట్లు అనిపించే వ్యవస్థలను సృష్టించే వ్యక్తుల గురించి ఏమిటి? అనుమానాస్పదంగా ఏదైనా జరుగుతోందని మీకు ఎలా తెలుస్తుంది? అదే నియమం వర్తిస్తుంది! చార్లటన్ ఒక చెడు పాత్ర, ఇది మోడల్ ఎంత బాగా పని చేసిందో మీకు చూపుతుంది... మోడల్‌ను రూపొందించడానికి వారు ఉపయోగించిన అదే డేటా.

మీరు చాలా క్లిష్టమైన యంత్ర అభ్యాస వ్యవస్థను రూపొందించినట్లయితే, అది ఎంత మంచిదో మీకు ఎలా తెలుస్తుంది? ఆమె ఇంతకు ముందు చూడని కొత్త డేటాతో పని చేస్తున్నట్లు మీరు చూపించే వరకు మీకు తెలియదు.

మీరు అంచనా వేయడానికి ముందు డేటాను చూసినప్పుడు - ఇది అసంభవం ముందుచెప్పడం

మీరు వేరు చేయడానికి తగినంత డేటాను కలిగి ఉన్నప్పుడు, ప్రాజెక్ట్‌ను సమర్థించడం కోసం మీరు మీ ఫార్ములాల అందాన్ని ఉదహరించాల్సిన అవసరం లేదు (నేను సైన్స్‌లోనే కాదు, ప్రతిచోటా చూస్తున్న పాత ఫ్యాషన్ అలవాటు). నువ్వు చెప్పగలవు: “ఇది పని చేస్తుందని నాకు తెలుసు, ఎందుకంటే నేను ఇంతకు ముందు చూడని డేటా సెట్‌ని తీసుకోగలను మరియు అక్కడ ఏమి జరుగుతుందో ఖచ్చితంగా అంచనా వేయగలను... మరియు నేను సరిగ్గానే ఉంటాను. మళ్ళీ మళ్ళీ".

కొత్త డేటాకు వ్యతిరేకంగా మీ మోడల్/సిద్ధాంతాన్ని పరీక్షించడం విశ్వాసానికి ఉత్తమమైన ఆధారం.

నేను డేటా చార్లటన్‌లను సహించను. మీ అభిప్రాయం భిన్నమైన ఉపాయాలపై ఆధారపడి ఉంటే నేను పట్టించుకోను. వివరణల అందం నన్ను ఆకట్టుకోలేదు. మీరు ఇంతకు ముందెన్నడూ చూడని కొత్త డేటా మొత్తం మీద మీ థియరీ/మోడల్ పనిచేస్తుందని (మరియు పని చేస్తూనే ఉందని) నాకు చూపించండి. ఇది మీ అభిప్రాయ బలానికి నిజమైన పరీక్ష.

డేటా సైన్స్ నిపుణులను సంప్రదిస్తున్నారు

ఈ హాస్యాన్ని అర్థం చేసుకున్న ప్రతి ఒక్కరూ మిమ్మల్ని తీవ్రంగా పరిగణించాలనుకుంటే, వ్యక్తిగత పక్షపాతాలకు మద్దతు ఇవ్వడానికి ఫాన్సీ ఈక్వేషన్‌ల వెనుక దాచడం మానేయండి. నీ దగ్గర ఉన్నది నాకు చూపించు. మీ సిద్ధాంతాన్ని/మోడల్‌ని స్ఫూర్తిదాయకమైన కవిత్వంగా కాకుండా "అది పొందే" వారు చూడాలని మీరు కోరుకుంటే, ఇది పూర్తిగా కొత్త డేటా సెట్‌లో ఎంత బాగా పని చేస్తుందో గొప్పగా ప్రదర్శించడానికి ధైర్యంగా ఉండండి... సాక్షుల ముందు !

నాయకులకు విజ్ఞప్తి

వారు పరీక్షించబడే వరకు డేటా గురించి ఏవైనా "ఆలోచనలు" తీవ్రంగా తీసుకోవడానికి నిరాకరించండి క్రొత్తది సమాచారం. ప్రయత్నం చేయడం ఇష్టం లేదా? విశ్లేషణలకు కట్టుబడి ఉండండి, కానీ ఈ ఆలోచనలపై ఆధారపడకండి-అవి నమ్మదగనివి మరియు విశ్వసనీయత కోసం పరీక్షించబడలేదు. అంతేకాకుండా, ఒక సంస్థ సమృద్ధిగా డేటాను కలిగి ఉన్నప్పుడు, సైన్స్‌లో విభజనను ప్రాథమికంగా చేయడం మరియు గణాంకాల కోసం పరీక్ష డేటాకు ప్రాప్యతను నియంత్రించడం ద్వారా మౌలిక సదుపాయాల స్థాయిలో దానిని నిర్వహించడం వల్ల ఎటువంటి ప్రతికూలత ఉండదు. మిమ్మల్ని మోసం చేయడానికి ప్రయత్నిస్తున్న వ్యక్తులను ఆపడానికి ఇది ఒక గొప్ప మార్గం!

మీరు చార్లటన్‌ల యొక్క మరిన్ని ఉదాహరణలను చూడాలనుకుంటే మంచిది కాదు - ఇక్కడ ట్విట్టర్‌లో అద్భుతమైన థ్రెడ్ ఉంది.

ఫలితాలు

వేరు చేయడానికి చాలా తక్కువ డేటా ఉన్నప్పుడు, ఒక చార్లటన్ మాత్రమే అమెరికాను పునరాలోచనలో కనుగొనడం ద్వారా ప్రేరణను ఖచ్చితంగా అనుసరించడానికి ప్రయత్నిస్తాడు, గణితశాస్త్రపరంగా డేటాలో ఇప్పటికే తెలిసిన దృగ్విషయాలను మళ్లీ కనుగొని, ఆశ్చర్యాన్ని గణాంకపరంగా ముఖ్యమైనదిగా పిలుస్తాడు. ఇది ప్రేరణతో వ్యవహరించే ఓపెన్-మైండెడ్ విశ్లేషకుడి నుండి మరియు అంచనాలు వేసేటప్పుడు సాక్ష్యాలను అందించే ఖచ్చితమైన గణాంకవేత్త నుండి వారిని వేరు చేస్తుంది.

చాలా డేటా ఉన్నప్పుడు, డేటాను వేరు చేయడం అలవాటు చేసుకోండి, తద్వారా మీరు రెండు ప్రపంచాలలో ఉత్తమమైన వాటిని పొందవచ్చు! డేటా యొక్క అసలైన పైల్ యొక్క వ్యక్తిగత ఉపసమితుల కోసం ప్రత్యేకంగా విశ్లేషణలు మరియు గణాంకాలు చేయాలని నిర్ధారించుకోండి.

  • విశ్లేషకులు మీకు ప్రేరణ మరియు ఓపెన్ మైండెడ్‌ని అందిస్తాయి.
  • గణాంకాలు మీకు కఠినమైన పరీక్షలను అందిస్తోంది.
  • చార్లటన్స్ మీరు విశ్లేషణలు మరియు గణాంకాలు వలె నటించి ఒక వక్రీకృత పూర్వదృష్టిని అందిస్తారు.

బహుశా, వ్యాసం చదివిన తర్వాత, మీరు "నేను చార్లటన్" అనే ఆలోచనను కలిగి ఉంటారా? ఇది బాగానే ఉంది. ఈ ఆలోచనను వదిలించుకోవడానికి రెండు మార్గాలు ఉన్నాయి: ముందుగా, వెనక్కి తిరిగి చూడండి, మీరు ఏమి చేశారో చూడండి, డేటాతో మీ పని ఆచరణాత్మక ప్రయోజనాన్ని తెచ్చిపెట్టిందా. మరియు రెండవది, మీరు ఇప్పటికీ మీ అర్హతలపై పని చేయవచ్చు (ఇది ఖచ్చితంగా నిరుపయోగంగా ఉండదు), ప్రత్యేకించి మేము మా విద్యార్థులకు ఆచరణాత్మక నైపుణ్యాలు మరియు జ్ఞానాన్ని అందిస్తాము కాబట్టి వారు నిజమైన డేటా శాస్త్రవేత్తలుగా మారడానికి వీలు కల్పిస్తాము.

డేటా సైన్స్ నుండి చార్లటన్‌ను ఎలా గుర్తించాలి?

మరిన్ని కోర్సులు

ఇంకా చదవండి

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి