จะจดจำคนหลอกลวงจาก Data Science ได้อย่างไร

จะจดจำคนหลอกลวงจาก Data Science ได้อย่างไร
คุณอาจเคยได้ยินเกี่ยวกับนักวิเคราะห์ การเรียนรู้ของเครื่องจักร และผู้เชี่ยวชาญด้านปัญญาประดิษฐ์ แต่คุณเคยได้ยินเกี่ยวกับผู้ที่ได้รับค่าจ้างเกินอย่างไม่ยุติธรรมหรือไม่ พบปะ ข้อมูลหลอกลวง! การแฮ็กเหล่านี้ถูกล่อลวงโดยงานที่ร่ำรวย ทำให้นักวิทยาศาสตร์ข้อมูลจริงเสียชื่อ ในเนื้อหานี้เราเข้าใจวิธีนำคนดังกล่าวมาสู่น้ำสะอาด

คนหลอกลวงข้อมูลมีอยู่ทั่วไป

ผู้หลอกลวงข้อมูลเก่งมากในการซ่อนตัวให้คนอื่นเห็นได้ง่ายจนคุณทำได้ เป็นหนึ่งในนั้นโดยที่ไม่รู้ตัวเลย เป็นไปได้ว่าองค์กรของคุณเก็บงำคนพวกนี้มาหลายปีแล้ว แต่ข่าวดีก็คือ พวกเขาสามารถระบุได้ง่ายหากคุณรู้ว่าต้องมองหาอะไร
สัญญาณเตือนแรกคือขาดความเข้าใจว่า การวิเคราะห์และสถิติเป็นสาขาวิชาที่แตกต่างกันมาก. ฉันจะอธิบายเรื่องนี้เพิ่มเติม

สาขาวิชาที่แตกต่างกัน

นักสถิติได้รับการฝึกอบรมให้สรุปเกี่ยวกับสิ่งที่นอกเหนือไปจากข้อมูลของตน นักวิเคราะห์ได้รับการฝึกอบรมให้ตรวจสอบเนื้อหาของชุดข้อมูล กล่าวอีกนัยหนึ่ง นักวิเคราะห์หาข้อสรุปเกี่ยวกับสิ่งที่อยู่ในข้อมูลของตน และนักสถิติก็สรุปเกี่ยวกับสิ่งที่ไม่ได้อยู่ในข้อมูล นักวิเคราะห์ช่วยให้คุณถามคำถามที่ดี (ตั้งสมมติฐาน) และนักสถิติจะช่วยให้คุณได้รับคำตอบที่ดี (ทดสอบสมมติฐานของคุณ)

นอกจากนี้ยังมีบทบาทลูกผสมแปลกๆ ที่คนพยายามจะนั่งบนเก้าอี้สองตัว... ทำไมจะไม่ได้ล่ะ? หลักการพื้นฐานของวิทยาศาสตร์ข้อมูล: หากคุณกำลังเผชิญกับความไม่แน่นอน คุณจะใช้ไม่ได้ เหมือน จุดข้อมูลสำหรับสมมติฐานและการทดสอบ เมื่อข้อมูลมีจำกัด ความไม่แน่นอนจะบังคับให้ต้องเลือกระหว่างสถิติหรือการวิเคราะห์ คำอธิบาย ที่นี่.

หากไม่มีสถิติ คุณจะติดอยู่และไม่สามารถเข้าใจได้ว่าการตัดสินที่คุณเพิ่งกำหนดไว้นั้นยังคงอยู่หรือไม่ และหากไม่มีการวิเคราะห์ คุณจะเคลื่อนไหวอย่างสุ่มสี่สุ่มห้า และมีโอกาสเพียงเล็กน้อยที่จะทำให้สิ่งที่ไม่รู้เชื่องได้ นี่เป็นทางเลือกที่ยาก

วิธีของคนเจ้าเล่ห์ในการหลุดพ้นจากเรื่องวุ่นวายนี้คือการเพิกเฉยต่อมัน แล้วแสร้งทำเป็นแปลกใจกับสิ่งที่จู่ๆ ก็ปรากฏขึ้น ตรรกะที่อยู่เบื้องหลังการทดสอบสมมติฐานทางสถิตินั้นมาจากคำถามที่ว่าข้อมูลนั้นทำให้เราประหลาดใจมากพอที่จะเปลี่ยนความคิดของเราหรือไม่ เราจะแปลกใจกับข้อมูลได้อย่างไรหากเราได้เห็นมันแล้ว?

เมื่อใดก็ตามที่คนหลอกลวงพบรูปแบบ พวกเขาจะได้รับแรงบันดาลใจ จากนั้นจึงตรวจสอบ ข้อมูลเดียวกัน สำหรับ รูปแบบเดียวกันเพื่อเผยแพร่ผลลัพธ์ที่มีค่า p-value ที่ถูกต้องตามกฎหมายหรือสองค่า ถัดจากทฤษฎีของพวกเขา ดังนั้นพวกเขาจึงโกหกคุณ (และบางทีก็เพื่อตัวเองด้วย) ค่า p นี้ไม่สำคัญหากคุณไม่ยึดติดกับสมมติฐานของคุณ ไปยัง คุณดูข้อมูลของคุณอย่างไร คนหลอกลวงเลียนแบบการกระทำของนักวิเคราะห์และนักสถิติโดยไม่เข้าใจเหตุผล เป็นผลให้สาขาวิทยาศาสตร์ข้อมูลทั้งหมดได้รับชื่อเสียงที่ไม่ดี

นักสถิติที่แท้จริงมักจะสรุปผลด้วยตัวเองเสมอ

ต้องขอบคุณชื่อเสียงที่เกือบจะลึกลับของนักสถิติในด้านการให้เหตุผลอันเข้มงวด ปริมาณข้อมูลปลอมใน Data Science จึงสูงเป็นประวัติการณ์ มันง่ายที่จะหลอกลวงและไม่ถูกจับ โดยเฉพาะอย่างยิ่งหากเหยื่อที่ไม่สงสัยคิดว่ามันเป็นเรื่องของสมการและข้อมูล ชุดข้อมูลก็คือชุดข้อมูลใช่ไหม? เลขที่ มันสำคัญว่าคุณจะใช้มันอย่างไร

โชคดีที่คุณต้องการเพียงเบาะแสเดียวในการจับคนหลอกลวง: พวกเขากำลัง "ค้นพบอเมริกาย้อนหลัง" โดยการค้นพบปรากฏการณ์ที่พวกเขารู้อยู่แล้วว่ามีอยู่ในข้อมูลอีกครั้ง

นักวิเคราะห์ที่ดีต่างจากคนหลอกลวงตรงที่มีใจเปิดกว้างและเข้าใจว่าแนวคิดที่สร้างแรงบันดาลใจสามารถมีคำอธิบายที่แตกต่างกันมากมาย ในเวลาเดียวกัน นักสถิติที่ดีจะกำหนดข้อสรุปอย่างรอบคอบก่อนที่จะสร้างมันขึ้นมา

นักวิเคราะห์ได้รับการยกเว้นจากความรับผิด... ตราบใดที่พวกเขาอยู่ภายในขอบเขตของข้อมูลของตน หากพวกเขาถูกล่อลวงให้อ้างสิ่งที่พวกเขาไม่เห็น นั่นก็เป็นอีกงานหนึ่ง พวกเขาควรถอดรองเท้าของนักวิเคราะห์และสวมรองเท้าของนักสถิติ ท้ายที่สุดแล้ว ไม่ว่าตำแหน่งงานอย่างเป็นทางการจะเป็นเช่นไร ก็ไม่มีกฎเกณฑ์ที่ระบุว่าคุณไม่สามารถเรียนทั้งสองอาชีพได้หากต้องการ อย่าเพิ่งสับสนพวกเขา

เพียงเพราะคุณเก่งเรื่องสถิติไม่ได้หมายความว่าคุณเก่งเรื่องการวิเคราะห์ และในทางกลับกัน หากมีใครพยายามบอกคุณเป็นอย่างอื่น คุณควรระวัง หากบุคคลนี้บอกคุณว่าอนุญาตให้สรุปผลทางสถิติจากข้อมูลที่คุณได้ศึกษาไปแล้ว นี่เป็นเหตุผลที่ต้องระวังเป็นสองเท่า

อธิบายแปลกๆ

เมื่อสังเกตผู้หลอกลวงข้อมูลในป่า คุณจะสังเกตเห็นว่าพวกเขาชอบสร้างเรื่องราวที่น่าอัศจรรย์เพื่อ "อธิบาย" ข้อมูลที่พวกเขาสังเกตเห็น ยิ่งมีวิชาการมากเท่าไรก็ยิ่งดีเท่านั้น ไม่สำคัญว่าเรื่องราวเหล่านี้จะได้รับการปรับย้อนหลัง

เมื่อคนหลอกลวงทำเช่นนี้ - ขอชี้แจงให้ชัดเจน - พวกเขากำลังโกหก ไม่มีสมการหรือแนวคิดแฟนซีจำนวนเท่าใดที่สามารถชดเชยความจริงที่ว่าสมการเหล่านี้เสนอข้อพิสูจน์ทฤษฎีของตนเป็นศูนย์ อย่าแปลกใจกับคำอธิบายที่แปลกประหลาดเหล่านี้

นี่เหมือนกับการแสดงความสามารถ "พลังจิต" ของคุณโดยดูไพ่ในมือก่อน จากนั้นจึงคาดเดาสิ่งที่คุณถือ...สิ่งที่คุณถืออยู่ นี่เป็นอคติในการเข้าใจถึงเหตุการณ์หลังเหตุการณ์ และวิชาชีพด้านวิทยาศาสตร์ข้อมูลก็เต็มไปด้วยความลำเอียง

จะจดจำคนหลอกลวงจาก Data Science ได้อย่างไร

นักวิเคราะห์กล่าวว่า “คุณเพิ่งไปกับราชินีแห่งเพชร” นักสถิติกล่าวว่า “ฉันเขียนสมมติฐานของฉันลงในกระดาษแผ่นนี้ก่อนที่เราจะเริ่มต้น ลองเล่นดูข้อมูลบางอย่างแล้วดูว่าผมพูดถูกหรือไม่" คนหลอกลวงพูดว่า: "ฉันรู้ว่าคุณจะกลายเป็นราชินีแห่งเพชรเพราะว่า..."

การแชร์ข้อมูลคือการแก้ไขด่วนที่ทุกคนต้องการ

เมื่อข้อมูลมีไม่มากก็ต้องเลือกระหว่างสถิติกับการวิเคราะห์ แต่เมื่อข้อมูลมีมากเกินพอ ก็มีโอกาสที่ดีที่จะใช้การวิเคราะห์โดยไม่หลอกลวง и สถิติ. คุณมีการป้องกันที่สมบูรณ์แบบต่อการหลอกลวง - การแยกข้อมูล และในความคิดของฉัน นี่เป็นแนวคิดที่ทรงพลังที่สุดใน Data Science

เพื่อป้องกันตัวเองจากการหลอกลวง สิ่งที่คุณต้องทำคือเก็บข้อมูลการทดสอบบางส่วนให้พ้นจากการสอดรู้สอดเห็นของพวกเขา จากนั้นจึงถือว่าส่วนที่เหลือเป็นการวิเคราะห์ เมื่อคุณเจอทฤษฎีที่คุณมีความเสี่ยงที่จะยอมรับ ให้ใช้ทฤษฎีนั้นเพื่อประเมินสถานการณ์ จากนั้นเปิดเผยข้อมูลการทดสอบลับของคุณเพื่อตรวจสอบว่าทฤษฎีนั้นไม่ใช่เรื่องไร้สาระ มันง่ายมาก!

จะจดจำคนหลอกลวงจาก Data Science ได้อย่างไร
ตรวจสอบให้แน่ใจว่าไม่มีใครได้รับอนุญาตให้ดูข้อมูลทดสอบในระหว่างขั้นตอนการสำรวจ ในการดำเนินการนี้ ให้ยึดข้อมูลการวิจัยเป็นหลัก ไม่ควรใช้ข้อมูลการทดสอบเพื่อการวิเคราะห์

นี่เป็นก้าวสำคัญจากสิ่งที่ผู้คนคุ้นเคยในยุค "ข้อมูลขนาดเล็ก" ซึ่งคุณต้องอธิบายว่าคุณรู้ได้อย่างไรเพื่อที่จะโน้มน้าวผู้คนว่าคุณรู้อะไรบางอย่างจริงๆ

ใช้กฎเดียวกันกับ ML/AI

คนหลอกลวงบางคนที่สวมรอยเป็นผู้เชี่ยวชาญด้าน ML/AI ก็สังเกตเห็นได้ง่ายเช่นกัน คุณจะจับพวกเขาได้แบบเดียวกับที่คุณจับวิศวกรแย่ๆ ได้ นั่นคือ "วิธีแก้ปัญหา" ที่พวกเขาพยายามสร้างจะล้มเหลวอย่างต่อเนื่อง สัญญาณเตือนล่วงหน้าคือขาดประสบการณ์เกี่ยวกับภาษาโปรแกรมและไลบรารีมาตรฐานอุตสาหกรรม

แต่แล้วคนที่สร้างระบบที่ดูเหมือนว่าจะได้ผลล่ะ? คุณจะรู้ได้อย่างไรว่ามีสิ่งที่น่าสงสัยเกิดขึ้น? ใช้กฎเดียวกัน! ตัวลวงเป็นตัวละครที่น่ากลัวซึ่งแสดงให้คุณเห็นว่าโมเดลทำงานได้ดีเพียงใด...โดยใช้ข้อมูลเดียวกับที่พวกเขาใช้ในการสร้างโมเดล

หากคุณได้สร้างระบบ Machine Learning ที่ซับซ้อนอย่างเหลือเชื่อ คุณจะรู้ได้อย่างไรว่ามันดีแค่ไหน คุณจะไม่รู้จนกว่าคุณจะแสดงให้เธอเห็นการทำงานกับข้อมูลใหม่ที่เธอไม่เคยเห็นมาก่อน

เมื่อคุณเห็นข้อมูลก่อนที่จะคาดการณ์ - ไม่น่าเป็นไปได้ ก่อนที่บอก

เมื่อคุณมีข้อมูลเพียงพอที่จะแยกออก คุณไม่จำเป็นต้องอ้างอิงถึงความสวยงามของสูตรของคุณเพื่อพิสูจน์โครงการ (พฤติกรรมแบบเก่าที่ฉันเห็นทุกที่ ไม่ใช่แค่ในทางวิทยาศาสตร์) คุณสามารถพูดได้: “ฉันรู้ว่ามันได้ผลเพราะฉันสามารถนำชุดข้อมูลที่ฉันไม่เคยเห็นมาก่อนมาคาดการณ์ได้อย่างแน่ชัดว่าจะเกิดอะไรขึ้นที่นั่น... และฉันก็พูดถูก ครั้งแล้วครั้งเล่า".

การทดสอบแบบจำลอง/ทฤษฎีของคุณกับข้อมูลใหม่เป็นพื้นฐานที่ดีที่สุดสำหรับความมั่นใจ

ฉันไม่ยอมให้คนหลอกลวงข้อมูล ฉันไม่สนใจว่าความคิดเห็นของคุณจะขึ้นอยู่กับเทคนิคที่แตกต่างกันหรือไม่ ฉันไม่ประทับใจกับความสวยงามของคำอธิบาย แสดงให้ฉันเห็นว่าทฤษฎี/แบบจำลองของคุณใช้งานได้ (และยังคงใช้งานได้ต่อไป) กับข้อมูลใหม่ ๆ มากมายที่คุณไม่เคยเห็นมาก่อน นี่คือการทดสอบความแข็งแกร่งของความคิดเห็นของคุณอย่างแท้จริง

ติดต่อผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูล

หากคุณต้องการให้ทุกคนที่เข้าใจอารมณ์ขันนี้จริงจัง ให้หยุดซ่อนอยู่เบื้องหลังสมการแปลกๆ เพื่อสนับสนุนอคติส่วนตัว แสดงให้ฉันเห็นว่าคุณมีอะไรบ้าง หากคุณต้องการให้ผู้ที่ "เข้าใจ" มองทฤษฎี/แบบจำลองของคุณเป็นมากกว่าบทกวีที่สร้างแรงบันดาลใจ จงมีความกล้าที่จะแสดงให้เห็นว่าทฤษฎี/แบบจำลองของคุณทำงานได้ดีเพียงใด... ต่อหน้าพยาน !

อุทธรณ์ต่อผู้นำ

ปฏิเสธที่จะให้ความสำคัญกับ "แนวคิด" ใดๆ เกี่ยวกับข้อมูลอย่างจริงจังจนกว่าจะได้รับการทดสอบ ใหม่ ข้อมูล. ไม่รู้สึกอยากทุ่มเทเหรอ? ยึดติดกับการวิเคราะห์ แต่อย่าพึ่งพาแนวคิดเหล่านี้ เนื่องจากไม่น่าเชื่อถือและไม่ได้รับการทดสอบความน่าเชื่อถือ ยิ่งไปกว่านั้น เมื่อองค์กรมีข้อมูลอยู่เป็นจำนวนมาก ก็ไม่มีข้อเสียในการสร้างการแยกขั้นพื้นฐานทางวิทยาศาสตร์ และการรักษาไว้ที่ระดับโครงสร้างพื้นฐานโดยการควบคุมการเข้าถึงข้อมูลทดสอบสำหรับสถิติ นี่เป็นวิธีที่ดีในการหยุดคนที่พยายามหลอกคุณ!

หากคุณต้องการดูตัวอย่างเพิ่มเติมของคนหลอกลวงจนถึงเรื่องไม่ดี - นี่เป็นกระทู้ที่ยอดเยี่ยมบน Twitter.

ผลของการ

เมื่อมีข้อมูลน้อยเกินไปที่จะแยกออก มีเพียงคนหลอกลวงเท่านั้นที่พยายามติดตามแรงบันดาลใจอย่างเคร่งครัดโดยการค้นพบอเมริกาแบบย้อนหลัง การค้นพบปรากฏการณ์ทางคณิตศาสตร์อีกครั้งที่ทราบอยู่แล้วว่าอยู่ในข้อมูล และเรียกความประหลาดใจว่ามีนัยสำคัญทางสถิติ สิ่งนี้ทำให้พวกเขาแตกต่างจากนักวิเคราะห์ที่มีใจกว้างซึ่งเกี่ยวข้องกับแรงบันดาลใจ และนักสถิติที่พิถีพิถันซึ่งเสนอหลักฐานเมื่อทำการคาดการณ์

เมื่อมีข้อมูลจำนวนมาก ให้ฝึกนิสัยการแยกข้อมูลเพื่อให้คุณได้รับสิ่งที่ดีที่สุดจากทั้งสองโลก! อย่าลืมทำการวิเคราะห์และสถิติแยกกันสำหรับแต่ละชุดย่อยของกองข้อมูลดั้งเดิม

  • นักวิเคราะห์ มอบแรงบันดาลใจและการเปิดใจกว้างให้กับคุณ
  • สถิติ เสนอการทดสอบที่เข้มงวดแก่คุณ
  • คนหลอกลวง นำเสนอการเข้าใจถึงปัญหาหลังเหตุการณ์ที่บิดเบี้ยวซึ่งแสร้งทำเป็นการวิเคราะห์และสถิติ

บางที หลังจากอ่านบทความนี้แล้ว คุณอาจเกิดความคิดว่า “ฉันเป็นคนหลอกลวง” หรือไม่? นี่เป็นเรื่องปกติ มีสองวิธีในการกำจัดความคิดนี้: ประการแรก มองย้อนกลับไป ดูสิ่งที่คุณทำไป ไม่ว่างานกับข้อมูลของคุณจะก่อให้เกิดประโยชน์ในทางปฏิบัติหรือไม่ และประการที่สอง คุณยังคงสามารถพัฒนาคุณสมบัติของคุณได้ (ซึ่งแน่นอนว่าจะไม่ฟุ่มเฟือย) โดยเฉพาะอย่างยิ่งเมื่อเราให้ทักษะและความรู้เชิงปฏิบัติแก่นักเรียนของเราที่ทำให้พวกเขากลายเป็นนักวิทยาศาสตร์ข้อมูลตัวจริงได้

จะจดจำคนหลอกลวงจาก Data Science ได้อย่างไร

หลักสูตรเพิ่มเติม

อ่านเพิ่มเติม

ที่มา: will.com

เพิ่มความคิดเห็น