Làm cách nào để nhận ra một lang băm từ Khoa học dữ liệu?

Làm cách nào để nhận ra một lang băm từ Khoa học dữ liệu?
Bạn có thể đã nghe nói về các nhà phân tích, chuyên gia về máy học và trí tuệ nhân tạo, nhưng bạn đã từng nghe nói về những người được trả lương quá cao một cách bất công chưa? Gặp lang băm dữ liệu! Những vụ hack này, bị thu hút bởi những công việc sinh lợi, đã mang lại tiếng xấu cho các nhà khoa học dữ liệu thực sự. Trong tài liệu, chúng tôi hiểu cách đưa những người như vậy đến nguồn nước sạch.

Những kẻ lang băm dữ liệu ở khắp mọi nơi

Những kẻ lang băm dữ liệu rất giỏi ẩn nấp ở nơi dễ thấy đến mức bạn có thể là một trong số họmà thậm chí không nhận ra nó. Rất có thể, tổ chức của bạn đã chứa chấp những kẻ lén lút này trong nhiều năm, nhưng tin tốt là chúng rất dễ bị phát hiện nếu bạn biết mình phải tìm gì.
Dấu hiệu cảnh báo đầu tiên là sự thiếu hiểu biết phân tích và thống kê là những ngành rất khác nhau. Tôi sẽ giải thích thêm điều này.

Các môn học khác nhau

Các nhà thống kê được đào tạo để đưa ra kết luận về những gì nằm ngoài dữ liệu của họ, các nhà phân tích được đào tạo để kiểm tra nội dung của tập dữ liệu. Nói cách khác, các nhà phân tích đưa ra kết luận về những gì có trong dữ liệu của họ và các nhà thống kê đưa ra kết luận về những gì không có trong dữ liệu. Các nhà phân tích giúp bạn đặt những câu hỏi hay (đưa ra giả thuyết) và các nhà thống kê giúp bạn có được câu trả lời hay (kiểm tra giả thuyết của bạn).

Ngoài ra còn có những vai lai kỳ lạ khi một người cố gắng ngồi trên hai chiếc ghế... Tại sao không? Nguyên tắc cơ bản của khoa học dữ liệu: nếu bạn đang đối mặt với sự không chắc chắn, bạn không thể sử dụng như nhau điểm dữ liệu cho các giả thuyết và thử nghiệm. Khi dữ liệu bị hạn chế, sự không chắc chắn buộc phải lựa chọn giữa số liệu thống kê hoặc phân tích. Giải trình đây.

Nếu không có số liệu thống kê, bạn sẽ bị mắc kẹt và không thể hiểu liệu nhận định mà bạn vừa đưa ra có đúng hay không, và nếu không có phân tích, bạn sẽ hành động một cách mù quáng, có rất ít cơ hội để thuần hóa những điều chưa biết. Đây là một sự lựa chọn khó khăn.

Cách của gã lang băm để thoát khỏi tình trạng lộn xộn này là phớt lờ nó và sau đó giả vờ ngạc nhiên trước những gì bất ngờ xảy ra. Logic đằng sau việc kiểm tra các giả thuyết thống kê bắt nguồn từ câu hỏi liệu dữ liệu có đủ làm chúng ta ngạc nhiên để thay đổi suy nghĩ hay không. Làm sao chúng ta có thể ngạc nhiên trước dữ liệu nếu chúng ta đã nhìn thấy nó?

Bất cứ khi nào những lang băm tìm thấy một khuôn mẫu, họ sẽ lấy cảm hứng và kiểm tra cùng một dữ liệu cho cùng một mẫu, để công bố kết quả với một hoặc hai giá trị p hợp lệ, bên cạnh lý thuyết của họ. Vì vậy, họ đang nói dối bạn (và có lẽ, với chính họ nữa). Giá trị p này không thành vấn đề nếu bạn không tuân theo giả thuyết của mình để cách bạn xem dữ liệu của mình. Những kẻ lang băm bắt chước hành động của các nhà phân tích và thống kê mà không hiểu lý do. Kết quả là toàn bộ lĩnh vực khoa học dữ liệu bị mang tiếng xấu.

Các nhà thống kê chân chính luôn tự rút ra kết luận

Nhờ danh tiếng gần như thần bí của các nhà thống kê vì lý luận chặt chẽ của họ, lượng thông tin giả mạo trong Khoa học dữ liệu đang ở mức cao nhất mọi thời đại. Thật dễ dàng để lừa dối và không bị bắt, đặc biệt nếu nạn nhân không nghi ngờ rằng tất cả chỉ là về phương trình và dữ liệu. Tập dữ liệu là tập dữ liệu, phải không? KHÔNG. Điều quan trọng là bạn sử dụng nó như thế nào.

May mắn thay, bạn chỉ cần một manh mối để tóm được những kẻ lang băm: chúng đang "khám phá ra nước Mỹ từ trước". Bằng cách khám phá lại các hiện tượng mà họ đã biết có trong dữ liệu.

Không giống như những lang băm, những nhà phân tích giỏi có tư duy cởi mở và hiểu rằng những ý tưởng truyền cảm hứng có thể có nhiều cách giải thích khác nhau. Đồng thời, các nhà thống kê giỏi phải cẩn thận xác định kết luận của mình trước khi đưa ra.

Các nhà phân tích được miễn trách nhiệm pháp lý... miễn là họ vẫn ở trong phạm vi dữ liệu của mình. Nếu họ muốn khẳng định điều gì đó mà họ không thấy thì đó lại là một công việc khác. Họ nên cởi giày của nhà phân tích và đi giày của nhà thống kê. Suy cho cùng, dù chức danh công việc chính thức là gì thì cũng không có quy định nào nói rằng bạn không thể học cả hai ngành nghề nếu muốn. Chỉ cần đừng nhầm lẫn chúng.

Chỉ vì bạn giỏi thống kê không có nghĩa là bạn giỏi phân tích và ngược lại. Nếu ai đó cố gắng nói với bạn điều ngược lại, bạn nên cảnh giác. Nếu người này nói với bạn rằng được phép rút ra kết luận thống kê từ dữ liệu mà bạn đã nghiên cứu thì đây là lý do để bạn phải cảnh giác gấp đôi.

Những lời giải thích kỳ lạ

Khi quan sát những kẻ lang băm dữ liệu trong tự nhiên, bạn sẽ nhận thấy rằng họ thích bịa ra những câu chuyện kỳ ​​ảo để “giải thích” dữ liệu mà họ quan sát được. Càng mang tính học thuật thì càng tốt. Không có vấn đề gì khi những câu chuyện này được điều chỉnh trong nhận thức muộn màng.

Khi những lang băm làm điều này - hãy để tôi nói rõ - họ đang nói dối. Không có phương trình hay khái niệm lạ lùng nào có thể bù đắp cho thực tế là họ không đưa ra được bằng chứng nào cho lý thuyết của mình. Đừng ngạc nhiên trước những lời giải thích khác thường của họ.

Điều này cũng giống như việc thể hiện khả năng “tâm linh” của bạn bằng cách trước tiên nhìn vào những lá bài trên tay rồi dự đoán bạn đang cầm…thứ bạn đang cầm. Đây là thành kiến ​​nhận thức muộn màng và nghề khoa học dữ liệu chứa đầy nó.

Làm cách nào để nhận ra một lang băm từ Khoa học dữ liệu?

Các nhà phân tích nói: “Bạn vừa chọn Nữ hoàng kim cương”. Các nhà thống kê nói: “Tôi đã viết ra những giả thuyết của mình trên mảnh giấy này trước khi chúng ta bắt đầu. Chúng ta hãy thử xem xét một số dữ liệu và xem liệu tôi có đúng không." Những kẻ lang băm nói: “Tôi biết bạn sẽ trở thành Nữ hoàng kim cương này vì…”

Chia sẻ dữ liệu là cách khắc phục nhanh chóng mà mọi người đều cần.

Khi không có nhiều dữ liệu, bạn phải chọn giữa thống kê và phân tích, nhưng khi có quá đủ dữ liệu, sẽ có cơ hội tuyệt vời để sử dụng phân tích mà không bị lừa dối и số liệu thống kê. Bạn có biện pháp bảo vệ hoàn hảo chống lại những kẻ lang băm - phân tách dữ liệu và theo tôi, đây là ý tưởng mạnh mẽ nhất trong Khoa học dữ liệu.

Để bảo vệ bản thân khỏi những kẻ lang băm, tất cả những gì bạn cần làm là đảm bảo giữ một số dữ liệu thử nghiệm ngoài tầm mắt tò mò của họ và sau đó coi phần còn lại là phân tích. Khi bạn gặp một lý thuyết mà bạn có nguy cơ chấp nhận, hãy sử dụng nó để đánh giá tình hình, sau đó tiết lộ dữ liệu thử nghiệm bí mật của bạn để kiểm tra xem lý thuyết đó có phải là vô nghĩa hay không. Nó rất đơn giản!

Làm cách nào để nhận ra một lang băm từ Khoa học dữ liệu?
Đảm bảo rằng không ai được phép xem dữ liệu thử nghiệm trong giai đoạn khám phá. Để làm điều này, hãy bám vào dữ liệu nghiên cứu. Dữ liệu thử nghiệm không nên được sử dụng để phân tích.

Đây là một bước tiến lớn so với những gì mọi người đã quen trong thời đại "dữ liệu nhỏ", nơi bạn phải giải thích cách bạn biết những gì bạn biết để cuối cùng thuyết phục mọi người rằng bạn thực sự biết điều gì đó.

Áp dụng các quy tắc tương tự cho ML/AI

Một số lang băm đóng giả chuyên gia ML/AI cũng rất dễ bị phát hiện. Bạn sẽ bắt họ giống như cách bạn bắt bất kỳ kỹ sư tồi nào khác: những "giải pháp" họ cố gắng xây dựng liên tục thất bại. Dấu hiệu cảnh báo sớm là thiếu kinh nghiệm với các ngôn ngữ và thư viện lập trình tiêu chuẩn ngành.

Nhưng còn những người tạo ra những hệ thống có vẻ hoạt động được thì sao? Làm thế nào để bạn biết nếu có điều gì đó đáng ngờ đang xảy ra? Quy tắc tương tự được áp dụng! Charlatan là một nhân vật nham hiểm, kẻ cho bạn thấy mô hình hoạt động tốt như thế nào...trên cùng một dữ liệu mà họ đã sử dụng để tạo ra mô hình.

Nếu bạn đã xây dựng một hệ thống máy học cực kỳ phức tạp, làm sao bạn biết nó tốt như thế nào? Bạn sẽ không biết cho đến khi bạn cho cô ấy thấy cách làm việc với dữ liệu mới mà cô ấy chưa từng thấy trước đây.

Khi bạn xem dữ liệu trước khi dự báo - điều đó khó xảy ra trước đâynói

Khi bạn có đủ dữ liệu để phân tách, bạn không cần phải trích dẫn vẻ đẹp của các công thức của mình để biện minh cho dự án (một thói quen lỗi thời mà tôi thấy ở khắp mọi nơi, không chỉ trong khoa học). Bạn có thể nói: “Tôi biết nó hiệu quả vì tôi có thể lấy một tập dữ liệu mà tôi chưa từng thấy trước đây và dự đoán chính xác điều gì sẽ xảy ra ở đó... và tôi sẽ đúng. Lặp đi lặp lại".

Kiểm tra mô hình/lý thuyết của bạn dựa trên dữ liệu mới là cơ sở tốt nhất để có được sự tự tin.

Tôi không chấp nhận những kẻ lang băm dữ liệu. Tôi không quan tâm liệu ý kiến ​​​​của bạn có dựa trên những thủ thuật khác nhau hay không. Tôi không bị ấn tượng bởi vẻ đẹp của những lời giải thích. Hãy cho tôi thấy rằng lý thuyết/mô hình của bạn hoạt động (và tiếp tục hoạt động) trên toàn bộ dữ liệu mới mà bạn chưa từng thấy trước đây. Đây là bài kiểm tra thực sự về sức mạnh ý kiến ​​của bạn.

Liên hệ với các chuyên gia khoa học dữ liệu

Nếu bạn muốn được mọi người hiểu sự hài hước này coi trọng, hãy ngừng trốn đằng sau những phương trình hoa mỹ để ủng hộ những thành kiến ​​cá nhân. Cho tôi xem bạn có những gì. Nếu bạn muốn những người "hiểu được" xem lý thuyết/mô hình của bạn không chỉ là một bài thơ truyền cảm hứng, hãy can đảm trình diễn một màn trình diễn hoành tráng về hiệu quả của nó trên một tập hợp dữ liệu hoàn toàn mới... trước mặt các nhân chứng !

Kêu gọi lãnh đạo

Từ chối xem xét nghiêm túc bất kỳ "ý tưởng" nào về dữ liệu cho đến khi chúng được kiểm tra Mới dữ liệu. Bạn không cảm thấy muốn nỗ lực? Hãy bám sát các phân tích nhưng đừng dựa vào những ý tưởng này—chúng không đáng tin cậy và chưa được kiểm tra độ tin cậy. Hơn nữa, khi một tổ chức có lượng dữ liệu dồi dào, sẽ không có nhược điểm nào trong việc tạo ra sự phân tách cơ bản trong khoa học và duy trì nó ở cấp cơ sở hạ tầng bằng cách kiểm soát quyền truy cập vào dữ liệu thử nghiệm để thống kê. Đây là một cách tuyệt vời để ngăn chặn mọi người cố gắng đánh lừa bạn!

Nếu bạn muốn xem thêm những ví dụ về những lang băm có hành vi xấu xa - đây là một chủ đề tuyệt vời trên Twitter.

Kết quả

Khi có quá ít dữ liệu để phân tách, chỉ có một lang băm cố gắng tuân theo cảm hứng một cách nghiêm ngặt bằng cách khám phá nước Mỹ hồi tưởng, khám phá lại về mặt toán học các hiện tượng đã được biết là có trong dữ liệu và gọi điều ngạc nhiên là có ý nghĩa thống kê. Điều này giúp phân biệt họ với nhà phân tích cởi mở, người xử lý cảm hứng và nhà thống kê tỉ mỉ, người đưa ra bằng chứng khi đưa ra dự đoán.

Khi có nhiều dữ liệu, hãy tập thói quen tách dữ liệu để bạn có thể tận dụng tối đa cả hai thế giới! Đảm bảo thực hiện phân tích và thống kê riêng biệt cho các tập hợp con riêng lẻ của đống dữ liệu ban đầu.

  • Chuyên viên phân tích mang đến cho bạn cảm hứng và sự cởi mở.
  • Số liệu thống kê cung cấp cho bạn thử nghiệm nghiêm ngặt.
  • lang băm cung cấp cho bạn một nhận thức muộn màng giả vờ là phân tích cộng với số liệu thống kê.

Có lẽ, sau khi đọc bài viết, bạn sẽ có suy nghĩ “mình có phải là lang băm” không? Điều này ổn. Có hai cách để loại bỏ suy nghĩ này: thứ nhất, hãy nhìn lại, xem mình đã làm được những gì, công việc của bạn với dữ liệu có mang lại lợi ích thiết thực hay không. Và thứ hai, bạn vẫn có thể nâng cao trình độ của mình (chắc chắn sẽ không thừa), đặc biệt là vì chúng tôi cung cấp cho sinh viên những kỹ năng và kiến ​​thức thực tế cho phép họ trở thành nhà khoa học dữ liệu thực sự.

Làm cách nào để nhận ra một lang băm từ Khoa học dữ liệu?

Các khóa học khác

Đọc thêm

Nguồn: www.habr.com

Thêm một lời nhận xét