Về sự thiên vị trí tuệ nhân tạo

Về sự thiên vị trí tuệ nhân tạo

tl; dr:

  • Học máy tìm kiếm các mẫu trong dữ liệu. Nhưng trí tuệ nhân tạo có thể bị “thiên vị” - tức là tìm ra những khuôn mẫu sai. Ví dụ: hệ thống phát hiện ung thư da dựa trên ảnh có thể đặc biệt chú ý đến các hình ảnh được chụp tại phòng khám của bác sĩ. Học máy không thể để hiểu: các thuật toán của nó chỉ xác định các mẫu bằng số và nếu dữ liệu không mang tính đại diện thì kết quả xử lý của nó cũng vậy. Và việc bắt những lỗi như vậy có thể khó khăn do chính cơ chế học máy.
  • Vấn đề rõ ràng và khó khăn nhất là sự đa dạng của con người. Có nhiều lý do khiến dữ liệu về con người có thể mất đi tính khách quan ngay cả ở giai đoạn thu thập. Nhưng đừng nghĩ rằng vấn đề này chỉ ảnh hưởng đến con người: những khó khăn tương tự cũng nảy sinh khi cố gắng phát hiện lũ lụt trong nhà kho hoặc tuabin khí bị hỏng. Một số hệ thống có thể thiên về màu da, một số hệ thống khác sẽ thiên về cảm biến của Siemens.
  • Những vấn đề như vậy không phải là mới đối với học máy và chúng cũng không phải là vấn đề duy nhất đối với nó. Những giả định sai lầm được đưa ra trong bất kỳ cấu trúc phức tạp nào và việc hiểu lý do tại sao một quyết định cụ thể được đưa ra luôn khó khăn. Chúng ta cần giải quyết vấn đề này một cách toàn diện: tạo ra các công cụ và quy trình để xác minh - đồng thời hướng dẫn người dùng để họ không mù quáng làm theo các khuyến nghị của AI. Học máy thực hiện một số việc tốt hơn nhiều so với khả năng của chúng ta - nhưng chẳng hạn, chó phát hiện ma túy hiệu quả hơn nhiều so với con người, đó không phải là lý do để sử dụng chúng làm nhân chứng và đưa ra phán đoán dựa trên lời khai của chúng. Và nhân tiện, chó thông minh hơn nhiều so với bất kỳ hệ thống máy học nào.

Học máy là một trong những xu hướng công nghệ cơ bản quan trọng nhất hiện nay. Đây là một trong những cách chính mà công nghệ sẽ thay đổi thế giới xung quanh chúng ta trong thập kỷ tới. Một số khía cạnh của những thay đổi này là nguyên nhân gây lo ngại. Ví dụ: tác động tiềm ẩn của học máy đối với thị trường lao động hoặc việc sử dụng nó cho các mục đích phi đạo đức (ví dụ: bởi các chế độ độc tài). Có một vấn đề khác mà bài đăng này giải quyết: thiên vị trí tuệ nhân tạo.

Đây không phải là một câu chuyện dễ dàng.

Về sự thiên vị trí tuệ nhân tạo
AI của Google có thể tìm thấy mèo. Tin tức từ năm 2012 này là một điều gì đó đặc biệt vào thời điểm đó.

“Thiên kiến ​​AI” là gì?

“Dữ liệu thô” vừa là một oxymoron vừa là một ý tưởng tồi; dữ liệu phải được chuẩn bị tốt và cẩn thận. —Geoffrey Boker

Đâu đó trước năm 2013, để tạo ra một hệ thống có thể nhận dạng mèo trong ảnh, bạn phải mô tả các bước hợp lý. Cách tìm các góc trong hình ảnh, nhận dạng mắt, phân tích kết cấu của lông, đếm bàn chân, v.v. Sau đó ghép tất cả các thành phần lại với nhau và phát hiện ra rằng nó không thực sự hoạt động. Giống như một con ngựa cơ khí - về mặt lý thuyết thì nó có thể được tạo ra, nhưng trên thực tế thì nó quá phức tạp để mô tả. Kết quả cuối cùng là hàng trăm (thậm chí hàng nghìn) quy tắc viết tay. Và không có một mô hình làm việc nào.

Với sự ra đời của máy học, chúng tôi đã ngừng sử dụng các quy tắc “thủ công” để nhận dạng một đối tượng cụ thể. Thay vào đó, chúng tôi lấy một nghìn mẫu “cái này”, X, một nghìn mẫu “khác”, Y và yêu cầu máy tính xây dựng một mô hình dựa trên phân tích thống kê của chúng. Sau đó, chúng tôi cung cấp cho mô hình này một số dữ liệu mẫu và nó sẽ xác định với độ chính xác nhất định xem nó có phù hợp với một trong các tập hợp hay không. Học máy tạo ra một mô hình từ dữ liệu chứ không phải từ con người viết nó. Kết quả rất ấn tượng, đặc biệt là trong lĩnh vực nhận dạng hình ảnh và mẫu, và đó là lý do tại sao toàn bộ ngành công nghệ hiện đang chuyển sang học máy (ML).

Nhưng nó không đơn giản như vậy. Trong thế giới thực, hàng nghìn ví dụ về X hoặc Y của bạn cũng chứa A, B, J, L, O, R và thậm chí L. Những ví dụ này có thể không được phân bổ đều và một số có thể xảy ra thường xuyên đến mức hệ thống sẽ phải trả nhiều tiền hơn chú ý đến chúng hơn là những đồ vật mà bạn quan tâm.

Điều này có ý nghĩa gì trong thực tế? Ví dụ yêu thích của tôi là khi hệ thống nhận dạng hình ảnh nhìn ngọn đồi cỏ và nói "cừu". Lý do rất rõ ràng: hầu hết các bức ảnh mẫu về "cừu" đều được chụp trên đồng cỏ nơi chúng sinh sống và trong những bức ảnh này, cỏ chiếm nhiều không gian hơn so với những sợi lông tơ nhỏ màu trắng và đó là loại cỏ được hệ thống coi là quan trọng nhất .

Có nhiều ví dụ nghiêm trọng hơn. Một cái gần đây dự án để phát hiện ung thư da qua ảnh. Hóa ra các bác sĩ da liễu thường chụp ảnh thước kẻ cùng với các biểu hiện của bệnh ung thư da để ghi lại kích thước của các vết hình thành. Không có thước kẻ trong các bức ảnh ví dụ về làn da khỏe mạnh. Đối với hệ thống AI, những thước kẻ như vậy (chính xác hơn là các pixel mà chúng tôi định nghĩa là “thước kẻ”) đã trở thành một trong những điểm khác biệt giữa các tập hợp ví dụ và đôi khi còn quan trọng hơn một vết phát ban nhỏ trên da. Vì vậy, một hệ thống được tạo ra để xác định bệnh ung thư da đôi khi lại được công nhận là kẻ thống trị.

Điểm mấu chốt ở đây là hệ thống không hiểu ngữ nghĩa về những gì nó đang xem xét. Chúng ta nhìn vào một tập hợp các pixel và thấy trong đó có một con cừu, một tấm da hoặc một cây thước, nhưng hệ thống này chỉ là một dãy số. Cô ấy không nhìn thấy không gian ba chiều, không nhìn thấy đồ vật, kết cấu hay con cừu. Cô ấy chỉ đơn giản nhìn thấy các mẫu trong dữ liệu.

Khó khăn trong việc chẩn đoán những vấn đề như vậy là mạng lưới thần kinh (mô hình do hệ thống máy học của bạn tạo ra) bao gồm hàng nghìn hàng trăm nghìn nút. Không có cách nào dễ dàng để xem xét một mô hình và xem nó đưa ra quyết định như thế nào. Có cách như vậy có nghĩa là quy trình đủ đơn giản để mô tả tất cả các quy tắc theo cách thủ công mà không cần sử dụng máy học. Mọi người lo lắng rằng học máy đã trở thành một thứ gì đó giống như hộp đen. (Tôi sẽ giải thích sau một chút tại sao sự so sánh này vẫn còn quá nhiều.)

Nói chung, đây là vấn đề sai lệch trong trí tuệ nhân tạo hoặc học máy: một hệ thống tìm kiếm các mẫu trong dữ liệu có thể tìm thấy các mẫu sai và bạn có thể không nhận thấy điều đó. Đây là đặc điểm cơ bản của công nghệ và mọi người làm việc với nó trong học viện cũng như tại các công ty công nghệ lớn đều thấy rõ điều này. Nhưng hậu quả của nó rất phức tạp và các giải pháp khả thi của chúng ta đối với những hậu quả đó cũng phức tạp.

Hãy nói về hậu quả trước.

Về sự thiên vị trí tuệ nhân tạo
Đối với chúng ta, AI có thể ngầm đưa ra lựa chọn có lợi cho một số nhóm người nhất định, dựa trên một số lượng lớn các tín hiệu khó nhận biết

Kịch bản thiên vị AI

Rõ ràng và đáng sợ nhất là vấn đề này có thể bộc lộ khi nói đến sự đa dạng của con người. Gần đây có một tin đồnrằng Amazon đã cố gắng xây dựng một hệ thống máy học để sàng lọc ban đầu các ứng viên xin việc. Vì có nhiều nam giới hơn trong số các công nhân của Amazon, nên các ví dụ về “tuyển dụng thành công” cũng thường là nam giới hơn và có nhiều nam giới hơn trong việc lựa chọn các sơ yếu lý lịch do hệ thống gợi ý. Amazon nhận thấy điều này và không đưa hệ thống vào sản xuất.

Điều quan trọng nhất trong ví dụ này là hệ thống được đồn đại là ưu tiên ứng viên nam, mặc dù thực tế là giới tính không được nêu rõ trong sơ yếu lý lịch. Hệ thống nhận thấy các mẫu khác trong ví dụ về "tuyển dụng tốt": ví dụ: phụ nữ có thể sử dụng những từ đặc biệt để mô tả thành tích hoặc có những sở thích đặc biệt. Tất nhiên, hệ thống không biết “khúc côn cầu” là gì, “người” là ai, hay “thành công” là gì - nó chỉ đơn giản thực hiện phân tích thống kê văn bản. Nhưng những khuôn mẫu mà cô ấy nhìn thấy rất có thể sẽ không được con người chú ý, và một số trong số đó (ví dụ, việc những người thuộc các giới tính khác nhau mô tả thành công theo cách khác nhau) có lẽ sẽ khó đối với chúng ta ngay cả khi chúng ta nhìn vào chúng.

Xa hơn - tệ hơn. Một hệ thống máy học có khả năng phát hiện ung thư tốt trên làn da nhợt nhạt có thể không hoạt động tốt trên làn da sẫm màu hoặc ngược lại. Không hẳn là do thiên vị mà vì có lẽ bạn cần xây dựng một mô hình riêng cho một màu da khác, lựa chọn những đặc điểm khác nhau. Các hệ thống máy học không thể thay thế cho nhau ngay cả trong một lĩnh vực hẹp như nhận dạng hình ảnh. Bạn cần điều chỉnh hệ thống, đôi khi chỉ bằng cách thử và sai, để xử lý tốt các tính năng trong dữ liệu mà bạn quan tâm cho đến khi đạt được độ chính xác như mong muốn. Nhưng điều bạn có thể không nhận thấy là hệ thống có độ chính xác 98% với một nhóm và chỉ 91% (thậm chí chính xác hơn cả phân tích của con người) với nhóm còn lại.

Cho đến nay tôi chủ yếu sử dụng các ví dụ liên quan đến con người và đặc điểm của họ. Các cuộc thảo luận xung quanh vấn đề này chủ yếu tập trung vào chủ đề này. Nhưng điều quan trọng là phải hiểu rằng sự thiên vị đối với mọi người chỉ là một phần của vấn đề. Chúng tôi sẽ sử dụng công nghệ máy học cho nhiều thứ và lỗi lấy mẫu sẽ liên quan đến tất cả những thứ đó. Mặt khác, nếu bạn làm việc với mọi người, sự thiên vị trong dữ liệu có thể không liên quan đến họ.

Để hiểu điều này, chúng ta hãy quay lại ví dụ về ung thư da và xem xét ba khả năng giả định về lỗi hệ thống.

  1. Sự phân bố người không đồng nhất: số lượng ảnh chụp có tông màu da khác nhau không cân bằng, dẫn đến kết quả dương tính giả hoặc âm tính giả do sắc tố.
  2. Dữ liệu mà hệ thống được đào tạo chứa một đặc điểm thường xuyên xuất hiện và phân bố không đồng nhất, không liên quan đến con người và không có giá trị chẩn đoán: thước đo trong ảnh ung thư da hoặc cỏ trong ảnh cừu. Trong trường hợp này, kết quả sẽ khác nếu hệ thống tìm thấy các pixel trong hình ảnh của thứ gì đó mà mắt người xác định là “thước kẻ”.
  3. Dữ liệu chứa đặc điểm của bên thứ ba mà một người không thể nhìn thấy ngay cả khi anh ta tìm kiếm nó.

Nó có nghĩa là gì? Chúng tôi biết trước rằng dữ liệu có thể đại diện cho các nhóm người khác nhau một cách khác nhau và ở mức tối thiểu, chúng tôi có thể lên kế hoạch tìm kiếm những trường hợp ngoại lệ như vậy. Nói cách khác, có rất nhiều lý do xã hội để cho rằng dữ liệu về các nhóm người đã có sẵn một số thành kiến. Nếu nhìn vào bức ảnh bằng thước kẻ, chúng ta sẽ thấy thước kẻ này - trước đây chúng ta chỉ đơn giản là bỏ qua nó vì biết rằng nó không quan trọng và quên rằng hệ thống không biết gì cả.

Nhưng điều gì sẽ xảy ra nếu tất cả những bức ảnh về làn da không khỏe mạnh của bạn được chụp trong văn phòng dưới ánh đèn sợi đốt và làn da khỏe mạnh của bạn được chụp dưới ánh sáng huỳnh quang? Điều gì sẽ xảy ra nếu sau khi chụp xong làn da khỏe mạnh, trước khi chụp làn da không khỏe mạnh, bạn cập nhật hệ điều hành trên điện thoại và Apple hoặc Google thay đổi một chút thuật toán giảm nhiễu? Một người không thể nhận thấy điều này, cho dù anh ta có tìm kiếm những đặc điểm như vậy bao nhiêu đi chăng nữa. Nhưng hệ thống sử dụng máy sẽ thấy ngay và sử dụng cái này. Cô ấy không biết gì cả.

Cho đến nay chúng ta đã nói về các mối tương quan giả, nhưng cũng có thể là dữ liệu chính xác và kết quả đúng nhưng bạn không muốn sử dụng chúng vì lý do đạo đức, pháp lý hoặc quản lý. Ví dụ, một số khu vực pháp lý không cho phép phụ nữ được giảm giá bảo hiểm, mặc dù phụ nữ có thể là những người lái xe an toàn hơn. Chúng ta có thể dễ dàng tưởng tượng một hệ thống mà khi phân tích dữ liệu lịch sử sẽ chỉ định hệ số rủi ro thấp hơn cho tên nữ. Được rồi, hãy xóa tên khỏi vùng chọn. Nhưng hãy nhớ ví dụ về Amazon: hệ thống có thể xác định giới tính dựa trên các yếu tố khác (mặc dù nó không biết giới tính là gì hoặc thậm chí ô tô là gì) và bạn sẽ không nhận thấy điều này cho đến khi cơ quan quản lý phân tích hồi tố các mức thuế mà bạn phải đối mặt. cung cấp và tính phí cho bạn, bạn sẽ bị phạt.

Cuối cùng, người ta thường cho rằng chúng ta sẽ chỉ sử dụng những hệ thống như vậy cho những dự án liên quan đến con người và tương tác xã hội. Cái này sai. Nếu bạn chế tạo tua-bin khí, có thể bạn sẽ muốn áp dụng công nghệ máy học vào phép đo từ xa được truyền bởi hàng chục hoặc hàng trăm cảm biến trên sản phẩm của bạn (âm thanh, video, nhiệt độ và bất kỳ cảm biến nào khác tạo ra dữ liệu có thể được điều chỉnh rất dễ dàng để tạo ra một chiếc máy). mô hình học tập). Theo giả thuyết, bạn có thể nói: “Đây là dữ liệu từ một nghìn tuabin đã hỏng trước khi hỏng và đây là dữ liệu từ một nghìn tuabin không hỏng. Xây dựng một mô hình để cho biết sự khác biệt giữa chúng là gì.” Chà, bây giờ hãy tưởng tượng rằng 75% cảm biến của Siemens được lắp đặt trên 12% tua-bin hỏng và chỉ XNUMX% tua-bin tốt (không có mối liên hệ nào với lỗi hỏng hóc). Hệ thống sẽ xây dựng mô hình tìm tua bin sử dụng cảm biến của Siemens. Ối!

Về sự thiên vị trí tuệ nhân tạo
Ảnh - Moritz Hardt, UC Berkeley

Quản lý xu hướng AI

Những gì chúng tôi có thể làm gì về nó? Bạn có thể tiếp cận vấn đề từ ba góc độ:

  1. Sự chặt chẽ về mặt phương pháp trong việc thu thập và quản lý dữ liệu để huấn luyện hệ thống.
  2. Các công cụ kỹ thuật để phân tích và chẩn đoán hành vi của mô hình.
  3. Đào tạo, giáo dục và cẩn thận khi triển khai machine learning vào sản phẩm.

Có một câu chuyện cười trong cuốn sách “Người tư sản trong giới quý tộc” của Molière: một người được kể rằng văn học được chia thành văn xuôi và thơ, và ông ấy rất vui khi phát hiện ra rằng mình đã nói bằng văn xuôi cả đời mà không hề hay biết. Đây có lẽ là cảm giác của các nhà thống kê ngày nay: mà không nhận ra điều đó, họ đã cống hiến sự nghiệp của mình cho trí tuệ nhân tạo và lỗi lấy mẫu. Tìm kiếm lỗi lấy mẫu và lo lắng về nó không phải là vấn đề mới, chúng ta chỉ cần tiếp cận một cách có hệ thống giải pháp của nó. Như đã đề cập ở trên, trong một số trường hợp, việc này thực sự dễ dàng hơn bằng cách nghiên cứu các vấn đề liên quan đến dữ liệu con người. Chúng tôi tiên nghiệm cho rằng chúng tôi có thể có thành kiến ​​đối với các nhóm người khác nhau, nhưng chúng tôi khó có thể tưởng tượng được thành kiến ​​​​về cảm biến của Siemens.

Tất nhiên, điều mới về tất cả những điều này là mọi người không còn trực tiếp thực hiện phân tích thống kê nữa. Nó được thực hiện bằng máy móc tạo ra những mô hình lớn, phức tạp và khó hiểu. Vấn đề minh bạch là một trong những khía cạnh chính của vấn đề thiên vị. Chúng tôi lo ngại rằng hệ thống không chỉ bị sai lệch mà còn không có cách nào để phát hiện ra sai lệch của nó và rằng học máy khác với các hình thức tự động hóa khác vốn được cho là bao gồm các bước logic rõ ràng có thể được kiểm tra.

Có hai vấn đề ở đây. Chúng tôi vẫn có thể tiến hành một số loại kiểm tra hệ thống máy học. Và việc kiểm tra bất kỳ hệ thống nào khác thực sự không dễ dàng hơn.

Thứ nhất, một trong những hướng nghiên cứu hiện đại trong lĩnh vực học máy là tìm kiếm các phương pháp xác định chức năng quan trọng của hệ thống học máy. Điều đó nói lên rằng, học máy (ở trạng thái hiện tại) là một lĩnh vực khoa học hoàn toàn mới đang thay đổi nhanh chóng, vì vậy đừng nghĩ rằng những điều không thể ngày nay sẽ không thể sớm trở thành hiện thực. Dự án OpenAI là một ví dụ thú vị về điều này.

Thứ hai, ý tưởng cho rằng một người có thể kiểm tra và hiểu quá trình ra quyết định của các hệ thống hoặc tổ chức hiện tại là tốt về mặt lý thuyết nhưng trên thực tế thì cũng không tốt. Hiểu cách đưa ra quyết định trong một tổ chức lớn không phải là điều dễ dàng. Ngay cả khi có một quy trình ra quyết định chính thức, nó cũng không phản ánh cách mọi người thực sự tương tác và bản thân họ thường không có cách tiếp cận hợp lý, có hệ thống để đưa ra quyết định. Như đồng nghiệp của tôi đã nói Vijay Pande, con người cũng là hộp đen.

Lấy một nghìn người ở một số công ty và tổ chức chồng chéo nhau, vấn đề càng trở nên phức tạp hơn. Chúng tôi biết sau sự thật rằng Tàu con thoi đã được định sẵn sẽ tan vỡ khi quay trở lại và các cá nhân trong NASA có thông tin khiến họ có lý do để nghĩ rằng điều gì đó tồi tệ có thể xảy ra, nhưng hệ thống nói chung Tôi không biết điều này. NASA thậm chí vừa trải qua một cuộc kiểm toán tương tự sau khi mất tàu con thoi trước đó, nhưng họ lại mất một chiếc khác vì lý do rất tương tự. Thật dễ dàng để tranh luận rằng các tổ chức và mọi người tuân theo các quy tắc rõ ràng, hợp lý có thể được kiểm tra, hiểu và thay đổi nhưng kinh nghiệm đã chứng minh điều ngược lại. Cái này "Ảo tưởng của Gosplan'.

Tôi thường so sánh học máy với cơ sở dữ liệu, đặc biệt là cơ sở dữ liệu quan hệ - một công nghệ cơ bản mới đã thay đổi khả năng của khoa học máy tính và thế giới xung quanh nó, trở thành một phần của mọi thứ mà chúng ta sử dụng liên tục mà không nhận ra. Cơ sở dữ liệu cũng có vấn đề và chúng có bản chất tương tự nhau: hệ thống có thể được xây dựng dựa trên những giả định xấu hoặc dữ liệu xấu, nhưng sẽ khó nhận ra và những người sử dụng hệ thống sẽ làm những gì nó yêu cầu mà không đặt câu hỏi. Có rất nhiều câu chuyện cười cũ về những người thuế đã từng đánh vần sai tên của bạn và việc thuyết phục họ sửa lỗi còn khó hơn nhiều so với việc thực sự đổi tên bạn. Có nhiều cách để nghĩ về điều này, nhưng không rõ cách nào tốt hơn: như một vấn đề kỹ thuật trong SQL, hay như một lỗi trong bản phát hành của Oracle, hay như một thất bại của các thể chế quan liêu? Việc tìm ra lỗi trong một quy trình khiến hệ thống không có tính năng sửa lỗi chính tả khó đến mức nào? Liệu điều này có thể được phát hiện ra trước khi mọi người bắt đầu phàn nàn?

Vấn đề này còn được minh họa đơn giản hơn bằng những câu chuyện khi người lái xe lao xuống sông do dữ liệu trong thiết bị định vị đã lỗi thời. Được rồi, bản đồ cần được cập nhật liên tục. Nhưng TomTom có ​​lỗi bao nhiêu khi chiếc xe của bạn bị thổi bay ra biển?

Lý do tôi nói điều này là vì sự thiên vị trong học máy sẽ tạo ra vấn đề. Nhưng những vấn đề này sẽ tương tự như những vấn đề chúng ta đã gặp phải trong quá khứ và chúng có thể được chú ý và giải quyết (hoặc không) tốt như chúng ta đã có thể làm trong quá khứ. Do đó, kịch bản thiên vị AI gây tổn hại khó có thể xảy ra với các nhà nghiên cứu cấp cao làm việc trong một tổ chức lớn. Rất có thể, một số nhà thầu công nghệ hoặc nhà cung cấp phần mềm tầm thường sẽ viết thứ gì đó bằng cách sử dụng các thành phần, thư viện và công cụ nguồn mở mà họ không hiểu. Và khách hàng không may mắn sẽ mua cụm từ “trí tuệ nhân tạo” trong phần mô tả sản phẩm và không hỏi bất kỳ câu hỏi nào, phân phát nó cho những nhân viên được trả lương thấp của mình, yêu cầu họ làm những gì AI nói. Đây chính xác là những gì đã xảy ra với cơ sở dữ liệu. Đây không phải là vấn đề về trí tuệ nhân tạo hay thậm chí là vấn đề về phần mềm. Đây chính là yếu tố con người.

Kết luận

Học máy có thể làm bất cứ điều gì bạn có thể dạy một con chó nhưng bạn không bao giờ có thể chắc chắn chính xác những gì bạn đã dạy con chó.

Tôi thường cảm thấy thuật ngữ “trí tuệ nhân tạo” chỉ cản trở những cuộc trò chuyện như thế này. Thuật ngữ này tạo ấn tượng sai lầm rằng chúng tôi thực sự đã tạo ra nó - thông tin tình báo này. Rằng chúng ta đang trên đường tới HAL9000 hoặc Skynet - điều gì đó thực sự hiểu. Nhưng không. Đây chỉ là những chiếc máy, và sẽ chính xác hơn nhiều nếu so sánh chúng với một chiếc máy giặt. Cô ấy giặt đồ giỏi hơn con người rất nhiều, nhưng nếu bạn đặt bát đĩa vào thay vì đồ giặt, cô ấy... sẽ rửa chúng. Bát đĩa thậm chí sẽ trở nên sạch sẽ. Nhưng đây sẽ không phải là điều bạn mong đợi và điều này sẽ không xảy ra vì hệ thống có bất kỳ định kiến ​​nào về món ăn. Máy giặt không biết bát đĩa là gì hay quần áo là gì - nó chỉ là một ví dụ về tự động hóa, về mặt khái niệm không khác gì cách các quy trình được tự động hóa trước đây.

Cho dù chúng ta đang nói về ô tô, máy bay hay cơ sở dữ liệu, những hệ thống này sẽ rất mạnh mẽ nhưng cũng rất hạn chế. Chúng sẽ phụ thuộc hoàn toàn vào cách mọi người sử dụng những hệ thống này, ý định của họ là tốt hay xấu và mức độ hiểu biết về cách thức hoạt động của chúng.

Vì vậy, nói “trí tuệ nhân tạo là toán học nên không thể có những sai lệch” là hoàn toàn sai lầm. Nhưng cũng sai lầm không kém khi nói rằng học máy có “bản chất chủ quan”. Học máy tìm thấy các mẫu trong dữ liệu và những mẫu mà nó tìm thấy phụ thuộc vào dữ liệu và dữ liệu phụ thuộc vào chúng ta. Giống như những gì chúng tôi làm với họ. Học máy thực hiện một số việc tốt hơn nhiều so với khả năng của chúng ta - nhưng chẳng hạn, chó phát hiện ma túy hiệu quả hơn nhiều so với con người, đó không phải là lý do để sử dụng chúng làm nhân chứng và đưa ra phán đoán dựa trên lời khai của chúng. Và nhân tiện, chó thông minh hơn nhiều so với bất kỳ hệ thống máy học nào.

Translation: Diana Letskaya.
Chỉnh sửa: Aleksey Ivanov.
Cộng đồng: @PonchikNews.

Nguồn: www.habr.com

Thêm một lời nhận xét