🥇Bộ não ngu ngốc, cảm xúc ẩn giấu, thuật toán lén lút: sự tiến hóa của nhận dạng khuôn mặt

Người Ai Cập cổ đại biết rất nhiều về giải phẫu sinh thể và có thể phân biệt gan với thận bằng cách chạm vào. Bằng cách quấn xác ướp từ sáng đến tối và thực hiện chữa bệnh (từ khoan thai đến cắt bỏ khối u), chắc chắn bạn sẽ học được cách hiểu về giải phẫu.

Sự phong phú của các chi tiết giải phẫu đã được bù đắp nhiều hơn bởi sự nhầm lẫn trong việc hiểu chức năng của các cơ quan. Các linh mục, bác sĩ và những người bình thường đã mạnh dạn đặt tâm trí vào trái tim, và giao cho bộ não vai trò sản xuất nước mũi.

Sau 4 nghìn năm, thật khó để cho phép mình cười nhạo các chàng trai và pharaoh - máy tính và thuật toán thu thập dữ liệu của chúng ta trông ngầu hơn cuộn giấy cói và bộ não của chúng ta vẫn tạo ra một cách bí ẩn ai biết được điều gì.

Vì vậy, trong bài viết này đáng lẽ phải nói về thực tế là các thuật toán nhận dạng cảm xúc đã đạt đến tốc độ của các tế bào thần kinh phản chiếu trong việc giải thích tín hiệu của người đối thoại, thì đột nhiên hóa ra các tế bào thần kinh không giống như những gì chúng tưởng tượng.

Lỗi ra quyết định

Khi còn nhỏ, một đứa trẻ quan sát khuôn mặt của cha mẹ và học cách tái tạo nụ cười, sự tức giận, sự tự hài lòng và những cảm xúc khác, để trong suốt cuộc đời, trong những tình huống khác nhau, nó có thể mỉm cười, cau mày, tức giận - giống hệt như những người thân yêu của mình làm.

Nhiều nhà nghiên cứu tin rằng việc bắt chước cảm xúc được xây dựng bởi một hệ thống tế bào thần kinh phản chiếu. Tuy nhiên, một số nhà khoa học bày tỏ sự hoài nghi về lý thuyết này: chúng ta vẫn chưa hiểu rõ chức năng của tất cả các tế bào não.

Mô hình chức năng não đứng trên nền tảng giả thuyết không chắc chắn. Không còn nghi ngờ gì nữa, chỉ có một điều: “phần sụn” của chất xám từ khi sinh ra đã chứa đựng những đặc điểm và lỗi, hay nói chính xác hơn là những đặc điểm ảnh hưởng đến hành vi.

Tế bào thần kinh phản chiếu hoặc các tế bào thần kinh khác chịu trách nhiệm về phản ứng bắt chước; hệ thống này chỉ hoạt động ở mức cơ bản trong việc nhận biết những ý định và hành động đơn giản nhất. Điều này là đủ cho một đứa trẻ, nhưng rất ít đối với người lớn.

Chúng ta biết rằng cảm xúc phần lớn phụ thuộc vào kinh nghiệm tiếp xúc của một người với nền văn hóa bản địa của mình. Sẽ không ai nghĩ bạn là kẻ tâm thần, nếu giữa những người vui vẻ, bạn mỉm cười, cảm thấy đau đớn, bởi vì ở cuộc sống trưởng thành, cảm xúc được sử dụng như một phương tiện để thích ứng với điều kiện tồn tại.

Chúng ta không biết người kia thực sự đang nghĩ gì. Thật dễ dàng để đưa ra các giả định: anh ấy đang cười nghĩa là anh ấy đang vui vẻ. Trí óc có khả năng bẩm sinh là xây dựng những lâu đài bằng những hình ảnh nhất quán về những gì đang xảy ra.

Người ta chỉ cần cố gắng xác định xem những giả định hiện có tương ứng với sự thật ở mức độ nào, và nền tảng lung lay của các giả thuyết sẽ bắt đầu chuyển động: nụ cười là nỗi buồn, cái cau mày là hạnh phúc, mí mắt run rẩy là niềm vui.

Nhà tâm thần học người Đức Franz Karl Müller-Lyer vào năm 1889 đã cho thấy một ảo ảnh hình học-quang học liên quan đến sự biến dạng trong nhận thức về đường nét và hình vẽ. Ảo tưởng là đoạn được đóng khung bởi các đầu hướng ra ngoài có vẻ ngắn hơn đoạn được đóng khung bởi đuôi. Trên thực tế, chiều dài của cả hai đoạn là như nhau.

Bác sĩ tâm thần cũng thu hút sự chú ý đến thực tế là người chiêm ngưỡng ảo ảnh, ngay cả sau khi đo các đường và nghe giải thích về nền tảng thần kinh của nhận thức hình ảnh, vẫn tiếp tục coi một đường ngắn hơn đường kia. Điều thú vị là ảo tưởng này không giống nhau đối với tất cả mọi người - có những người ít nhạy cảm hơn với nó.

Nhà tâm lý học Daniel Kahneman phê chuẩnrằng bộ óc phân tích chậm chạp của chúng ta nhận ra thủ thuật Müller-Lyer, nhưng phần thứ hai của bộ não, chịu trách nhiệm về phản xạ nhận thức, phản ứng một cách tự động và gần như ngay lập tức để đáp lại những kích thích mới xuất hiện và đưa ra những phán đoán sai lầm.

Một lỗi nhận thức không chỉ là một sai lầm. Người ta có thể hiểu và thừa nhận rằng người ta không thể tin vào mắt mình khi nhìn vào ảo ảnh quang học, nhưng giao tiếp với người thật cũng giống như du hành qua một mê cung phức tạp.

Trở lại năm 1906, nhà xã hội học William Sumner đã tuyên bố tính phổ quát của chọn lọc tự nhiên và cuộc đấu tranh sinh tồn, chuyển giao các nguyên tắc tồn tại của động vật cho xã hội loài người. Theo quan điểm của ông, những người đoàn kết trong các nhóm sẽ nâng cao nhóm của họ bằng cách từ chối phân tích những sự thật đe dọa đến sự toàn vẹn của cộng đồng.

Nhà tâm lý học Richard Nisbett Bài viết "Kể nhiều hơn những gì chúng ta có thể biết: Báo cáo bằng lời nói về các quá trình tâm thần" thể hiện sự miễn cưỡng của mọi người khi tin vào số liệu thống kê và các dữ liệu được chấp nhận rộng rãi khác không đồng ý với niềm tin hiện có của họ.

Sự kỳ diệu của những con số lớn

Hãy xem video này và xem nét mặt của diễn viên thay đổi như thế nào.

Tâm trí nhanh chóng “gắn nhãn” và đưa ra các giả định khi không đủ dữ liệu, dẫn đến những hiệu ứng nghịch lý, có thể thấy rõ qua ví dụ về thí nghiệm do đạo diễn Lev Kuleshov thực hiện.

Năm 1929, ông chụp cận cảnh một diễn viên, một đĩa đầy súp, một đứa trẻ trong quan tài và một cô gái trẻ trên ghế sofa. Sau đó, đoạn phim có cảnh quay của nam diễn viên được cắt thành ba phần và dán riêng các khung hình có cảnh một đĩa súp, một đứa trẻ và một cô gái.

Độc lập với nhau, người xem đi đến kết luận rằng ở đoạn đầu tiên anh hùng đang đói, ở đoạn thứ hai anh ta đau buồn trước cái chết của đứa trẻ, ở đoạn thứ ba anh ta bị cuốn hút bởi cô gái nằm trên ghế sofa.

Trên thực tế, nét mặt của diễn viên không thay đổi trong mọi trường hợp.

Và nếu bạn nhìn thấy một trăm khung hình, liệu trò lừa có bị lộ không?

Dựa trên dữ liệu về độ tin cậy thống kê về tính chân thật của hành vi phi ngôn ngữ trong một nhóm lớn người, nhà tâm lý học Paul Ekman tạo một công cụ toàn diện để đo lường khách quan các chuyển động của khuôn mặt - “hệ thống mã hóa chuyển động trên khuôn mặt”.

Ông cho rằng mạng lưới thần kinh nhân tạo có thể được sử dụng để tự động phân tích nét mặt của mọi người. Bất chấp những lời chỉ trích nghiêm trọng (chương trình an ninh sân bay của Ekman đã không vượt qua các thử nghiệm có kiểm soát), có một phần ý nghĩa chung trong những lập luận này.

Nhìn vào một người đang cười, người ta có thể cho rằng anh ta đang lừa dối và thực sự không có ý tốt gì. Nhưng nếu bạn (hoặc máy ảnh) nhìn thấy hàng trăm người đang mỉm cười thì rất có thể hầu hết họ thực sự đang vui vẻ—như xem một diễn viên hài độc thoại nóng bỏng biểu diễn.

Trong ví dụ về số lượng lớn, việc một số người có thể điều khiển cảm xúc khéo léo đến mức ngay cả Giáo sư Ekman cũng không quá quan trọng. Theo lời của chuyên gia rủi ro Nassim Taleb, khả năng cải thiện nghịch cảnh của một hệ thống được tăng cường đáng kể khi đối tượng giám sát là một chiếc camera lạnh lùng, khách quan.

Đúng, chúng tôi không biết cách nhận biết lời nói dối bằng khuôn mặt - có hoặc không có trí tuệ nhân tạo. Nhưng chúng tôi hiểu rất rõ cách xác định mức độ hạnh phúc của một trăm người trở lên.

Nhận dạng cảm xúc cho doanh nghiệp

Cách đơn giản nhất để xác định cảm xúc từ hình ảnh khuôn mặt là dựa trên việc phân loại các điểm chính, tọa độ của các điểm đó có thể thu được bằng các thuật toán khác nhau. Thông thường, vài chục điểm được đánh dấu, liên kết chúng với vị trí của lông mày, mắt, môi, mũi, hàm, cho phép bạn ghi lại nét mặt.

Đánh giá nền tảng cảm xúc bằng thuật toán máy đã giúp các nhà bán lẻ tích hợp trực tuyến và ngoại tuyến nhiều nhất có thể. Công nghệ cho phép bạn đánh giá hiệu quả của các chiến dịch quảng cáo và tiếp thị, xác định chất lượng dịch vụ và dịch vụ khách hàng, đồng thời xác định hành vi bất thường của mọi người.

Bằng cách sử dụng thuật toán, bạn có thể theo dõi trạng thái cảm xúc của nhân viên trong văn phòng (văn phòng có những người buồn bã là văn phòng có động lực yếu, chán nản và sa sút) cũng như “chỉ số hạnh phúc” của nhân viên và khách hàng khi ra vào.

Alfa-Bank ở một số chi nhánh tung ra một dự án thí điểm để phân tích cảm xúc của khách hàng trong thời gian thực. Các thuật toán xây dựng một chỉ số không thể thiếu về sự hài lòng của khách hàng, xác định xu hướng thay đổi trong nhận thức cảm xúc khi ghé thăm chi nhánh và đưa ra đánh giá tổng thể về chuyến thăm.

Tại Microsoft kể lại về việc thử nghiệm hệ thống phân tích trạng thái cảm xúc của khán giả trong rạp chiếu phim (đánh giá khách quan về chất lượng của phim trong thời gian thực), cũng như để xác định người chiến thắng trong đề cử “Giải thưởng Khán giả” tại cuộc thi Imagine Cup (cuộc thi chiến thắng thuộc về đội có màn trình diễn được khán giả phản ứng tích cực nhất) .

Tất cả những điều trên chỉ là sự khởi đầu của một kỷ nguyên hoàn toàn mới. Tại Đại học Bang North Carolina, khi đang tham gia các khóa học giáo dục, khuôn mặt của sinh viên được quay bằng camera, video từ đó phân tích hệ thống thị giác máy tính nhận biết cảm xúc. Dựa trên dữ liệu thu được, giáo viên đã sửa đổi chiến lược giảng dạy.

Nhìn chung, trong quá trình giáo dục, người ta chưa quan tâm đầy đủ đến việc đánh giá cảm xúc. Nhưng bạn có thể đánh giá chất lượng giảng dạy, sự tham gia của học sinh, xác định những cảm xúc tiêu cực và lập kế hoạch cho quá trình giáo dục dựa trên thông tin nhận được.

Nhận dạng khuôn mặt Ivideon: nhân khẩu học và cảm xúc

Bây giờ một báo cáo về cảm xúc đã xuất hiện trong hệ thống của chúng tôi.

Một trường “Cảm xúc” riêng biệt đã xuất hiện trên thẻ sự kiện phát hiện khuôn mặt và trên tab “Báo cáo” trong phần “Khuôn mặt”, một loại báo cáo mới có sẵn - theo giờ và theo ngày:

Có thể tải xuống dữ liệu nguồn của tất cả các phát hiện và tạo báo cáo của riêng bạn dựa trên chúng.

Cho đến gần đây, tất cả các hệ thống nhận dạng cảm xúc đều hoạt động ở cấp độ dự án thử nghiệm đã được thử nghiệm một cách thận trọng. Chi phí của những phi công như vậy là rất cao.

Chúng tôi muốn biến phân tích thành một phần của thế giới dịch vụ và thiết bị quen thuộc, để từ hôm nay “cảm xúc” sẽ có sẵn cho tất cả khách hàng của Ivideon. Chúng tôi không đưa ra gói cước đặc biệt, không cung cấp máy ảnh đặc biệt và cố gắng hết sức để loại bỏ mọi rào cản có thể có. Thuế quan không thay đổi; bất kỳ ai cũng có thể kết nối phân tích cảm xúc với nhận dạng khuôn mặt với giá 1 rúp. mỗi tháng.

Dịch vụ này được trình bày ở tài khoản cá nhân người dùng. Và hơn thế nữa trang quảng cáo chúng tôi đã thu thập được nhiều thông tin thú vị hơn nữa về hệ thống nhận dạng khuôn mặt Ivideon.

Nguồn: www.habr.com