Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Các công nghệ và mô hình cho hệ thống thị giác máy tính trong tương lai của chúng tôi đã được tạo ra và cải tiến dần dần trong các dự án khác nhau của công ty chúng tôi - trong Thư, Đám mây, Tìm kiếm. Chúng trưởng thành như pho mát hay rượu cognac ngon. Một ngày nọ, chúng tôi nhận ra rằng mạng lưới thần kinh của chúng tôi cho thấy kết quả xuất sắc trong việc nhận dạng và chúng tôi quyết định kết hợp chúng thành một sản phẩm b2b duy nhất - Vision - sản phẩm mà chúng tôi hiện đang sử dụng và đề nghị bạn sử dụng.

Ngày nay, công nghệ thị giác máy tính của chúng tôi trên nền tảng Giải pháp đám mây Mail.Ru đang hoạt động thành công và giải quyết các vấn đề thực tế rất phức tạp. Nó dựa trên một số mạng thần kinh được đào tạo trên bộ dữ liệu của chúng tôi và chuyên giải quyết các vấn đề ứng dụng. Tất cả các dịch vụ chạy trên cơ sở máy chủ của chúng tôi. Bạn có thể tích hợp API Vision công khai vào các ứng dụng của mình, qua đó tất cả các khả năng của dịch vụ đều có sẵn. API nhanh - nhờ GPU máy chủ, thời gian phản hồi trung bình trong mạng của chúng tôi là 100 mili giây.

Đến với con mèo, có một câu chuyện chi tiết và nhiều ví dụ về công việc của Vision.

Để làm ví dụ về dịch vụ mà bản thân chúng tôi sử dụng các công nghệ nhận dạng khuôn mặt đã đề cập, chúng tôi có thể trích dẫn Sự Kiện . Một trong những thành phần của nó là giá đỡ ảnh Vision, được chúng tôi lắp đặt tại nhiều hội nghị khác nhau. Nếu bạn đến gần một quầy ảnh như vậy, chụp ảnh bằng máy ảnh tích hợp và nhập email của bạn, hệ thống sẽ ngay lập tức tìm thấy trong số các bức ảnh mà bạn đã được các nhiếp ảnh gia nhân viên của hội nghị chụp và, nếu muốn, sẽ gửi những bức ảnh tìm thấy cho bạn qua email. Và chúng tôi không nói về những bức ảnh chân dung được dàn dựng—Vision nhận ra bạn ngay cả ở phía sau trong đám đông du khách. Tất nhiên, không phải bản thân giá đỡ ảnh được nhận dạng, đây chỉ là những chiếc máy tính bảng đặt trên giá đỡ đẹp mắt, chỉ cần chụp ảnh khách bằng máy ảnh tích hợp và truyền thông tin đến máy chủ, nơi tất cả các phép thuật nhận dạng sẽ diễn ra. Và chúng tôi đã hơn một lần chứng kiến ​​hiệu quả đáng kinh ngạc của công nghệ này ngay cả đối với các chuyên gia nhận dạng hình ảnh. Dưới đây chúng ta sẽ nói về một số ví dụ.

1. Mô hình nhận dạng khuôn mặt của chúng tôi

1.1. Mạng lưới thần kinh và tốc độ xử lý

Để nhận dạng, chúng tôi sử dụng bản sửa đổi của mô hình mạng thần kinh ResNet 101. Việc gộp trung bình ở cuối được thay thế bằng một lớp được kết nối đầy đủ, tương tự như cách thực hiện trong ArcFace. Tuy nhiên, kích thước của biểu diễn vectơ là 128 chứ không phải 512. Tập huấn luyện của chúng tôi chứa khoảng 10 triệu bức ảnh của 273 người.

Mô hình chạy rất nhanh nhờ kiến ​​trúc cấu hình máy chủ và tính toán GPU được lựa chọn cẩn thận. Phải mất từ ​​100 mili giây để nhận được phản hồi từ API trên mạng nội bộ của chúng tôi - điều này bao gồm nhận diện khuôn mặt (phát hiện khuôn mặt trong ảnh), nhận dạng và trả về PersonID trong phản hồi API. Với khối lượng lớn dữ liệu đến - ảnh và video - sẽ mất nhiều thời gian hơn để truyền dữ liệu đến dịch vụ và nhận được phản hồi.

1.2. Đánh giá hiệu quả của mô hình

Nhưng việc xác định hiệu quả của mạng lưới thần kinh là một nhiệm vụ rất mơ hồ. Chất lượng công việc của họ phụ thuộc vào tập dữ liệu mà mô hình đã được đào tạo và liệu chúng có được tối ưu hóa để làm việc với dữ liệu cụ thể hay không.

Chúng tôi bắt đầu đánh giá độ chính xác của mô hình của mình bằng thử nghiệm xác minh LFW phổ biến, nhưng nó quá nhỏ và đơn giản. Sau khi đạt độ chính xác 99,8% thì nó không còn hữu ích nữa. Có một cuộc thi tốt để đánh giá các mô hình nhận dạng - Megaface, trong đó chúng tôi dần dần đạt 82% xếp hạng 1. Bài kiểm tra Megaface bao gồm một triệu bức ảnh - yếu tố gây phân tâm - và mô hình sẽ có thể phân biệt rõ hàng nghìn bức ảnh của những người nổi tiếng với Facescrub tập dữ liệu từ những kẻ gây phân tâm. Tuy nhiên, sau khi xóa lỗi kiểm tra Megaface, chúng tôi nhận thấy rằng với phiên bản đã xóa, chúng tôi đạt được độ chính xác 98% hạng 1 (ảnh của những người nổi tiếng nhìn chung khá cụ thể). Vì vậy, họ đã tạo ra một bài kiểm tra nhận dạng riêng, tương tự như Megaface, nhưng với ảnh của những người “bình thường”. Sau đó, chúng tôi đã cải thiện độ chính xác nhận dạng trên tập dữ liệu của mình và tiến xa hơn. Ngoài ra, chúng tôi sử dụng bài kiểm tra chất lượng phân cụm bao gồm vài nghìn bức ảnh; nó mô phỏng việc gắn thẻ khuôn mặt trong đám mây của người dùng. Trong trường hợp này, các cụm là các nhóm gồm các cá thể tương tự nhau, mỗi nhóm ứng với một cá nhân có thể nhận dạng được. Chúng tôi đã kiểm tra chất lượng công việc trên các nhóm thực (đúng).

Tất nhiên, lỗi nhận dạng xảy ra với bất kỳ mô hình nào. Nhưng những tình huống như vậy thường được giải quyết bằng cách tinh chỉnh ngưỡng cho các điều kiện cụ thể (đối với tất cả các hội nghị, chúng tôi sử dụng cùng một ngưỡng, nhưng, ví dụ: đối với hệ thống kiểm soát truy cập, chúng tôi phải tăng đáng kể ngưỡng để có ít kết quả dương tính giả hơn). Đại đa số khách tham dự hội nghị đã được các gian hàng ảnh Vision của chúng tôi nhận ra một cách chính xác. Đôi khi ai đó nhìn vào bản xem trước đã bị cắt và nói: "Hệ thống của bạn đã nhầm lẫn, không phải do tôi". Sau đó, chúng tôi mở toàn bộ bức ảnh ra và hóa ra thực sự có vị khách này trong ảnh, chỉ có điều chúng tôi không chụp ảnh anh ta mà là một người khác, người đó chỉ tình cờ ở hậu cảnh trong vùng mờ. Hơn nữa, mạng lưới thần kinh thường nhận dạng chính xác ngay cả khi không nhìn thấy một phần khuôn mặt, hoặc người đó đang đứng nghiêng, thậm chí quay nửa người. Hệ thống có thể nhận dạng một người ngay cả khi khuôn mặt nằm trong vùng bị biến dạng quang học, chẳng hạn như khi chụp bằng ống kính góc rộng.

1.3. Ví dụ về thử nghiệm trong các tình huống khó khăn

Dưới đây là ví dụ về cách mạng lưới thần kinh của chúng tôi hoạt động. Các bức ảnh được gửi đến đầu vào mà cô ấy phải gắn nhãn bằng PersonID - một mã định danh duy nhất của một người. Nếu hai hoặc nhiều hình ảnh có cùng ID thì theo mô hình, những bức ảnh này mô tả cùng một người.

Hãy lưu ý ngay rằng khi thử nghiệm, chúng tôi có quyền truy cập vào các tham số và ngưỡng mô hình khác nhau mà chúng tôi có thể định cấu hình để đạt được một kết quả cụ thể. API công khai được tối ưu hóa để có độ chính xác tối đa trong các trường hợp phổ biến.

Hãy bắt đầu với điều đơn giản nhất, với tính năng nhận diện khuôn mặt chính diện.

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Chà, điều đó quá dễ dàng. Hãy làm phức tạp nhiệm vụ, thêm một bộ râu và một vài năm.

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Một số người sẽ nói rằng điều này cũng không quá khó, vì trong cả hai trường hợp, toàn bộ khuôn mặt đều có thể nhìn thấy được và thuật toán có rất nhiều thông tin về khuôn mặt. Được rồi, hãy biến Tom Hardy thành hồ sơ. Vấn đề này phức tạp hơn nhiều và chúng tôi đã dành rất nhiều nỗ lực để giải quyết thành công trong khi vẫn duy trì tỷ lệ lỗi thấp: chúng tôi đã chọn một tập huấn luyện, suy nghĩ kỹ về kiến ​​trúc của mạng lưới thần kinh, cải thiện các hàm mất mát và cải thiện quá trình tiền xử lý của những bức ảnh.

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Hãy đội cho anh ấy một chiếc mũ:

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Nhân tiện, đây là một ví dụ về một tình huống đặc biệt khó khăn, vì khuôn mặt bị che khuất rất nhiều và ở bức ảnh phía dưới cũng có một cái bóng sâu che khuất đôi mắt. Trong cuộc sống thực, mọi người rất thường xuyên thay đổi ngoại hình nhờ sự trợ giúp của kính đen. Hãy làm điều tương tự với Tom.

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Được rồi, hãy thử đưa vào những bức ảnh từ các độ tuổi khác nhau và lần này chúng ta sẽ thử nghiệm với một diễn viên khác. Hãy lấy một ví dụ phức tạp hơn nhiều, trong đó những thay đổi liên quan đến tuổi tác đặc biệt rõ rệt. Tình huống này không có gì xa vời, nó xảy ra khá thường xuyên khi bạn cần so sánh ảnh trong hộ chiếu với khuôn mặt của người mang. Suy cho cùng, bức ảnh đầu tiên được thêm vào hộ chiếu khi chủ sở hữu 20 tuổi, và ở tuổi 45, một người có thể thay đổi rất nhiều:

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Bạn có nghĩ rằng chuyên gia chính trong các nhiệm vụ bất khả thi không thay đổi nhiều theo tuổi tác? Tôi nghĩ thậm chí sẽ có một số người ghép ảnh trên và ảnh dưới, cậu bé đã thay đổi rất nhiều trong những năm qua.

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Mạng lưới thần kinh gặp phải những thay đổi về ngoại hình thường xuyên hơn nhiều. Ví dụ, đôi khi phụ nữ có thể thay đổi hình ảnh của mình rất nhiều nhờ sự trợ giúp của mỹ phẩm:

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Bây giờ, hãy phức tạp hóa nhiệm vụ hơn nữa: giả sử các phần khác nhau của khuôn mặt được bao phủ trong các bức ảnh khác nhau. Trong những trường hợp như vậy, thuật toán không thể so sánh toàn bộ mẫu. Tuy nhiên, Vision xử lý tốt những tình huống như thế này.

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Nhân tiện, có thể có rất nhiều khuôn mặt trong một bức ảnh; ví dụ, hơn 100 người có thể lọt vào một bức ảnh chung về một hội trường. Đây là một tình huống khó khăn đối với mạng lưới thần kinh, vì nhiều khuôn mặt có thể được chiếu sáng khác nhau, một số khuôn mặt bị mất nét. Tuy nhiên, nếu ảnh được chụp với độ phân giải và chất lượng đủ (ít nhất 75 pixel mỗi ô vuông che khuôn mặt), Vision sẽ có thể phát hiện và nhận dạng.

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Điểm đặc biệt của ảnh phóng sự và hình ảnh từ camera giám sát là người chụp thường bị mờ do bị mất nét hoặc đang di chuyển vào thời điểm đó:

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Ngoài ra, cường độ ánh sáng có thể khác nhau rất nhiều giữa các hình ảnh. Điều này cũng thường trở thành một trở ngại; nhiều thuật toán gặp khó khăn lớn trong việc xử lý chính xác những hình ảnh quá tối và quá sáng, chưa kể đến việc khớp chúng một cách chính xác. Hãy để tôi nhắc bạn rằng để đạt được kết quả này, bạn cần định cấu hình các ngưỡng theo một cách nhất định; tính năng này chưa được cung cấp công khai. Chúng tôi sử dụng cùng một mạng lưới thần kinh cho tất cả khách hàng; mạng này có các ngưỡng phù hợp với hầu hết các nhiệm vụ thực tế.

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Gần đây, chúng tôi đã tung ra phiên bản mới của mô hình nhận dạng khuôn mặt người châu Á với độ chính xác cao. Đây từng là một vấn đề lớn, thậm chí còn được gọi là sự phân biệt chủng tộc trong “máy học” (hoặc “mạng lưới thần kinh”). Mạng lưới thần kinh châu Âu và Mỹ nhận diện tốt khuôn mặt của người da trắng, nhưng với khuôn mặt Mongoloid và Negroid thì tình hình còn tồi tệ hơn nhiều. Có lẽ, ở Trung Quốc, tình hình hoàn toàn ngược lại. Tất cả đều là về các tập dữ liệu đào tạo phản ánh những kiểu người thống trị ở một quốc gia cụ thể. Tuy nhiên, tình hình đang thay đổi; ngày nay vấn đề này không quá nghiêm trọng. Tầm nhìn không có vấn đề gì với những người thuộc các chủng tộc khác nhau.

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Nhận dạng khuôn mặt chỉ là một trong nhiều ứng dụng công nghệ của chúng tôi; Tầm nhìn có thể được đào tạo để nhận dạng mọi thứ. Ví dụ, biển số xe, kể cả trong những điều kiện khó khăn cho thuật toán: ở góc nhọn, biển số bẩn và khó đọc.

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

2. Các trường hợp sử dụng thực tế

2.1. Kiểm soát truy cập vật lý: khi hai người sử dụng cùng một thẻ

Với sự trợ giúp của Vision, bạn có thể triển khai hệ thống ghi lại sự đến và đi của nhân viên. Hệ thống truyền thống dựa trên thẻ điện tử có những nhược điểm rõ ràng, chẳng hạn như bạn có thể vượt qua hai người bằng một huy hiệu. Nếu hệ thống kiểm soát truy cập (ACS) được bổ sung Vision, nó sẽ ghi lại một cách trung thực ai đến/rời và khi nào.

2.2. Theo dõi thời gian

Trường hợp sử dụng Vision này có liên quan chặt chẽ với trường hợp trước. Nếu bạn bổ sung hệ thống ra vào bằng dịch vụ nhận dạng khuôn mặt của chúng tôi, nó sẽ không chỉ có thể phát hiện các vi phạm kiểm soát truy cập mà còn có thể đăng ký sự hiện diện thực tế của nhân viên trong tòa nhà hoặc cơ sở. Nói cách khác, Vision sẽ giúp bạn tính toán một cách trung thực xem ai đến làm việc và rời đi vào thời gian nào và ai đã bỏ việc hoàn toàn, ngay cả khi đồng nghiệp của anh ta bao che cho anh ta trước mặt cấp trên.

2.3. Phân tích video: Theo dõi và bảo mật mọi người

Bằng cách theo dõi mọi người bằng Vision, bạn có thể đánh giá chính xác tình hình giao thông thực tế tại các khu vực mua sắm, nhà ga, lối đi, đường phố và nhiều địa điểm công cộng khác. Việc theo dõi của chúng tôi cũng có thể giúp ích rất nhiều trong việc kiểm soát quyền truy cập, chẳng hạn như vào nhà kho hoặc các cơ sở văn phòng quan trọng khác. Và tất nhiên, việc theo dõi người và khuôn mặt giúp giải quyết các vấn đề về bảo mật. Bắt ai đó ăn trộm từ cửa hàng của bạn? Thêm PersonID của anh ấy, được Vision trả lại, vào danh sách đen của phần mềm phân tích video của bạn và lần sau hệ thống sẽ ngay lập tức cảnh báo bảo mật nếu loại này xuất hiện trở lại.

2.4. Trong thương mại

Các doanh nghiệp bán lẻ và dịch vụ khác nhau quan tâm đến việc nhận dạng hàng đợi. Với sự trợ giúp của Vision, bạn có thể nhận ra rằng đây không phải là một đám đông ngẫu nhiên mà là một hàng đợi và xác định độ dài của nó. Sau đó, hệ thống sẽ thông báo cho những người phụ trách về hàng đợi để họ có thể tìm hiểu tình hình: hoặc có lượng khách đông và cần phải gọi thêm nhân viên, hoặc ai đó đang lơ là nhiệm vụ công việc của họ.

Một nhiệm vụ thú vị khác là tách nhân viên công ty trong hội trường khỏi khách. Thông thường, hệ thống được đào tạo để phân tách các đối tượng mặc một số quần áo nhất định (quy định về trang phục) hoặc có một số đặc điểm đặc biệt (khăn quàng cổ có thương hiệu, huy hiệu trên ngực, v.v.). Điều này giúp đánh giá sự tham dự chính xác hơn (để nhân viên không “thổi phồng” số liệu thống kê về số người trong hội trường chỉ bằng sự hiện diện của họ).

Bằng cách sử dụng nhận dạng khuôn mặt, bạn cũng có thể đánh giá đối tượng của mình: mức độ trung thành của khách truy cập là gì, tức là có bao nhiêu người quay lại cơ sở của bạn và với tần suất như thế nào. Tính toán số lượng khách truy cập duy nhất đến với bạn mỗi tháng. Để tối ưu hóa chi phí thu hút và giữ chân, bạn cũng có thể tìm hiểu sự thay đổi về lưu lượng truy cập tùy thuộc vào ngày trong tuần và thậm chí cả thời gian trong ngày.

Các nhà nhượng quyền và chuỗi công ty có thể yêu cầu đánh giá dựa trên các bức ảnh về chất lượng xây dựng thương hiệu của các cửa hàng bán lẻ khác nhau: sự hiện diện của logo, bảng hiệu, áp phích, biểu ngữ, v.v.

2.5. Bằng phương tiện vận chuyển

Một ví dụ khác về việc đảm bảo an ninh bằng cách sử dụng phân tích video là xác định các đồ vật bị bỏ quên trong sảnh sân bay hoặc nhà ga. Thị giác có thể được rèn luyện để nhận biết các đồ vật thuộc hàng trăm loại: đồ nội thất, túi xách, vali, ô, nhiều loại quần áo, chai lọ, v.v. Nếu hệ thống phân tích video của bạn phát hiện một đối tượng không có chủ sở hữu và nhận ra nó bằng Vision, hệ thống sẽ gửi tín hiệu đến dịch vụ bảo mật. Một nhiệm vụ tương tự có liên quan đến việc tự động phát hiện các tình huống bất thường ở những nơi công cộng: ai đó cảm thấy ốm hoặc ai đó hút thuốc không đúng chỗ hoặc một người ngã trên đường ray, v.v. - tất cả các mẫu này có thể được hệ thống phân tích video nhận ra thông qua API Tầm nhìn.

2.6. Luồng tài liệu

Một ứng dụng thú vị khác trong tương lai của Vision mà chúng tôi hiện đang phát triển là nhận dạng tài liệu và phân tích cú pháp tự động của chúng vào cơ sở dữ liệu. Thay vì nhập thủ công (hoặc tệ hơn là nhập) vô số chuỗi, số, ngày phát hành, số tài khoản, chi tiết ngân hàng, ngày và nơi sinh cùng nhiều dữ liệu chính thức khác, bạn có thể quét tài liệu và tự động gửi chúng qua kênh bảo mật thông qua API lên đám mây, nơi hệ thống sẽ nhận dạng các tài liệu này một cách nhanh chóng, phân tích chúng và trả về phản hồi kèm theo dữ liệu ở định dạng bắt buộc để tự động nhập vào cơ sở dữ liệu. Ngày nay Vision đã biết cách phân loại tài liệu (bao gồm cả PDF) - nó phân biệt giữa hộ chiếu, SNILS, TIN, giấy khai sinh, giấy đăng ký kết hôn và những thứ khác.

Tất nhiên, mạng lưới thần kinh không thể xử lý tất cả các tình huống này ngay lập tức. Trong mỗi trường hợp, một mô hình mới được xây dựng cho một khách hàng cụ thể, nhiều yếu tố, sắc thái và yêu cầu được tính đến, các bộ dữ liệu được chọn và các lần lặp lại quá trình đào tạo, thử nghiệm và cấu hình được thực hiện.

3. Sơ đồ vận hành API

“Cổng vào” của Vision dành cho người dùng là API REST. Nó có thể nhận ảnh, tệp video và chương trình phát sóng từ camera mạng (luồng RTSP) làm đầu vào.

Để sử dụng Vision, bạn cần đăng ký trong dịch vụ Giải pháp đám mây Mail.ru và nhận mã thông báo truy cập (client_id + client_secret). Xác thực người dùng được thực hiện bằng giao thức OAuth. Dữ liệu nguồn trong nội dung của yêu cầu POST được gửi tới API. Và để đáp lại, khách hàng sẽ nhận được từ API một kết quả nhận dạng ở định dạng JSON và phản hồi có cấu trúc: nó chứa thông tin về các đối tượng được tìm thấy và tọa độ của chúng.

Có râu, đeo kính đen và nhìn nghiêng: những tình huống khó khăn đối với thị giác máy tính

Câu trả lời mẫu

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

Câu trả lời chứa đựng một thông số thú vị đáng kinh ngạc - đây là độ “ngầu” có điều kiện của một khuôn mặt trong ảnh, với sự trợ giúp của nó, chúng tôi chọn ra bức ảnh đẹp nhất về một khuôn mặt trong chuỗi. Chúng tôi đã đào tạo một mạng lưới thần kinh để dự đoán khả năng một bức ảnh sẽ được thích trên mạng xã hội. Chất lượng ảnh càng tốt và khuôn mặt càng tươi cười thì độ hoành tráng càng lớn.

API Vision sử dụng một khái niệm gọi là không gian. Đây là một công cụ để tạo các bộ khuôn mặt khác nhau. Ví dụ về không gian là danh sách đen trắng, danh sách khách truy cập, nhân viên, khách hàng, v.v. Đối với mỗi mã thông báo trong Vision, bạn có thể tạo tối đa 10 khoảng trắng, mỗi khoảng trống có thể có tối đa 50 nghìn PersonID, tức là lên tới 500 nghìn mỗi mã thông báo. Hơn nữa, số lượng token trên mỗi tài khoản không bị giới hạn.

Ngày nay API hỗ trợ các phương pháp phát hiện và nhận dạng sau:

  • Nhận dạng/Đặt - phát hiện và nhận dạng khuôn mặt. Tự động gán PersonID cho mỗi người duy nhất, trả về PersonID và tọa độ của những người được tìm thấy.
  • Xóa - xóa một PersonID cụ thể khỏi cơ sở dữ liệu cá nhân.
  • Cắt ngắn - xóa toàn bộ không gian khỏi PersonID, hữu ích nếu nó được sử dụng làm không gian thử nghiệm và bạn cần đặt lại cơ sở dữ liệu để sản xuất.
  • Detect - phát hiện các đối tượng, cảnh, biển số xe, cột mốc, hàng đợi, v.v. Trả về lớp của các đối tượng được tìm thấy và tọa độ của chúng
  • Phát hiện tài liệu - phát hiện các loại tài liệu cụ thể của Liên bang Nga (phân biệt hộ chiếu, SNILS, mã số thuế, v.v.).

Chúng tôi cũng sẽ sớm hoàn thành công việc về các phương pháp OCR, xác định giới tính, độ tuổi và cảm xúc, cũng như giải quyết các vấn đề về hàng hóa, tức là tự động kiểm soát việc trưng bày hàng hóa trong cửa hàng. Bạn có thể tìm thấy tài liệu API đầy đủ tại đây: https://mcs.mail.ru/help/vision-api

4. Kết luận

Giờ đây, thông qua API công khai, bạn có thể truy cập nhận dạng khuôn mặt trong ảnh và video; nhận dạng các đối tượng khác nhau, biển số xe, cột mốc, tài liệu và toàn bộ cảnh được hỗ trợ. Kịch bản ứng dụng - biển. Hãy đến, thử nghiệm dịch vụ của chúng tôi, đặt ra cho nó những nhiệm vụ khó khăn nhất. 5000 giao dịch đầu tiên là miễn phí. Có lẽ nó sẽ là “thành phần còn thiếu” cho dự án của bạn.

Bạn có thể truy cập ngay vào API sau khi đăng ký và kết nối. Tầm nhìn . Tất cả người dùng Habra đều nhận được mã khuyến mại cho các giao dịch bổ sung. Hãy viết cho tôi địa chỉ email bạn đã sử dụng để đăng ký tài khoản của bạn!

Nguồn: www.habr.com

Thêm một lời nhận xét