มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

เทคโนโลยีและแบบจำลองสำหรับระบบคอมพิวเตอร์วิทัศน์ในอนาคตของเราถูกสร้างขึ้นและปรับปรุงอย่างค่อยเป็นค่อยไปและในโครงการต่างๆ ของบริษัทของเรา - ในเมล คลาวด์ และการค้นหา พวกเขาสุกเหมือนชีสหรือคอนยัคที่ดี วันหนึ่งเราตระหนักว่าโครงข่ายประสาทเทียมของเราแสดงผลลัพธ์ที่ยอดเยี่ยมในการจดจำ และเราตัดสินใจรวมมันไว้ในผลิตภัณฑ์ b2b เดียว - วิสัยทัศน์ - ซึ่งตอนนี้เราใช้เองและเสนอให้คุณใช้

ปัจจุบัน เทคโนโลยีคอมพิวเตอร์วิทัศน์ของเราบนแพลตฟอร์ม Mail.Ru Cloud Solutions ทำงานได้สำเร็จและแก้ไขปัญหาเชิงปฏิบัติที่ซับซ้อนมากได้ ขึ้นอยู่กับโครงข่ายประสาทเทียมจำนวนหนึ่งที่ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลของเราและมีความเชี่ยวชาญในการแก้ปัญหาที่ประยุกต์ บริการทั้งหมดทำงานบนเซิร์ฟเวอร์ของเรา คุณสามารถรวม Vision API สาธารณะเข้ากับแอปพลิเคชันของคุณได้ ซึ่งความสามารถทั้งหมดของบริการจะพร้อมใช้งาน API นั้นรวดเร็ว - ต้องขอบคุณ GPU ของเซิร์ฟเวอร์ เวลาตอบสนองโดยเฉลี่ยภายในเครือข่ายของเราคือ 100 มิลลิวินาที

ไปหาแมวมีเรื่องราวโดยละเอียดและตัวอย่างผลงานของวิชั่นมากมาย

ตัวอย่างของบริการที่เราใช้เทคโนโลยีจดจำใบหน้าดังกล่าวคือ เหตุการณ์ที่เกิดขึ้น. ส่วนประกอบอย่างหนึ่งคือขาตั้งภาพ Vision ซึ่งเราติดตั้งในการประชุมต่างๆ หากคุณเข้าใกล้แท่นถ่ายภาพดังกล่าว ให้ถ่ายภาพด้วยกล้องในตัวและกรอกอีเมลของคุณ ระบบจะค้นหารูปถ่ายที่คุณถ่ายโดยเจ้าหน้าที่ช่างภาพของการประชุมทันที และหากต้องการ จะส่งรูปถ่ายที่พบให้คุณทางอีเมล และเราไม่ได้หมายถึงการถ่ายภาพบุคคลแบบจัดฉาก เพราะ Vision จะจดจำคุณได้แม้อยู่เบื้องหลังท่ามกลางฝูงชนที่มาเยือน แน่นอนว่าไม่ใช่ขาตั้งรูปถ่ายที่ได้รับการยอมรับ แต่เป็นเพียงแท็บเล็ตบนขาตั้งที่สวยงามที่ถ่ายภาพแขกด้วยกล้องในตัวและส่งข้อมูลไปยังเซิร์ฟเวอร์ ซึ่งความมหัศจรรย์ในการจดจำทั้งหมดเกิดขึ้น และเราได้เห็นมาแล้วหลายครั้งว่าประสิทธิภาพของเทคโนโลยีนั้นน่าประหลาดใจเพียงใดแม้แต่ในหมู่ผู้เชี่ยวชาญด้านการจดจำภาพก็ตาม ด้านล่างนี้เราจะพูดถึงตัวอย่างบางส่วน

1. รูปแบบการจดจำใบหน้าของเรา

1.1. โครงข่ายประสาทเทียมและความเร็วในการประมวลผล

เพื่อการรับรู้ เราใช้การแก้ไขโมเดลโครงข่ายประสาทเทียม ResNet 101 การรวมเฉลี่ยที่ส่วนท้ายจะถูกแทนที่ด้วยเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ คล้ายกับที่ทำใน ArcFace อย่างไรก็ตาม ขนาดของการแสดงเวกเตอร์คือ 128 ไม่ใช่ 512 ชุดการฝึกอบรมของเราประกอบด้วยภาพถ่ายประมาณ 10 ล้านภาพจากคน 273 คน

โมเดลทำงานเร็วมากด้วยสถาปัตยกรรมการกำหนดค่าเซิร์ฟเวอร์ที่เลือกสรรมาอย่างดีและการประมวลผล GPU ใช้เวลาตั้งแต่ 100 มิลลิวินาทีในการรับการตอบสนองจาก API บนเครือข่ายภายในของเรา ซึ่งรวมถึงการตรวจจับใบหน้า (การตรวจจับใบหน้าในภาพถ่าย) การจดจำและส่งคืน PersonID ในการตอบกลับของ API ด้วยข้อมูลขาเข้าจำนวนมาก - ภาพถ่ายและวิดีโอ - การถ่ายโอนข้อมูลไปยังบริการและรับการตอบกลับจะใช้เวลานานกว่ามาก

1.2. การประเมินประสิทธิผลของแบบจำลอง

แต่การพิจารณาประสิทธิภาพของโครงข่ายประสาทเทียมนั้นเป็นงานที่คลุมเครือมาก คุณภาพของงานขึ้นอยู่กับชุดข้อมูลใดที่แบบจำลองได้รับการฝึกฝน และได้รับการปรับให้เหมาะสมสำหรับการทำงานกับข้อมูลเฉพาะหรือไม่

เราเริ่มประเมินความแม่นยำของแบบจำลองของเราด้วยการทดสอบการตรวจสอบ LFW ยอดนิยม แต่มีขนาดเล็กและง่ายเกินไป หลังจากมีความแม่นยำถึง 99,8% ก็ไม่มีประโยชน์อีกต่อไป มีการแข่งขันที่ดีในการประเมินโมเดลการจดจำ - Megaface ซึ่งเราค่อยๆ ไปถึง 82% อันดับที่ 1 การทดสอบ Megaface ประกอบด้วยภาพถ่ายนับล้านภาพ - สิ่งรบกวน - และแบบจำลองควรจะสามารถแยกแยะรูปถ่ายของคนดังหลายพันรูปจาก Facescrub ได้เป็นอย่างดี ชุดข้อมูลจากผู้รบกวน อย่างไรก็ตาม หลังจากเคลียร์การทดสอบข้อผิดพลาดของ Megaface แล้ว เราพบว่าด้วยเวอร์ชันที่เคลียร์แล้ว เราได้ความแม่นยำถึง 98% อันดับ 1 (โดยทั่วไปรูปถ่ายของดาราจะค่อนข้างเฉพาะเจาะจง) ดังนั้นพวกเขาจึงสร้างการทดสอบระบุตัวตนแยกต่างหากซึ่งคล้ายกับ Megaface แต่มีรูปถ่ายของคน "ธรรมดา" จากนั้นเราได้ปรับปรุงความแม่นยำในการจดจำชุดข้อมูลของเราและก้าวไปข้างหน้าอีกไกล นอกจากนี้เรายังใช้การทดสอบคุณภาพการจัดกลุ่มที่ประกอบด้วยภาพถ่ายหลายพันภาพ มันจำลองการแท็กใบหน้าในระบบคลาวด์ของผู้ใช้ ในกรณีนี้ กลุ่มคือกลุ่มของบุคคลที่คล้ายกัน หนึ่งกลุ่มสำหรับบุคคลที่จดจำได้แต่ละคน เราตรวจสอบคุณภาพงานในกลุ่มจริง (จริง)

แน่นอนว่าข้อผิดพลาดในการจดจำเกิดขึ้นได้กับทุกรุ่น แต่สถานการณ์ดังกล่าวมักจะได้รับการแก้ไขโดยการปรับแต่งเกณฑ์ขั้นต่ำสำหรับเงื่อนไขเฉพาะ (สำหรับการประชุมทั้งหมดเราใช้เกณฑ์เดียวกัน แต่ ตัวอย่างเช่น สำหรับระบบควบคุมการเข้าถึง เราต้องเพิ่มเกณฑ์อย่างมากเพื่อให้มีผลบวกลวงน้อยลง) ผู้เยี่ยมชมการประชุมส่วนใหญ่ได้รับการยอมรับอย่างถูกต้องจากบูธภาพถ่าย Vision ของเรา บางครั้งอาจมีบางคนดูตัวอย่างที่ครอบตัดแล้วพูดว่า “ระบบของคุณทำผิดพลาด ไม่ใช่ฉัน” จากนั้นเราเปิดภาพทั้งหมดและปรากฎว่ามีผู้มาเยี่ยมในภาพจริงๆ มีเพียงเราไม่ได้ถ่ายรูปเขา แต่เป็นคนอื่น บุคคลนั้นบังเอิญอยู่ในพื้นหลังในโซนเบลอ ยิ่งไปกว่านั้น โครงข่ายประสาทเทียมมักจะจดจำได้อย่างถูกต้องแม้ว่าจะมองไม่เห็นใบหน้าบางส่วน หรือบุคคลนั้นยืนอยู่ในโปรไฟล์ หรือแม้แต่หันครึ่งหนึ่งก็ตาม ระบบสามารถจดจำบุคคลได้แม้ว่าใบหน้าจะอยู่ในบริเวณที่มีการบิดเบือนของแสง เช่น เมื่อถ่ายภาพด้วยเลนส์มุมกว้าง

1.3. ตัวอย่างการทดสอบในสถานการณ์ที่ยากลำบาก

ด้านล่างนี้คือตัวอย่างการทำงานของโครงข่ายประสาทเทียมของเรา ภาพถ่ายจะถูกส่งไปยังอินพุต ซึ่งเธอต้องติดป้ายกำกับโดยใช้ PersonID ซึ่งเป็นตัวระบุที่ไม่ซ้ำกันของบุคคล หากรูปภาพสองรูปขึ้นไปมี ID เดียวกัน รูปภาพเหล่านี้จะแสดงถึงบุคคลคนเดียวกันตามแบบจำลอง

โปรดทราบทันทีว่าเมื่อทำการทดสอบ เราสามารถเข้าถึงพารามิเตอร์และเกณฑ์โมเดลต่างๆ ที่เราสามารถกำหนดค่าเพื่อให้ได้ผลลัพธ์เฉพาะ API สาธารณะได้รับการปรับให้เหมาะสมเพื่อความแม่นยำสูงสุดในกรณีทั่วไป

มาเริ่มกันที่สิ่งที่ง่ายที่สุดด้วยการจดจำใบหน้าจากด้านหน้า

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

นั่นมันง่ายเกินไป มาทำให้งานซับซ้อนขึ้นเพิ่มเคราและอีกไม่กี่ปี

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

บางคนอาจบอกว่านี่ไม่ใช่เรื่องยากเกินไป เพราะในทั้งสองกรณี สามารถมองเห็นใบหน้าทั้งหมดได้ และอัลกอริธึมข้อมูลจำนวนมากเกี่ยวกับใบหน้าก็มีให้ใช้งาน เอาล่ะ มาเปลี่ยน Tom Hardy ให้เป็นโปรไฟล์กันดีกว่า ปัญหานี้ซับซ้อนกว่ามากและเราใช้ความพยายามอย่างมากในการแก้ไขให้สำเร็จในขณะที่ยังคงอัตราข้อผิดพลาดต่ำ: เราเลือกชุดการฝึกอบรม คิดผ่านสถาปัตยกรรมของโครงข่ายประสาทเทียม ขัดเกลาฟังก์ชันการสูญเสีย และปรับปรุงการประมวลผลล่วงหน้า ของรูปถ่าย

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

มาสวมผ้าโพกศีรษะให้เขา:

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

อย่างไรก็ตาม นี่คือตัวอย่างของสถานการณ์ที่ยากลำบากเป็นพิเศษ เนื่องจากใบหน้าถูกบดบังอย่างมาก และในภาพด้านล่างก็มีเงาลึกซ่อนตาอยู่ด้วย ในชีวิตจริง ผู้คนมักเปลี่ยนรูปลักษณ์ของตนเองด้วยความช่วยเหลือของแว่นตาดำ ลองทำแบบเดียวกันกับทอม

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

เอาล่ะ มาลองเพิ่มภาพถ่ายจากช่วงวัยต่างๆ กัน และคราวนี้เราจะทดลองกับนักแสดงคนอื่น มาดูตัวอย่างที่ซับซ้อนกว่านี้กันดีกว่า โดยที่การเปลี่ยนแปลงที่เกี่ยวข้องกับอายุจะเด่นชัดเป็นพิเศษ สถานการณ์นี้ไม่ใช่เรื่องไกลตัว มันเกิดขึ้นค่อนข้างบ่อยเมื่อคุณต้องการเปรียบเทียบภาพถ่ายในหนังสือเดินทางกับใบหน้าของผู้ถือ ท้ายที่สุดแล้ว ภาพถ่ายแรกจะถูกเพิ่มลงในหนังสือเดินทางเมื่อเจ้าของอายุ 20 ปี และเมื่ออายุ 45 ปี บุคคลสามารถเปลี่ยนแปลงได้อย่างมาก:

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

คุณคิดว่าผู้เชี่ยวชาญหลักในภารกิจที่เป็นไปไม่ได้ไม่ได้เปลี่ยนแปลงไปมากนักตามอายุหรือไม่? ฉันคิดว่าแม้แต่คนไม่กี่คนก็ยังรวมภาพด้านบนและด้านล่างเข้าด้วยกัน แต่เด็กชายก็เปลี่ยนไปมากในช่วงหลายปีที่ผ่านมา

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

โครงข่ายประสาทเทียมเผชิญกับการเปลี่ยนแปลงรูปลักษณ์บ่อยกว่ามาก ตัวอย่างเช่น บางครั้งผู้หญิงสามารถเปลี่ยนภาพลักษณ์ของตนเองได้อย่างมากด้วยความช่วยเหลือของเครื่องสำอาง:

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

ตอนนี้เรามาทำให้งานซับซ้อนยิ่งขึ้น: สมมติว่าส่วนต่างๆ ของใบหน้าถูกปกคลุมไปด้วยรูปถ่ายที่แตกต่างกัน ในกรณีเช่นนี้ อัลกอริธึมไม่สามารถเปรียบเทียบตัวอย่างทั้งหมดได้ อย่างไรก็ตาม Vision สามารถรับมือกับสถานการณ์เช่นนี้ได้เป็นอย่างดี

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

อย่างไรก็ตาม ภาพถ่ายสามารถมีใบหน้าได้หลายหน้า ตัวอย่างเช่น ภาพถ่ายทั่วไปของห้องโถงสามารถรองรับคนได้มากกว่า 100 คน นี่เป็นสถานการณ์ที่ยากลำบากสำหรับโครงข่ายประสาทเทียม เนื่องจากใบหน้าหลาย ๆ ใบหน้าสามารถรับแสงได้แตกต่างกัน และบางใบหน้าก็อยู่นอกโฟกัส อย่างไรก็ตาม หากถ่ายภาพด้วยความละเอียดและคุณภาพเพียงพอ (อย่างน้อย 75 พิกเซลต่อตารางนิ้วที่ครอบคลุมใบหน้า) ระบบการมองเห็นจะสามารถตรวจจับและจดจำได้

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

ลักษณะเฉพาะของภาพถ่ายรายงานและภาพจากกล้องวงจรปิดคือ ผู้คนมักจะเบลอเนื่องจากอยู่นอกโฟกัสหรือเคลื่อนไหวในขณะนั้น:

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

นอกจากนี้ ความเข้มของแสงอาจแตกต่างกันอย่างมากในแต่ละภาพ สิ่งนี้ก็มักจะกลายเป็นอุปสรรคเช่นกัน อัลกอริธึมจำนวนมากประสบปัญหาอย่างมากในการประมวลผลภาพที่มืดเกินไปและสว่างเกินไป ฉันขอเตือนคุณว่าเพื่อให้บรรลุผลนี้ คุณต้องกำหนดค่าเกณฑ์ด้วยวิธีใดวิธีหนึ่ง คุณลักษณะนี้ยังไม่พร้อมใช้งานแบบสาธารณะ เราใช้โครงข่ายประสาทเทียมเดียวกันสำหรับไคลเอนต์ทั้งหมด โดยมีเกณฑ์ที่เหมาะสมสำหรับงานเชิงปฏิบัติส่วนใหญ่

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

เมื่อเร็วๆ นี้เราได้เปิดตัวโมเดลเวอร์ชันใหม่ที่จดจำใบหน้าของชาวเอเชียด้วยความแม่นยำสูง สิ่งนี้เคยเป็นปัญหาใหญ่ ซึ่งได้รับการขนานนามว่า "การเรียนรู้ของเครื่อง" (หรือ "โครงข่ายประสาทเทียม") การเหยียดเชื้อชาติ โครงข่ายประสาทเทียมของยุโรปและอเมริกาจดจำใบหน้าของชาวคอเคเซียนได้ดี แต่เมื่อเผชิญกับมองโกลอยด์และเนกรอยด์ สถานการณ์กลับแย่ลงมาก อาจเป็นไปได้ว่าในประเทศจีนสถานการณ์กลับตรงกันข้าม ทั้งหมดนี้เป็นเรื่องเกี่ยวกับชุดข้อมูลการฝึกอบรมที่สะท้อนถึงประเภทบุคคลที่โดดเด่นในประเทศใดประเทศหนึ่ง อย่างไรก็ตาม สถานการณ์กำลังเปลี่ยนแปลง ทุกวันนี้ ปัญหานี้ไม่ได้รุนแรงมากนัก การมองเห็นไม่มีปัญหากับคนต่างเชื้อชาติ

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

การจดจำใบหน้าเป็นเพียงหนึ่งในการประยุกต์ใช้เทคโนโลยีของเรา การมองเห็นสามารถฝึกให้จดจำอะไรก็ได้ ตัวอย่างเช่น ป้ายทะเบียน รวมถึงในสภาวะที่ยากลำบากสำหรับอัลกอริธึม: ที่มุมคม สกปรกและอ่านป้ายทะเบียนยาก

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

2. กรณีการใช้งานจริง

2.1. การควบคุมการเข้าถึงทางกายภาพ: เมื่อคนสองคนใช้บัตรผ่านเดียวกัน

ด้วยความช่วยเหลือของ Vision คุณสามารถใช้ระบบสำหรับบันทึกการมาถึงและการออกจากพนักงานได้ ระบบแบบดั้งเดิมที่ใช้บัตรผ่านอิเล็กทรอนิกส์มีข้อเสียที่ชัดเจน เช่น คุณสามารถส่งคนสองคนได้โดยใช้ป้ายเดียว หากเสริมระบบควบคุมการเข้าออก (ACS) ด้วย Vision ระบบจะบันทึกว่าใครเข้า/ออก และเมื่อใด

2.2. การติดตามเวลา

กรณีการใช้งาน Vision นี้มีความเกี่ยวข้องอย่างใกล้ชิดกับกรณีก่อนหน้า หากคุณเสริมระบบการเข้าถึงด้วยบริการจดจำใบหน้าของเรา ระบบจะไม่เพียงแต่ตรวจจับการละเมิดการควบคุมการเข้าถึงเท่านั้น แต่ยังสามารถบันทึกการแสดงตนที่แท้จริงของพนักงานในอาคารหรือสถานที่ได้อีกด้วย กล่าวอีกนัยหนึ่ง Vision จะช่วยให้คุณพิจารณาอย่างตรงไปตรงมาว่าใครมาทำงานและลาออกเวลาไหน และใครโดดงานไปเลย แม้ว่าเพื่อนร่วมงานจะปกปิดเขาต่อหน้าผู้บังคับบัญชาก็ตาม

2.3. การวิเคราะห์วิดีโอ: การติดตามผู้คนและความปลอดภัย

ด้วยการติดตามผู้คนโดยใช้ Vision คุณสามารถประเมินการจราจรจริงของย่านช็อปปิ้ง สถานีรถไฟ ทางเดิน ถนน และสถานที่สาธารณะอื่นๆ อีกมากมายได้อย่างแม่นยำ การติดตามของเรายังช่วยได้มากในการควบคุมการเข้าถึง เช่น คลังสินค้าหรือสถานที่สำนักงานที่สำคัญอื่นๆ และแน่นอนว่าการติดตามผู้คนและใบหน้าช่วยแก้ปัญหาด้านความปลอดภัยได้ จับได้ว่ามีคนขโมยของจากร้านของคุณหรือไม่? เพิ่ม PersonID ของเขาซึ่ง Vision ส่งคืนไปยังบัญชีดำของซอฟต์แวร์วิเคราะห์วิดีโอของคุณ และในครั้งต่อไประบบจะแจ้งเตือนความปลอดภัยทันทีหากประเภทนี้ปรากฏขึ้นอีกครั้ง

2.4. ในการค้าขาย

ธุรกิจค้าปลีกและบริการต่างๆ สนใจการจดจำคิว ด้วยความช่วยเหลือของ Vision คุณสามารถรับรู้ว่านี่ไม่ใช่กลุ่มคนสุ่ม แต่เป็นคิว และกำหนดความยาวของมัน จากนั้นระบบจะแจ้งผู้รับผิดชอบเกี่ยวกับคิวเพื่อให้พวกเขาสามารถทราบสถานการณ์: มีผู้เยี่ยมชมหลั่งไหลเข้ามาและจำเป็นต้องเรียกคนงานเพิ่มเติม หรือมีคนกำลังละเลยหน้าที่งานของตน

งานที่น่าสนใจอีกประการหนึ่งคือการแยกพนักงานบริษัทในห้องโถงออกจากผู้เยี่ยมชม โดยทั่วไป ระบบจะได้รับการฝึกให้แยกวัตถุที่สวมเสื้อผ้าบางอย่าง (การแต่งกาย) หรือที่มีลักษณะเฉพาะบางอย่าง (ผ้าพันคอที่มีตราสินค้า ตราบนหน้าอก และอื่นๆ) สิ่งนี้ช่วยให้ประเมินการเข้างานได้แม่นยำยิ่งขึ้น (เพื่อให้พนักงานไม่ "ขยาย" สถิติของผู้คนในห้องโถงเพียงการแสดงตน)

ด้วยการจดจำใบหน้า คุณยังสามารถประเมินผู้ชมของคุณได้: ความภักดีของผู้เยี่ยมชมคือจำนวนคนที่กลับมาที่สถานประกอบการของคุณและมีความถี่เท่าใด คำนวณจำนวนผู้เยี่ยมชมที่ไม่ซ้ำมาหาคุณต่อเดือน เพื่อเพิ่มประสิทธิภาพต้นทุนในการดึงดูดและการรักษาผู้ใช้ คุณยังสามารถดูการเปลี่ยนแปลงของการเข้าชมโดยขึ้นอยู่กับวันในสัปดาห์และแม้กระทั่งช่วงเวลาของวัน

แฟรนไชส์และบริษัทในเครือสามารถสั่งการประเมินโดยพิจารณาจากภาพถ่ายคุณภาพของการสร้างแบรนด์ของร้านค้าปลีกต่างๆ เช่น การมีอยู่ของโลโก้ ป้าย โปสเตอร์ แบนเนอร์ และอื่นๆ

2.5. โดยการขนส่ง

อีกตัวอย่างหนึ่งของการรับรองความปลอดภัยโดยใช้การวิเคราะห์วิดีโอคือการระบุสิ่งของที่ถูกทิ้งร้างในห้องโถงของสนามบินหรือสถานีรถไฟ การมองเห็นสามารถถูกฝึกให้จดจำวัตถุได้หลายร้อยประเภท เช่น ชิ้นส่วนของเฟอร์นิเจอร์ กระเป๋า กระเป๋าเดินทาง ร่ม เสื้อผ้าประเภทต่างๆ ขวด และอื่นๆ หากระบบวิเคราะห์วิดีโอของคุณตรวจพบวัตถุที่ไม่มีเจ้าของและรับรู้ได้โดยใช้ Vision ระบบจะส่งสัญญาณไปยังบริการรักษาความปลอดภัย งานที่คล้ายกันนี้เกี่ยวข้องกับการตรวจจับสถานการณ์ที่ไม่ปกติในที่สาธารณะโดยอัตโนมัติ: มีคนรู้สึกไม่สบาย หรือมีคนสูบบุหรี่ผิดที่ หรือมีคนตกบนรางรถไฟ เป็นต้น - รูปแบบทั้งหมดนี้สามารถรับรู้ได้โดยระบบวิเคราะห์วิดีโอ ผ่าน Vision API

2.6. การไหลของเอกสาร

แอปพลิเคชั่นในอนาคตที่น่าสนใจอีกประการหนึ่งของ Vision ที่เรากำลังพัฒนาอยู่คือการจดจำเอกสารและการแยกวิเคราะห์ฐานข้อมูลโดยอัตโนมัติ แทนที่จะป้อนชุดข้อมูล ตัวเลข วันที่ออก หมายเลขบัญชี รายละเอียดธนาคาร วันเดือนปีเกิด และข้อมูลทางการอื่นๆ มากมายด้วยตนเอง (หรือแย่กว่านั้นคือป้อน) คุณสามารถสแกนเอกสารและส่งผ่านช่องทางที่ปลอดภัยโดยอัตโนมัติผ่าน API ไปยังคลาวด์ โดยที่ระบบจะจดจำเอกสารเหล่านี้ได้ทันที แยกวิเคราะห์ และส่งคืนการตอบกลับพร้อมข้อมูลในรูปแบบที่จำเป็นสำหรับการเข้าสู่ฐานข้อมูลโดยอัตโนมัติ ทุกวันนี้ Vision รู้วิธีจำแนกเอกสารแล้ว (รวมถึง PDF) - แยกความแตกต่างระหว่างหนังสือเดินทาง, SNILS, TIN, สูติบัตร, ทะเบียนสมรส และอื่นๆ

แน่นอนว่าโครงข่ายประสาทเทียมไม่สามารถจัดการกับสถานการณ์เหล่านี้ทั้งหมดได้ทันที ในแต่ละกรณี จะมีการสร้างโมเดลใหม่สำหรับลูกค้าเฉพาะราย โดยคำนึงถึงปัจจัย ความแตกต่าง และข้อกำหนดหลายประการ เลือกชุดข้อมูล และดำเนินการฝึกอบรม การทดสอบ และการกำหนดค่าซ้ำ

3. รูปแบบการดำเนินงาน API

“ประตูทางเข้า” ของ Vision สำหรับผู้ใช้คือ REST API สามารถรับภาพถ่าย ไฟล์วิดีโอ และการออกอากาศจากกล้องเครือข่าย (สตรีม RTSP) เป็นอินพุต

หากต้องการใช้ Vision คุณต้องมี ทะเบียน ในบริการ Mail.ru Cloud Solutions และรับโทเค็นการเข้าถึง (client_id + client_secret) การตรวจสอบสิทธิ์ผู้ใช้ดำเนินการโดยใช้โปรโตคอล OAuth ข้อมูลต้นฉบับในเนื้อหาของคำขอ POST จะถูกส่งไปยัง API และในการตอบสนอง ลูกค้าจะได้รับผลลัพธ์การจดจำจาก API ในรูปแบบ JSON และการตอบสนองนั้นมีโครงสร้าง: ประกอบด้วยข้อมูลเกี่ยวกับออบเจ็กต์ที่พบและพิกัด

มีหนวดเครา แว่นตาดำ และอยู่ในโปรไฟล์: สถานการณ์ที่ยากลำบากสำหรับการมองเห็นด้วยคอมพิวเตอร์

ตัวอย่างคำตอบ

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

คำตอบประกอบด้วยพารามิเตอร์ที่น่าสนใจ - นี่คือ "ความเท่" แบบมีเงื่อนไขของใบหน้าในภาพถ่าย โดยช่วยให้เราเลือกช็อตที่ดีที่สุดของใบหน้าจากลำดับได้ เราฝึกโครงข่ายประสาทเทียมเพื่อคาดการณ์โอกาสที่รูปภาพจะถูกถูกใจบนโซเชียลเน็ตเวิร์ก ยิ่งคุณภาพของภาพถ่ายดีขึ้นและยิ่งมีใบหน้าที่ยิ้มแย้มมากเท่าใด ความสุดยอดก็ยิ่งมากขึ้นเท่านั้น

API Vision ใช้แนวคิดที่เรียกว่าพื้นที่ นี่คือเครื่องมือสำหรับสร้างชุดใบหน้าต่างๆ ตัวอย่างของช่องว่าง ได้แก่ รายการขาวดำ รายชื่อผู้เยี่ยมชม พนักงาน ลูกค้า ฯลฯ สำหรับแต่ละโทเค็นใน Vision คุณสามารถสร้างได้สูงสุด 10 ช่องว่าง แต่ละช่องว่างสามารถมี PersonID ได้สูงสุด 50 รหัส กล่าวคือ สูงสุด 500 ต่อโทเค็น นอกจากนี้ ไม่จำกัดจำนวนโทเค็นต่อบัญชี

ปัจจุบัน API รองรับวิธีการตรวจจับและจดจำดังต่อไปนี้:

  • จดจำ/ตั้งค่า - การตรวจจับและการจดจำใบหน้า กำหนด PersonID ให้กับบุคคลที่ไม่ซ้ำกันแต่ละรายโดยอัตโนมัติ ส่งคืน PersonID และพิกัดของบุคคลที่พบ
  • ลบ - การลบ PersonID เฉพาะออกจากฐานข้อมูลบุคคล
  • ตัดทอน - ล้างพื้นที่ทั้งหมดจาก PersonID ซึ่งมีประโยชน์หากใช้เป็นพื้นที่ทดสอบและคุณจำเป็นต้องรีเซ็ตฐานข้อมูลสำหรับการผลิต
  • ตรวจจับ - การตรวจจับวัตถุ ฉาก ป้ายทะเบียน สถานที่สำคัญ คิว ฯลฯ ส่งกลับคลาสของวัตถุที่พบและพิกัด
  • ตรวจหาเอกสาร - ตรวจจับเอกสารประเภทเฉพาะของสหพันธรัฐรัสเซีย (แยกหนังสือเดินทาง, SNILS, หมายเลขประจำตัวผู้เสียภาษี ฯลฯ )

เร็วๆ นี้เราจะเสร็จสิ้นการทำงานเกี่ยวกับวิธีการ OCR การกำหนดเพศ อายุ และอารมณ์ รวมถึงการแก้ปัญหาการขายสินค้า นั่นคือ การควบคุมการแสดงสินค้าในร้านค้าโดยอัตโนมัติ คุณสามารถค้นหาเอกสาร API ฉบับสมบูรณ์ได้ที่นี่: https://mcs.mail.ru/help/vision-api

4 ข้อสรุป

ขณะนี้ คุณสามารถเข้าถึงการจดจำใบหน้าในภาพถ่ายและวิดีโอผ่าน API สาธารณะได้ โดยรองรับการระบุวัตถุต่างๆ ป้ายทะเบียน สถานที่สำคัญ เอกสาร และฉากทั้งหมด สถานการณ์การใช้งาน-ทะเล มาทดสอบบริการของเรา กำหนดงานที่ยากที่สุด การทำธุรกรรม 5000 ครั้งแรกนั้นฟรี บางทีมันอาจเป็น “ส่วนผสมที่ขาดหายไป” สำหรับโครงการของคุณ

คุณสามารถเข้าถึง API ได้ทันทีเมื่อลงทะเบียนและเชื่อมต่อ วิสัยทัศน์ . ผู้ใช้ Habra ทุกคนจะได้รับรหัสส่งเสริมการขายสำหรับการทำธุรกรรมเพิ่มเติม กรุณาเขียนที่อยู่อีเมลที่คุณใช้ในการลงทะเบียนบัญชีของคุณถึงฉัน!

ที่มา: will.com

เพิ่มความคิดเห็น