Mạng thần kinh tích chập (CNN), lấy cảm hứng từ các quá trình sinh học trong vỏ não thị giác của con người, rất phù hợp cho các nhiệm vụ như nhận dạng vật thể và khuôn mặt, nhưng việc cải thiện độ chính xác của chúng đòi hỏi sự tẻ nhạt và tinh chỉnh. Đó là lý do tại sao các nhà khoa học tại Google AI Research đang khám phá các mô hình mới giúp mở rộng quy mô CNN theo cách "có cấu trúc hơn". Họ đã công bố kết quả công việc của họ trong
Kỹ sư phần mềm Mingxing Tan và nhà khoa học trưởng Google AI, Quốc V.Le viết: “Cách phổ biến của các mô hình chia tỷ lệ là tùy ý tăng độ sâu hoặc chiều rộng của CNN và sử dụng độ phân giải cao hơn của hình ảnh đầu vào để đào tạo và đánh giá”. “Không giống như các phương pháp truyền thống chia tỷ lệ tùy ý các tham số mạng như chiều rộng, độ sâu và độ phân giải đầu vào, phương pháp của chúng tôi chia tỷ lệ thống nhất từng chiều với một tập hợp các hệ số tỷ lệ cố định.”
Để cải thiện hiệu suất hơn nữa, các nhà nghiên cứu ủng hộ việc sử dụng mạng đường trục mới, tích chập ngược nút cổ chai di động (MBConv), làm cơ sở cho dòng mô hình EffientNets.
Trong các thử nghiệm, Hiệu quảNets đã chứng minh được độ chính xác cao hơn và hiệu quả tốt hơn so với các CNN hiện có, giảm kích thước tham số và yêu cầu tài nguyên tính toán xuống một mức độ lớn. Một trong những mô hình, EfficiencyNet-B7, đã chứng minh kích thước nhỏ hơn 8,4 lần và hiệu suất tốt hơn 6,1 lần so với CNN Gpipe nổi tiếng, đồng thời cũng đạt được độ chính xác 84,4% và 97,1% (kết quả Top-1 và Top-5) trong thử nghiệm trên bộ ImageNet. So với CNN ResNet-50 phổ biến, một mô hình EffientNet-B4 khác, sử dụng các tài nguyên tương tự, đã đạt được độ chính xác 82,6% so với 76,3% của ResNet-50.
Các mô hình Hiệu quảNets hoạt động tốt trên các bộ dữ liệu khác, đạt được độ chính xác cao trên năm trong số tám điểm chuẩn, bao gồm bộ dữ liệu CIFAR-100 (độ chính xác 91,7%) và
Tan và Li viết: “Bằng cách cung cấp những cải tiến đáng kể về hiệu quả của các mô hình thần kinh, chúng tôi hy vọng rằng EffientNets có tiềm năng đóng vai trò là một khuôn khổ mới cho các nhiệm vụ thị giác máy tính trong tương lai”.
Mã nguồn và tập lệnh đào tạo dành cho Bộ xử lý Tensor (TPU) trên nền tảng đám mây của Google được cung cấp miễn phí trên
Nguồn: 3dnews.ru