Mã mở để tổng hợp hoạt hình bằng mạng thần kinh

Một nhóm các nhà nghiên cứu từ Đại học Kỹ thuật Thượng Hải được phát hành công cụ Kẻ mạo danh, cho phép sử dụng các phương pháp học máy để mô phỏng chuyển động của con người bằng hình ảnh tĩnh, cũng như thay quần áo, chuyển chúng sang môi trường khác và thay đổi góc nhìn thấy một vật thể. Mã được viết bằng Python
sử dụng một khuôn khổ Kim tự tháp. Việc lắp ráp cũng yêu cầu ngọn đuốc và Bộ công cụ CUDA.

Mã mở để tổng hợp hoạt hình bằng mạng thần kinh

Bộ công cụ nhận hình ảnh hai chiều làm đầu vào và tổng hợp kết quả đã sửa đổi dựa trên mô hình đã chọn. Ba tùy chọn chuyển đổi được hỗ trợ:
Tạo một đối tượng chuyển động theo các chuyển động mà mô hình đã được huấn luyện. Chuyển các yếu tố ngoại hình từ mô hình sang vật thể (ví dụ: thay quần áo). Tạo một góc mới (ví dụ: tổng hợp hình ảnh hồ sơ dựa trên ảnh toàn mặt). Cả ba phương pháp đều có thể được kết hợp, chẳng hạn như bạn có thể tạo video từ một bức ảnh mô phỏng việc thực hiện một thủ thuật nhào lộn phức tạp trong các bộ quần áo khác nhau.

Trong quá trình tổng hợp, các thao tác chọn đối tượng trong ảnh và tạo thành các phần tử nền còn thiếu khi di chuyển được thực hiện đồng thời. Mô hình mạng nơron có thể được huấn luyện một lần và được sử dụng cho nhiều phép biến đổi khác nhau. Để nạp có sẵn các mô hình làm sẵn cho phép bạn sử dụng ngay các công cụ mà không cần đào tạo sơ bộ. Cần có GPU có kích thước bộ nhớ ít nhất 8GB để hoạt động.

Không giống như các phương pháp biến đổi dựa trên phép biến đổi bằng các điểm chính mô tả vị trí của cơ thể trong không gian hai chiều, Kẻ mạo danh cố gắng tổng hợp lưới ba chiều với mô tả về cơ thể bằng phương pháp học máy.
Phương pháp đề xuất cho phép thực hiện các thao tác có tính đến hình dáng cơ thể và tư thế hiện tại được cá nhân hóa, mô phỏng các chuyển động tự nhiên của các chi.

Mã mở để tổng hợp hoạt hình bằng mạng thần kinh

Để lưu giữ thông tin gốc như kết cấu, kiểu dáng, màu sắc và nhận dạng khuôn mặt trong quá trình chuyển đổi, mạng lưới thần kinh đối nghịch sáng tạo (GAN cong vênh chất lỏng). Thông tin về đối tượng nguồn và các tham số để nhận dạng chính xác nó được trích xuất bằng cách áp dụng mạng lưới thần kinh tích chập.


Nguồn: opennet.ru

Thêm một lời nhận xét