FlexGen là một công cụ để chạy các bot AI giống ChatGPT trên các hệ thống GPU đơn

Một nhóm các nhà nghiên cứu từ Đại học Stanford, Đại học California tại Berkeley, ETH Zurich, Trường Kinh tế sau đại học, Đại học Carnegie Mellon, cũng như Yandex và Meta, đã xuất bản mã nguồn của một công cụ chạy các mô hình ngôn ngữ lớn trên tài nguyên. -các hệ thống bị ràng buộc Ví dụ: công cụ này cung cấp khả năng tạo chức năng gợi nhớ đến ChatGPT và Copilot bằng cách chạy mẫu OPT-175B được đào tạo trước, bao gồm 175 tỷ thông số, trên máy tính thông thường có card đồ họa chơi game NVIDIA RTX3090 được trang bị bộ nhớ video 24GB. Mã được viết bằng Python, sử dụng khung PyTorch và được phân phối theo giấy phép Apache 2.0.

Nó bao gồm một tập lệnh mẫu để tạo bot cho phép bạn tải xuống một trong các mô hình ngôn ngữ có sẵn công khai và bắt đầu liên lạc ngay lập tức (ví dụ: bằng cách chạy lệnh “python apps/chatbot.py —model facebook/opt-30b — -percent 0 100 100 0 100 0”). Làm cơ sở, đề xuất sử dụng mô hình ngôn ngữ lớn do Facebook xuất bản, được đào tạo trên các bộ sưu tập BookCorpus (10 nghìn cuốn), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Math, HackerNews, v.v.), Pushshift. io (dựa trên dữ liệu Reddit) và CCNewsV2 (kho lưu trữ tin tức). Mô hình này bao gồm khoảng 180 tỷ token (800 GB dữ liệu). 33 ngày vận hành cụm với 992 GPU NVIDIA A100 80GB đã được dành cho việc đào tạo mô hình.

Khi chạy mô hình OPT-175B trên hệ thống có GPU NVIDIA T4 (16GB), công cụ FlexGen đã thể hiện hiệu suất nhanh hơn tới 100 lần so với các giải pháp được cung cấp trước đây, giúp việc sử dụng các mô hình ngôn ngữ lớn trở nên hợp lý hơn và cho phép chúng chạy trên hệ thống không có máy gia tốc chuyên dụng. Đồng thời, FlexGen có thể mở rộng quy mô để thực hiện tính toán song song với nhiều GPU. Để giảm kích thước của mô hình, sơ đồ nén tham số độc quyền và cơ chế bộ đệm mô hình được sử dụng bổ sung.

Hiện tại, FlexGen chỉ hỗ trợ các mô hình ngôn ngữ OPT, nhưng trong tương lai các nhà phát triển cũng hứa hẹn sẽ bổ sung hỗ trợ cho BLOOM (176 tỷ tham số, hỗ trợ 46 ngôn ngữ và 13 ngôn ngữ lập trình), CodeGen (có thể tạo mã bằng 22 ngôn ngữ lập trình) và Các mô hình GLM Ví dụ về cuộc đối thoại với bot dựa trên FlexGen và mô hình OPT-30B:

Con người: Tên của ngọn núi cao nhất thế giới là gì?

Trợ lý: Everest.

Con người: Tôi đang lên kế hoạch cho một chuyến đi nhân ngày kỷ niệm của chúng tôi. Chúng ta có thể làm những gì?

Trợ lý: Chà, có một số điều bạn có thể làm cho ngày kỷ niệm của mình. Đầu tiên, bạn có thể chơi bài. Thứ hai, bạn có thể đi bộ đường dài. Thứ ba, bạn có thể đến viện bảo tàng.

Nguồn: opennet.ru

Thêm một lời nhận xét