MÔ HÌNH DEEPSEEK R1 MỚI RA MẮT GÂY CHẤN ĐỘNG THỊ TRƯỜNG AI

MÔ HÌNH DEEPSEEK R1 MỚI RA MẮT GÂY CHẤN ĐỘNG THỊ TRƯỜNG AI

MÔ HÌNH DEEPSEEK R1 MỚI RA MẮT GÂY CHẤN ĐỘNG THỊ TRƯỜNG AI

13:50 - 04/02/2025

DeepSeek là một công ty khởi nghiệp AI của Trung Quốc đã gây chấn động thị trường khi cho ra mắt một mô hình AI mới có hiệu quả chi phí cao.

 

ĐIỂM LẠI CÁC HOẠT ĐỘNG TIÊU BIỂU CỦA VUSTA NĂM 2024
MÔ HÌNH AI MỚI “TABPFN” CHO DỮ LIỆU DẠNG BẢNG NHỎ
TIẾP TỤC ĐỔI MỚI NÂNG CAO HIỆU QUẢ HOẠT ĐỘNG CỦA CÁC TỔ CHỨC KHOA HỌC VÀ CÔNG NGHỆ
PHÁT HIỆN MỚI TRONG CÔNG NGHỆ HIỂN THỊ MÀN HÌNH
TRIỂN LÃM QUỐC TẾ VỀ LINH KIỆN ĐIỆN TỬ VÀ SẢN XUẤT THÔNG MINH 2024 TẠI HÀ NỘI

 

DeepSeek-R1 là một mô hình mở với khả năng suy luận tiên tiến. Thay vì đưa ra phản hồi trực tiếp, các mô hình suy luận như DeepSeek-R1 thực hiện nhiều lần suy luận qua một truy vấn, tiến hành chuỗi suy nghĩ, đồng thuận và phương pháp tìm kiếm để tạo ra câu trả lời tốt nhất.

Việc thực hiện chuỗi suy luận này sử dụng lý trí để đưa ra câu trả lời tốt nhất được gọi là mở rộng thời gian thử nghiệm. DeepSeek-R1 là một ví dụ hoàn hảo về quy luật mở rộng này, chứng minh tại sao điện toán tăng tốc lại quan trọng đối với nhu cầu suy luận AI của tác nhân.

Khi các mô hình được phép “suy nghĩ” lặp đi lặp lại về vấn đề, chúng tạo ra nhiều mã thông báo đầu ra hơn và chu kỳ tạo dài hơn, do đó chất lượng mô hình tiếp tục tăng. Tính toán thời gian thử nghiệm đáng kể là rất quan trọng để cho phép suy luận theo thời gian thực và phản hồi chất lượng cao hơn từ các mô hình lý luận như DeepSeek-R1, đòi hỏi triển khai suy luận lớn hơn.

R1 mang lại độ chính xác hàng đầu cho các tác vụ đòi hỏi suy luận logic, lý luận, toán học, mã hóa và hiểu ngôn ngữ, đồng thời mang lại hiệu quả suy luận cao. Để giúp các nhà phát triển thử nghiệm an toàn với các khả năng này và xây dựng các tác nhân chuyên biệt của riêng họ, mô hình DeepSeek-R1 với 671 tỷ tham số hiện có sẵn dưới dạng bản xem trước dịch vụ vi mô NVIDIA NIM trên build.nvidia.com. Dịch vụ vi mô DeepSeek-R1 NIM có thể cung cấp tới 3.872 mã thông báo mỗi giây trên một hệ thống NVIDIA HGX H200 duy nhất.

Các nhà phát triển có thể kiểm tra và thử nghiệm giao diện lập trình ứng dụng (API), dự kiến ​​sẽ sớm có sẵn dưới dạng dịch vụ vi mô NIM có thể tải xuống, một phần của nền tảng phần mềm NVIDIA AI Enterprise.

Dịch vụ siêu nhỏ DeepSeek-R1 NIM đơn giản hóa việc triển khai với sự hỗ trợ cho các API tiêu chuẩn công nghiệp. Các doanh nghiệp có thể tối đa hóa bảo mật và quyền riêng tư dữ liệu bằng cách chạy dịch vụ siêu nhỏ NIM trên cơ sở hạ tầng điện toán tăng tốc ưa thích của họ. Sử dụng NVIDIA AI Foundry với phần mềm NVIDIA NeMo, các doanh nghiệp cũng sẽ có thể tạo các dịch vụ siêu nhỏ DeepSeek-R1 NIM tùy chỉnh cho các tác nhân AI chuyên biệt.

DeepSeek-R1 là một mô hình hỗn hợp chuyên gia (MoE) lớn. Nó kết hợp 671 tỷ tham số ấn tượng, nhiều hơn 10 lần so với nhiều LLM nguồn mở phổ biến khác, hỗ trợ độ dài ngữ cảnh đầu vào lớn là 128.000 mã thông báo. Mô hình này cũng sử dụng số lượng chuyên gia cực lớn trên mỗi lớp. Mỗi lớp của R1 có 256 chuyên gia, với mỗi mã thông báo được định tuyến đến tám chuyên gia riêng biệt song song để đánh giá.

Việc cung cấp câu trả lời theo thời gian thực cho R1 đòi hỏi nhiều GPU có hiệu suất tính toán cao, được kết nối với giao tiếp băng thông cao và độ trễ thấp để định tuyến các mã thông báo nhắc nhở đến tất cả các chuyên gia để suy luận. Kết hợp với các tối ưu hóa phần mềm có sẵn trong dịch vụ vi mô NVIDIA NIM, một máy chủ duy nhất với tám GPU H200 được kết nối bằng NVLink và NVLink Switch có thể chạy toàn bộ mô hình DeepSeek-R1 với 671 tỷ tham số ở tốc độ lên tới 3.872 mã thông báo mỗi giây. Thông lượng này có thể thực hiện được bằng cách sử dụng FP8 Transformer Engine của kiến ​​trúc NVIDIA Hopper ở mọi lớp và băng thông NVLink 900 GB/giây để giao tiếp với chuyên gia MoE.

Tận dụng mọi phép toán dấu phẩy động trên giây (FLOPS) hiệu suất từ ​​GPU là rất quan trọng đối với suy luận thời gian thực. Kiến trúc NVIDIA Blackwell thế hệ tiếp theo sẽ tăng cường đáng kể khả năng mở rộng thời gian thử nghiệm trên các mô hình suy luận như DeepSeek-R1 với Tensor Core thế hệ thứ năm có thể cung cấp tới 20 petaflop hiệu suất tính toán FP4 đỉnh và miền NVLink 72 GPU được tối ưu hóa đặc biệt cho suy luận. Chi tiết tham khảo tại đây:

DeepSeek-AI, Daya Guo, Dejian Yang, et al. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, Computation and Language (cs.CL), Jan. 2025, https://doi.org/10.48550/arXiv.2501.12948