Nội dung text Deep-Seek-family.pdf
Tiêu chí DeepSeek V1 DeepSeek V2 / V2.5 DeepSeek V3 DeepSeek R1 / R1-Zero Ngày phát hành Tháng 11 năm 2023 Tháng 5 / 9 năm 2024 Tháng 12 năm 2024 Tháng 1 năm 2025 Kiến trúc Mô hình Transformer dày đặc với 67 tỷ tham số (Mixture-of-Experts - MoE) với (Multi-head Latent Attention - MLA); hỗ trợ (KV caching) 671 tỷ tham số với 256 chuyên gia; 37 tỷ tham số hoạt động mỗi lần; sử dụng MLA và KV caching Dựa trên kiến trúc V3; bao gồm biến thể R1-Zero được huấn luyện hoàn toàn bằng (Reinforcement Learning - RL) Phương pháp huấn luyện (Supervised Fine-Tuning - SFT) SFT với các tối ưu hóa về hiệu suất SFT với dữ liệu huấn luyện lên đến 14,8 nghìn tỷ token; chi phí huấn luyện hiệu quả Huấn luyện hai giai đoạn: SFT sau đó là RL sử dụng (Group Relative Policy Optimization - GRPO); R1-Zero chỉ sử dụng RL Khả năng suy luận Khả năng suy luận cơ bản Cải thiện so với V1 Nâng cao khả năng suy luận với xử lý ngữ cảnh tốt hơn Suy luận nâng cao với khả năng tự xác minh và phản ánh; thể hiện "khoảnh khắc Aha!" trong giải quyết vấn đề Hiệu suất benchmark Cạnh tranh nhưng không dẫn đầu Vượt trội hơn các phiên bản trước Vượt qua LLaMA 3.1 và Qwen 2.5; tiệm cận GPT-4o và Claude 3.5 Sonnet Vượt qua hoặc ngang bằng OpenAI o1 trong các bài toán toán học (AIME: 79.8%, MATH-500: 97.3%), lập trình (Codeforces: 96.3%) và suy luận Giới hạn token Không rõ Không rõ Hỗ trợ lên đến 128K token đầu vào; duy trì ngữ cảnh tốt trong các tương tác dài Hỗ trợ lên đến 128K token đầu vào; duy trì ngữ cảnh tốt trong các tương tác dài Hiệu quả chi phí Trung bình; yêu cầu tài nguyên tính toán cao hơn Tiết kiệm hơn so với V1 Rất hiệu quả về chi phí; chi phí huấn luyện khoảng 5,58 triệu USD Rất hiệu quả về chi phí; chi phí huấn luyện khoảng 6 triệu USD so với ước tính 100 triệu USD của GPT-4 Mã nguồn mở Có, theo giấy phép MIT Có, theo giấy phép MIT Có, theo giấy phép MIT Có, theo giấy phép MIT So sánh Comparision
Các kỹ thuật nổi tiếng Multi-Head Latent Attention DeepSeekMoE mixture of experts Deep Seek v3 Deep Seek v3
Multi-Head Latent Attention Multi-Head Latent Attention https://arxiv.org/pdf/2412.19437 Vector biểu diễu của vị trí token-t trước khi đưa vào attention Số lượng head Chiều mỗi head