Jiankun
发布于 2025-02-11 / 27 阅读
0
0

DeepSeek 介绍

DeepSeek 介绍

引言

在当今大模型的主流榜单中,DeepSeek-V3 作为开源模型的佼佼者,表现优异,甚至与世界上最先进的闭源模型不相上下。本文将详细介绍 DeepSeek 系列模型的构成、特点、部署步骤以及常见问题的解决方案,帮助读者更好地理解和使用这些强大的 AI 工具。

DeepSeek 模型家族

DeepSeek 系列模型涵盖了多个领域,每个模型都有其独特的专长。以下是 DeepSeek 模型家族的概览:

DeepSeek 模型列表

  • DeepSeek LLM:基础通用语言模型
  • DeepSeek Coder:代码专用模型
  • DeepSeek Math:数学专用模型
  • DeepSeek VL:多模态专用模型
  • DeepSeek V2:通用模型升级版
  • DeepSeek Coder V2:代码模型升级版
  • DeepSeek V3:最新通用模型
  • DeepSeek R1:经济适用型模型

模型关系图

DeepSeek LLM (基础模型)
├── DeepSeek Coder (代码专用)
│   └── DeepSeek Coder V2 (代码模型升级)
├── DeepSeek Math (数学专用)
├── DeepSeek VL (多模态专用)
├── DeepSeek V2 (通用模型升级)
│   └── DeepSeek V3 (最新通用模型)

各模型的特点与发布时间1

DeepSeek-LLM(基础模型)

  • 发布时间:2024 年 1 月 5 日
  • 定位:基础通用语言模型,专注于自然语言处理任务。
  • 模型大小:670 亿参数
  • 训练数据集:2 万亿涵盖中英文的 token 数据集

DeepSeek-Coder(代码专家)

  • 发布时间:2024 年 1 月 25 日
  • 功能特点:专为代码生成和调试设计,能够补全代码、查找 Bug,甚至从零生成小程序。
  • 训练数据集:87% 的训练数据为代码

DeepSeek-Math(数学学霸)

  • 发布时间:2024 年 2 月 5 日
  • 功能特点:擅长解决高难度数学问题,解题步骤清晰,水平接近 GPT-4 和谷歌 Gemini。

DeepSeek-V3(全能战士)

  • 发布时间:2024 年 12 月 26 日
  • 功能特点:综合能力最强,擅长推理、文案撰写、数据分析等任务,与 GPT-4、Claude 3.5 等顶级模型竞争。
  • 模型大小:6710 亿参数的 MoE 模型

DeepSeek-R1(经济适用型)

  • 发布时间:2025 年 1 月 20 日
  • 功能特点:性价比高,性能与 OpenAI 商用模型相当,且开源免费。支持多种部署规模,从手机到服务器均可运行。

DeepSeek-R1 部署配置需求2

DeepSeek-R1 部署配置需求

根据实际部署情况,70B 模型占用显存约为 44332MB。

DeepSeek 的优势

  1. 高性能低成本:在保持 SOTA 性能的基础上,训练成本和 API 定价都非常亲民。
  2. 开源:所有模型均开源,用户可以自由使用和修改。

问题6:不同DeepSeek模型性能区别?

  • 32B Q4 精度的即可实现 671B 的 90% 功能3
  • 官方4性能对比如下:
CategoryBenchmark (Metric)Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3OpenAI o1-miniOpenAI o1-1217DeepSeek R1
Architecture--MoE--MoE
# Activated Params--37B--37B
# Total Params--671B--671B
EnglishMMLU (Pass@1)88.387.288.585.291.890.8
MMLU-Redux (EM)88.988.089.186.7-92.9
MMLU-Pro (EM)78.072.675.980.3-84.0
DROP (3-shot F1)88.383.791.683.990.292.2
IF-Eval (Prompt Strict)86.584.386.184.8-83.3
GPQA-Diamond (Pass@1)65.049.959.160.075.771.5
SimpleQA (Correct)28.438.224.97.047.030.1
FRAMES (Acc.)72.580.573.376.9-82.5
AlpacaEval2.0 (LC-winrate)52.051.170.057.8-87.6
ArenaHard (GPT-4-1106)85.280.485.592.0-92.3
CodeLiveCodeBench (Pass@1-COT)33.834.2-53.863.465.9
Codeforces (Percentile)20.323.658.793.496.696.3
Codeforces (Rating)7177591134182020612029
SWE Verified (Resolved)50.838.842.041.648.949.2
Aider-Polyglot (Acc.)45.316.049.632.961.753.3
MathAIME 2024 (Pass@1)16.09.339.263.679.279.8
MATH-500 (Pass@1)78.374.690.290.096.497.3
CNMO 2024 (Pass@1)13.110.843.267.6-78.8
ChineseCLUEWSC (EM)85.487.990.989.9-92.8
C-Eval (EM)76.776.086.568.9-91.8
C-SimpleQA (Correct)55.458.768.040.3-63.7
Model                          AIME 2024 pass@1AIME 2024 cons@64MATH-500 pass@1GPQA Diamond pass@1LiveCodeBench pass@1CodeForces rating
GPT-4o-05139.3              13.4              74.6            49.9                32.9                759.0            
Claude-3.5-Sonnet-1022          16.0            26.7              78.3            65.0                38.9                717.0            
o1-mini                        63.6            80.0              90.0            60.0                53.8                1820.0            
QwQ-32B                        44.0            60.0              90.6            54.5                41.9                1316.0            
DeepSeek-R1-Distill-Queen-1.5B  28.9            52.7              83.9            33.8                16.9                954.0            
DeepSeek-R1-Distill-Queen-7B    55.5            83.3              92.8            49.1                37.6                1189.0            
DeepSeek-R1-Distill-Queen-14B  69.7            80.0              93.9            59.1                53.1                1481.0            
DeepSeek-R1-Distill-Queen-32B  72.6            83.3              94.3            62.1                57.2                1691.0            
DeepSeek-R1-Distill-Llama-8B    50.4            80.0              89.1            49.0                39.6                1205.0            
DeepSeek-R1-Distill-Llama-70B  70.0            86.7              94.5            65.2                57.5                1633.0

Footnotes

  1. 一篇文章,让你秒懂 DeepSeek 推理模型差异!-CSDN博客

  2. 本地部署 DeepSeek-R1 模型全攻略 | Haoyu Wang's Blog

  3. DeepSeek R1 推理模型 一键包 完全本地部署 保姆级教程 断网运行 无惧隐私威胁 大语言模型推理时调参 CPU GPU 混合推理 32B 轻松本地部署_哔哩哔哩_bilibili

  4. deepseek-ai/DeepSeek-R1


评论