DeepSeek-R1系列模型覆盖从1.5B到671B参数,大多数人使用的是蒸馏后的8B/14B/32B/70B版本,本质是微调后的Llama或Qwen模型,并不能完全发挥出DeepSeek R1的实力,¥27万能部署哪个版本,先看看模型的应用场景:
参数说明:
- 微型模型(1.5B-7B):适用于移动端部署,处理基础NLP任务
- 标准模型(8B-14B):平衡性能与成本的主力模型
- 企业级模型(32B-70B):处理复杂语义理解和生成任务
- 超级模型(671B):面向科研机构和大规模云服务
硬件选择说明:
- 个人开发者:RTX 3060+(支撑7B模型实时推理)
- 中小企业:双A100服务器(满足14B模型日均10万次调用)
- 大型机构:H100集群+定制液冷机柜(针对70B+模型)
本地部署说明:
模型规模 FP16显存需求 4-bit量化显存 最低显卡配置
1.5B 3GB 0.8GB RTX 3050
7B 14GB 4GB RTX 3090
14B 28GB 8GB A6000
32B 64GB 16GB 2×A100 40G
70B 140GB 35GB 4×A100 80G
671B 1.34TB 336GB 32×H100
满血版超级模型(671B),显存需要1.34TB,27万的价格能买几个H100?
NVIDIA当前在售的AI加速卡至少有9款型号,其中高性能的有4款,分别是V100、A800、A100及H100。价格方面,V100加速卡至少10000美元,按当前的汇率,约合6.9万元人民币;A800售价12000美元,约合人民币8.7万元,市场一度炒高到10万元人民币;A100售价在1.5万美元,约合人民币10.8万元;H100加速卡是NVIDIA当前最强的,售价3.65万美元,约合26.4万元人民币。
A100\H100在中国大陆基本上越来越少,A800目前是唯一选择(出口断供原因影响)。
医院大部分都是用英伟达RTX 4090,RTX 5090显卡为例,单张价格约¥1.5万,若要让模型较为流畅地运行,至少需要5张,仅显卡这一项就需投入¥7.5万,如果选择服务器来部署,一台配置为Intel Xeon E5 - 2690 v4、32GB RAM、1TB SSD的服务器价格大约在¥15万元左右,14B模型在保持相对亲民的硬件需求(单卡A6000可运行)的同时,已经能够胜任代码生成、文案创作等专业级任务。而32B参数的版本则标志着企业级应用的起点,其多模态理解能力可支撑智能客服、文档分析等复杂场景。当参数量突破70B大关,模型展现出接近人类的常识推理水平,但这种能力的代价是需要至少四张H100显卡组成的计算集群。
部署一个完整的版本的DeepSeek-R1在本地,需要大概16个A800,¥200百万左右的成本。
最近紫金山实验室Deepseek-R1:671B满血版大模型私有化部署系统项目,价格为¥1952000.00,算是比较合理。
另外:华工起初投入9台服务器(共36张A800GPU卡),用户多时有卡顿,又投入10台(共40张A800GPU卡),现总计19台(76张A800GPU卡)。因现有算力无法支撑所有应用用满血版,华工还部署了高性价比的DeepSeek-R132B量化版,提供多种选择。
¥27万能部署哪个版本?
32B模型可以跑的比较流畅,70B模型好一点的时候可能有几十tokens/s,稍微问多一点的时候可能会掉到只有不到个位数tokens/s,这样的配置和推理质量您看能用吗?
医院选择首先是推理质量,选择本地部署还是使用在线版,和医院的业务结合需要咨询专业公司,硬件的投入是为了更好的使用软件。只是做个问答系统,代价太高了。
软佳医院信息管理系统
昆明软佳科技有限公司在云南省各家医院在搭建DeepSeek问答系统,摸索DeepSeek怎么用,用在哪里的时候,已经率先在自主版权的产品:软佳医院信息管理系统 SoftPlus HIS 中支持DeepSeek API 本地部署或API接口调用集成,集成AI技术,充分利用AI来提供智能辅助。已实现功能:实时的药品信息、门诊/住院诊断临床路径、合理用药、处方审查、处方点评等功能,而且功能还在不断增加,可以根据医护的需求在合适的节点增加辅助决策支持功能。