2025-02-17 11:00:21
价格亲民的DeepSeek-V3及R1分别在2024年12月和2025年1月上线,随之而来,全球最大(dà)数(shù)据(jù)中(zhōng)心(xīn)GPU供(gōng)应(yīng)商(shāng)英(yīng)伟(wěi)达(dá)的(de)股(gǔ)价(jià)和(hé)市(shì)值(zhí)应(yīng)声(shēng)下(xià)挫(cuò)。根(gēn)据(jù)Stock Analysis数(shù)据(jù),以(yǐ)月(yuè)为(wèi)单(dān)位(wèi),英(yīng)伟(wěi)达(dá)市(shì)值(zhí)在(zài)2024年(nián)12月(yuè)和(hé)2025年(nián)1月(yuè)分(fēn)别(bié)下(xià)降(jiàng)2.86%和(hé)10.59%。当(dāng)地(de)时(shí)间(jiān)1月(yuè)27日(rì),英(yīng)伟达股价较上一个交易(yì)日(rì)(1月24日)下跌近17%,市值蒸发5920亿美元。
尽管2月英伟达市值回调,其股市际遇仍值得警醒。2024年以来,资本市场对英伟达信心满满,上一次市值跌去双位数,还是2023年9月。去年11月,英伟达一度取代苹果成为全球市值第一的上市公司。这份信心,为何出现了动摇?
在OpenAI推出的ChatGPT卷起AIGC浪潮之初,大模型的参数规模与GPU的集群规模深度绑定。Omdia分析称,微软在2024年购买了48.5万块英伟达Hopper GPU,OpenAI o1大模型就是在微软Azure的AI基础设施训练。Meta在2022年构建了16000块英伟达A100组成的算力集群,以支持Llama和Llama2大模型的发展,又在2024年3月宣布建设两个由24576块英伟达H100 GPU组成的集群(qún),以(yǐ)训(xun)练(liàn)Llama3。
如(rú)此高昂的训练成本,对于大模型厂商的ROI(投资回报率)是一个巨大的考验。有报道称,OpenAI预计2024年营收37亿美元,亏损50亿美元。红杉资本投资人曾估计,2023年人工智能行业在用于训练先进人工智能模型的英伟达芯片上花费了500亿美元,但仅带来30亿美元的收入。因而,对于大模型开发商来说,除了拓展服务场景以提升盈利能力,如何降低大模型的训练和部署成本同样关键。
这也是为什么DeepSeek-V3一经推出,就备受市场青睐——它让业界看到了大模型训练从“GPU堆料”走向“精耕细作”的可能性。
具体来看,6710亿参数的DeepSeek-V3在配备2048块英伟达H800 GPU的集群上训练,整个训练流程用时278.8万个H800 GPU小时,总成本为557.6万美元(按照每GPU小时2美元的租用价格计算)。在GPU用量、训练用时、算力成本上,较同等性能的闭源模型大幅缩减。
之所以能用如此少量的计算资源完成大规模参数量的训练,得益于DeepSeek团队对算法、训练框架和硬件的优化协同。
从架构来看,DeepSeek-V3沿用了在DeepSeek-V2进行验证的多头潜在注意力(MLA)和DeepSeek MoE进行具有成本效益的训练。多头潜在注意力机制通过将键值(KV)缓存压缩为潜在(zài)向(xiàng)量(liàng),显(xiǎn)著(zhe)降(jiàng)低(dī)了计算成本,加快了推理速度并提高了吞吐量。同时,专家混合(MoE)架构通过稀疏计算实现高效推理。
在(zài)训(xun)练(liàn)精(jīng)度(dù)上(shàng),Deepseek-V3支(zhī)持(chí)FP8计(jì)算(suàn)和(hé)存(cún)储(chǔ),在加快训练速度的同时,减少了对GPU内存的使用。
在训练框架上,Deepseek-V3团队打造了HAI-LLM框架,并进行了细致的工程优化。首先是设计了DualPipe(双管道)算法以实现高效的管道并行,并实现了计算和通信重叠(而不是按照串行模式,完成计算再进行通信(xìn)),从(cóng)而(ér)解(jiě)决(jué)了(le)跨(kuà)节(jié)点(diǎn)专(zhuān)家(jiā)并(bìng)行(xíng)带(dài)来(lái)的(de)巨(jù)大(dà)通(tōng)信(xìn)开(kāi)销(xiāo)问(wèn)题(tí)。其(qí)次(cì)是(shì)开(kāi)发(fā)了(le)跨(kuà)节(jié)点(diǎn)全对(duì)全通(tōng)信(xìn)内(nèi)核(hé),使(shǐ)InfiniBand(IB)和(hé)NVLink的(de)通(tōng)信(xìn)充(chōng)分(fēn)重(zhòng)叠(dié),仅(jǐn)需(xū)20个(gè)流(liú)式(shì)多(duō)处(chù)理(lǐ)器(qì)就(jiù)能(néng)充(chōng)分(fēn)利(lì)用(yòng)IB和(hé)NVLink的(de)带(dài)宽(kuān)。其(qí)三(sān)是(shì)优(yōu)化(huà)了(le)内(nèi)存(cún)占(zhàn)用(yòng),在(zài)不(bù)使(shǐ)用(yòng)成(chéng)本(běn)高(gāo)昂(áng)的(de)张(zhāng)量(liàng)并(bìng)行(xíng)的(de)情(qíng)况(kuàng)下(xià),也(yě)能(néng)够(gòu)训(xun)练(liàn)DeepSeek-V3。
训(xun)练(liàn)成(chéng)本(běn)的(de)压(yā)缩(suō),使(shǐ)DeepSeek能(néng)够(gòu)提(tí)供(gōng)远(yuǎn)低(dī)于(yú)其(qí)对(duì)标(biāo)的(de)闭(bì)源(yuán)模(mó)型(xíng)(DeepSeek-V3性(xìng)能(néng)比(bǐ)肩(jiān)GPT-4o, DeepSeek-R1性(xìng)能(néng)对(duì)标(biāo)OpenAI o1)的(de)API服(fú)务(wu)价(jià)格(gé)。
记(jì)者(zhě)计(jì)算(suàn)得(de)知(zhī),DeepSeek-V3的(de)每(měi)百(bǎi)万(wàn)输(shū)入(rù)tokens价(jià)格(gé)约(yuē)为(wèi)GPT-4o的(de)5.5%(缓(huǎn)存(cún)命(mìng)中(zhōng))/11%(缓(huǎn)存(cún)未(wèi)命(mìng)中(zhōng)),每(měi)百(bǎi)万(wàn)输(shū)出(chū)tokens价(jià)格(gé)约(yuē)为(wèi)GPT-4o的(de)11%。DeepSeek-R1的(de)每(měi)百(bǎi)万(wàn)输(shū)入(rù)tokens价格约为OpenAI o1的1.8%(缓存命中)/3.7%(缓存未命中),每百万输出tokens价格约为OpenAI o1的3.7%。
DeepSeek与对标的OpenAI模型API价格对比

来(lái)源(yuán):中(zhōng)国电子报根据DeepSeek、OpenAI官网报价整理,以2月14日汇率为准
GPU规格和用量降下来了,大模型价格也便宜了,这对于产业界来说是一个好消息,对于(yú)尖(jiān)端(duān)GPU厂(chǎng)商(shāng)来(lái)说,则带有一些不确定性。
首先,云厂商和数据中心厂商在过去两年“买爆”英伟达,很大程度上是为大模型的训练、部署和运行提供基础设施,可一旦MoE、小模型等更具成本效益的模型流行开来,头部买家能否持续现有的GPU采购量,要打一个问号。
其次,大模型训练使用的GPU向来由英伟达独占鳌头,但若算力投入不再高企(qǐ),其(qí)他(tā)厂(chǎng)商(shāng)也(yě)有了分一杯羹的机会。目前,龙芯中科、昆仑芯、燧原科技、华为昇腾、海光信息、天数智芯、奕斯伟等多家国产芯片企业宣布与DeepSeek适配。
再次,降低训练开销的可能性,也让广大GPU买家开始将目光转向其他架构——尤其是自家研发的ASIC芯片,以增加硬件收入、增强云服务的整体性并提升客户粘性。
以全球最大的云服务厂商亚马逊AWS为例,2月12日,亚马逊AWS宣布已于1月上线DeepSeek系列大模型,用户可以使用亚马逊云科技自研芯片Trainium和Inferentia通过Amazon EC2或者Amazon SageMaker部署DeepSeek-R1蒸馏模型,规模从15亿参数的Qwen蒸馏模型到706亿参数的Llama蒸馏模型不等。亚马逊自研芯片的一个重要目标就是降低训练成本,与基于GPU的同类实例相比,Trainium芯片支持的Amazon EC2Trn1实例,可节省50%的训练成本。
OpenAI也在近期再传自研芯片的消息。据悉,OpenAI将在年内完成首款自研芯片设计,计划采用台积电3nm工艺制造。
此外,LPU(语言处理器)受到市场关注(zhù),采用RISC-V指令集的(de)AI SoC也(yě)实(shí)现了与DeepSeek的适配。
当然,也有观点认为,DeepSeek对算力产业是长期利好。
比如,在英伟达市值蒸发5920亿美元的那个交易日,微软CEO萨提亚·纳德拉(lā)(Satya Nadella)在(zài)社(shè)交(jiāo)媒(méi)体(tǐ)平(píng)台(tái)表(biǎo)示(shì):“杰(jié)文斯(sī)悖(bèi)论(lùn)再(zài)次(cì)应(yīng)验(yàn)!随(suí)着(zhe)人(rén)工(gōng)智(zhì)能(néng)变(biàn)得(de)更(gèng)高(gāo)效(xiào)、更(gèng)易(yì)用(yòng),我(wǒ)们(men)会(huì)看(kàn)到(dào)其(qí)使(shǐ)用(yòng)量(liàng)急(jí)剧(jù)飙(biāo)升(shēng),它(tā)会(huì)变(biàn)成(chéng)一(yī)种(zhǒng)我(wǒ)们(men)怎(zěn)么都用不够的大众资源。”
杰(jié)文斯(sī)悖(bèi)论(lùn)是(shì)一(yī)种(zhǒng)经(jīng)济(jì)学(xué)理(lǐ)论(lùn),主张(zhāng)当(dāng)技(jì)术(shù)进(jìn)步(bù)提(tí)高(gāo)了(le)资(zī)源(yuán)使(shǐ)用的效率,即减少资源使用的数量,但成本降低导致需求增加,令资源消耗的速度不减反增。
这(zhè)套(tào)逻(luó)辑(ji),当(dāng)然(rán)也适用于算力。既然(rán)DeepSeek等(děng)MoE模(mó)型(xíng)降(jiàng)低(dī)了(le)单(dān)个(gè)大(dà)模(mó)型(xíng)训(xun)练(liàn)所(suǒ)需(xū)的(de)算(suàn)力(lì)开(kāi)销(xiāo),使(shǐ)大(dà)模(mó)型(xíng)更(gèng)具(jù)性(xìng)价(jià)比(bǐ),就(jiù)会(huì)加(jiā)速(sù)大(dà)模(mó)型(xíng)的(de)落地开花。如果各行各业部署大模型的积极性提升,从长远来看,对算力的整体需求就有较为充足的上升空间,自然利好GPU等算力芯片的发展。
只是这杯羹,不一定再(zài)由(yóu)英(yīng)伟达的尖端GPU独占,算力需求带来的利润洪流,也未必再被CUDA这道大坝截留。
在DeepSeek-V3的技术报告中,DeepSeek团队向人工智能硬件供应商提出了(le)芯(xīn)片(piàn)设(shè)计(jì)建(jiàn)议,包括提高(gāo)张(zhāng)量(liàng)核(hé)心(xīn)中(zhōng)FP8通(tōng)用(yòng)矩(ju)阵(zhèn)乘(chéng)法(fǎ)的(de)累(lèi)加(jiā)精(jīng)度(dù)、支(zhī)持(chí)分(fēn)块(kuài)和(hé)块(kuài)级(jí)量(liàng)化(huà)等(děng)。对(duì)于(yú)芯(xīn)片(piàn)企(qǐ)业(yè)来(lái)说(shuō),除(chú)了(le)持(chí)续(xù)提升芯片性能,能够与大模型开发团队进行紧密协作、将工程化做好做精,会更有机会在“效率至上”的训练竞赛中站到前排。
