2025-02-25 10:16:32
近日,DeepSeek研究团队再放大招,公开NSA算法。同日,马斯克发布Grok 3模型,试与DeepSeek和Open AI来比高。此外,Open AI首款AI ASIC芯片即将完成,有望明年量产.....
DeepSeep之风正盛,将全球科技产业的重心从训练推向AI时代下半程的推理阶段。随着算力需求节节高升,ASIC芯片在这股气势汹涌的浪潮之下,得以有更多机会在定制化场景中大显身手。值此之际,属于ASIC定制化芯片(piàn)的(de)时(shí)代(dài)之(zhī)幕(mù)是(shì)否(fǒu)由(yóu)此(cǐ)拉(lā)开(kāi)?

打(dǎ)破(pò)AI芯(xīn)片(piàn)的(de)旧(jiù)范(fàn)式(shì)
2025年(nián)开(kāi)年(nián)以(yǐ)来(lái),一(yī)场(chǎng)由(yóu)DeepSeek引(yǐn)发(fā)的(de)“科(kē)技(jì)风(fēng)暴(bào)”迅(xùn)速(sù)席(xí)卷(juǎn)全球(qiú):英(yīng)伟(wěi)达(dá)称(chēng)DeepSeek-R1是(shì)最(zuì)先(xiān)进(jìn)的(de)大(dà)语(yǔ)言(yán)模(mó)型(xíng);亚(yà)马(mǎ)逊(xùn)和(hé)微(wēi)软(ruǎn)宣布接入DeepSeek-R1模型;DeepSeek-R1、V3、Coder等系列模型陆续上线国家超算互联网平台;微信宣布接入DeepSeek,上线AI搜索功能......
在各类“DeepSeek”消息满天飞的背后,一方面反映出全球科技企业在这一开源AI模型到来后的焦虑或兴奋,但另一更为深层的原因是:DeepSeek的出现打破了一直以来模型对于硬件算力预设的包袱,或将塑造AI产业发展的全新生态。
芯片作为支撑人工智能发展的算力底座,与大模型的训练效率和推理速度直接相关,其中自去年下半年迅速崛起的ASIC尤为值得关注。
ASIC芯片是指专为特定应用而设计的集成电路。由于ASIC芯片针对特定算法和应用进行优化设计,它在特定任务上的计算能力强大,通常具有较高的能效比。在AI领域,AI ASIC芯片也叫AI算力专用芯片,是作为人工智能产业链的上游产品之一,为整个人工智能的大模型训练和推理提供算力支撑,主要面向深度学习、神经网络训练/推理等AI任务而定制。DeepSeek 的问世,提供了“极致压缩+高效强化训练+AI推理算力大幅简化”的低成本新模式,推动ASIC时代加速到来。

图为中昊芯英高性能TPU芯片“刹那”
“DeepSeek 将软硬件协同优化推向了极致的路径,本质上打破了AI芯片领域‘生态霸权决定市场格局’的旧范式,开启了‘算法定义硬件’的新竞争维度。”中昊芯英解决方案架构师顾立程向《中国电子报》记者表示。
具体而言,DeepSeek对ASIC芯片的影响体现在以下三方面。
一是在技术路线重构方面,产生了架构定义权的转移。过去开发者因CUDA工具链完备性被迫绑定NVIDIA硬件,但DeepSeek绕过了CUDA的优化策略,证明直接操作PTX指令的收益已超越工具链便利性成本,DeepSeek的成功实践验证了算法(fǎ)主导(dǎo)的(de)硬(yìng)件(jiàn)设(shè)计(jì)范(fàn)式(shì),为(wèi)TPU等(děng)ASIC芯(xīn)片(piàn)突(tū)破(pò)生(shēng)态(tài)桎(zhì)梏(gù)提(tí)供(gōng)了(le)方(fāng)法(fǎ)论(lùn)。
二是为生态破局提供契机,从"适配生态"到"定(dìng)义(yì)生(shēng)态(tài)"。CUDA生(shēng)态(tài)的(de)依赖降低后(hòu),ASIC芯(xīn)片(piàn)将(jiāng)能(néng)通(tōng)过(guò)提(tí)供(gōng)定(dìng)制(zhì)化(huà)工(gōng)具(jù)链(liàn)、优(yōu)化(huà)编(biān)译(yì)器(qì)等(děng)方(fāng)式(shì),吸(xī)引(yǐn)到(dào)更(gèng)多(duō)开(kāi)发(fā)者(zhě),尤(yóu)其(qí)是(shì)已(yǐ)有(yǒu)意(yì)愿(yuàn)做(zuò)底(dǐ)层(céng)优(yōu)化(huà)的(de)客(kè)户(hù)。此(cǐ)外(wài),AI芯(xīn)片(piàn)在(zài)架(jià)构(gòu)设(shè)计(jì)上(shàng)更(gèng)能(néng)灵(líng)活(huó)适(shì)应(yīng)新的本土趋势和需求,比如支持动态稀疏计(jì)算(suàn)或(huò)混(hùn)合(hé)精(jīng)度(dù)。
三(sān)是(shì)ASIC芯(xīn)片(piàn)商(shāng)业(yè)价(jià)值(zhí)的(de)跃(yuè)升(shēng),从(cóng)"替(tì)代(dài)品(pǐn)"到(dào)"最(zuì)优(yōu)解(jiě)"。当(dāng)硬(yìng)件(jiàn)性(xìng)能(néng)差(chà)异(yì)足(zú)够(gòu)大(dà)时(shí),细(xì)分(fēn)领(lǐng)域客(kè)户(hù)将(jiāng)更(gèng)愿(yuàn)意(yì)为(wèi)ASIC芯(xīn)片(piàn)的(de)定(dìng)制(zhì)优(yōu)化(huà)方(fāng)案(àn)买(mǎi)单(dān)。尤(yóu)其(qí)是(shì),DeepSeek式(shì)技(jì)术(shù)路线(xiàn)能(néng)与(yǔ)国(guó)产ASIC芯片协同,通过(guò)本(běn)土(tǔ)模(mó)型(xíng)与(yǔ)算(suàn)力(lì)厂(chǎng)商(shāng)间更紧密的合作、更极致的适配优化,为客户提供最具性价比的算力。
算力的风吹向推理
AI计算分为训练和推理两种。在AI大模型的下半场,算力需求的重心正在逐步从训练转向推理。在温哥华NeurIPS大会上,OpenAI联合创始人兼前首席科学家Ilya Sutskever曾作出“AI预训练时代将终结”的判断。而DeepSeek的到来,也预示着这一过程的临近。
就在2月18日,DeepSeek研究团队在海外社交平台X上发布了一篇关于NSA(原生稀疏注意力)的技术论文。一经发布,迅速引发广泛关注。据悉,新注意力机制NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。
对于ASIC而言,机会蕴藏在从业者阵营的扩张。在ASIC芯片的分支中,TPU和LPU这两类芯片都有望在DeepSeek的浪潮下受益。

LPU与GPU(来源:Groq官网)
早在今年1月就有(yǒu)消(xiāo)息(xi)传(chuán)出(chū),美(měi)国(guó)推(tuī)理(lǐ)芯(xīn)片(piàn)公(gōng)司(sī)Groq已(yǐ)经(jīng)在(zài)自(zì)己(jǐ)的(de)LPU芯(xīn)片(piàn)上(shàng)实(shí)机(jī)运(yùn)行(xíng)DeepSeek,效(xiào)率(lǜ)比(bǐ)最(zuì)新(xīn)的(de)H100快(kuài)上(shàng)一(yī)个(gè)量(liàng)级(jí),达(dá)到(dào)每(měi)秒(miǎo)24000token。值(zhí)得(de)关注(zhù)的(de)是(shì),Groq曾(céng)于(yú)2024 年(nián)12月(yuè)在(zài)沙(shā)特(tè)阿(ā)拉(lā)伯(bó)达(dá)曼(màn)构(gòu)建(jiàn)了(le)中(zhōng)东(dōng)地(de)区(qū)最(zuì)大(dà)的(de)推(tuī)理(lǐ)集群(qún),该(gāi)集群(qún)包(bāo)括(kuò)了(le)19000个(gè)Groq LPU。
而(ér)在(zài)TPU方(fāng)面(miàn),据(jù)产(chǎn)业(yè)链(liàn)相(xiāng)关人(rén)士(shì)透(tòu)露(lù),谷(gǔ)歌(gē)TPU芯(xīn)片(piàn)去(qù)年(nián)的(de)生(shēng)产(chǎn)量(liàng)已(yǐ)经(jīng)达(dá)到(dào)280万(wàn)到(dào)300万(wàn)片(piàn)之(zhī)间(jiān),成(chéng)为(wèi)全球(qiú)第(dì)三(sān)大(dà)数(shù)据(jù)中(zhōng)心(xīn)芯(xīn)片(piàn)设(shè)计(jì)厂(chǎng)商(shāng)。
随(suí)着(zhe)AI大(dà)模(mó)型(xíng)进(jìn)入(rù)“下(xià)半(bàn)场(chǎng)”,逻(luó)辑(ji)推(tuī)理(lǐ)成(chéng)为(wèi)新(xīn)的(de)焦(jiāo)点(diǎn)。这(zhè)一(yī)阶(jiē)段(duàn)对(duì)算(suàn)力(lì)的(de)需(xū)求(qiú)虽(suī)然(rán)不(bù)如(rú)训(xun)练(liàn)阶(jiē)段(duàn)那(nà)么(me)高(gāo),但(dàn)对(duì)能效和成本的要求更为严格。ASIC芯片由(yóu)于其高度优化的设计和针对特定任务的高效性,在AI推理领域具有显著优势。“AI专用芯片推理服务器的占比将逐步提升,这将使得AI专用芯片在推理市场上占据重要地位。”顾立程表示。
GPU地位被撼动?
DeepSeek的出(chū)圈(quān),最(zuì)先(xiān)带(dài)来(lái)的(de)影(yǐng)响(xiǎng)是(shì)令(lìng)长(zhǎng)期(qī)占(zhàn)据(jù)算(suàn)力(lì)主力(lì)军(jūn)地(de)位(wèi)的(de)GPU陷(xiàn)入(rù)焦(jiāo)虑(lǜ),尤(yóu)其(qí)是(shì)全球(qiú)最(zuì)大(dà)数(shù)据(jù)中(zhōng)心(xīn)GPU供(gōng)应(yīng)商(shāng)英(yīng)伟(wěi)达(dá)的(de)股(gǔ)价(jià)和(hé)市(shì)值(zhí)曾(céng)一(yī)度(dù)下(xià)挫。相比之下,被视为挑战GPU“挑战者”的ASIC芯片则迎来了更上一层楼的时机。那么,这是否预示着未来AI芯片的版图将出现剧烈的反转?

就在DeepSeek让行业对AI算力需求的视线中心从训练转向推理之际,一个被称为“杰文斯悖论”的经济学理论被业界重新提及。1865年,经济学家杰文斯提出:当技术进步提高了效率,资源消耗不仅没有减少,反而激增。例如,瓦(wǎ)特(tè)改(gǎi)良(liáng)的(de)蒸(zhēng)汽(qì)机(jī)让(ràng)煤(méi)炭(tàn)燃(rán)烧(shāo)更(gèng)加(jiā)高(gāo)效(xiào),但(dàn)结(jié)果(guǒ)却(què)是(shì)煤(méi)炭(tàn)需(xū)求(qiú)飙(biāo)升(shēng)。
上(shàng)述(shù)理(lǐ)论(lùn)与(yǔ)当(dāng)下(xià)GPU芯(xīn)片(piàn)遇(yù)到(dào)的(de)情(qíng)况(kuàng)类(lèi)似(shì)。面(miàn)对(duì)“DeepSeek危(wēi)机(jī)”的(de)英(yīng)伟(wěi)达(dá)股(gǔ)价(jià)曾(céng)一(yī)度(dù)大(dà)跌(diē)17%,但(dàn)截(jié)止(zhǐ)2月(yuè)19日(rì)已(yǐ)恢(huī)复(fù)到(dào)此(cǐ)前(qián)高(gāo)位(wèi)水(shuǐ)平(píng),从(cóng)侧(cè)面(miàn)反(fǎn)映(yìng)了(le)AI行(xíng)业(yè)对(duì)GPU芯(xīn)片(piàn)需(xū)求(qiú)的(de)认(rèn)知(zhī)变(biàn)化(huà)。AI推(tuī)理(lǐ)芯(xīn)片(piàn)初(chū)创(chuàng)企(qǐ)业(yè)Groq公(gōng)司(sī)CEO乔(qiáo)纳(nà)森(sēn)·罗(luō)斯(sī)在(zài)近(jìn)日(rì)的(de)访(fǎng)谈(tán)对(duì)此(cǐ)事(shì)发(fā)表(biǎo)了(le)看(kàn)法(fǎ),他(tā)认(rèn)为(wèi)英(yīng)伟(wěi)达(dá)的(de)股(gǔ)票(piào)不(bù)应(yīng)该(gāi)为(wèi)此(cǐ)下(xià)跌(diē)。这(zhè)与(yǔ)市(shì)场(chǎng)的(de)价(jià)值(zhí)衡(héng)量无关,而只是市场中一种人气的较量。“实际上,我认为英伟达会卖掉他们生产的每一块用于训练的GPU。你会看到相同数量的 GPU仍然会被售出,但对训练的需求会增加。因为对推理的需求越多,需要的训练芯片就越多,反之亦然。”
一般来说,被广泛采用的英伟达(dá)GPU芯(xīn)片(piàn)更(gèng)多(duō)被(bèi)用(yòng)来(lái)进(jìn)行(xíng)AI大(dà)模(mó)型(xíng)训(xun)练(liàn),而(ér)到(dào)了(le)推(tuī)理(lǐ)阶(jiē)段(duàn),一(yī)些(xiē)厂(chǎng)商(shāng)开(kāi)始(shǐ)着(zhe)力(lì)开(kāi)发(fā)自(zì)己(jǐ)的(de)AI推(tuī)理(lǐ)芯(xīn)片(piàn),其(qí)中(zhōng)多(duō)为(wèi)ASIC定(dìng)制(zhì)化(huà)芯(xīn)片(piàn)。不(bù)同(tóng)的(de)是(shì),在(zài)DeepSeep助(zhù)力(lì)下(xià),以(yǐ)前(qián)行(xíng)业(yè)更(gèng)关注(zhù)决(jué)定(dìng)下(xià)限(xiàn)的(de)训(xun)练(liàn)阶(jiē)段(duàn),如今或将更多注意力放到决定上限的推理阶段。有业内人士指出,GPU与ASIC之间并非简单的替代关系。
不过,虽然作为开源推理模型的DeepSeek令推理需求受到更多关注,但ASIC芯片的崛起将在训练和推理两个角度都会对算力芯片的竞争格局带来深远变化。
从训练角度来看,过去传统GPU凭借其强大的并行计算能力,在AI训练阶段占据了主导地位。然而,AI专用芯片针对特定场景设计,在拥有配套的软硬件全栈生态下,AI专用芯片算力集群的算力利用效率更高,功耗更低。随着软件生态的逐步成熟,AI专用芯片有望更广泛地应用于AI训练,与传统GPU形成竞争态势。另外,随着AI专用芯片使用的规模扩大,也会让AI专用芯片的单芯片成本逐渐降低,为智算中心建设带来切切实实的采购成本降低,并提升了应用端的能力。
“AI专用芯片的崛起将使得算力芯片的竞争(zhēng)格(gé)局(jú)更(gèng)加(jiā)多(duō)元(yuán)化和复杂化。”在顾立程看来,在训练和推理两个领域,AI专用芯片都(dōu)将(jiāng)与(yǔ)GPU展(zhǎn)开(kāi)激(jī)烈(liè)竞(jìng)争(zhēng),挑(tiāo)战(zhàn)其(qí)霸(bà)主地(de)位(wèi)。同(tóng)时(shí),AI专(zhuān)用(yòng)芯(xīn)片(piàn)的(de)应(yīng)用(yòng)前(qián)景(jǐng)也(yě)极(jí)为(wèi)广(guǎng)阔(kuò),有(yǒu)望(wàng)在(zài)数(shù)据(jù)中(zhōng)心(xīn)、云(yún)计(jì)算(suàn)、人工智能等多个领(lǐng)域发(fā)挥(huī)重(zhòng)要(yào)作(zuò)用(yòng)。
