
【相干阅读】谷歌一篇论文引爆存储芯片崩盘!AI内存需求暴降6倍,推理狂飙8倍
3月26日,民众存储芯片市集因一篇学术论文而引发心焦。
存储芯片公司股价全线承压。3月26日A股收盘,恒烁股份跌超6%,兆易翻新、佰维存储、朗科科技跌超5%,江波龙、北京君正等个股也纷繁跟跌。3月26日好意思股开盘,存储芯片板块普跌,为止北京时刻22点30分,闪迪跌超6%,好意思光科技与西部数据跌超4%,希捷科技跌超3%。
这场波动的导火索来自一篇由谷歌磋磨院行将在外洋学习表征会议(ICLR 2026)上追究亮相的学术论文。谷歌推出的新式AI内存压缩手艺“TurboQuant”,声称可将大谈话模子(LLM)推理中的缓存内存占用压缩至六分之一,并在英伟达H100 GPU上完了最高8倍的性能加快。
现在,老本市集将其解读为对存储硬件需求的致命一击,但在心焦性抛售背后,永远信得过影响又会若何?
“Pied Piper”走进施行
TurboQuant究竟管制了什么问题?
现时大模子启动时的中枢瓶颈之一在于“键值缓存”(KV Cache)。通俗来说,当用户与AI对话时,模子需要记着之前聊过的内容(波折文),这部分临时存储的数据便是KV Cache。跟着大模子波折文窗口从几千Token推广至百万以致千万级别,KV Cache对内存的阔绰呈指数级增长,成为制约推理成本的要害。
记者查阅该论文,TurboQuant内容上是一种极致的量化压缩算法。传统量化步调需要在压缩精度和特等存储支拨之间谐和,而谷歌团队通过两项翻新PolarQuant(极坐标量化)和 QJL(量化JL变换)完了了在“零弃世”的前提下将KV Cache压缩至3-bit精度。
有业内东说念主士将这一突破比作HBO经典好意思剧《硅谷》中那家凭借“无损压缩算法”颠覆行业的假造创业公司Pied Piper。Cloudflare首席践诺官更是将其称为谷歌的“DeepSeek时刻”,合计其有望像DeepSeek一样,通过极致着力大幅拉低AI的启动成本。
“条目反射”式抛售
对于永远千里浸在“算力即权利”“存力即国力”叙事中的老本市集而言,这项手艺的问世无疑震荡了敏锐的神经。
淌若单张显卡的内存隐约着力被成倍放大,各大云作事商和企业客户异日对DRAM和HBM的物理采购量是否会断崖式下滑?这种逻辑推导平直导致了资金的避险行径。
这并非是存储芯片股的初度手艺面心焦。2025岁首,DeepSeek发布低考试成本模子时,曾经引发市集对算力硬件需求的质疑。TurboQuant被视为归并逻辑的延续。“以软代硬”正在从故事变为施行。
但在科技圈的狂热与二级市集的抛售之间,华尔街投行发扬出一定的闲适。
摩根士丹利在最新研报中明确示意,市集对此存在误读。该手艺仅作用于推理阶段的键值缓存,并不影响模子权重所占用的高带宽内存(HBM),也与AI考试任务无关。
分析师强调,所谓的“6倍压缩”也不是存储总需求的减少,而是通过着力提高增多单GPU的隐约量。这意味着,谈判硬件条目下,不错复旧4倍至8倍更长的波折文,188BET或在不触发内存溢出的前提下权臣提高批处理规模。
Lynx Equity Strategies的分析师更进一步示意,媒体报说念存在夸大因素。现时的推理模子早已平日弃取4-bit量化数据,谷歌所谓的“8倍性能提高”是栽种在与老旧的32位模子对比的基础之上。
此外,TurboQuant当下的考据范围相对有限。快念念慢想磋磨院院长、特邀批驳员田丰向记者示意,该手艺现在仅在Gemma、Mistral等开源模子上考据,Gemini等谷歌中枢模子的适配终端尚未公开,手艺普适性仍需不雅察。
值得小心的是,压缩KV cache、进行长波折文优化也并不是全新的手艺念念路。早在2025年4月,谷歌就曾公开荒表过TurboQuant的相干论文。
在访佛手艺念念路上,国内也有相干布局。如月之暗面KimiLinear,在处理长波折文任务时,相较于传统全小心力模子,KV cache使用可降最多75%;DeepSeek V2建议的MLA步调也可优化KV cache。
杰文斯悖论:着力越高,需求越大?
除了手艺细节可能被误读外,还应从经济学视角重估TurboQuant的永远影响。
从供应链视角看,短期内各原厂产能满载。当下,作事器内存需求抓续增长,2026年作事器DRAM需求瞻望增长39%,HBM需求年增58%,TurboQuant的优化终端或将被行业增长海潮灭亡。
“这会是杰文斯悖论的又一个例证。”无穷星辰董事长方海声告诉上证报记者,手艺着力的提高常常会裁减使用成本,从而激励出更强大的总需求。蒸汽机着力的提高莫得减少煤炭阔绰,反而股东了煤炭需求的爆发式增长,这一限定在AI时期相似适用。
尽管TurboQuant直击AI系统的内存成本弧线,但历史警戒标明,压缩算法的存在从未从根柢上转换硬件采购的全体规模。通过大幅裁减单次查询的作事成本,这类手艺能让正本只可在激动云霄集群上启动的模子移动至土产货,灵验裁减AI规模化部署的门槛,从而激活更多因成本受限而无法落地的驾御场景。
“推理成本要点将从GPU转向存储优化,股东TCO(总领有成本)权臣着落。这也会使中小厂商可进一步参与AI驾御翻新,突破大厂手艺壁垒,股东AI民主化加快。”田丰示意。
一篇尚未追究发表的论文,引发民众存储芯片板块的剧烈震荡,这自身就足以诠释现时AI基础门径投资逻辑的脆弱与敏锐。
为止发稿时,谷歌尚未公布TurboQuant在Gemini等自研模子中的具体部署时刻表。对于该手艺的有计划,将在4月的ICLR 2026会议上不竭发酵。本报记者将抓续热情此事进展。
(著述开头:上海证券报)
海量资讯、精确解读,尽在新浪财经APP
包袱裁剪:张恒星 金博宝app手机版
开云体育中国官方网站

备案号: