游侠网云服务,免实名免备案服务器 游侠云域名,免实名免备案域名

统一声明:

1.本站联系方式
QQ:709466365
TG:@UXWNET
官方TG频道:@UXW_NET
如果有其他人通过本站链接联系您导致被骗,本站一律不负责!

2.需要付费搭建请联系站长QQ:709466365 TG:@UXWNET
3.免实名域名注册购买- 游侠云域名
4.免实名国外服务器购买- 游侠网云服务

内存啥时候降价

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

学术会议ICLR,居然和美光和西部数据大跌扯上关系了?

两家存储芯片巨头股价大跌,没有财报暴雷,没有供应链断裂,只是谷歌展示了一篇即将在 ICLR 2026 正式亮相的论文

谷歌 TurboQuant 论文

谷歌研究院推出TurboQuant压缩算法,把 AI 推理过程中最吃内存的 KV cache压缩至少 6 倍,精度零损失

市场的解读简单粗暴,长上下文 AI 推理以后不需要那么多内存了,利空内存。

内存股价大跌

网友纷纷表示,这不就是美剧《硅谷》里的 Pied Paper?

硅谷美剧 Pied Piper

Pied Piper 是 2014 年开播的 HBO 经典美剧《硅谷》里的虚构创业公司,核心技术就是一种”近乎无损的极限压缩算法”。

2026 年,类似的算法在现实世界居然成真了。

KVCache 量化到 3 bit

要理解 TurboQuant 为什么重要,先得理解它解决的是什么问题。

AI 大模型推理时处理过的信息会临时存在KV Cache,方便后续快速调用,不用每次从头算起。

问题是随着上下文窗口越来越长,内存消耗急剧膨胀。KV cache 正在成为 AI 推理的核心瓶颈之一。

KV Cache 内存消耗

传统的解决思路是向量量化,把高精度数据压成低精度表示。

但尴尬的是,大部分量化方法本身也需要存储额外的”量化常数”,每个数字要多占 1 到 2 个 bit。

TurboQuant 用两个改动把这个额外开销干到了零。

PolarQuant(极坐标量化):

不用传统的 X、Y、Z 坐标描述数据,转而用极坐标”距离 + 角度”。

谷歌团队发现,转换后角度的分布非常集中且可预测,根本不需要额外存储归一化常数。

就像把”往东走 3 个路口,往北走 4 个路口”压缩成”朝 37 度方向走 5 个路口”。

信息量不变,描述更紧凑,还省掉了坐标系本身的开销。

PolarQuant 极坐标量化

QJL(量化 JL 变换):

把高维数据投影后压缩成 +1 或 -1 的符号位,完全不需要额外内存。TurboQuant 用它来消除 PolarQuant 压缩后残留的微小误差。

QJL 量化 JL 变换

两者组合后 PolarQuant 先用大部分 bit 容量捕捉数据的主要信息,QJL 再用 1 个 bit 做残差修正。

最终实现 3-bit 量化,无需任何训练或微调,精度零损失。

8 倍加速,Benchmark 全线拉满

谷歌团队在 Gemma 和 Mistral 等开源模型上,跑了主流长上下文基准测试,覆盖问答、代码生成、摘要等多种任务。

在”大海捞针”任务上,TurboQuant 在所有测试中拿下完美分数,同时 KV cache 内存占用缩小了至少 6 倍。

PolarQuant 单独使用,精度也几乎无损。

TurboQuant Benchmark

速度提升同样显著。在英伟达 H100 GPU 上,4-bit TurboQuant 计算注意力分数的速度,比 32-bit 未量化版本快了 8 倍。

不只是省内存,还更快了。

在向量搜索领域,TurboQuant 同样超越了现有最优量化方法的召回率,而且不需要针对具体数据集做调优,也不依赖低效的大码本。

向量搜索性能

AI 内存的 DeepSeek 时刻?

Cloudflare CEO 评价“这是谷歌的 DeepSeek 时刻”

他认为 DeepSeek 证明了用更少的资源也能训出顶尖模型。

TurboQuant 的方向类似,用更少的内存,也能跑同样质量的推理。

DeepSeek 时刻

谷歌表示,TurboQuant 除了可以用在 Gemini 等大模型上,同时还能大幅提升语义搜索的效率,让谷歌级别的万亿级向量索引查询更快、成本更低。

不过 TurboQuant 目前还只是一个实验室成果,尚未大规模部署。

更关键的是,它只解决推理阶段的内存问题。而 AI 训练环节完全不受影响。

论文地址:
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

参考链接:
https://x.com/eastdakota/status/2036827179150168182?s=20


来源:量子位 | 作者:梦晨 | 日期:2026-03-26 11:03:26