存储成本大幅攀升背景下,面壁智能联合清华大学推出1.58-bit BitCPM-CANN大模型,通过量化感知训练与知识蒸馏,将模型推理显存压缩至BF16的六分之一,可在同等内存下支撑双倍参数量模型运行,该模型在11项权威测试中保留90%-97%精度,极大缓解端侧设备“显存焦虑”,并完全基于国产昇腾算力完成,为手机、车机等场景提供低成本AI部署路径。
半导体存储领域正经历一轮罕见的成本攀升周期,而在大模型应用向终端快速渗透的当下,这一趋势让“显存资源”变得尤为金贵,5月25日,面壁智能携手清华大学及OpenBMB开源社区推出了一款颇具争议的答案:BitCPM-CANN大模型系列,这个完全基于国产算力平台“训出来”的模型,最拿手的特点在于将参数精度做到了1.58-bit,换算成人话,就是它在保证一定智能水准的情况下,能让推理时的显存占用压缩到原来BF16精度的六分之一。

换句更直白的话说:你过去跑一个4B参数模型消耗的内存,现在足够支撑一个8B参数模型在相同的芯片上跑起来,这个数字看起来有点朴素,但放在如今DRAM价格暴涨250%以上的背景下,它相当于给手机厂商、车机厂家甚至物联网设备指了一条“省着点用”的路。
高盛最新的研报像一瓢冷水泼了下来——他们对2026年的存储价格预测一路走高:DRAM价格区间跳升250%到280%,NAND也飙了200%到250%,至于高带宽存储HBM,因为制造门槛极高以及产能扩张跟不上需求,涨幅可能更为夸张,背后推手正是AI服务器的疯狂采购,但谁能想到,这股风潮也愁坏了手机厂商。
面壁智能负责AI基础架构的李宇轩在接受采访时一句话点破行业现状:做存储的变成了理直气壮的卖家,拿内存的大模型团队却“焦虑到数刘海”,他给出一个扎心数值——过去一年,闪存芯片价格翻了差不多5倍。“显存焦虑已经从实验室蔓延到了产品经理的预算表里。”
要是以前遇到这么猛的存储压力,绝大数团队只能走老路:先把一个大模型用BF16之类的高精度跑完,等它学会了知识,再用“后训练量化”的方式把权重强行拧成INT8甚至INT4,痛点是,这个步骤往往伴随着准确率雪崩,掉性能掉到用户端明显能感觉到“智商退化”。
面壁他们换了一种思路:打一开始就不让孩子在养尊处优的环境里长大,他们启用了量化感知训练(QAT),让模型一直在很低的比特精度(-1,0,1三个值)下挣扎着学东西,等到模型跑到差不多,再拿一个全精度的模型“大号”在旁边盯着,通过知识蒸馏的姿态把信息一点一滴传递过去,这个步骤最绝的地方——低比特模型其实对数据质量极度敏感,你必须用更巧妙的配比和教师模型才能不让知识溢出来。
李宇轩打了个比方:这就像一个资质本来就普通的学生,你不可能一上来就让他背诵英文原著,你首先得逼他把基础公式和单词塞进脑壳,等他足够稳定进入了收敛状态,再逐步加大训练量,老师才不会兜底都兜不住。
技术层面,0和1的二元极简范式谁不想要?压缩比还能更极致,但李宇轩给出了一个很技术也很实际的解释:1-bit的二值权重虽然数学上简洁,却同时损失了对称性和有效含零的能力,这会触达精度悬崖,1.58-bit这个名字来自一种介于整数和分数之间的特殊编码——它的三个值(-1,0,1)刚好撑开了表征的复杂程度,是面壁看来“比特蜜点”的真正位置。

面壁也放了硬数据:BitCPM家族发布了一堆不同大小的版本,从500M跑到8B,结果在常识问答、阅读理解那一堆总共11项权威测试里,它的成绩保留了全模型精度的90%-97%,这个损伤绝对不能说无痛,但足以让不少设备在物理内存吃紧的情况下还能运行大模型应用。
对于普通消费者最担忧的“低比特模型是否变傻”,李宇轩的回答反而很开放:“你完全可以用后训练的方式把不想损失的领域使劲保护好。”手机最怕的就是聊天能力弱化、助手秒变智障;而代码性能差一点客户无感,那么算法甚至可以把因低比特被阉割掉的表现全部推到代码评价里扎堆,而保住最重要的交互体验。“它退化起来不是一刀剁掉一个大区的滑坡,而是可以人为控制的平缓地带。”李宇轩补了一句。
商业化摊开来说,直指手机、智能座舱这类算力和散热双受限、竞争却白热化的场景,低比特型号配合稀疏化(MoE),大规模才能释放性价比高潮,李宇轩预测一款60B参数级别的终端模型有望在2026年之前装到手机芯片上,那时候端端模型与云端大厂的智能鸿沟将进一步被抹平。
比特压缩这件事还有一个闷声发财的点,彻底跑在了中资生态之上”——过去的过激量化验证基本上是英伟达CUDA罩着的天下,而面壁团队在华为昇腾原生环境对极端bit条件的算法进行验证、进行算子级别的编译,花了一个月硬生生把底层软件栈捶了出来,根据李宇轩介绍,他们遇到的真正地狱难度不是芯片颗粒或者总线,而是软件生态——哪怕同一个算子的效率也高度依赖于算力的编程环境,如今有了端到端框架的打通,国内的主干模型、框架与芯片可以在更细的颗粒上联手操演。
拉回现实,眼下内存涨价还在攀升,端侧“显存靠借”的利润窘境只会加剧,而像BitCPM这样原本偏学术的极低比特方案,正在成为各大AR、手机厂甚至小基站开发者心头一本本刚需教科书,话说到最后能治标治本,至少从6倍的存储换体量来看,省下的是真金白银和产品能否跑起来的底层天梯,在这个短期无法改变报价单的时代,可能是国产造芯的另一种柔性突围。
```