面壁智能BitCPM-CANN：端侧AI的内存革命

低比特模型一直处于小众赛道，直到今年内存价格一年涨了5倍，倒逼整个大模型行业寻求性价比更高的落地解决方案。

而早在2024年下半年，面壁智能就开始押注2-bit及以下的技术路线。彼时，面壁智能AI Infra团队在训练时观察到，从BF16到INT4（从高精度到底精度），模型能力损失极小，说明“甜蜜点”一定在更低处。

基于此，他们在当时形成了两个“反共识”:更低比特的模型，能获得更高的知识密度;内存是模型行业最稀缺的资源，未来一定会变得越来越值钱。

带着这样的判断，面壁智能在GPU上率先验证了BitCPM系列。到今年，他们将这套方法论完整迁移到了华为昇腾，端到端跑通了国产算力平台的1.58-bit训练。

图片

测试数据显示，相比传统BF16精度，BitCPM-CANN在推理阶段释放约6倍显存空间，同时将模型能力保留率维持在90%–97.2%。这意味着，同等模型能力在终端运行，只需过去1/6的内存。

1.58-bit的极限挑战

“1.58-bit是技术极限验证的探针”。

面壁智能AI Infra技术负责人、清华大学计算机系高性能所的水木学者博士后李宇轩向光子星球解释，开源发布最极端的1.58-bit，目的是为了验证极低位宽量化感知训练之路能否走通。

“1.58-bit是保证训练稳定、模型能力不崩塌的最低位宽要求。如果这都能成功训练并保持高能力，那么2-bit、4-bit、8-bit等更宽松的低比特方案自然更容易实现，且效果更好”，这是一种取法乎上，仅得乎中的技术策略，即先攻克最难的点，然后再向下兼容。

如何获得参数更小却更强的模型?行业中传统的解法是PTQ（后训练量化），即先用高精度如BF16完成模型训练，再将其权重压缩至INT8或INT4。

INT4是一种4位整数精度，相比BF16节省4倍内存，是目前低比特量化的“实用基准线”，而1.58-bit则是突破这条线，向极限压缩进一步逼近的探索。

这本质是一种以精度换内存的做法，压缩越狠，性能损失越大。就好比把一本写好的名著，压缩成口袋书，每个字只能用原来4/1的墨水写，结果是字迹模糊、内容丢失，有的地方甚至看不懂。

正是看到了PTQ的弊端，面壁智能在训练上采用了先做QAT（量化感知训练）、再蒸馏的方案。李宇轩表示，这个方案的核心是既能稳定收敛，又能保留全精度能力。这相当于作者最初就知道要被制作成口袋书，直接用更简洁的语言表达相同的内容，所以压缩后依然清晰可读。

以前我们认为，位宽越大、精度越高，模型就越聪明。但面壁智能的实践证明，重要的不是每个参数占多大地方，而是占的每一寸地方装了多少知识。低比特训练不再是，为了省内存而牺牲精度的妥协，而是一种全新的思路:用最少的资源，承载最高的知识密度。

帐号		自动登录	找回密码
密码			立即注册

面壁智能BitCPM-CANN：端侧AI的内存革命

全部评论 0

浏览过的版块

热文

怎么提高四象限图时间管理443热度

《欢乐钓鱼大师》拿下畅销榜TOP6的实力是什么440热度

小红书2026年经营趋势预判421热度

巧用视频号分享员玩法，直播流量翻倍414热度

小红书发力店播，谁拿到了红利？392热度

微淘公众平台:22个自媒体平台+注册入口389热度

聪明大脑如何匹配现实需求？386热度

抖音生服又出手了，这4条红线千万别碰355热度

《庆余年》广告推广为啥这么多解析337热度

移动飞信晨曦版，联通电信用户可注册310热度

内部营销有哪些营销模式305热度

“剧王”《庆余年2》：一个超级IP的诞生300热度

千问宣布春节期间已完成2亿笔真实订单295热度

京东2025年营收超1.3万亿活跃用户突破7亿289热度

“狼性”刘强东越来越焦虑了283热度

媒体推广渠道40个平台值得收藏281热度

文玩电商头部平台分化剩余玩家面临挑战279热度

小崔读书汇抛弃微博去今日头条怎么看277热度

装饰互联网公司是做什么的275热度

TOB客户私域运营渠道整理与反哺268热度

所属版块