低比特模型一直处于小众赛道,直到今年内存价格一年涨了5倍,倒逼整个大模型行业寻求性价比更高的落地解决方案。
而早在2024年下半年,面壁智能就开始押注2-bit及以下的技术路线。彼时,面壁智能AI Infra团队在训练时观察到,从BF16到INT4(从高精度到底精度),模型能力损失极小,说明“甜蜜点”一定在更低处。
基于此,他们在当时形成了两个“反共识”:更低比特的模型,能获得更高的知识密度;内存是模型行业最稀缺的资源,未来一定会变得越来越值钱。
带着这样的判断,面壁智能在GPU上率先验证了BitCPM系列。到今年,他们将这套方法论完整迁移到了华为昇腾,端到端跑通了国产算力平台的1.58-bit训练。
图片
测试数据显示,相比传统BF16精度,BitCPM-CANN在推理阶段释放约6倍显存空间,同时将模型能力保留率维持在90%–97.2%。这意味着,同等模型能力在终端运行,只需过去1/6的内存。
1.58-bit的极限挑战
“1.58-bit是技术极限验证的探针”。
面壁智能AI Infra技术负责人、清华大学计算机系高性能所的水木学者博士后李宇轩向光子星球解释,开源发布最极端的1.58-bit,目的是为了验证极低位宽量化感知训练之路能否走通。
“1.58-bit是保证训练稳定、模型能力不崩塌的最低位宽要求。如果这都能成功训练并保持高能力,那么2-bit、4-bit、8-bit等更宽松的低比特方案自然更容易实现,且效果更好”,这是一种取法乎上,仅得乎中的技术策略,即先攻克最难的点,然后再向下兼容。
如何获得参数更小却更强的模型?行业中传统的解法是PTQ(后训练量化),即先用高精度如BF16完成模型训练,再将其权重压缩至INT8或INT4。
INT4是一种4位整数精度,相比BF16节省4倍内存,是目前低比特量化的“实用基准线”,而1.58-bit则是突破这条线,向极限压缩进一步逼近的探索。
这本质是一种以精度换内存的做法,压缩越狠,性能损失越大。就好比把一本写好的名著,压缩成口袋书,每个字只能用原来4/1的墨水写,结果是字迹模糊、内容丢失,有的地方甚至看不懂。
正是看到了PTQ的弊端,面壁智能在训练上采用了先做QAT(量化感知训练)、再蒸馏的方案。李宇轩表示,这个方案的核心是既能稳定收敛,又能保留全精度能力。这相当于作者最初就知道要被制作成口袋书,直接用更简洁的语言表达相同的内容,所以压缩后依然清晰可读。
以前我们认为,位宽越大、精度越高,模型就越聪明。但面壁智能的实践证明,重要的不是每个参数占多大地方,而是占的每一寸地方装了多少知识。低比特训练不再是,为了省内存而牺牲精度的妥协,而是一种全新的思路:用最少的资源,承载最高的知识密度。
|
|