Meta 推出 Llama 3.2 1B / 3B 模型量化版:功耗更低、可适用更多轻量移动设备
IT之家10月27日报道称,继今年9月开源Llama 3.2的1B与3B模型后,Meta于10月24日推出这两个模型的量化版本,经过量化处理后,模型尺寸平均减少了56%,RAM使用量平均减少了41%,模型速度提高了2至4倍,同时降低了功耗,从而使这些模型能够在更多移动设备上部署。
IT之家解释称,模型量化(Model Quantization)是通过不同的训练技术将浮点模型转换为定点模型,可压缩模型参数,降低模型复杂性,以便在更轻便的平台上运行。
据Meta表示,他们采用了量化感知训练(Quantization-Aware Training,QAT)和后训练量化(SpinQuant)两种方法对模型进行量化,其中“量化感知训练”更注重模型的准确性,而“后训练量化”更侧重于模型的可移植性。
研究人员为Llama 3.2的1B和3B模型共推出了两个量化版本,分别是Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant、Llama 3.2 3B QLoRA和Llama 3.2 3B SpinQuant。
Meta声称,这些量化模型比非量化的Llama BF16模型运行速度更快,RAM占用更少,功耗更低,同时保持几乎与Llama BF16版本相同的精度。
虽然量化后的Llama 3.2 1B和3B模型仅支持8000个Token的上下文(原版模型支持12.8万个Token),但Meta的测试表明,从基准测试结果上看,无论是Llama QLoRA还是Llama SpinQuant等量化版本,实际上与原来的Llama BF16版本差距不远。
目前,Meta已在一加 12、三星S24+/S22以及苹果iOS设备(具体型号未公布)等移动平台上测试这些经过量化处理的模型,测试结果显示“表现良好”,研究人员还计划通过神经处理单元(NPU)提高这些量化模型的性能。
广告声明:文中包含的外部链接可能包括但不限于超链接、二维码、口令等形式,仅用于提供更多信息,节省您的搜索时间,仅供参考。