Matters

推出“满血版BF16”与“量化版INT8”双版本模型，前者保留高精度计算能力（误差<1.5%），后者通过8位整数量化技术将模型体积压缩60%，实现边端设备的低功耗推理。在非关键路径计算中自动切换量化模式，节省30%以上的GPU显存。