meiwanlanjun

推出“满血版BF16”与“量化版INT8”双版本模型,前者保留高精度计算能力(误差<1.5%),后者通过8位整数量化技术将模型体积压缩60%,实现边端设备的低功耗推理。在非关键路径计算中自动切换量化模式,节省30%以上的GPU显存。