量化、蒸馏、投机解码加速大模型推理
大语言模型参数规模庞大,推理成本高。通过系统优化,可在保持性能的同时显著提升效率。
将FP32/FP16权重转换为INT8/INT4,减少显存占用和计算量。GPTQ、AWQ、GGUF是主流量化方案。
将大模型知识迁移到小模型,实现轻量化部署。MiniLLM、DistilBERT是成功案例。