Skip to content

07 Efficiency

高效推理与部署:量化(GPTQ、AWQ)、蒸馏、剪枝、Speculative Decoding、FlashAttention、KV Cache 优化、LoRA 等。