LLM Context | Zhang Jian Ao Notes

Context Length#

大模型本身的 context 长度在模型训练阶段就已经固定了。

在部署大模型的时候，服务引擎可以通过 RoPE Scaling 技术增加 context 长度，但是：

为了加速模型的处理速度，在大模型部署时引入了 Prompt Caching 技术。

该技术在模型的提示词中发现需要缓存的部分后，会将模型对这部分文本的计算张量存储下来，下次请求中如果有对应的缓存文本，则不需要模型重新计算，从而提升模型的处理性能。

这是一个典型的空间换时间的技术，所以本地部署启用这个特性时，会需要大量的显存来支撑。

Prompt Cache 不能增加模型的 Context Length，它只是加速模型的计算速度。