LLM Context
Context Length#
大模型本身的 context 长度在模型训练阶段就已经固定了。
在部署大模型的时候,服务引擎可以通过 RoPE Scaling 技术增加 context 长度,但是:
- 部署时增加 context 长度会使模型占用的内存平方倍数的增加,可能会OOM。
- 部署时增加 context 长度会使模型降智,降低其准确性。
Prompt Cache#
为了加速模型的处理速度,在大模型部署时引入了 Prompt Caching 技术。
该技术在模型的提示词中发现需要缓存的部分后,会将模型对这部分文本的计算张量存储下来,下次请求中如果有对应的缓存文本,则不需要模型重新计算,从而提升模型的处理性能。
这是一个典型的空间换时间的技术,所以本地部署启用这个特性时,会需要大量的显存来支撑。
Prompt Cache 不能增加模型的 Context Length,它只是加速模型的计算速度。