LLM Context

Context Length#

大模型本身的 context 长度在模型训练阶段就已经固定了。

在部署大模型的时候,服务引擎可以通过 RoPE Scaling 技术增加 context 长度,但是:

  1. 部署时增加 context 长度会使模型占用的内存平方倍数的增加,可能会OOM。
  2. 部署时增加 context 长度会使模型降智,降低其准确性。

Prompt Cache#

为了加速模型的处理速度,在大模型部署时引入了 Prompt Caching 技术。

该技术在模型的提示词中发现需要缓存的部分后,会将模型对这部分文本的计算张量存储下来,下次请求中如果有对应的缓存文本,则不需要模型重新计算,从而提升模型的处理性能。

这是一个典型的空间换时间的技术,所以本地部署启用这个特性时,会需要大量的显存来支撑。

Prompt Cache 不能增加模型的 Context Length,它只是加速模型的计算速度。

comments powered by Disqus