Anthropic
Anthropic 模型支持 显式 Prompt caching。 在本平台, 无论是 OpenAI chat/completions 协议,还是 Anthropic v1/messages 协议,均可使用"cache_control": {"type": "ephemeral"}
指定需要缓存的内容。
- Claude Opus 4.1、Claude Opus 4、Claude Sonnet 4.5、Claude Sonnet 4、Claude Sonnet 3.7 为 1024 tokens
- Claude Haiku 4.5、Claude Haiku 3.5 和 Claude Haiku 3 为 2048 tokens
OpenAI 及 OpenAI 兼容模型
通常,这些模型可能支持隐式缓存。 当用户反复使用相同的 Prompt 前缀访问同一模型,有一定概率命中缓存。Gemini
目前仅支持隐式缓存。隐式缓存无需手动设置或额外的 cache_control 配置。当用户反复使用相同的 Prompt 前缀访问同一模型,有一定概率命中缓存。 注意点如下- 平均 TTL(缓存存活时间)为 3-5 分钟,但可能会有所变化(例如可能仅为几秒)
- Gemini 2.5 Flash 要求最小输入为 1024 tokens,Gemini 2.5 Pro 要求最小为 4096 tokens