上下文缓存(Responses API)
概述
上下文缓存(后简称缓存)旨在为您优化调用模型服务体验。通过缓存常用上下文信息,减少每次请求时重复处理加载开销,达到降低成本(命中缓存的输入有折扣优惠)目标。适合多轮对话、工具调用、角色扮演等需多次传入相同内容的场景。
设置 "caching": {"type": "enabled"},可以将本轮输入输出(不包括思维链内容)信息写入缓存。在新一轮的对话中传入请求 ID,可将上轮缓存的输入输出信息传入新一轮对话。缓存输入的信息 的单价远低于未缓存的输入的信息的单价,您可以通过缓存输入,来大幅降低成本。
相关文档
- API 结构及参数请参见 Responses API
- 支持模型请有:
- Doubao/Doubao-seed-1.6
- Doubao/Doubao-seed-1.6-thinking
- Doubao/Doubao-seed-1.6-flash
开通服务
快速开始
以下示例展示 如何使用缓存功能进行长文本分析:
bash
# 首次请求:创建缓存
curl --location '<ai-api-base-url>/llm/v1/responses' \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data '{
"model": "Doubao/Doubao-seed-1.6",
"input": [
{
"role": "system",
"content": "你是融云技术支持专家,请根据下面的融云 IM 产品文档内容回答用户问题。\n<融云 IM SDK 完整技术文档>\n回复 OK,并等待用户的提问"
}
],
"caching": {"type": "enabled"},
"thinking": {"type": "disabled"}
}'
# 后续请求:使用缓存(替换 resp_123456 为实际响应 ID)
curl --location '<ai-api-base-url>/llm/v1/responses' \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data '{
"model": "Doubao/Doubao-seed-1.6",
"previous_response_id": "resp_123456",
"input": [
{"role": "user", "content": "融云 IM SDK 如何实现消息已读回执?"}
],
"caching": {"type": "enabled"},
"thinking": {"type": "disabled"}
}'