模型选择与参数

Coze 已接入多款豆包与合作模型，并提供细粒度的参数面板，帮助你在不同场景下获得稳定输出。本指南涵盖模型挑选、生成多样性调节、输入输出限制、上下文缓存与默认指令等进阶功能。

选择合适的模型

在智能体编排页或工作流的大模型节点中选择模型。常见考量：
- 长文本生成 / 优化：选择支持长上下文的模型。
- 复杂业务流程：使用支持 Function Call 的模型，便于工具调用。
- 多模态需求：选择支持图像、音视频的模型版本。
订阅套餐对应的模型权限请参考官方说明《模型服务》。
调整技能、知识配置后，可切换不同模型对比表现，寻找最佳组合。

模型选择界面

生成多样性

预设的「精确 / 平衡 / 创意」模式通过以下参数控制输出：

参数	说明	调整建议
生成随机性（Temperature）	控制结果随机度；数值越高越活跃	客服等事实场景用低值，创作场景适当调高
Top P	累计概率阈值，约束候选词空间	结合 Temperature 细调，避免同时大幅修改
重复语句惩罚（Frequency Penalty）	限制重复词汇	正值可减少重复表达
重复主题惩罚（Presence Penalty）	限制重复主题	正值可鼓励引入新话题

如需自定义，可展开「高级设置」逐项调整。

输入与输出设置

携带上下文轮数：决定带入模型的历史对话轮次，轮次越多语境越完整，但 Token 消耗越高。
最大回复长度：限制单次输出的最大 Token 数，避免过长或失控的回答。
输出格式：控制模型响应的格式，例如纯文本、Markdown 等。

上下文缓存（前缀缓存）

适用于大量复用固定提示词的场景，可显著降低 Token 消耗。

选择支持前缀缓存的模型，在模型设置中开启「上下文缓存」。
拆分提示词：
- 缓存提示词：模板、规则、背景信息等稳定内容，系统会缓存并复用。
- 非缓存提示词：与当前请求相关的动态信息。
在调试详情中查看 cached_tokens 与 total_tokens，评估命中率和节省成本。

注意：开启缓存后请避开与 Function Call 等不兼容能力的组合，详见官方限制说明。

默认指令

启用后，扣子会自动注入以下系统指令：

当前时间：让智能体在对话中可引用实时时间。
系统提示词防泄漏：阻止用户获取内部配置，保护敏感信息。

可按需在模型设置面板开启或关闭。

深度思考

部分模型支持深度思考（Chain-of-Thought）开关：

开启：模型先输出思维链再给出结论，有助于复杂推理，但会增加 Token 开销，并禁用 Function Call、插件、工作流等能力。
关闭：直接生成答案，响应更快。
自动：仅「豆包·1.6·自动深度思考·多模态模型」支持，系统会根据问题难度自动判断是否启用。

当前可配置深度思考的模型包括：

豆包·1.6·自动深度思考·多模态模型
豆包·1.6·极致速度·多模态模型
豆包·1.5·Pro·视觉深度思考
豆包·GUI·Agent 模型

常见问题

问答智能体能否限制输入输出字数？
可以通过「携带上下文轮数」「最大回复长度」等参数控制。
和模型对话时报错“平台错误”怎么办？
检查当前模型是否可用、配额是否充足，或更换备用模型。
为什么前缀缓存一直未命中？
确认选择了支持缓存的模型，并严格区分缓存/非缓存提示词；修改提示词后需重新触发缓存。
如何评估缓存节省的成本？
在调试详情查看 cached_tokens，与 total_tokens 比较即可估算节省比例（最终账单以火山引擎结算为准）。

Coze 介绍

快速开始

开发智能体

添加技能

知识与记忆

体验与调试

模型选择与参数

选择合适的模型

生成多样性

输入与输出设置

上下文缓存（前缀缓存）

默认指令

深度思考

常见问题

模型选择与参数 ​

选择合适的模型 ​

生成多样性 ​

输入与输出设置 ​

上下文缓存（前缀缓存） ​

默认指令 ​

深度思考 ​

常见问题 ​

模型选择与参数

选择合适的模型

生成多样性

输入与输出设置

上下文缓存（前缀缓存）

默认指令

深度思考

常见问题