Appearance
模型选择与参数
Coze 已接入多款豆包与合作模型,并提供细粒度的参数面板,帮助你在不同场景下获得稳定输出。本指南涵盖模型挑选、生成多样性调节、输入输出限制、上下文缓存与默认指令等进阶功能。
选择合适的模型
- 在智能体编排页或工作流的大模型节点中选择模型。常见考量:
- 长文本生成 / 优化:选择支持长上下文的模型。
- 复杂业务流程:使用支持 Function Call 的模型,便于工具调用。
- 多模态需求:选择支持图像、音视频的模型版本。
- 订阅套餐对应的模型权限请参考官方说明《模型服务》。
- 调整技能、知识配置后,可切换不同模型对比表现,寻找最佳组合。
生成多样性
预设的「精确 / 平衡 / 创意」模式通过以下参数控制输出:
| 参数 | 说明 | 调整建议 |
|---|---|---|
| 生成随机性(Temperature) | 控制结果随机度;数值越高越活跃 | 客服等事实场景用低值,创作场景适当调高 |
| Top P | 累计概率阈值,约束候选词空间 | 结合 Temperature 细调,避免同时大幅修改 |
| 重复语句惩罚(Frequency Penalty) | 限制重复词汇 | 正值可减少重复表达 |
| 重复主题惩罚(Presence Penalty) | 限制重复主题 | 正值可鼓励引入新话题 |
如需自定义,可展开「高级设置」逐项调整。
输入与输出设置
- 携带上下文轮数:决定带入模型的历史对话轮次,轮次越多语境越完整,但 Token 消耗越高。
- 最大回复长度:限制单次输出的最大 Token 数,避免过长或失控的回答。
- 输出格式:控制模型响应的格式,例如纯文本、Markdown 等。
上下文缓存(前缀缓存)
适用于大量复用固定提示词的场景,可显著降低 Token 消耗。
- 选择支持前缀缓存的模型,在模型设置中开启「上下文缓存」。
- 拆分提示词:
- 缓存提示词:模板、规则、背景信息等稳定内容,系统会缓存并复用。
- 非缓存提示词:与当前请求相关的动态信息。
- 在调试详情中查看
cached_tokens与total_tokens,评估命中率和节省成本。
注意:开启缓存后请避开与 Function Call 等不兼容能力的组合,详见官方限制说明。
默认指令
启用后,扣子会自动注入以下系统指令:
- 当前时间:让智能体在对话中可引用实时时间。
- 系统提示词防泄漏:阻止用户获取内部配置,保护敏感信息。
可按需在模型设置面板开启或关闭。
深度思考
部分模型支持深度思考(Chain-of-Thought)开关:
- 开启:模型先输出思维链再给出结论,有助于复杂推理,但会增加 Token 开销,并禁用 Function Call、插件、工作流等能力。
- 关闭:直接生成答案,响应更快。
- 自动:仅「豆包·1.6·自动深度思考·多模态模型」支持,系统会根据问题难度自动判断是否启用。
当前可配置深度思考的模型包括:
- 豆包·1.6·自动深度思考·多模态模型
- 豆包·1.6·极致速度·多模态模型
- 豆包·1.5·Pro·视觉深度思考
- 豆包·GUI·Agent 模型
常见问题
问答智能体能否限制输入输出字数?
可以通过「携带上下文轮数」「最大回复长度」等参数控制。和模型对话时报错“平台错误”怎么办?
检查当前模型是否可用、配额是否充足,或更换备用模型。为什么前缀缓存一直未命中?
确认选择了支持缓存的模型,并严格区分缓存/非缓存提示词;修改提示词后需重新触发缓存。如何评估缓存节省的成本?
在调试详情查看cached_tokens,与total_tokens比较即可估算节省比例(最终账单以火山引擎结算为准)。
