Skip to content

模型选择与参数

Coze 已接入多款豆包与合作模型,并提供细粒度的参数面板,帮助你在不同场景下获得稳定输出。本指南涵盖模型挑选、生成多样性调节、输入输出限制、上下文缓存与默认指令等进阶功能。


选择合适的模型

  • 在智能体编排页或工作流的大模型节点中选择模型。常见考量:
    • 长文本生成 / 优化:选择支持长上下文的模型。
    • 复杂业务流程:使用支持 Function Call 的模型,便于工具调用。
    • 多模态需求:选择支持图像、音视频的模型版本。
  • 订阅套餐对应的模型权限请参考官方说明《模型服务》。
  • 调整技能、知识配置后,可切换不同模型对比表现,寻找最佳组合。

模型选择界面


生成多样性

预设的「精确 / 平衡 / 创意」模式通过以下参数控制输出:

参数说明调整建议
生成随机性(Temperature)控制结果随机度;数值越高越活跃客服等事实场景用低值,创作场景适当调高
Top P累计概率阈值,约束候选词空间结合 Temperature 细调,避免同时大幅修改
重复语句惩罚(Frequency Penalty)限制重复词汇正值可减少重复表达
重复主题惩罚(Presence Penalty)限制重复主题正值可鼓励引入新话题

如需自定义,可展开「高级设置」逐项调整。


输入与输出设置

  • 携带上下文轮数:决定带入模型的历史对话轮次,轮次越多语境越完整,但 Token 消耗越高。
  • 最大回复长度:限制单次输出的最大 Token 数,避免过长或失控的回答。
  • 输出格式:控制模型响应的格式,例如纯文本、Markdown 等。

上下文缓存(前缀缓存)

适用于大量复用固定提示词的场景,可显著降低 Token 消耗。

  1. 选择支持前缀缓存的模型,在模型设置中开启「上下文缓存」。
  2. 拆分提示词:
    • 缓存提示词:模板、规则、背景信息等稳定内容,系统会缓存并复用。
    • 非缓存提示词:与当前请求相关的动态信息。
  3. 在调试详情中查看 cached_tokenstotal_tokens,评估命中率和节省成本。

注意:开启缓存后请避开与 Function Call 等不兼容能力的组合,详见官方限制说明。


默认指令

启用后,扣子会自动注入以下系统指令:

  • 当前时间:让智能体在对话中可引用实时时间。
  • 系统提示词防泄漏:阻止用户获取内部配置,保护敏感信息。

可按需在模型设置面板开启或关闭。


深度思考

部分模型支持深度思考(Chain-of-Thought)开关:

  • 开启:模型先输出思维链再给出结论,有助于复杂推理,但会增加 Token 开销,并禁用 Function Call、插件、工作流等能力。
  • 关闭:直接生成答案,响应更快。
  • 自动:仅「豆包·1.6·自动深度思考·多模态模型」支持,系统会根据问题难度自动判断是否启用。

当前可配置深度思考的模型包括:

  • 豆包·1.6·自动深度思考·多模态模型
  • 豆包·1.6·极致速度·多模态模型
  • 豆包·1.5·Pro·视觉深度思考
  • 豆包·GUI·Agent 模型

常见问题

  • 问答智能体能否限制输入输出字数?
    可以通过「携带上下文轮数」「最大回复长度」等参数控制。

  • 和模型对话时报错“平台错误”怎么办?
    检查当前模型是否可用、配额是否充足,或更换备用模型。

  • 为什么前缀缓存一直未命中?
    确认选择了支持缓存的模型,并严格区分缓存/非缓存提示词;修改提示词后需重新触发缓存。

  • 如何评估缓存节省的成本?
    在调试详情查看 cached_tokens,与 total_tokens 比较即可估算节省比例(最终账单以火山引擎结算为准)。