Appearance
音视频通话接入
通过音视频通话,用户可以像打电话一样与智能体实时交流,适合语音助手、远程陪练、面试模拟等场景。Coze 支持语音、视频与屏幕共享三种模式,可结合视觉模型理解用户动作。
开启通话能力
- 在智能体编排页点击
设置→音视频通话。 - 勾选需要支持的模式:
- 语音通话:仅传输声音。
- 视频通话:需选择支持图片理解的模型(如豆包·视觉理解·Pro)。
- 屏幕共享:与视频共享类似,通过抽帧送入视觉模型分析。
- 配置默认输入方式(文本 / 语音通话 / 视频通话),决定用户打开智能体时进入的交互界面。
抽帧与模型设置
视频或屏幕共享开启后,可设置:
- 每秒抽帧数:1–24,值越高画面越清晰但消耗更多 Token,建议根据场景平衡。
- 开始说话前抽取秒数:默认 1 秒,帮助模型捕捉用户开口前的动作或画面。
确保所选模型具备视觉理解能力,否则无法解析视频帧。
调试与体验
- 在调试面板点击通话按钮,选择语音或视频即可实时测试。
- 发布到扣子商店后,用户可在对话界面右上角开启通话;若默认输入方式为语音/视频,则用户进入即自动接通。
- 使用 Real-Time SDK 时,需要在客户端指明智能体 ID 和通话模式。
最佳实践
- 搭配声纹识别、长期记忆等功能,可提供多用户差异化体验。
- 在提示词中明确语音/视频交互流程,例如“通话中优先语音回复”。
- 对于视觉模型,提前训练/调试关键画面,确保识别准确。
