Skip to content

音视频通话接入

通过音视频通话,用户可以像打电话一样与智能体实时交流,适合语音助手、远程陪练、面试模拟等场景。Coze 支持语音、视频与屏幕共享三种模式,可结合视觉模型理解用户动作。


开启通话能力

  1. 在智能体编排页点击 设置音视频通话
  2. 勾选需要支持的模式:
    • 语音通话:仅传输声音。
    • 视频通话:需选择支持图片理解的模型(如豆包·视觉理解·Pro)。
    • 屏幕共享:与视频共享类似,通过抽帧送入视觉模型分析。
  3. 配置默认输入方式(文本 / 语音通话 / 视频通话),决定用户打开智能体时进入的交互界面。

音视频通话配置界面


抽帧与模型设置

视频或屏幕共享开启后,可设置:

  • 每秒抽帧数:1–24,值越高画面越清晰但消耗更多 Token,建议根据场景平衡。
  • 开始说话前抽取秒数:默认 1 秒,帮助模型捕捉用户开口前的动作或画面。

确保所选模型具备视觉理解能力,否则无法解析视频帧。


调试与体验

  • 在调试面板点击通话按钮,选择语音或视频即可实时测试。

通话入口

  • 发布到扣子商店后,用户可在对话界面右上角开启通话;若默认输入方式为语音/视频,则用户进入即自动接通。

视频通话界面

屏幕共享演示

  • 使用 Real-Time SDK 时,需要在客户端指明智能体 ID 和通话模式。

最佳实践

  • 搭配声纹识别、长期记忆等功能,可提供多用户差异化体验。
  • 在提示词中明确语音/视频交互流程,例如“通话中优先语音回复”。
  • 对于视觉模型,提前训练/调试关键画面,确保识别准确。