音视频通话接入

通过音视频通话，用户可以像打电话一样与智能体实时交流，适合语音助手、远程陪练、面试模拟等场景。Coze 支持语音、视频与屏幕共享三种模式，可结合视觉模型理解用户动作。

开启通话能力

在智能体编排页点击 设置 → 音视频通话。
勾选需要支持的模式：
- 语音通话：仅传输声音。
- 视频通话：需选择支持图片理解的模型（如豆包·视觉理解·Pro）。
- 屏幕共享：与视频共享类似，通过抽帧送入视觉模型分析。
配置默认输入方式（文本 / 语音通话 / 视频通话），决定用户打开智能体时进入的交互界面。

音视频通话配置界面

抽帧与模型设置

视频或屏幕共享开启后，可设置：

每秒抽帧数：1–24，值越高画面越清晰但消耗更多 Token，建议根据场景平衡。
开始说话前抽取秒数：默认 1 秒，帮助模型捕捉用户开口前的动作或画面。

确保所选模型具备视觉理解能力，否则无法解析视频帧。

调试与体验

在调试面板点击通话按钮，选择语音或视频即可实时测试。

通话入口

发布到扣子商店后，用户可在对话界面右上角开启通话；若默认输入方式为语音/视频，则用户进入即自动接通。

视频通话界面

屏幕共享演示

使用 Real-Time SDK 时，需要在客户端指明智能体 ID 和通话模式。

最佳实践

搭配声纹识别、长期记忆等功能，可提供多用户差异化体验。
在提示词中明确语音/视频交互流程，例如“通话中优先语音回复”。
对于视觉模型，提前训练/调试关键画面，确保识别准确。