跳转到内容

豆包语音输入使用指南

豆包语音输入是 HagiCode 深度集成的一项语音识别功能,它利用字节跳动豆包开放平台的语音识别服务,让你能够通过说话快速将语音转换为文本。通过深度集成,HagiCode 能够利用当前项目的上下文信息,为语音识别提供更准确的领域词汇和技术术语识别,显著提升在技术讨论中的识别准确率

在 HagiCode 平台中,豆包语音输入特别适合以下场景:

  • 快速输入提案:无需打字,直接口述即可快速创建和提交提案,大幅提升效率
  • 提供评注:在代码审查或文档评审时,用语音快速添加评注和反馈意见
  • 回答消息:在对话和讨论中,用语音快速回复消息,打字不再是负担
  • 长篇内容创作:快速生成项目文档、技术说明、会议记录等长篇内容
  • 深度集成与上下文感知:HagiCode 深度集成豆包语音识别,自动利用当前项目上下文(如代码结构、技术栈、领域术语),为语音识别提供精准的领域词汇识别,技术术语识别准确率显著提升
  • 免费试用时长:豆包平台提供 20 小时免费识别时长,零门槛体验语音输入
  • 速度极快:实时识别,说话的同时即可看到文字,无需等待
  • 准确率高:基于豆包先进的语音识别模型,配合项目上下文,识别结果精准可靠
  • 无缝集成:直接集成在 HagiCode 的消息输入框中,无需切换应用
  • 使用便捷:点击麦克风即可开始,简单直观

在使用豆包语音输入功能之前,你需要:

  1. 获取豆包开放平台账号

  2. 创建应用并获取凭证

    • 在平台上创建语音识别应用
    • 获取 APP IDAccess Token
  3. 确保网络连接

    • 语音识别服务需要网络连接
    • 确保你的设备能够访问豆包 API 服务

以下是使用豆包语音输入的基本步骤:

  1. 获取 APP ID 和 Access Token
  2. 在产品中配置语音识别
  3. 测试 API Key
  4. 找到语音输入框
  5. 点击麦克风按钮
  6. 授权麦克风权限
  7. 开始录音
  8. 实时查看识别结果
  9. 点击停止录音
  10. 文本插入完成

豆包语音输入功能需要在 HTTP/HTTPS 环境下运行。

环境支持情况说明
localhost本地开发环境(http://localhosthttp://127.0.0.1)
HTTPS 远程服务器部署到外网且使用 HTTPS 的 Web 应用
HTTP 远程服务器部署到外网但使用 HTTP 的 Web 应用
file:// 协议不支持直接打开 HTML 文件

HagiCode 的 Desktop 版本内置了 HTTP 环境,完全支持语音输入功能。你可以直接使用语音识别,无需额外配置。

本地 Host 模式支持语音输入功能:

  • 使用 localhost127.0.0.1 时,HTTP 和 HTTPS 都支持
  • 部署到外网时,必须使用 HTTPS
  1. 访问 豆包语音识别控制台
  2. 登录或注册账号
  3. 进入控制台,创建新的语音识别应用
  4. 在应用详情页面,找到并复制 APP ID
  1. 在豆包开放平台的控制台中
  2. 进入你的语音识别应用
  3. 找到 API 密钥管理区域
  4. 生成或复制 Access Token
  1. 打开 HagiCode 应用
  2. 进入 设置语音识别设置
  3. 在配置表单中填写以下信息:
    • Provider:选择 doubao(豆包)
    • APP ID:粘贴你从豆包平台获取的 APP ID
    • Access Token:粘贴你从豆包平台获取的 Access Token
  4. (可选)根据需要调整其他配置参数
  5. 点击 测试 API Key 按钮验证配置
  6. 配置验证成功后会自动保存到浏览器本地
字段必填说明默认值
Provider语音识别服务提供商doubao
APP ID应用唯一标识符,从豆包开放平台获取-
Access Token身份验证的访问令牌,从豆包开放平台获取-
Service URLAPI 服务地址,通常使用默认值(1)
热词表 ID用于提升特定词汇的识别准确率,详见热词配置-
最大录制时长单次录音的最长持续时间,范围 10-600 秒300 秒
采样率音频采样率,支持 16000 Hz16000 Hz
位深度音频位深度16-bit
声道数音频声道数,单声道1
(1)wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async

配置完成后,建议测试 API Key 是否有效:

  1. 点击 测试 API Key 按钮
  2. 系统会调用测试接口验证你的配置
  3. 如果配置正确,会显示成功提示
  4. 如果配置错误,会显示错误信息,请检查以下内容:
    • APP ID 和 Access Token 是否正确
    • 网络连接是否正常
    • Access Token 是否已过期

热词是指在语音识别过程中需要特别关注的词汇。通过配置热词,可以显著提升特定领域术语、产品名称、人名等专有名词的识别准确率。

豆包语音识别支持两种热词模式:

  1. 自定义热词文本:直接在设置中输入需要识别的热词短语
  2. 平台热词表:引用豆包自学习平台上预先配置的热词表

这两种模式可以单独使用,也可以组合使用。

在语音识别设置中,找到”自定义热词文本”输入框,每行输入一个热词短语。

格式限制:

项目限制
每行字符数最多 50 字符
总行数最多 100 行
总字符数最多 5000 字符
  1. 访问 豆包自学习平台
  2. 创建热词表,添加需要识别的热词
  3. 获取生成的 热词表 ID(boosting_table_id)
  4. 在设置中输入热词表 ID

热词表 ID 格式要求:

项目限制
字符类型字母、数字、下划线、连字符
最大长度200 字符

如果你同时配置了自定义热词和平台热词表,可以开启组合模式。组合模式下,豆包 API 会同时考虑两种热词来源,识别准确率通常比单独使用任意一种更高。

在 HagiCode 中,带有麦克风图标的文本输入框都支持语音输入。这些组件通常被称为 VoiceTextArea

常见的语音输入位置包括:

  • 消息输入框
  • 文本编辑区域
  • 需要输入文本的各种表单字段
  1. 找到带麦克风图标的输入框
  2. 点击麦克风按钮
  3. 浏览器会请求麦克风权限
  4. 点击 允许 授权麦克风访问

授权成功后,语音识别会自动启动,你可以看到:

  • 波形动画:麦克风按钮内会显示动态的声波波形,表示正在录音
  • 时长显示:按钮下方会显示当前录音时长
  • 实时识别:识别的文本会临时显示在光标位置

在录音过程中,语音识别引擎会实时将你的语音转换为文字:

  • 识别的文本会以灰色临时显示在输入框中
  • 随着你的说话,识别结果会不断更新
  • 支持普通话识别,准确率较高

要停止语音识别,你可以:

  1. 点击麦克风按钮:再次点击按钮可停止录音
  2. 点击输入框:点击输入框的其他区域也会停止录音

停止后,识别的最终文本会被正式插入到输入框中,你可以继续编辑或发送。