豆包语音输入使用指南

概述

什么是豆包语音输入

豆包语音输入是 HagiCode 深度集成的一项语音识别功能，它利用字节跳动豆包开放平台的语音识别服务，让你能够通过说话快速将语音转换为文本。通过深度集成，HagiCode 能够利用当前项目的上下文信息，为语音识别提供更准确的领域词汇和技术术语识别，显著提升在技术讨论中的识别准确率。

主要应用场景

在 HagiCode 平台中，豆包语音输入特别适合以下场景：

快速输入提案：无需打字，直接口述即可快速创建和提交提案，大幅提升效率
提供评注：在代码审查或文档评审时，用语音快速添加评注和反馈意见
回答消息：在对话和讨论中，用语音快速回复消息，打字不再是负担
长篇内容创作：快速生成项目文档、技术说明、会议记录等长篇内容

为什么选择豆包语音输入

深度集成与上下文感知：HagiCode 深度集成豆包语音识别，自动利用当前项目上下文（如代码结构、技术栈、领域术语），为语音识别提供精准的领域词汇识别，技术术语识别准确率显著提升
免费试用时长：豆包平台提供 20 小时免费识别时长，零门槛体验语音输入
速度极快：实时识别，说话的同时即可看到文字，无需等待
准确率高：基于豆包先进的语音识别模型，配合项目上下文，识别结果精准可靠
无缝集成：直接集成在 HagiCode 的消息输入框中，无需切换应用
使用便捷：点击麦克风即可开始，简单直观

快速开始

前置条件

在使用豆包语音输入功能之前，你需要：

获取豆包开放平台账号
- 访问豆包语音识别控制台
- 注册或登录账号
创建应用并获取凭证
- 在平台上创建语音识别应用
- 获取 APP ID 和 Access Token
确保网络连接
- 语音识别服务需要网络连接
- 确保你的设备能够访问豆包 API 服务

基本使用流程

以下是使用豆包语音输入的基本步骤：

获取 APP ID 和 Access Token
在产品中配置语音识别
测试 API Key
找到语音输入框
点击麦克风按钮
授权麦克风权限
开始录音
实时查看识别结果
点击停止录音
文本插入完成

技术要求

HTTP 环境

豆包语音输入功能需要在 HTTP/HTTPS 环境下运行。

环境	支持情况	说明
localhost	✓	本地开发环境（http://localhost 或 http://127.0.0.1）
HTTPS 远程服务器	✓	部署到外网且使用 HTTPS 的 Web 应用
HTTP 远程服务器	✗	部署到外网但使用 HTTP 的 Web 应用
file:// 协议	✗	不支持直接打开 HTML 文件

Desktop 版本

HagiCode 的 Desktop 版本内置了 HTTP 环境，完全支持语音输入功能。你可以直接使用语音识别，无需额外配置。

Host 模式

本地 Host 模式支持语音输入功能：

使用 localhost 或 127.0.0.1 时，HTTP 和 HTTPS 都支持
部署到外网时，必须使用 HTTPS

配置步骤

获取 APP ID

访问豆包语音识别控制台
登录或注册账号
进入控制台，创建新的语音识别应用
在应用详情页面，找到并复制 APP ID

获取 Access Token

在豆包开放平台的控制台中
进入你的语音识别应用
找到 API 密钥管理区域
生成或复制 Access Token

在产品中配置

打开 HagiCode 应用
进入设置 → 语音识别设置
在配置表单中填写以下信息：
- Provider：选择 doubao（豆包）
- APP ID：粘贴你从豆包平台获取的 APP ID
- Access Token：粘贴你从豆包平台获取的 Access Token
（可选）根据需要调整其他配置参数
点击 测试 API Key 按钮验证配置
配置验证成功后会自动保存到浏览器本地

配置字段说明

字段	必填	说明	默认值
Provider	是	语音识别服务提供商	doubao
APP ID	是	应用唯一标识符，从豆包开放平台获取	-
Access Token	是	身份验证的访问令牌，从豆包开放平台获取	-
Service URL	否	API 服务地址，通常使用默认值	（1）
热词表 ID	否	用于提升特定词汇的识别准确率，详见热词配置	-
最大录制时长	否	单次录音的最长持续时间，范围 10-600 秒	300 秒
采样率	否	音频采样率，支持 16000 Hz	16000 Hz
位深度	否	音频位深度	16-bit
声道数	否	音频声道数，单声道	1
（1）`wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async`

测试 API Key

配置完成后，建议测试 API Key 是否有效：

点击 测试 API Key 按钮
系统会调用测试接口验证你的配置
如果配置正确，会显示成功提示
如果配置错误，会显示错误信息，请检查以下内容：
- APP ID 和 Access Token 是否正确
- 网络连接是否正常
- Access Token 是否已过期

热词配置

热词是指在语音识别过程中需要特别关注的词汇。通过配置热词，可以显著提升特定领域术语、产品名称、人名等专有名词的识别准确率。

热词模式

豆包语音识别支持两种热词模式：

自定义热词文本：直接在设置中输入需要识别的热词短语
平台热词表：引用豆包自学习平台上预先配置的热词表

这两种模式可以单独使用，也可以组合使用。

配置自定义热词

在语音识别设置中，找到”自定义热词文本”输入框，每行输入一个热词短语。

格式限制：

项目	限制
每行字符数	最多 50 字符
总行数	最多 100 行
总字符数	最多 5000 字符

配置平台热词表

访问豆包自学习平台
创建热词表，添加需要识别的热词
获取生成的 热词表 ID（boosting_table_id）
在设置中输入热词表 ID

热词表 ID 格式要求：

项目	限制
字符类型	字母、数字、下划线、连字符
最大长度	200 字符

组合模式

如果你同时配置了自定义热词和平台热词表，可以开启组合模式。组合模式下，豆包 API 会同时考虑两种热词来源，识别准确率通常比单独使用任意一种更高。

使用方法

找到语音输入位置

在 HagiCode 中，带有麦克风图标的文本输入框都支持语音输入。这些组件通常被称为 VoiceTextArea。

常见的语音输入位置包括：

消息输入框
文本编辑区域
需要输入文本的各种表单字段

启动语音识别

找到带麦克风图标的输入框
点击麦克风按钮
浏览器会请求麦克风权限
点击允许授权麦克风访问

录音状态说明

授权成功后，语音识别会自动启动，你可以看到：

波形动画：麦克风按钮内会显示动态的声波波形，表示正在录音
时长显示：按钮下方会显示当前录音时长
实时识别：识别的文本会临时显示在光标位置

实时识别结果显示

在录音过程中，语音识别引擎会实时将你的语音转换为文字：

识别的文本会以灰色临时显示在输入框中
随着你的说话，识别结果会不断更新
支持普通话识别，准确率较高

停止识别

要停止语音识别，你可以：

点击麦克风按钮：再次点击按钮可停止录音
点击输入框：点击输入框的其他区域也会停止录音

停止后，识别的最终文本会被正式插入到输入框中，你可以继续编辑或发送。