豆包语音输入使用指南
什么是豆包语音输入
Section titled “什么是豆包语音输入”豆包语音输入是 HagiCode 深度集成的一项语音识别功能,它利用字节跳动豆包开放平台的语音识别服务,让你能够通过说话快速将语音转换为文本。通过深度集成,HagiCode 能够利用当前项目的上下文信息,为语音识别提供更准确的领域词汇和技术术语识别,显著提升在技术讨论中的识别准确率。
主要应用场景
Section titled “主要应用场景”在 HagiCode 平台中,豆包语音输入特别适合以下场景:
- 快速输入提案:无需打字,直接口述即可快速创建和提交提案,大幅提升效率
- 提供评注:在代码审查或文档评审时,用语音快速添加评注和反馈意见
- 回答消息:在对话和讨论中,用语音快速回复消息,打字不再是负担
- 长篇内容创作:快速生成项目文档、技术说明、会议记录等长篇内容
为什么选择豆包语音输入
Section titled “为什么选择豆包语音输入”- 深度集成与上下文感知:HagiCode 深度集成豆包语音识别,自动利用当前项目上下文(如代码结构、技术栈、领域术语),为语音识别提供精准的领域词汇识别,技术术语识别准确率显著提升
- 免费试用时长:豆包平台提供 20 小时免费识别时长,零门槛体验语音输入
- 速度极快:实时识别,说话的同时即可看到文字,无需等待
- 准确率高:基于豆包先进的语音识别模型,配合项目上下文,识别结果精准可靠
- 无缝集成:直接集成在 HagiCode 的消息输入框中,无需切换应用
- 使用便捷:点击麦克风即可开始,简单直观
在使用豆包语音输入功能之前,你需要:
-
获取豆包开放平台账号
- 访问 豆包语音识别控制台
- 注册或登录账号
-
创建应用并获取凭证
- 在平台上创建语音识别应用
- 获取
APP ID和Access Token
-
确保网络连接
- 语音识别服务需要网络连接
- 确保你的设备能够访问豆包 API 服务
基本使用流程
Section titled “基本使用流程”以下是使用豆包语音输入的基本步骤:
HTTP 环境
Section titled “HTTP 环境”豆包语音输入功能需要在 HTTP/HTTPS 环境下运行。
| 环境 | 支持情况 | 说明 |
|---|---|---|
| localhost | ✓ | 本地开发环境(http://localhost 或 http://127.0.0.1) |
| HTTPS 远程服务器 | ✓ | 部署到外网且使用 HTTPS 的 Web 应用 |
| HTTP 远程服务器 | ✗ | 部署到外网但使用 HTTP 的 Web 应用 |
| file:// 协议 | ✗ | 不支持直接打开 HTML 文件 |
Desktop 版本
Section titled “Desktop 版本”HagiCode 的 Desktop 版本内置了 HTTP 环境,完全支持语音输入功能。你可以直接使用语音识别,无需额外配置。
Host 模式
Section titled “Host 模式”本地 Host 模式支持语音输入功能:
- 使用
localhost或127.0.0.1时,HTTP 和 HTTPS 都支持 - 部署到外网时,必须使用 HTTPS
获取 APP ID
Section titled “获取 APP ID”- 访问 豆包语音识别控制台
- 登录或注册账号
- 进入控制台,创建新的语音识别应用
- 在应用详情页面,找到并复制
APP ID
获取 Access Token
Section titled “获取 Access Token”- 在豆包开放平台的控制台中
- 进入你的语音识别应用
- 找到 API 密钥管理区域
- 生成或复制
Access Token
在产品中配置
Section titled “在产品中配置”- 打开 HagiCode 应用
- 进入 设置 → 语音识别设置
- 在配置表单中填写以下信息:
- Provider:选择
doubao(豆包) - APP ID:粘贴你从豆包平台获取的 APP ID
- Access Token:粘贴你从豆包平台获取的 Access Token
- Provider:选择
- (可选)根据需要调整其他配置参数
- 点击 测试 API Key 按钮验证配置
- 配置验证成功后会自动保存到浏览器本地
配置字段说明
Section titled “配置字段说明”| 字段 | 必填 | 说明 | 默认值 |
|---|---|---|---|
| Provider | 是 | 语音识别服务提供商 | doubao |
| APP ID | 是 | 应用唯一标识符,从豆包开放平台获取 | - |
| Access Token | 是 | 身份验证的访问令牌,从豆包开放平台获取 | - |
| Service URL | 否 | API 服务地址,通常使用默认值 | (1) |
| 热词表 ID | 否 | 用于提升特定词汇的识别准确率,详见热词配置 | - |
| 最大录制时长 | 否 | 单次录音的最长持续时间,范围 10-600 秒 | 300 秒 |
| 采样率 | 否 | 音频采样率,支持 16000 Hz | 16000 Hz |
| 位深度 | 否 | 音频位深度 | 16-bit |
| 声道数 | 否 | 音频声道数,单声道 | 1 |
(1)wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async | |||
测试 API Key
Section titled “测试 API Key”配置完成后,建议测试 API Key 是否有效:
- 点击 测试 API Key 按钮
- 系统会调用测试接口验证你的配置
- 如果配置正确,会显示成功提示
- 如果配置错误,会显示错误信息,请检查以下内容:
- APP ID 和 Access Token 是否正确
- 网络连接是否正常
- Access Token 是否已过期
热词是指在语音识别过程中需要特别关注的词汇。通过配置热词,可以显著提升特定领域术语、产品名称、人名等专有名词的识别准确率。
豆包语音识别支持两种热词模式:
- 自定义热词文本:直接在设置中输入需要识别的热词短语
- 平台热词表:引用豆包自学习平台上预先配置的热词表
这两种模式可以单独使用,也可以组合使用。
配置自定义热词
Section titled “配置自定义热词”在语音识别设置中,找到”自定义热词文本”输入框,每行输入一个热词短语。
格式限制:
| 项目 | 限制 |
|---|---|
| 每行字符数 | 最多 50 字符 |
| 总行数 | 最多 100 行 |
| 总字符数 | 最多 5000 字符 |
配置平台热词表
Section titled “配置平台热词表”- 访问 豆包自学习平台
- 创建热词表,添加需要识别的热词
- 获取生成的 热词表 ID(boosting_table_id)
- 在设置中输入热词表 ID
热词表 ID 格式要求:
| 项目 | 限制 |
|---|---|
| 字符类型 | 字母、数字、下划线、连字符 |
| 最大长度 | 200 字符 |
如果你同时配置了自定义热词和平台热词表,可以开启组合模式。组合模式下,豆包 API 会同时考虑两种热词来源,识别准确率通常比单独使用任意一种更高。
找到语音输入位置
Section titled “找到语音输入位置”在 HagiCode 中,带有麦克风图标的文本输入框都支持语音输入。这些组件通常被称为 VoiceTextArea。
常见的语音输入位置包括:
- 消息输入框
- 文本编辑区域
- 需要输入文本的各种表单字段
启动语音识别
Section titled “启动语音识别”- 找到带麦克风图标的输入框
- 点击麦克风按钮
- 浏览器会请求麦克风权限
- 点击 允许 授权麦克风访问
录音状态说明
Section titled “录音状态说明”授权成功后,语音识别会自动启动,你可以看到:
- 波形动画:麦克风按钮内会显示动态的声波波形,表示正在录音
- 时长显示:按钮下方会显示当前录音时长
- 实时识别:识别的文本会临时显示在光标位置
实时识别结果显示
Section titled “实时识别结果显示”在录音过程中,语音识别引擎会实时将你的语音转换为文字:
- 识别的文本会以灰色临时显示在输入框中
- 随着你的说话,识别结果会不断更新
- 支持普通话识别,准确率较高
要停止语音识别,你可以:
- 点击麦克风按钮:再次点击按钮可停止录音
- 点击输入框:点击输入框的其他区域也会停止录音
停止后,识别的最终文本会被正式插入到输入框中,你可以继续编辑或发送。