豆寶語音輸入指南

:::提示 試用額度：豆寶開放平台給新用戶20小時的免費語音辨識時間，足以檢驗這個語音輸入流程是否適合你的工作。 :::

概述

什麼是豆寶語音輸入

豆寶語音輸入是HagiCode整合的語音辨識功能，由位元組跳動豆寶開放平台提供支援。您說話，系統將語音轉換為文字。 HagiCode 還使用目前的專案上下文來幫助更可靠地識別領域詞彙和技術術語。

關鍵用例

在 HagiCode 中，語音輸入最適合：

快速輸入提案：只需說出即可建立並提交提案，無需打字，大幅提升效率
提供評論：在程式碼審查或文件審查期間使用語音輸入添加評論和回饋
回覆訊息：無需打字即可快速回覆對話和討論中的訊息
長篇內容創作：快速產生專案文件、技術規格、會議記錄等長篇內容

實用優勢

與上下文感知深度融合：HagiCode與豆寶語音識別深度集成，自動利用當前項目上下文（如代碼結構、技術棧、領域術語）提供精準的領域詞彙識別，大幅提昇技術術語識別準確率
免費試用時間：豆寶平台提供20小時免費辨識時間，讓新用戶零障礙體驗語音輸入
極快：即時識別，邊說邊看文字，無需等待
高精度：由豆寶先進的語音辨識模型結合專案上下文提供精確可靠的結果
無縫整合：直接整合到HagiCode的訊息輸入框中，無需切換應用程式
易於使用：只需點擊麥克風即可啟動，直觀明了

快速入門

先決條件

在使用豆寶語音輸入之前，您需要：

取得豆寶開放平台帳號
- 參觀豆寶語音辨識控制台
- 註冊或登入您的帳戶
建立應用程式並取得憑證
- 在平台上創建語音識別應用程式
- 得到你的 APP ID 和 Access Token
確保網路連線
- 語音辨識服務需要網路連接
- 確保您的裝置可以存取豆寶API服務

基本使用流程

以下是使用豆寶語音輸入的基本步驟：

獲取 APP ID 和 Access Token
在產品中配置語音識別
測試 API 金鑰
找到語音輸入框
點擊麥克風按鈕
授予麥克風權限
開始錄音
即時查看識別結果
按一下停止錄製
確認文字已插入

技術要求

HTTP環境

豆寶語音輸入需要在HTTP/HTTPS環境下運作。

環境	支援狀態	描述
本機	✓	本地開發環境（http://localhost 或 http://127.0.0.1）
HTTPS 遠端伺服器	✓	使用 HTTPS 部署到公共網路的 Web 應用程式
HTTP 遠端伺服器	✗	使用 HTTP 部署到公共網路的 Web 應用程式
文件://協議	✗	不支援直接開啟 HTML 文件

:::注意豆寶語音輸入有以下限制：

外部部署需要HTTPS：由於瀏覽器安全限制，公網存取時麥克風存取需要HTTPS
本地位址不受限制：使用時同時支援HTTP和HTTPS localhost 或 127.0.0.1
file:// 協定不支援： file:// 協定環境無法使用麥克風和 WebSocket 連接 :::

桌面版

HagiCode的桌面版內建本機HTTP環境，完全支援語音輸入。您可以直接使用語音識別，無需額外配置。

主機模式

本機模式支援語音輸入：

使用時同時支援 HTTP 和 HTTPS localhost 或 127.0.0.1
部署到公網時需要HTTPS

設定步驟

取得應用程式ID

參觀豆寶語音辨識控制台
登入或註冊帳戶
前往控制台並創建一個新的語音識別應用程式
在應用程式詳細資訊頁面中，找到並複製 APP ID

獲取訪問令牌

在豆寶開放平台控制台
前往您的語音辨識應用程式
找到API金鑰管理區域
產生或複製 Access Token

:::注意請保留您的 Access Token 安全，不要與他人分享。如需更換，可在豆寶開放平台重新生成。 :::

在產品中配置

打開HagiCode應用程式
前往設定 → 語音辨識設定
在配置表單中填寫以下資訊：
- 提供者：選擇 doubao （豆寶）
- APP ID：貼上您從豆寶平台取得的APP ID
- Access Token：貼上您從豆寶平台取得的Access Token
（可選）根據需要調整其他配置參數
按一下「測試 API 金鑰」按鈕驗證配置
驗證成功後，配置自動儲存到瀏覽器本機存儲

配置字段說明

Field	Required	Description	Default
Provider	Yes	Speech recognition service provider	doubao
APP ID	Yes	Application unique identifier, obtained from Doubao Open Platform	-
Access Token	Yes	Authentication access token, obtained from Doubao Open Platform	-
Service URL	No	API service address, usually use default value	(1)
Hotword Table ID	No	Used to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation	-
Max Recording Duration	No	Maximum duration for a single recording, range 10-600 seconds	300 seconds
Sample Rate	No	Audio sample rate, supports 16000 Hz	16000 Hz
Bit Depth	No	Audio bit depth	16-bit
Channel Count	No	Audio channel count, mono	1
(1) `wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async`

測試 API 金鑰

配置完成後，建議測試API Key是否有效：

按一下 測試 API 金鑰 按鈕
系統會呼叫測試介面來驗證您的配置
如果配置正確，會顯示成功訊息
如果配置不正確，將會顯示錯誤訊息。請檢查：
- APP ID和Access Token是否正確
- 網路連線是否正常
- Access Token是否已過期

:::提示如果測試失敗，先檢查網路連線是否正常，然後確認豆寶開放平台的API key有效且未過期。 :::

用途

尋找語音輸入位置

在HagiCode中，帶有麥克風圖示的文字輸入框支援語音輸入。這些組件通常稱為 VoiceTextArea.

常見的語音輸入位置包括：

訊息輸入框
文字編輯區域
各種需要文字輸入的表單字段

開始語音識別

尋找帶有麥克風圖示的輸入框
點擊麥克風按鈕
瀏覽器將請求麥克風權限
點擊允許以授權麥克風訪問

:::注意如果您之前已授權麥克風，瀏覽器可能不會再次要求權限。若要檢查或變更權限設置，您可以在瀏覽器網址列左側的鎖定圖示中查看它們。 :::

錄音狀態說明

授權成功後，語音辨識會自動啟動，您可以看到：

波形動畫：麥克風按鈕內會顯示動態聲波波形，表示錄音正在進行中
持續時間顯示：目前錄製持續時間將顯示在按鈕下方
即時辨識：辨識出的文字會暫時顯示在遊標位置

即時辨識結果顯示

錄音過程中，語音辨識引擎會將您的語音即時轉換為文字：

辨識出的文字會在輸入框中暫時顯示為灰色
識別結果會隨著您說話而不斷更新
支援國語識別，準確率高

:::提示為了獲得更好的識別效果，建議：

在安靜的環境下使用
說話清晰且語速適中
避免背景噪音幹擾 :::

停止識別

要停止語音識別，您可以：

點擊麥克風按鈕：再次點擊該按鈕停止錄音
點擊輸入框：點擊輸入框其他區域也會停止錄製

停止後，最終識別的文字將正式插入輸入框中，您可以繼續編輯或發送。