跳转到内容

豆寶語音輸入指南

编辑此页

:::提示 試用額度:豆寶開放平台給新用戶20小時的免費語音辨識時間,足以檢驗這個語音輸入流程是否適合你的工作。 :::

豆寶語音輸入是HagiCode整合的語音辨識功能,由位元組跳動豆寶開放平台提供支援。您說話,系統將語音轉換為文字。 HagiCode 還使用目前的專案上下文來幫助更可靠地識別領域詞彙和技術術語。

在 HagiCode 中,語音輸入最適合:

  • 快速輸入提案:只需說出即可建立並提交提案,無需打字,大幅提升效率
  • 提供評論:在程式碼審查或文件審查期間使用語音輸入添加評論和回饋
  • 回覆訊息:無需打字即可快速回覆對話和討論中的訊息
  • 長篇內容創作:快速產生專案文件、技術規格、會議記錄等長篇內容
  • 與上下文感知深度融合:HagiCode與豆寶語音識別深度集成,自動利用當前項目上下文(如代碼結構、技術棧、領域術語)提供精準的領域詞彙識別,大幅提昇技術術語識別準確率
  • 免費試用時間:豆寶平台提供20小時免費辨識時間,讓新用戶零障礙體驗語音輸入
  • 極快:即時識別,邊說邊看文字,無需等待
  • 高精度:由豆寶先進的語音辨識模型結合專案上下文提供精確可靠的結果
  • 無縫整合:直接整合到HagiCode的訊息輸入框中,無需切換應用程式
  • 易於使用:只需點擊麥克風即可啟動,直觀明了

在使用豆寶語音輸入之前,您需要:

  1. 取得豆寶開放平台帳號

  2. 建立應用程式並取得憑證

    • 在平台上創建語音識別應用程式
    • 得到你的 APP IDAccess Token
  3. 確保網路連線

    • 語音辨識服務需要網路連接
    • 確保您的裝置可以存取豆寶API服務

以下是使用豆寶語音輸入的基本步驟:

  1. 獲取 APP IDAccess Token
  2. 在產品中配置語音識別
  3. 測試 API 金鑰
  4. 找到語音輸入框
  5. 點擊麥克風按鈕
  6. 授予麥克風權限
  7. 開始錄音
  8. 即時查看識別結果
  9. 按一下停止錄製
  10. 確認文字已插入

豆寶語音輸入需要在HTTP/HTTPS環境下運作。

環境支援狀態描述
本機本地開發環境(http://localhosthttp://127.0.0.1)
HTTPS 遠端伺服器使用 HTTPS 部署到公共網路的 Web 應用程式
HTTP 遠端伺服器使用 HTTP 部署到公共網路的 Web 應用程式
文件://協議不支援直接開啟 HTML 文件

:::注意 豆寶語音輸入有以下限制:

  1. 外部部署需要HTTPS:由於瀏覽器安全限制,公網存取時麥克風存取需要HTTPS
  2. 本地位址不受限制:使用時同時支援HTTP和HTTPS localhost127.0.0.1
  3. file:// 協定不支援file:// 協定環境無法使用麥克風和 WebSocket 連接 :::

HagiCode的桌面版內建本機HTTP環境,完全支援語音輸入。您可以直接使用語音識別,無需額外配置。

本機模式支援語音輸入:

  • 使用時同時支援 HTTP 和 HTTPS localhost127.0.0.1
  • 部署到公網時需要HTTPS
  1. 參觀 豆寶語音辨識控制台
  2. 登入或註冊帳戶
  3. 前往控制台並創建一個新的語音識別應用程式
  4. 在應用程式詳細資訊頁面中,找到並複製 APP ID
  1. 在豆寶開放平台控制台
  2. 前往您的語音辨識應用程式
  3. 找到API金鑰管理區域
  4. 產生或複製 Access Token

:::注意 請保留您的 Access Token 安全,不要與他人分享。如需更換,可在豆寶開放平台重新生成。 :::

  1. 打開HagiCode應用程式
  2. 前往 設定語音辨識設定
  3. 在配置表單中填寫以下資訊:
    • 提供者:選擇 doubao (豆寶)
    • APP ID:貼上您從豆寶平台取得的APP ID
    • Access Token:貼上您從豆寶平台取得的Access Token
  4. (可選)根據需要調整其他配置參數
  5. 按一下「測試 API 金鑰」按鈕驗證配置
  6. 驗證成功後,配置自動儲存到瀏覽器本機存儲
FieldRequiredDescriptionDefault
ProviderYesSpeech recognition service providerdoubao
APP IDYesApplication unique identifier, obtained from Doubao Open Platform-
Access TokenYesAuthentication access token, obtained from Doubao Open Platform-
Service URLNoAPI service address, usually use default value(1)
Hotword Table IDNoUsed to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation-
Max Recording DurationNoMaximum duration for a single recording, range 10-600 seconds300 seconds
Sample RateNoAudio sample rate, supports 16000 Hz16000 Hz
Bit DepthNoAudio bit depth16-bit
Channel CountNoAudio channel count, mono1
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async

配置完成後,建議測試API Key是否有效:

  1. 按一下 測試 API 金鑰 按鈕
  2. 系統會呼叫測試介面來驗證您的配置
  3. 如果配置正確,會顯示成功訊息
  4. 如果配置不正確,將會顯示錯誤訊息。請檢查:
    • APP ID和Access Token是否正確
    • 網路連線是否正常
    • Access Token是否已過期

:::提示 如果測試失敗,先檢查網路連線是否正常,然後確認豆寶開放平台的API key有效且未過期。 :::

在HagiCode中,帶有麥克風圖示的文字輸入框支援語音輸入。這些組件通常稱為 VoiceTextArea.

常見的語音輸入位置包括:

  • 訊息輸入框
  • 文字編輯區域
  • 各種需要文字輸入的表單字段
  1. 尋找帶有麥克風圖示的輸入框
  2. 點擊麥克風按鈕
  3. 瀏覽器將請求麥克風權限
  4. 點擊允許以授權麥克風訪問

:::注意 如果您之前已授權麥克風,瀏覽器可能不會再次要求權限。若要檢查或變更權限設置,您可以在瀏覽器網址列左側的鎖定圖示中查看它們。 :::

授權成功後,語音辨識會自動啟動,您可以看到:

  • 波形動畫:麥克風按鈕內會顯示動態聲波波形,表示錄音正在進行中
  • 持續時間顯示:目前錄製持續時間將顯示在按鈕下方
  • 即時辨識:辨識出的文字會暫時顯示在遊標位置

錄音過程中,語音辨識引擎會將您的語音即時轉換為文字:

  • 辨識出的文字會在輸入框中暫時顯示為灰色
  • 識別結果會隨著您說話而不斷更新
  • 支援國語識別,準確率高

:::提示 為了獲得更好的識別效果,建議:

  • 在安靜的環境下使用
  • 說話清晰且語速適中
  • 避免背景噪音幹擾 :::

要停止語音識別,您可以:

  1. 點擊麥克風按鈕:再次點擊該按鈕停止錄音
  2. 點擊輸入框:點擊輸入框其他區域也會停止錄製

停止後,最終識別的文字將正式插入輸入框中,您可以繼續編輯或發送。