豆寶語音輸入指南
编辑此页:::提示 試用額度:豆寶開放平台給新用戶20小時的免費語音辨識時間,足以檢驗這個語音輸入流程是否適合你的工作。 :::
什麼是豆寶語音輸入
Section titled “什麼是豆寶語音輸入”豆寶語音輸入是HagiCode整合的語音辨識功能,由位元組跳動豆寶開放平台提供支援。您說話,系統將語音轉換為文字。 HagiCode 還使用目前的專案上下文來幫助更可靠地識別領域詞彙和技術術語。
在 HagiCode 中,語音輸入最適合:
- 快速輸入提案:只需說出即可建立並提交提案,無需打字,大幅提升效率
- 提供評論:在程式碼審查或文件審查期間使用語音輸入添加評論和回饋
- 回覆訊息:無需打字即可快速回覆對話和討論中的訊息
- 長篇內容創作:快速產生專案文件、技術規格、會議記錄等長篇內容
- 與上下文感知深度融合:HagiCode與豆寶語音識別深度集成,自動利用當前項目上下文(如代碼結構、技術棧、領域術語)提供精準的領域詞彙識別,大幅提昇技術術語識別準確率
- 免費試用時間:豆寶平台提供20小時免費辨識時間,讓新用戶零障礙體驗語音輸入
- 極快:即時識別,邊說邊看文字,無需等待
- 高精度:由豆寶先進的語音辨識模型結合專案上下文提供精確可靠的結果
- 無縫整合:直接整合到HagiCode的訊息輸入框中,無需切換應用程式
- 易於使用:只需點擊麥克風即可啟動,直觀明了
在使用豆寶語音輸入之前,您需要:
-
取得豆寶開放平台帳號
- 參觀 豆寶語音辨識控制台
- 註冊或登入您的帳戶
-
建立應用程式並取得憑證
- 在平台上創建語音識別應用程式
- 得到你的
APP ID和Access Token
-
確保網路連線
- 語音辨識服務需要網路連接
- 確保您的裝置可以存取豆寶API服務
基本使用流程
Section titled “基本使用流程”以下是使用豆寶語音輸入的基本步驟:
- 獲取
APP ID和Access Token - 在產品中配置語音識別
- 測試 API 金鑰
- 找到語音輸入框
- 點擊麥克風按鈕
- 授予麥克風權限
- 開始錄音
- 即時查看識別結果
- 按一下停止錄製
- 確認文字已插入
HTTP環境
Section titled “HTTP環境”豆寶語音輸入需要在HTTP/HTTPS環境下運作。
| 環境 | 支援狀態 | 描述 |
|---|---|---|
| 本機 | ✓ | 本地開發環境(http://localhost 或 http://127.0.0.1) |
| HTTPS 遠端伺服器 | ✓ | 使用 HTTPS 部署到公共網路的 Web 應用程式 |
| HTTP 遠端伺服器 | ✗ | 使用 HTTP 部署到公共網路的 Web 應用程式 |
| 文件://協議 | ✗ | 不支援直接開啟 HTML 文件 |
:::注意 豆寶語音輸入有以下限制:
- 外部部署需要HTTPS:由於瀏覽器安全限制,公網存取時麥克風存取需要HTTPS
- 本地位址不受限制:使用時同時支援HTTP和HTTPS
localhost或127.0.0.1 - file:// 協定不支援:
file://協定環境無法使用麥克風和 WebSocket 連接 :::
HagiCode的桌面版內建本機HTTP環境,完全支援語音輸入。您可以直接使用語音識別,無需額外配置。
本機模式支援語音輸入:
- 使用時同時支援 HTTP 和 HTTPS
localhost或127.0.0.1 - 部署到公網時需要HTTPS
取得應用程式ID
Section titled “取得應用程式ID”- 參觀 豆寶語音辨識控制台
- 登入或註冊帳戶
- 前往控制台並創建一個新的語音識別應用程式
- 在應用程式詳細資訊頁面中,找到並複製
APP ID
獲取訪問令牌
Section titled “獲取訪問令牌”- 在豆寶開放平台控制台
- 前往您的語音辨識應用程式
- 找到API金鑰管理區域
- 產生或複製
Access Token
:::注意
請保留您的 Access Token 安全,不要與他人分享。如需更換,可在豆寶開放平台重新生成。
:::
在產品中配置
Section titled “在產品中配置”- 打開HagiCode應用程式
- 前往 設定 → 語音辨識設定
- 在配置表單中填寫以下資訊:
- 提供者:選擇
doubao(豆寶) - APP ID:貼上您從豆寶平台取得的APP ID
- Access Token:貼上您從豆寶平台取得的Access Token
- 提供者:選擇
- (可選)根據需要調整其他配置參數
- 按一下「測試 API 金鑰」按鈕驗證配置
- 驗證成功後,配置自動儲存到瀏覽器本機存儲
配置字段說明
Section titled “配置字段說明”| Field | Required | Description | Default |
|---|---|---|---|
| Provider | Yes | Speech recognition service provider | doubao |
| APP ID | Yes | Application unique identifier, obtained from Doubao Open Platform | - |
| Access Token | Yes | Authentication access token, obtained from Doubao Open Platform | - |
| Service URL | No | API service address, usually use default value | (1) |
| Hotword Table ID | No | Used to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation | - |
| Max Recording Duration | No | Maximum duration for a single recording, range 10-600 seconds | 300 seconds |
| Sample Rate | No | Audio sample rate, supports 16000 Hz | 16000 Hz |
| Bit Depth | No | Audio bit depth | 16-bit |
| Channel Count | No | Audio channel count, mono | 1 |
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async | |||
測試 API 金鑰
Section titled “測試 API 金鑰”配置完成後,建議測試API Key是否有效:
- 按一下 測試 API 金鑰 按鈕
- 系統會呼叫測試介面來驗證您的配置
- 如果配置正確,會顯示成功訊息
- 如果配置不正確,將會顯示錯誤訊息。請檢查:
- APP ID和Access Token是否正確
- 網路連線是否正常
- Access Token是否已過期
:::提示 如果測試失敗,先檢查網路連線是否正常,然後確認豆寶開放平台的API key有效且未過期。 :::
尋找語音輸入位置
Section titled “尋找語音輸入位置”在HagiCode中,帶有麥克風圖示的文字輸入框支援語音輸入。這些組件通常稱為 VoiceTextArea.
常見的語音輸入位置包括:
- 訊息輸入框
- 文字編輯區域
- 各種需要文字輸入的表單字段
開始語音識別
Section titled “開始語音識別”- 尋找帶有麥克風圖示的輸入框
- 點擊麥克風按鈕
- 瀏覽器將請求麥克風權限
- 點擊允許以授權麥克風訪問
:::注意 如果您之前已授權麥克風,瀏覽器可能不會再次要求權限。若要檢查或變更權限設置,您可以在瀏覽器網址列左側的鎖定圖示中查看它們。 :::
錄音狀態說明
Section titled “錄音狀態說明”授權成功後,語音辨識會自動啟動,您可以看到:
- 波形動畫:麥克風按鈕內會顯示動態聲波波形,表示錄音正在進行中
- 持續時間顯示:目前錄製持續時間將顯示在按鈕下方
- 即時辨識:辨識出的文字會暫時顯示在遊標位置
即時辨識結果顯示
Section titled “即時辨識結果顯示”錄音過程中,語音辨識引擎會將您的語音即時轉換為文字:
- 辨識出的文字會在輸入框中暫時顯示為灰色
- 識別結果會隨著您說話而不斷更新
- 支援國語識別,準確率高
:::提示 為了獲得更好的識別效果,建議:
- 在安靜的環境下使用
- 說話清晰且語速適中
- 避免背景噪音幹擾 :::
要停止語音識別,您可以:
- 點擊麥克風按鈕:再次點擊該按鈕停止錄音
- 點擊輸入框:點擊輸入框其他區域也會停止錄製
停止後,最終識別的文字將正式插入輸入框中,您可以繼續編輯或發送。