Doubao 音声入力ガイド

:::ヒント トライアル割り当て: Doubao オープンプラットフォームでは、新規ユーザーに 20 時間の音声認識を無料で提供します。これは、この音声入力フローが業務に適合するかどうかを確認するのに十分です。 :::

概要

Doubao音声入力とは

Doubao 音声入力は、ByteDance Doubao オープンプラットフォームによってサポートされる、HagiCode の統合音声認識機能です。あなたが話すと、システムが音声をテキストに変換します。また、HagiCode は現在のプロジェクトコンテキストを使用して、ドメインの語彙や技術用語をより確実に認識できるようにします。

主な使用例

HagiCode では、音声入力は次の場合に最適に機能します。

提案を素早く入力: 入力することなく、話すだけで提案を作成して提出するので、効率が大幅に向上します。
コメントの入力: コードレビューまたはドキュメントレビュー中に音声入力でコメントやフィードバックを追加します。
メッセージに返信: 会話やディスカッション内のメッセージに入力せずにすぐに返信できます。
長文コンテンツの作成: プロジェクトドキュメント、技術仕様、会議メモ、その他の長文コンテンツを迅速に生成します。

実際的な利点

コンテキスト認識との緊密な統合:HagiCode は Doubao 音声認識と緊密に統合し、現在のプロジェクトのコンテキスト (コード構造、技術スタック、ドメイン用語など) を自動的に活用して正確なドメイン語彙認識を提供し、専門用語の認識精度を大幅に向上させます。
無料トライアル時間: Doubao プラットフォームでは、新規ユーザーが障壁のない音声入力を体験できる 20 時間の無料認識時間を提供します。
非常に高速: リアルタイム認識、待ち時間なしで話しながらテキストを表示します。
高精度: Doubao の高度な音声認識モデルをプロジェクトコンテキストと組み合わせて活用し、正確で信頼性の高い結果を実現します。
シームレスな統合:HagiCode のメッセージ入力ボックスに直接統合されているため、アプリケーションを切り替える必要はありません。
使いやすさ: マイクをクリックするだけで開始でき、直観的かつ簡単です。

クイックスタート

前提条件

Doubao 音声入力を使用する前に、次のことを行う必要があります。

Doubao オープンプラットフォームアカウントを取得
- 訪問 Doubao 音声認識コンソール
- アカウントに登録またはログインします
アプリケーションの作成と資格情報の取得
- プラットフォーム上で音声認識アプリケーションを作成する
- 入手してください APP ID そして Access Token
ネットワーク接続を確認してください
- 音声認識サービスにはネットワーク接続が必要です
- デバイスが Doubao API サービスにアクセスできることを確認してください

基本的な利用の流れ

Doubao 音声入力を使用する基本的な手順は次のとおりです。

取得 APP ID そして Access Token
製品で音声認識を設定する
APIキーをテストする
音声入力ボックスを探す
マイクボタンをクリックします
マイクの許可を与える
録音を開始する
認識結果をリアルタイムで表示する
クリックして録音を停止します
テキストが挿入されたことを確認する

技術的要件

HTTP環境

Doubao 音声入力は HTTP/HTTPS 環境で実行する必要があります。

環境	サポート状況	説明
ローカルホスト	✓	ローカル開発環境 (http://localhost または http://127.0.0.1)
HTTPS リモートサーバー	✓	HTTPS を使用してパブリックネットワークに展開された Web アプリケーション
HTTP リモートサーバー	✗	HTTP を使用してパブリックネットワークにデプロイされた Web アプリケーション
ファイル://プロトコル	✗	HTML ファイルを直接開くことはサポートされていません

:::注意 Doubao 音声入力には次の制限があります。

外部展開には HTTPS が必要: ブラウザのセキュリティ制限のため、パブリックネットワークからアクセスする場合、マイクへのアクセスには HTTPS が必要です。
ローカルアドレスは無制限: を使用する場合、HTTP と HTTPS の両方がサポートされます。 localhost または 127.0.0.1
file:// プロトコルはサポートされていません: file:// プロトコル環境ではマイクと WebSocket 接続を使用できません :::

デスクトップ版

HagiCode のデスクトップバージョンにはローカル HTTP 環境が組み込まれており、音声入力を完全にサポートしています。追加の設定を行わずに、音声認識を直接使用できます。

ホストモード

ローカルホストモードは音声入力をサポートします。

を使用する場合、HTTP と HTTPS の両方がサポートされます。 localhost または 127.0.0.1
パブリックネットワークに展開する場合は HTTPS が必要です

構成手順

アプリIDを取得する

訪問 Doubao 音声認識コンソール
ログインまたはアカウント登録
コンソールに移動し、新しい音声認識アプリケーションを作成します。
アプリケーションの詳細ページで、 APP ID

アクセストークンの取得

Doubao オープンプラットフォームコンソール内
音声認識アプリケーションに移動します
API キー管理エリアを見つける
を生成またはコピーします。 Access Token

:::メモ保管してください Access Token 安全であり、他の人と共有しないでください。交換する必要がある場合は、Doubao オープンプラットフォームで再生成できます。 :::

製品で設定する

ＨａｇｉＣｏｄｅアプリケーションを開く
設定 → 音声認識設定に移動します
設定フォームに次の情報を入力します。
- プロバイダ: 選択してください doubao (豆宝)
- APP ID: Doubao プラットフォームから取得した APP ID を貼り付けます
- アクセストークン: Doubao プラットフォームから取得したアクセストークンを貼り付けます。
(オプション) 必要に応じて他の構成パラメータを調整します
[API キーのテスト] ボタンをクリックして構成を確認します
検証が成功すると、設定はブラウザのローカルストレージに自動的に保存されます。

設定フィールドの説明

Field	Required	Description	Default
Provider	Yes	Speech recognition service provider	doubao
APP ID	Yes	Application unique identifier, obtained from Doubao Open Platform	-
Access Token	Yes	Authentication access token, obtained from Doubao Open Platform	-
Service URL	No	API service address, usually use default value	(1)
Hotword Table ID	No	Used to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation	-
Max Recording Duration	No	Maximum duration for a single recording, range 10-600 seconds	300 seconds
Sample Rate	No	Audio sample rate, supports 16000 Hz	16000 Hz
Bit Depth	No	Audio bit depth	16-bit
Channel Count	No	Audio channel count, mono	1
(1) `wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async`

APIキーをテストする

構成後、API キーが有効かどうかをテストすることをお勧めします。

[API キーをテスト] ボタンをクリックします
システムはテストインターフェイスを呼び出して構成を確認します。
設定が正しい場合は、成功メッセージが表示されます。
設定が正しくない場合は、エラーメッセージが表示されます。ご確認ください:
- APP IDとアクセストークンが正しいかどうか
- ネットワーク接続が正常かどうか
- アクセストークンの有効期限が切れているかどうか

:::ヒントテストが失敗した場合は、まずネットワーク接続が正常かどうかを確認し、次に Doubao オープンプラットフォームからの API キーが有効で、有効期限が切れていないことを確認します。 :::

使用法

音声入力位置の検索

HagiCode では、マイクアイコンが付いたテキスト入力ボックスが音声入力をサポートしています。これらのコンポーネントは通常、 VoiceTextArea.

一般的な音声入力場所は次のとおりです。

メッセージ入力ボックス
テキスト編集エリア
テキスト入力が必要なさまざまなフォームフィールド

音声認識を開始する

マイクアイコンのある入力ボックスを見つけます
マイクボタンをクリックします
ブラウザはマイクの許可を要求します
[許可] をクリックしてマイクへのアクセスを許可します。

:::メモ以前にマイクを許可している場合、ブラウザは再度許可を要求することはできません。権限の設定を確認または変更するには、ブラウザのアドレスバーの左側にある鍵のアイコンで設定を確認できます。 :::

録音ステータスの説明

認証が成功すると、音声認識が自動的に開始され、以下が表示されます。

波形アニメーション: ダイナミックな音波波形がマイクボタンの内側に表示され、録音が進行中であることを示します。
継続時間表示: 現在の録画継続時間がボタンの下に表示されます。
リアルタイム認識: 認識されたテキストがカーソル位置に一時的に表示されます。

リアルタイム認識結果表示

録音中、音声認識エンジンは音声をリアルタイムでテキストに変換します。

認識されたテキストは入力ボックスに一時的に灰色で表示されます
認識結果は話すたびに継続的に更新されます
高精度の中国語認識をサポート

:::ヒントより良い認識結果を得るには、次のことをお勧めします。

静かな環境で使用する
適度なペースではっきりと話す
背景ノイズの干渉を避ける :::

認識の停止

音声認識を停止するには、次の方法があります。

マイクボタンをクリック: ボタンをもう一度クリックすると録音が停止します
入力ボックスをクリック: 入力ボックスの他の領域をクリックすると、記録も停止します。

停止後、最終的に認識されたテキストが入力ボックスに正式に挿入され、編集または送信を続行できます。