コンテンツにスキップ

Doubao 音声入力ガイド

ページを編集

:::ヒント トライアル割り当て: Doubao オープン プラットフォームでは、新規ユーザーに 20 時間の音声認識を無料で提供します。これは、この音声入力フローが業務に適合するかどうかを確認するのに十分です。 :::

Doubao 音声入力は、ByteDance Doubao オープン プラットフォームによってサポートされる、HagiCode の統合音声認識機能です。あなたが話すと、システムが音声をテキストに変換します。また、HagiCode は現在のプロジェクト コンテキストを使用して、ドメインの語彙や技術用語をより確実に認識できるようにします。

HagiCode では、音声入力は次の場合に最適に機能します。

  • 提案を素早く入力: 入力することなく、話すだけで提案を作成して提出するので、効率が大幅に向上します。
  • コメントの入力: コード レビューまたはドキュメント レビュー中に音声入力でコメントやフィードバックを追加します。
  • メッセージに返信: 会話やディスカッション内のメッセージに入力せずにすぐに返信できます。
  • 長文コンテンツの作成: プロジェクト ドキュメント、技術仕様、会議メモ、その他の長文コンテンツを迅速に生成します。
  • コンテキスト認識との緊密な統合:HagiCode は Doubao 音声認識と緊密に統合し、現在のプロジェクトのコンテキスト (コード構造、技術スタック、ドメイン用語など) を自動的に活用して正確なドメイン語彙認識を提供し、専門用語の認識精度を大幅に向上させます。
  • 無料トライアル時間: Doubao プラットフォームでは、新規ユーザーが障壁のない音声入力を体験できる 20 時間の無料認識時間を提供します。
  • 非常に高速: リアルタイム認識、待ち時間なしで話しながらテキストを表示します。
  • 高精度: Doubao の高度な音声認識モデルをプロジェクト コンテキストと組み合わせて活用し、正確で信頼性の高い結果を実現します。
  • シームレスな統合:HagiCode のメッセージ入力ボックスに直接統合されているため、アプリケーションを切り替える必要はありません。
  • 使いやすさ: マイクをクリックするだけで開始でき、直観的かつ簡単です。

Doubao 音声入力を使用する前に、次のことを行う必要があります。

  1. Doubao オープン プラットフォーム アカウントを取得

  2. アプリケーションの作成と資格情報の取得

    • プラットフォーム上で音声認識アプリケーションを作成する
    • 入手してください APP ID そして Access Token
  3. ネットワーク接続を確認してください

    • 音声認識サービスにはネットワーク接続が必要です
    • デバイスが Doubao API サービスにアクセスできることを確認してください

Doubao 音声入力を使用する基本的な手順は次のとおりです。

  1. 取得 APP ID そして Access Token
  2. 製品で音声認識を設定する
  3. APIキーをテストする
  4. 音声入力ボックスを探す
  5. マイクボタンをクリックします
  6. マイクの許可を与える
  7. 録音を開始する
  8. 認識結果をリアルタイムで表示する
  9. クリックして録音を停止します
  10. テキストが挿入されたことを確認する

Doubao 音声入力は HTTP/HTTPS 環境で実行する必要があります。

環境サポート状況説明
ローカルホストローカル開発環境 (http://localhost または http://127.0.0.1)
HTTPS リモート サーバーHTTPS を使用してパブリック ネットワークに展開された Web アプリケーション
HTTP リモート サーバーHTTP を使用してパブリック ネットワークにデプロイされた Web アプリケーション
ファイル://プロトコルHTML ファイルを直接開くことはサポートされていません

:::注意 Doubao 音声入力には次の制限があります。

  1. 外部展開には HTTPS が必要: ブラウザのセキュリティ制限のため、パブリック ネットワークからアクセスする場合、マイクへのアクセスには HTTPS が必要です。
  2. ローカル アドレスは無制限: を使用する場合、HTTP と HTTPS の両方がサポートされます。 localhost または 127.0.0.1
  3. file:// プロトコルはサポートされていません: file:// プロトコル環境ではマイクと WebSocket 接続を使用できません :::

HagiCode のデスクトップ バージョンにはローカル HTTP 環境が組み込まれており、音声入力を完全にサポートしています。追加の設定を行わずに、音声認識を直接使用できます。

ローカル ホスト モードは音声入力をサポートします。

  • を使用する場合、HTTP と HTTPS の両方がサポートされます。 localhost または 127.0.0.1
  • パブリック ネットワークに展開する場合は HTTPS が必要です
  1. 訪問 Doubao 音声認識コンソール
  2. ログインまたはアカウント登録
  3. コンソールに移動し、新しい音声認識アプリケーションを作成します。
  4. アプリケーションの詳細ページで、 APP ID
  1. Doubao オープン プラットフォーム コンソール内
  2. 音声認識アプリケーションに移動します
  3. API キー管理エリアを見つける
  4. を生成またはコピーします。 Access Token

:::メモ 保管してください Access Token 安全であり、他の人と共有しないでください。交換する必要がある場合は、Doubao オープン プラットフォームで再生成できます。 :::

  1. HagiCodeアプリケーションを開く
  2. 設定音声認識設定に移動します
  3. 設定フォームに次の情報を入力します。
    • プロバイダ: 選択してください doubao (豆宝)
    • APP ID: Doubao プラットフォームから取得した APP ID を貼り付けます
    • アクセス トークン: Doubao プラットフォームから取得したアクセス トークンを貼り付けます。
  4. (オプション) 必要に応じて他の構成パラメータを調整します
  5. [API キーのテスト] ボタンをクリックして構成を確認します
  6. 検証が成功すると、設定はブラウザのローカル ストレージに自動的に保存されます。
FieldRequiredDescriptionDefault
ProviderYesSpeech recognition service providerdoubao
APP IDYesApplication unique identifier, obtained from Doubao Open Platform-
Access TokenYesAuthentication access token, obtained from Doubao Open Platform-
Service URLNoAPI service address, usually use default value(1)
Hotword Table IDNoUsed to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation-
Max Recording DurationNoMaximum duration for a single recording, range 10-600 seconds300 seconds
Sample RateNoAudio sample rate, supports 16000 Hz16000 Hz
Bit DepthNoAudio bit depth16-bit
Channel CountNoAudio channel count, mono1
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async

構成後、API キーが有効かどうかをテストすることをお勧めします。

  1. [API キーをテスト] ボタンをクリックします
  2. システムはテスト インターフェイスを呼び出して構成を確認します。
  3. 設定が正しい場合は、成功メッセージが表示されます。
  4. 設定が正しくない場合は、エラー メッセージが表示されます。ご確認ください:
    • APP IDとアクセストークンが正しいかどうか
    • ネットワーク接続が正常かどうか
    • アクセストークンの有効期限が切れているかどうか

:::ヒント テストが失敗した場合は、まずネットワーク接続が正常かどうかを確認し、次に Doubao オープン プラットフォームからの API キーが有効で、有効期限が切れていないことを確認します。 :::

HagiCode では、マイク アイコンが付いたテキスト入力ボックスが音声入力をサポートしています。これらのコンポーネントは通常、 VoiceTextArea.

一般的な音声入力場所は次のとおりです。

  • メッセージ入力ボックス
  • テキスト編集エリア
  • テキスト入力が必要なさまざまなフォームフィールド
  1. マイクアイコンのある入力ボックスを見つけます
  2. マイクボタンをクリックします
  3. ブラウザはマイクの許可を要求します
  4. [許可] をクリックしてマイクへのアクセスを許可します。

:::メモ 以前にマイクを許可している場合、ブラウザは再度許可を要求することはできません。権限の設定を確認または変更するには、ブラウザのアドレス バーの左側にある鍵のアイコンで設定を確認できます。 :::

認証が成功すると、音声認識が自動的に開始され、以下が表示されます。

  • 波形アニメーション: ダイナミックな音波波形がマイク ボタンの内側に表示され、録音が進行中であることを示します。
  • 継続時間表示: 現在の録画継続時間がボタンの下に表示されます。
  • リアルタイム認識: 認識されたテキストがカーソル位置に一時的に表示されます。

録音中、音声認識エンジンは音声をリアルタイムでテキストに変換します。

  • 認識されたテキストは入力ボックスに一時的に灰色で表示されます
  • 認識結果は話すたびに継続的に更新されます
  • 高精度の中国語認識をサポート

:::ヒント より良い認識結果を得るには、次のことをお勧めします。

  • 静かな環境で使用する
  • 適度なペースではっきりと話す
  • 背景ノイズの干渉を避ける :::

音声認識を停止するには、次の方法があります。

  1. マイクボタンをクリック: ボタンをもう一度クリックすると録音が停止します
  2. 入力ボックスをクリック: 入力ボックスの他の領域をクリックすると、記録も停止します。

停止後、最終的に認識されたテキストが入力ボックスに正式に挿入され、編集または送信を続行できます。