Перейти к содержимому

Руководство по голосовому вводу Doubao

Редактировать страницу

:::совет Пробная квота: открытая платформа Doubao предоставляет новым пользователям 20 часов свободного распознавания речи, чего достаточно, чтобы проверить, соответствует ли этот процесс голосового ввода вашей работе. :::

Голосовой ввод Doubao — это интегрированная функция распознавания речи HagiCode, поддерживаемая открытой платформой ByteDance Doubao. Вы говорите, а система превращает речь в текст. HagiCode также использует текущий контекст проекта, чтобы более надежно распознавать словарь предметной области и технические термины.

В HagiCode голосовой ввод лучше всего подходит для:

  • Быстрый ввод предложений: создавайте и отправляйте предложения, просто говоря, что значительно повышает эффективность без ввода текста.
  • Предоставление комментариев: добавляйте комментарии и отзывы во время проверки кода или документов с помощью голосового ввода.
  • Ответ на сообщения: быстро отвечайте на сообщения в беседах и обсуждениях, не вводя текст.
  • Создание подробного контента: быстро создавайте проектную документацию, технические спецификации, заметки о встречах и другой подробный контент.
  • Глубокая интеграция с распознаванием контекста: HagiCode глубоко интегрируется с распознаванием речи Doubao, автоматически используя текущий контекст проекта (например, структуру кода, стек технологий, терминологию предметной области) для обеспечения точного распознавания словаря предметной области, что значительно повышает точность распознавания технических терминов.
  • Бесплатные пробные часы: Платформа Doubao предоставляет 20 часов бесплатного времени распознавания для новых пользователей, чтобы они могли беспрепятственно пользоваться голосовым вводом.
  • Чрезвычайно быстро: распознавание в реальном времени, просмотр текста во время разговора без ожидания
  • Высокая точность: на основе передовых моделей распознавания речи Doubao в сочетании с контекстом проекта для получения точных и надежных результатов.
  • Бесшовная интеграция: прямая интеграция в поле ввода сообщений HagiCode, нет необходимости переключать приложения.
  • Простота в использовании: просто нажмите на микрофон, чтобы начать работу, интуитивно понятно и просто.

Прежде чем использовать голосовой ввод Doubao, вам необходимо:

  1. Получите учетную запись открытой платформы Doubao

  2. Создайте заявку и получите учетные данные

    • Создайте приложение для распознавания речи на платформе.
    • Получите свой APP ID и Access Token
  3. Проверьте сетевое подключение

    • Для службы распознавания речи требуется подключение к сети.
    • Убедитесь, что ваше устройство имеет доступ к сервису API Doubao.

Вот основные шаги по использованию голосового ввода Doubao:

  1. Получить APP ID и Access Token
  2. Настройте распознавание голоса в продукте
  3. Проверьте ключ API
  4. Найдите поле голосового ввода
  5. Нажмите кнопку микрофона
  6. Предоставить разрешение на использование микрофона
  7. Начать запись
  8. Просматривайте результаты распознавания в режиме реального времени
  9. Нажмите, чтобы остановить запись
  10. Подтвердите, что текст вставлен

Голосовой ввод Doubao требует работы в среде HTTP/HTTPS.

Окружающая средаСтатус поддержкиОписание
локальный хостЛокальная среда разработки (http://localhost или http://127.0.0.1)
Удаленный HTTPS-серверВеб-приложения, развернутые в общедоступных сетях с помощью HTTPS
Удаленный HTTP-серверВеб-приложения, развернутые в общедоступных сетях с помощью HTTP
файл:// протоколНепосредственное открытие HTML-файлов не поддерживается.

:::осторожно Голосовой ввод Doubao имеет следующие ограничения:

  1. Для внешнего развертывания требуется HTTPS: из-за ограничений безопасности браузера для доступа к микрофону требуется HTTPS при доступе из общедоступных сетей.
  2. Неограниченные локальные адреса: при использовании поддерживаются как HTTP, так и HTTPS. localhost или 127.0.0.1
  3. протокол file:// не поддерживается: file:// среда протокола не может использовать соединения микрофона и WebSocket :::

Версия HagiCode для настольных компьютеров имеет встроенную локальную среду HTTP и полностью поддерживает голосовой ввод. Вы можете использовать распознавание речи напрямую без дополнительной настройки.

Режим локального хоста поддерживает голосовой ввод:

  • При использовании поддерживаются как HTTP, так и HTTPS. localhost или 127.0.0.1
  • HTTPS требуется при развертывании в общедоступных сетях.
  1. Посетите Консоль распознавания речи Doubao
  2. Войдите или зарегистрируйте аккаунт
  3. Перейдите в консоль и создайте новое приложение для распознавания речи.
  4. На странице сведений о приложении найдите и скопируйте APP ID
  1. В консоли Doubao Open Platform
  2. Перейдите в приложение для распознавания речи.
  3. Найдите область управления ключами API.
  4. Создайте или скопируйте Access Token

:::примечание Пожалуйста, сохраните свой Access Token безопасно и не делитесь им с другими. Если вам необходимо заменить его, вы можете восстановить его на открытой платформе Doubao. :::

  1. Откройте приложение HagiCode.
  2. Откройте НастройкиНастройки распознавания голоса.
  3. Заполните следующую информацию в форме конфигурации:
    • Поставщик: выберите doubao (Дубао)
    • Идентификатор приложения: вставьте идентификатор приложения, полученный на платформе Doubao.
    • Токен доступа: вставьте токен доступа, полученный на платформе Doubao.
  4. (Необязательно) При необходимости настройте другие параметры конфигурации.
  5. Нажмите кнопку Проверить ключ API, чтобы проверить конфигурацию.
  6. После успешной проверки конфигурация автоматически сохраняется в локальном хранилище браузера.
FieldRequiredDescriptionDefault
ProviderYesSpeech recognition service providerdoubao
APP IDYesApplication unique identifier, obtained from Doubao Open Platform-
Access TokenYesAuthentication access token, obtained from Doubao Open Platform-
Service URLNoAPI service address, usually use default value(1)
Hotword Table IDNoUsed to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation-
Max Recording DurationNoMaximum duration for a single recording, range 10-600 seconds300 seconds
Sample RateNoAudio sample rate, supports 16000 Hz16000 Hz
Bit DepthNoAudio bit depth16-bit
Channel CountNoAudio channel count, mono1
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async

После настройки рекомендуется проверить, действителен ли ключ API:

  1. Нажмите кнопку Проверить ключ API.
  2. Система вызовет тестовый интерфейс для проверки вашей конфигурации.
  3. Если конфигурация правильна, появится сообщение об успехе.
  4. Если конфигурация неверна, появится сообщение об ошибке. Пожалуйста, проверьте:
    • Верны ли идентификатор приложения и токен доступа
    • Нормально ли сетевое соединение
    • Срок действия токена доступа истек

:::совет Если тест не пройден, сначала проверьте, нормально ли сетевое соединение, а затем убедитесь, что ключ API от открытой платформы Doubao действителен и не истек срок его действия. :::

В HagiCode поля ввода текста со значком микрофона поддерживают голосовой ввод. Эти компоненты обычно называются VoiceTextArea.

Общие места голосового ввода включают в себя:

  • Поля ввода сообщений
  • Области редактирования текста
  • Различные поля формы, требующие ввода текста
  1. Найдите поле ввода со значком микрофона.
  2. Нажмите кнопку микрофона
  3. Браузер запросит разрешение микрофона
  4. Нажмите Разрешить, чтобы разрешить доступ к микрофону.

:::примечание Если вы ранее авторизовали микрофон, браузер может не запросить разрешение повторно. Чтобы проверить или изменить настройки разрешений, вы можете просмотреть их с помощью значка замка слева от адресной строки браузера. :::

После успешной авторизации распознавание голоса запустится автоматически, и вы сможете увидеть:

  • Анимация формы волны: внутри кнопки микрофона будет отображаться форма динамической звуковой волны, указывая на то, что идет запись.
  • Отображение продолжительности: текущая продолжительность записи будет отображаться под кнопкой.
  • Распознавание в реальном времени: распознанный текст временно отображается в позиции курсора.

Отображение результатов распознавания в реальном времени

Заголовок раздела «Отображение результатов распознавания в реальном времени»

Во время записи механизм распознавания речи преобразует вашу речь в текст в режиме реального времени:

  • Распознанный текст будет временно отображаться серым цветом в поле ввода.
  • Результаты распознавания будут постоянно обновляться по мере того, как вы говорите.
  • Поддерживает распознавание китайского языка с высокой точностью.

:::совет Для получения лучших результатов распознавания рекомендуется:

  • Используйте в тихой обстановке
  • Говорите четко и в умеренном темпе.
  • Избегайте помех фонового шума :::

Чтобы остановить распознавание голоса, вы можете:

  1. Нажмите кнопку микрофона: нажмите кнопку еще раз, чтобы остановить запись.
  2. Нажмите поле ввода: если щелкнуть другие области поля ввода, запись также прекратится.

После остановки окончательно распознанный текст будет формально вставлен в поле ввода, и вы сможете продолжить редактирование или отправку.