Руководство по голосовому вводу Doubao

:::совет Пробная квота: открытая платформа Doubao предоставляет новым пользователям 20 часов свободного распознавания речи, чего достаточно, чтобы проверить, соответствует ли этот процесс голосового ввода вашей работе. :::

Обзор

Что такое голосовой ввод Doubao

Голосовой ввод Doubao — это интегрированная функция распознавания речи HagiCode, поддерживаемая открытой платформой ByteDance Doubao. Вы говорите, а система превращает речь в текст. HagiCode также использует текущий контекст проекта, чтобы более надежно распознавать словарь предметной области и технические термины.

Ключевые случаи использования

В HagiCode голосовой ввод лучше всего подходит для:

Быстрый ввод предложений: создавайте и отправляйте предложения, просто говоря, что значительно повышает эффективность без ввода текста.
Предоставление комментариев: добавляйте комментарии и отзывы во время проверки кода или документов с помощью голосового ввода.
Ответ на сообщения: быстро отвечайте на сообщения в беседах и обсуждениях, не вводя текст.
Создание подробного контента: быстро создавайте проектную документацию, технические спецификации, заметки о встречах и другой подробный контент.

Практические преимущества

Глубокая интеграция с распознаванием контекста: HagiCode глубоко интегрируется с распознаванием речи Doubao, автоматически используя текущий контекст проекта (например, структуру кода, стек технологий, терминологию предметной области) для обеспечения точного распознавания словаря предметной области, что значительно повышает точность распознавания технических терминов.
Бесплатные пробные часы: Платформа Doubao предоставляет 20 часов бесплатного времени распознавания для новых пользователей, чтобы они могли беспрепятственно пользоваться голосовым вводом.
Чрезвычайно быстро: распознавание в реальном времени, просмотр текста во время разговора без ожидания
Высокая точность: на основе передовых моделей распознавания речи Doubao в сочетании с контекстом проекта для получения точных и надежных результатов.
Бесшовная интеграция: прямая интеграция в поле ввода сообщений HagiCode, нет необходимости переключать приложения.
Простота в использовании: просто нажмите на микрофон, чтобы начать работу, интуитивно понятно и просто.

Быстрый старт

Предварительные условия

Прежде чем использовать голосовой ввод Doubao, вам необходимо:

Получите учетную запись открытой платформы Doubao
- Посетите Консоль распознавания речи Doubao
- Зарегистрируйтесь или войдите в свой аккаунт
Создайте заявку и получите учетные данные
- Создайте приложение для распознавания речи на платформе.
- Получите свой APP ID и Access Token
Проверьте сетевое подключение
- Для службы распознавания речи требуется подключение к сети.
- Убедитесь, что ваше устройство имеет доступ к сервису API Doubao.

Основной процесс использования

Вот основные шаги по использованию голосового ввода Doubao:

Получить APP ID и Access Token
Настройте распознавание голоса в продукте
Проверьте ключ API
Найдите поле голосового ввода
Нажмите кнопку микрофона
Предоставить разрешение на использование микрофона
Начать запись
Просматривайте результаты распознавания в режиме реального времени
Нажмите, чтобы остановить запись
Подтвердите, что текст вставлен

Технические требования

HTTP-среда

Голосовой ввод Doubao требует работы в среде HTTP/HTTPS.

Окружающая среда	Статус поддержки	Описание
локальный хост	✓	Локальная среда разработки (http://localhost или http://127.0.0.1)
Удаленный HTTPS-сервер	✓	Веб-приложения, развернутые в общедоступных сетях с помощью HTTPS
Удаленный HTTP-сервер	✗	Веб-приложения, развернутые в общедоступных сетях с помощью HTTP
файл:// протокол	✗	Непосредственное открытие HTML-файлов не поддерживается.

:::осторожно Голосовой ввод Doubao имеет следующие ограничения:

Для внешнего развертывания требуется HTTPS: из-за ограничений безопасности браузера для доступа к микрофону требуется HTTPS при доступе из общедоступных сетей.
Неограниченные локальные адреса: при использовании поддерживаются как HTTP, так и HTTPS. localhost или 127.0.0.1
протокол file:// не поддерживается: file:// среда протокола не может использовать соединения микрофона и WebSocket :::

Настольная версия

Версия HagiCode для настольных компьютеров имеет встроенную локальную среду HTTP и полностью поддерживает голосовой ввод. Вы можете использовать распознавание речи напрямую без дополнительной настройки.

Режим хоста

Режим локального хоста поддерживает голосовой ввод:

При использовании поддерживаются как HTTP, так и HTTPS. localhost или 127.0.0.1
HTTPS требуется при развертывании в общедоступных сетях.

Шаги настройки

Получить идентификатор приложения

Посетите Консоль распознавания речи Doubao
Войдите или зарегистрируйте аккаунт
Перейдите в консоль и создайте новое приложение для распознавания речи.
На странице сведений о приложении найдите и скопируйте APP ID

Получить токен доступа

В консоли Doubao Open Platform
Перейдите в приложение для распознавания речи.
Найдите область управления ключами API.
Создайте или скопируйте Access Token

:::примечание Пожалуйста, сохраните свой Access Token безопасно и не делитесь им с другими. Если вам необходимо заменить его, вы можете восстановить его на открытой платформе Doubao. :::

Настроить в продукте

Откройте приложение HagiCode.
Откройте Настройки → Настройки распознавания голоса.
Заполните следующую информацию в форме конфигурации:
- Поставщик: выберите doubao (Дубао)
- Идентификатор приложения: вставьте идентификатор приложения, полученный на платформе Doubao.
- Токен доступа: вставьте токен доступа, полученный на платформе Doubao.
(Необязательно) При необходимости настройте другие параметры конфигурации.
Нажмите кнопку Проверить ключ API, чтобы проверить конфигурацию.
После успешной проверки конфигурация автоматически сохраняется в локальном хранилище браузера.

Поле конфигурации Описание

Field	Required	Description	Default
Provider	Yes	Speech recognition service provider	doubao
APP ID	Yes	Application unique identifier, obtained from Doubao Open Platform	-
Access Token	Yes	Authentication access token, obtained from Doubao Open Platform	-
Service URL	No	API service address, usually use default value	(1)
Hotword Table ID	No	Used to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation	-
Max Recording Duration	No	Maximum duration for a single recording, range 10-600 seconds	300 seconds
Sample Rate	No	Audio sample rate, supports 16000 Hz	16000 Hz
Bit Depth	No	Audio bit depth	16-bit
Channel Count	No	Audio channel count, mono	1
(1) `wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async`

Тестовый ключ API

После настройки рекомендуется проверить, действителен ли ключ API:

Нажмите кнопку Проверить ключ API.
Система вызовет тестовый интерфейс для проверки вашей конфигурации.
Если конфигурация правильна, появится сообщение об успехе.
Если конфигурация неверна, появится сообщение об ошибке. Пожалуйста, проверьте:
- Верны ли идентификатор приложения и токен доступа
- Нормально ли сетевое соединение
- Срок действия токена доступа истек

:::совет Если тест не пройден, сначала проверьте, нормально ли сетевое соединение, а затем убедитесь, что ключ API от открытой платформы Doubao действителен и не истек срок его действия. :::

Использование

Найти местоположение голосового ввода

В HagiCode поля ввода текста со значком микрофона поддерживают голосовой ввод. Эти компоненты обычно называются VoiceTextArea.

Общие места голосового ввода включают в себя:

Поля ввода сообщений
Области редактирования текста
Различные поля формы, требующие ввода текста

Запустить распознавание голоса

Найдите поле ввода со значком микрофона.
Нажмите кнопку микрофона
Браузер запросит разрешение микрофона
Нажмите Разрешить, чтобы разрешить доступ к микрофону.

:::примечание Если вы ранее авторизовали микрофон, браузер может не запросить разрешение повторно. Чтобы проверить или изменить настройки разрешений, вы можете просмотреть их с помощью значка замка слева от адресной строки браузера. :::

Описание состояния записи

После успешной авторизации распознавание голоса запустится автоматически, и вы сможете увидеть:

Анимация формы волны: внутри кнопки микрофона будет отображаться форма динамической звуковой волны, указывая на то, что идет запись.
Отображение продолжительности: текущая продолжительность записи будет отображаться под кнопкой.
Распознавание в реальном времени: распознанный текст временно отображается в позиции курсора.

Отображение результатов распознавания в реальном времени

Во время записи механизм распознавания речи преобразует вашу речь в текст в режиме реального времени:

Распознанный текст будет временно отображаться серым цветом в поле ввода.
Результаты распознавания будут постоянно обновляться по мере того, как вы говорите.
Поддерживает распознавание китайского языка с высокой точностью.

:::совет Для получения лучших результатов распознавания рекомендуется:

Используйте в тихой обстановке
Говорите четко и в умеренном темпе.
Избегайте помех фонового шума :::

Остановить распознавание

Чтобы остановить распознавание голоса, вы можете:

Нажмите кнопку микрофона: нажмите кнопку еще раз, чтобы остановить запись.
Нажмите поле ввода: если щелкнуть другие области поля ввода, запись также прекратится.

После остановки окончательно распознанный текст будет формально вставлен в поле ввода, и вы сможете продолжить редактирование или отправку.