Руководство по голосовому вводу Doubao
Редактировать страницу:::совет Пробная квота: открытая платформа Doubao предоставляет новым пользователям 20 часов свободного распознавания речи, чего достаточно, чтобы проверить, соответствует ли этот процесс голосового ввода вашей работе. :::
Что такое голосовой ввод Doubao
Заголовок раздела «Что такое голосовой ввод Doubao»Голосовой ввод Doubao — это интегрированная функция распознавания речи HagiCode, поддерживаемая открытой платформой ByteDance Doubao. Вы говорите, а система превращает речь в текст. HagiCode также использует текущий контекст проекта, чтобы более надежно распознавать словарь предметной области и технические термины.
Ключевые случаи использования
Заголовок раздела «Ключевые случаи использования»В HagiCode голосовой ввод лучше всего подходит для:
- Быстрый ввод предложений: создавайте и отправляйте предложения, просто говоря, что значительно повышает эффективность без ввода текста.
- Предоставление комментариев: добавляйте комментарии и отзывы во время проверки кода или документов с помощью голосового ввода.
- Ответ на сообщения: быстро отвечайте на сообщения в беседах и обсуждениях, не вводя текст.
- Создание подробного контента: быстро создавайте проектную документацию, технические спецификации, заметки о встречах и другой подробный контент.
Практические преимущества
Заголовок раздела «Практические преимущества»- Глубокая интеграция с распознаванием контекста: HagiCode глубоко интегрируется с распознаванием речи Doubao, автоматически используя текущий контекст проекта (например, структуру кода, стек технологий, терминологию предметной области) для обеспечения точного распознавания словаря предметной области, что значительно повышает точность распознавания технических терминов.
- Бесплатные пробные часы: Платформа Doubao предоставляет 20 часов бесплатного времени распознавания для новых пользователей, чтобы они могли беспрепятственно пользоваться голосовым вводом.
- Чрезвычайно быстро: распознавание в реальном времени, просмотр текста во время разговора без ожидания
- Высокая точность: на основе передовых моделей распознавания речи Doubao в сочетании с контекстом проекта для получения точных и надежных результатов.
- Бесшовная интеграция: прямая интеграция в поле ввода сообщений HagiCode, нет необходимости переключать приложения.
- Простота в использовании: просто нажмите на микрофон, чтобы начать работу, интуитивно понятно и просто.
Быстрый старт
Заголовок раздела «Быстрый старт»Предварительные условия
Заголовок раздела «Предварительные условия»Прежде чем использовать голосовой ввод Doubao, вам необходимо:
-
Получите учетную запись открытой платформы Doubao
- Посетите Консоль распознавания речи Doubao
- Зарегистрируйтесь или войдите в свой аккаунт
-
Создайте заявку и получите учетные данные
- Создайте приложение для распознавания речи на платформе.
- Получите свой
APP IDиAccess Token
-
Проверьте сетевое подключение
- Для службы распознавания речи требуется подключение к сети.
- Убедитесь, что ваше устройство имеет доступ к сервису API Doubao.
Основной процесс использования
Заголовок раздела «Основной процесс использования»Вот основные шаги по использованию голосового ввода Doubao:
- Получить
APP IDиAccess Token - Настройте распознавание голоса в продукте
- Проверьте ключ API
- Найдите поле голосового ввода
- Нажмите кнопку микрофона
- Предоставить разрешение на использование микрофона
- Начать запись
- Просматривайте результаты распознавания в режиме реального времени
- Нажмите, чтобы остановить запись
- Подтвердите, что текст вставлен
Технические требования
Заголовок раздела «Технические требования»HTTP-среда
Заголовок раздела «HTTP-среда»Голосовой ввод Doubao требует работы в среде HTTP/HTTPS.
| Окружающая среда | Статус поддержки | Описание |
|---|---|---|
| локальный хост | ✓ | Локальная среда разработки (http://localhost или http://127.0.0.1) |
| Удаленный HTTPS-сервер | ✓ | Веб-приложения, развернутые в общедоступных сетях с помощью HTTPS |
| Удаленный HTTP-сервер | ✗ | Веб-приложения, развернутые в общедоступных сетях с помощью HTTP |
| файл:// протокол | ✗ | Непосредственное открытие HTML-файлов не поддерживается. |
:::осторожно Голосовой ввод Doubao имеет следующие ограничения:
- Для внешнего развертывания требуется HTTPS: из-за ограничений безопасности браузера для доступа к микрофону требуется HTTPS при доступе из общедоступных сетей.
- Неограниченные локальные адреса: при использовании поддерживаются как HTTP, так и HTTPS.
localhostили127.0.0.1 - протокол file:// не поддерживается:
file://среда протокола не может использовать соединения микрофона и WebSocket :::
Настольная версия
Заголовок раздела «Настольная версия»Версия HagiCode для настольных компьютеров имеет встроенную локальную среду HTTP и полностью поддерживает голосовой ввод. Вы можете использовать распознавание речи напрямую без дополнительной настройки.
Режим хоста
Заголовок раздела «Режим хоста»Режим локального хоста поддерживает голосовой ввод:
- При использовании поддерживаются как HTTP, так и HTTPS.
localhostили127.0.0.1 - HTTPS требуется при развертывании в общедоступных сетях.
Шаги настройки
Заголовок раздела «Шаги настройки»Получить идентификатор приложения
Заголовок раздела «Получить идентификатор приложения»- Посетите Консоль распознавания речи Doubao
- Войдите или зарегистрируйте аккаунт
- Перейдите в консоль и создайте новое приложение для распознавания речи.
- На странице сведений о приложении найдите и скопируйте
APP ID
Получить токен доступа
Заголовок раздела «Получить токен доступа»- В консоли Doubao Open Platform
- Перейдите в приложение для распознавания речи.
- Найдите область управления ключами API.
- Создайте или скопируйте
Access Token
:::примечание
Пожалуйста, сохраните свой Access Token безопасно и не делитесь им с другими. Если вам необходимо заменить его, вы можете восстановить его на открытой платформе Doubao.
:::
Настроить в продукте
Заголовок раздела «Настроить в продукте»- Откройте приложение HagiCode.
- Откройте Настройки → Настройки распознавания голоса.
- Заполните следующую информацию в форме конфигурации:
- Поставщик: выберите
doubao(Дубао) - Идентификатор приложения: вставьте идентификатор приложения, полученный на платформе Doubao.
- Токен доступа: вставьте токен доступа, полученный на платформе Doubao.
- Поставщик: выберите
- (Необязательно) При необходимости настройте другие параметры конфигурации.
- Нажмите кнопку Проверить ключ API, чтобы проверить конфигурацию.
- После успешной проверки конфигурация автоматически сохраняется в локальном хранилище браузера.
Поле конфигурации Описание
Заголовок раздела «Поле конфигурации Описание»| Field | Required | Description | Default |
|---|---|---|---|
| Provider | Yes | Speech recognition service provider | doubao |
| APP ID | Yes | Application unique identifier, obtained from Doubao Open Platform | - |
| Access Token | Yes | Authentication access token, obtained from Doubao Open Platform | - |
| Service URL | No | API service address, usually use default value | (1) |
| Hotword Table ID | No | Used to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation | - |
| Max Recording Duration | No | Maximum duration for a single recording, range 10-600 seconds | 300 seconds |
| Sample Rate | No | Audio sample rate, supports 16000 Hz | 16000 Hz |
| Bit Depth | No | Audio bit depth | 16-bit |
| Channel Count | No | Audio channel count, mono | 1 |
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async | |||
Тестовый ключ API
Заголовок раздела «Тестовый ключ API»После настройки рекомендуется проверить, действителен ли ключ API:
- Нажмите кнопку Проверить ключ API.
- Система вызовет тестовый интерфейс для проверки вашей конфигурации.
- Если конфигурация правильна, появится сообщение об успехе.
- Если конфигурация неверна, появится сообщение об ошибке. Пожалуйста, проверьте:
- Верны ли идентификатор приложения и токен доступа
- Нормально ли сетевое соединение
- Срок действия токена доступа истек
:::совет Если тест не пройден, сначала проверьте, нормально ли сетевое соединение, а затем убедитесь, что ключ API от открытой платформы Doubao действителен и не истек срок его действия. :::
Использование
Заголовок раздела «Использование»Найти местоположение голосового ввода
Заголовок раздела «Найти местоположение голосового ввода»В HagiCode поля ввода текста со значком микрофона поддерживают голосовой ввод. Эти компоненты обычно называются VoiceTextArea.
Общие места голосового ввода включают в себя:
- Поля ввода сообщений
- Области редактирования текста
- Различные поля формы, требующие ввода текста
Запустить распознавание голоса
Заголовок раздела «Запустить распознавание голоса»- Найдите поле ввода со значком микрофона.
- Нажмите кнопку микрофона
- Браузер запросит разрешение микрофона
- Нажмите Разрешить, чтобы разрешить доступ к микрофону.
:::примечание Если вы ранее авторизовали микрофон, браузер может не запросить разрешение повторно. Чтобы проверить или изменить настройки разрешений, вы можете просмотреть их с помощью значка замка слева от адресной строки браузера. :::
Описание состояния записи
Заголовок раздела «Описание состояния записи»После успешной авторизации распознавание голоса запустится автоматически, и вы сможете увидеть:
- Анимация формы волны: внутри кнопки микрофона будет отображаться форма динамической звуковой волны, указывая на то, что идет запись.
- Отображение продолжительности: текущая продолжительность записи будет отображаться под кнопкой.
- Распознавание в реальном времени: распознанный текст временно отображается в позиции курсора.
Отображение результатов распознавания в реальном времени
Заголовок раздела «Отображение результатов распознавания в реальном времени»Во время записи механизм распознавания речи преобразует вашу речь в текст в режиме реального времени:
- Распознанный текст будет временно отображаться серым цветом в поле ввода.
- Результаты распознавания будут постоянно обновляться по мере того, как вы говорите.
- Поддерживает распознавание китайского языка с высокой точностью.
:::совет Для получения лучших результатов распознавания рекомендуется:
- Используйте в тихой обстановке
- Говорите четко и в умеренном темпе.
- Избегайте помех фонового шума :::
Остановить распознавание
Заголовок раздела «Остановить распознавание»Чтобы остановить распознавание голоса, вы можете:
- Нажмите кнопку микрофона: нажмите кнопку еще раз, чтобы остановить запись.
- Нажмите поле ввода: если щелкнуть другие области поля ввода, запись также прекратится.
После остановки окончательно распознанный текст будет формально вставлен в поле ввода, и вы сможете продолжить редактирование или отправку.