Guía de entrada de voz de Doubao

Cuota de prueba: Doubao Open Platform ofrece a los nuevos usuarios 20 horas de reconocimiento de voz gratuito, lo que es suficiente para comprobar si este flujo de entrada de voz se adapta a su trabajo.

Descripción general

¿Qué es la entrada de voz Doubao?

Doubao Voice Input es la función integrada de reconocimiento de voz de HagiCode, respaldada por la plataforma abierta ByteDance Doubao. Usted habla y el sistema convierte la voz en texto. HagiCode también utiliza el contexto actual del proyecto para ayudar a reconocer el vocabulario del dominio y los términos técnicos de manera más confiable.

Casos de uso clave

En HagiCode, la entrada de voz funciona mejor para:

Ingreso de propuestas rápidamente: cree y envíe propuestas simplemente hablando, lo que mejora significativamente la eficiencia sin escribir
Proporcionar comentarios: agregue comentarios y comentarios durante las revisiones de código o revisiones de documentos con entrada de voz.
Responder a mensajes: responda rápidamente a mensajes en conversaciones y debates sin escribir
Creación de contenido de formato largo: genere rápidamente documentación del proyecto, especificaciones técnicas, notas de reuniones y otro contenido de formato largo.

Ventajas prácticas

Integración profunda con conocimiento del contexto: HagiCode se integra profundamente con el reconocimiento de voz de Doubao, aprovechando automáticamente el contexto actual del proyecto (como la estructura del código, la pila de tecnología, la terminología de dominio) para proporcionar un reconocimiento preciso del vocabulario del dominio, mejorando significativamente la precisión del reconocimiento de términos técnicos.
Horas de prueba gratuitas: la plataforma Doubao ofrece 20 horas de tiempo de reconocimiento gratuito para que los nuevos usuarios experimenten la entrada de voz sin barreras.
Extremadamente rápido: reconocimiento en tiempo real, vea el texto mientras habla sin esperas
Alta precisión: Desarrollado por los modelos avanzados de reconocimiento de voz de Doubao combinados con el contexto del proyecto para obtener resultados precisos y confiables.
Integración perfecta: Integrado directamente en el cuadro de entrada de mensajes de HagiCode, sin necesidad de cambiar de aplicación
Fácil de usar: Simplemente haga clic en el micrófono para comenzar, intuitivo y sencillo

Inicio rápido

Requisitos previos

Antes de utilizar la entrada por voz de Doubao, debe:

Obtenga una cuenta de plataforma abierta Doubao
- Visita Consola de reconocimiento de voz Doubao
- Regístrese o inicie sesión en su cuenta
Cree una solicitud y obtenga credenciales
- Crear una aplicación de reconocimiento de voz en la plataforma
- Consigue tu APP ID y Access Token
Asegure la conexión de red
- El servicio de reconocimiento de voz requiere conexión de red
- Asegúrese de que su dispositivo pueda acceder al servicio API de Doubao

Flujo de uso básico

Estos son los pasos básicos para utilizar la entrada de voz de Doubao:

Obtener APP ID y Access Token
Configurar el reconocimiento de voz en el producto.
Pruebe la clave API
Encuentra el cuadro de entrada de voz
Haga clic en el botón del micrófono
Conceder permiso al micrófono
Empezar a grabar
Ver los resultados del reconocimiento en tiempo real
Haga clic para detener la grabación
Confirma que el texto está insertado.

Requisitos técnicos

Entorno HTTP

Doubao Voice Input requiere ejecutarse en un entorno HTTP/HTTPS.

Medio ambiente	Estado de soporte	Descripción
host local	✓	Entorno de desarrollo local (http://localhost o http://127.0.0.1)
Servidor remoto HTTPS	✓	Aplicaciones web implementadas en redes públicas con HTTPS
Servidor remoto HTTP	✗	Aplicaciones web implementadas en redes públicas con HTTP
archivo:// protocolo	✗	No se admite la apertura directa de archivos HTML

:::precaución La entrada de voz de Doubao tiene las siguientes limitaciones:

Se requiere HTTPS para implementación externa: debido a restricciones de seguridad del navegador, el acceso al micrófono requiere HTTPS cuando se accede desde redes públicas
Direcciones locales sin restricciones: se admiten tanto HTTP como HTTPS cuando se usa localhost o 127.0.0.1
protocolo file:// no compatible: El file:// El entorno de protocolo no puede utilizar conexiones de micrófono ni WebSocket. :::

Versión de escritorio

La versión de escritorio de HagiCode tiene un entorno HTTP local integrado y es totalmente compatible con la entrada de voz. Puede utilizar el reconocimiento de voz directamente sin configuración adicional.

Modo anfitrión

El modo de host local admite entrada de voz:

Tanto HTTP como HTTPS son compatibles cuando se utiliza localhost o 127.0.0.1
Se requiere HTTPS cuando se implementa en redes públicas

Pasos de configuración

Obtener ID de la aplicación

Visita Consola de reconocimiento de voz Doubao
Iniciar sesión o registrar una cuenta
Vaya a la consola y cree una nueva aplicación de reconocimiento de voz.
En la página de detalles de la aplicación, busque y copie el APP ID

Obtener token de acceso

En la consola de la plataforma abierta de Doubao
Vaya a su aplicación de reconocimiento de voz
Encuentre el área de administración de claves API
Generar o copiar el Access Token

Por favor mantén tu Access Token seguro y no lo comparta con otros. Si necesita reemplazarlo, puede regenerarlo en Doubao Open Platform.

Configurar en Producto

Abra la aplicación HagiCode
Vaya a Configuración → Configuración de reconocimiento de voz
Complete la siguiente información en el formulario de configuración:
- Proveedor: Seleccionar doubao (Doubao)
- ID DE APLICACIÓN: Pega el ID de APLICACIÓN que obtuviste de la plataforma Doubao
- Token de acceso: Pega el token de acceso que obtuviste de la plataforma Doubao
(Opcional) Ajuste otros parámetros de configuración según sea necesario
Haga clic en el botón Probar clave API para verificar la configuración.
Después de una verificación exitosa, la configuración se guarda automáticamente en el almacenamiento local del navegador.

Descripción del campo de configuración

Field	Required	Description	Default
Provider	Yes	Speech recognition service provider	doubao
APP ID	Yes	Application unique identifier, obtained from Doubao Open Platform	-
Access Token	Yes	Authentication access token, obtained from Doubao Open Platform	-
Service URL	No	API service address, usually use default value	(1)
Hotword Table ID	No	Used to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation	-
Max Recording Duration	No	Maximum duration for a single recording, range 10-600 seconds	300 seconds
Sample Rate	No	Audio sample rate, supports 16000 Hz	16000 Hz
Bit Depth	No	Audio bit depth	16-bit
Channel Count	No	Audio channel count, mono	1
(1) `wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async`

Clave API de prueba

Después de la configuración, se recomienda probar si la clave API es válida:

Haga clic en el botón Probar clave API
El sistema llamará a la interfaz de prueba para verificar su configuración.
Si la configuración es correcta se mostrará un mensaje de éxito
Si la configuración es incorrecta, se mostrará un mensaje de error. Por favor verifique:
- Si el ID de la aplicación y el token de acceso son correctos
- Si la conexión de red es normal
- Si el token de acceso ha caducado

Si la prueba falla, primero verifique si la conexión de red es normal, luego confirme que la clave API de Doubao Open Platform sea válida y no esté vencida.

Uso

Buscar ubicación de entrada de voz

En HagiCode, los cuadros de entrada de texto con un icono de micrófono admiten la entrada de voz. Estos componentes normalmente se denominan VoiceTextArea.

Las ubicaciones comunes de entrada de voz incluyen:

Cuadros de entrada de mensajes
Áreas de edición de texto
Varios campos de formulario que requieren entrada de texto

Iniciar reconocimiento de voz

Busque el cuadro de entrada con un icono de micrófono
Haga clic en el botón del micrófono
El navegador solicitará permiso para el micrófono.
Haga clic en Permitir para autorizar el acceso al micrófono.

Si ha autorizado previamente el micrófono, es posible que el navegador no vuelva a solicitar permiso. Para verificar o cambiar la configuración de permisos, puede verlos en el ícono de candado a la izquierda de la barra de direcciones del navegador.

Descripción del estado de grabación

Una vez que la autorización sea exitosa, el reconocimiento de voz se iniciará automáticamente y podrá ver:

Animación de forma de onda: La forma de onda de sonido dinámica se mostrará dentro del botón del micrófono, lo que indica que la grabación está en progreso.
Visualización de duración: La duración de la grabación actual se mostrará debajo del botón
Reconocimiento en tiempo real: el texto reconocido se mostrará temporalmente en la posición del cursor

Visualización de resultados de reconocimiento en tiempo real

Durante la grabación, el motor de reconocimiento de voz convertirá su voz en texto en tiempo real:

El texto reconocido se mostrará temporalmente en gris en el cuadro de entrada
Los resultados del reconocimiento se actualizarán continuamente a medida que habla.
Admite el reconocimiento de chino mandarín con alta precisión

Para mejores resultados de reconocimiento, se recomienda:

Usar en un ambiente tranquilo
Habla con claridad y a un ritmo moderado.
Evite la interferencia del ruido de fondo

Detener el reconocimiento

Para detener el reconocimiento de voz, puede:

Haga clic en el botón del micrófono: haga clic en el botón nuevamente para detener la grabación
Haga clic en el cuadro de entrada: haga clic en otras áreas del cuadro de entrada para detener la grabación.

Después de detenerse, el texto final reconocido se insertará formalmente en el cuadro de entrada y podrá continuar editando o enviando.