Guía de entrada de voz de Doubao
Edita esta páginaCuota de prueba: Doubao Open Platform ofrece a los nuevos usuarios 20 horas de reconocimiento de voz gratuito, lo que es suficiente para comprobar si este flujo de entrada de voz se adapta a su trabajo.
Descripción general
Sección titulada «Descripción general»¿Qué es la entrada de voz Doubao?
Sección titulada «¿Qué es la entrada de voz Doubao?»Doubao Voice Input es la función integrada de reconocimiento de voz de HagiCode, respaldada por la plataforma abierta ByteDance Doubao. Usted habla y el sistema convierte la voz en texto. HagiCode también utiliza el contexto actual del proyecto para ayudar a reconocer el vocabulario del dominio y los términos técnicos de manera más confiable.
Casos de uso clave
Sección titulada «Casos de uso clave»En HagiCode, la entrada de voz funciona mejor para:
- Ingreso de propuestas rápidamente: cree y envíe propuestas simplemente hablando, lo que mejora significativamente la eficiencia sin escribir
- Proporcionar comentarios: agregue comentarios y comentarios durante las revisiones de código o revisiones de documentos con entrada de voz.
- Responder a mensajes: responda rápidamente a mensajes en conversaciones y debates sin escribir
- Creación de contenido de formato largo: genere rápidamente documentación del proyecto, especificaciones técnicas, notas de reuniones y otro contenido de formato largo.
Ventajas prácticas
Sección titulada «Ventajas prácticas»- Integración profunda con conocimiento del contexto: HagiCode se integra profundamente con el reconocimiento de voz de Doubao, aprovechando automáticamente el contexto actual del proyecto (como la estructura del código, la pila de tecnología, la terminología de dominio) para proporcionar un reconocimiento preciso del vocabulario del dominio, mejorando significativamente la precisión del reconocimiento de términos técnicos.
- Horas de prueba gratuitas: la plataforma Doubao ofrece 20 horas de tiempo de reconocimiento gratuito para que los nuevos usuarios experimenten la entrada de voz sin barreras.
- Extremadamente rápido: reconocimiento en tiempo real, vea el texto mientras habla sin esperas
- Alta precisión: Desarrollado por los modelos avanzados de reconocimiento de voz de Doubao combinados con el contexto del proyecto para obtener resultados precisos y confiables.
- Integración perfecta: Integrado directamente en el cuadro de entrada de mensajes de HagiCode, sin necesidad de cambiar de aplicación
- Fácil de usar: Simplemente haga clic en el micrófono para comenzar, intuitivo y sencillo
Inicio rápido
Sección titulada «Inicio rápido»Requisitos previos
Sección titulada «Requisitos previos»Antes de utilizar la entrada por voz de Doubao, debe:
-
Obtenga una cuenta de plataforma abierta Doubao
- Visita Consola de reconocimiento de voz Doubao
- Regístrese o inicie sesión en su cuenta
-
Cree una solicitud y obtenga credenciales
- Crear una aplicación de reconocimiento de voz en la plataforma
- Consigue tu
APP IDyAccess Token
-
Asegure la conexión de red
- El servicio de reconocimiento de voz requiere conexión de red
- Asegúrese de que su dispositivo pueda acceder al servicio API de Doubao
Flujo de uso básico
Sección titulada «Flujo de uso básico»Estos son los pasos básicos para utilizar la entrada de voz de Doubao:
- Obtener
APP IDyAccess Token - Configurar el reconocimiento de voz en el producto.
- Pruebe la clave API
- Encuentra el cuadro de entrada de voz
- Haga clic en el botón del micrófono
- Conceder permiso al micrófono
- Empezar a grabar
- Ver los resultados del reconocimiento en tiempo real
- Haga clic para detener la grabación
- Confirma que el texto está insertado.
Requisitos técnicos
Sección titulada «Requisitos técnicos»Entorno HTTP
Sección titulada «Entorno HTTP»Doubao Voice Input requiere ejecutarse en un entorno HTTP/HTTPS.
| Medio ambiente | Estado de soporte | Descripción |
|---|---|---|
| host local | ✓ | Entorno de desarrollo local (http://localhost o http://127.0.0.1) |
| Servidor remoto HTTPS | ✓ | Aplicaciones web implementadas en redes públicas con HTTPS |
| Servidor remoto HTTP | ✗ | Aplicaciones web implementadas en redes públicas con HTTP |
| archivo:// protocolo | ✗ | No se admite la apertura directa de archivos HTML |
:::precaución La entrada de voz de Doubao tiene las siguientes limitaciones:
- Se requiere HTTPS para implementación externa: debido a restricciones de seguridad del navegador, el acceso al micrófono requiere HTTPS cuando se accede desde redes públicas
- Direcciones locales sin restricciones: se admiten tanto HTTP como HTTPS cuando se usa
localhosto127.0.0.1 - protocolo file:// no compatible: El
file://El entorno de protocolo no puede utilizar conexiones de micrófono ni WebSocket. :::
Versión de escritorio
Sección titulada «Versión de escritorio»La versión de escritorio de HagiCode tiene un entorno HTTP local integrado y es totalmente compatible con la entrada de voz. Puede utilizar el reconocimiento de voz directamente sin configuración adicional.
Modo anfitrión
Sección titulada «Modo anfitrión»El modo de host local admite entrada de voz:
- Tanto HTTP como HTTPS son compatibles cuando se utiliza
localhosto127.0.0.1 - Se requiere HTTPS cuando se implementa en redes públicas
Pasos de configuración
Sección titulada «Pasos de configuración»Obtener ID de la aplicación
Sección titulada «Obtener ID de la aplicación»- Visita Consola de reconocimiento de voz Doubao
- Iniciar sesión o registrar una cuenta
- Vaya a la consola y cree una nueva aplicación de reconocimiento de voz.
- En la página de detalles de la aplicación, busque y copie el
APP ID
Obtener token de acceso
Sección titulada «Obtener token de acceso»- En la consola de la plataforma abierta de Doubao
- Vaya a su aplicación de reconocimiento de voz
- Encuentre el área de administración de claves API
- Generar o copiar el
Access Token
Por favor mantén tu Access Token seguro y no lo comparta con otros. Si necesita reemplazarlo, puede regenerarlo en Doubao Open Platform.
Configurar en Producto
Sección titulada «Configurar en Producto»- Abra la aplicación HagiCode
- Vaya a Configuración → Configuración de reconocimiento de voz
- Complete la siguiente información en el formulario de configuración:
- Proveedor: Seleccionar
doubao(Doubao) - ID DE APLICACIÓN: Pega el ID de APLICACIÓN que obtuviste de la plataforma Doubao
- Token de acceso: Pega el token de acceso que obtuviste de la plataforma Doubao
- Proveedor: Seleccionar
- (Opcional) Ajuste otros parámetros de configuración según sea necesario
- Haga clic en el botón Probar clave API para verificar la configuración.
- Después de una verificación exitosa, la configuración se guarda automáticamente en el almacenamiento local del navegador.
Descripción del campo de configuración
Sección titulada «Descripción del campo de configuración»| Field | Required | Description | Default |
|---|---|---|---|
| Provider | Yes | Speech recognition service provider | doubao |
| APP ID | Yes | Application unique identifier, obtained from Doubao Open Platform | - |
| Access Token | Yes | Authentication access token, obtained from Doubao Open Platform | - |
| Service URL | No | API service address, usually use default value | (1) |
| Hotword Table ID | No | Used to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation | - |
| Max Recording Duration | No | Maximum duration for a single recording, range 10-600 seconds | 300 seconds |
| Sample Rate | No | Audio sample rate, supports 16000 Hz | 16000 Hz |
| Bit Depth | No | Audio bit depth | 16-bit |
| Channel Count | No | Audio channel count, mono | 1 |
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async | |||
Clave API de prueba
Sección titulada «Clave API de prueba»Después de la configuración, se recomienda probar si la clave API es válida:
- Haga clic en el botón Probar clave API
- El sistema llamará a la interfaz de prueba para verificar su configuración.
- Si la configuración es correcta se mostrará un mensaje de éxito
- Si la configuración es incorrecta, se mostrará un mensaje de error. Por favor verifique:
- Si el ID de la aplicación y el token de acceso son correctos
- Si la conexión de red es normal
- Si el token de acceso ha caducado
Si la prueba falla, primero verifique si la conexión de red es normal, luego confirme que la clave API de Doubao Open Platform sea válida y no esté vencida.
Buscar ubicación de entrada de voz
Sección titulada «Buscar ubicación de entrada de voz»En HagiCode, los cuadros de entrada de texto con un icono de micrófono admiten la entrada de voz. Estos componentes normalmente se denominan VoiceTextArea.
Las ubicaciones comunes de entrada de voz incluyen:
- Cuadros de entrada de mensajes
- Áreas de edición de texto
- Varios campos de formulario que requieren entrada de texto
Iniciar reconocimiento de voz
Sección titulada «Iniciar reconocimiento de voz»- Busque el cuadro de entrada con un icono de micrófono
- Haga clic en el botón del micrófono
- El navegador solicitará permiso para el micrófono.
- Haga clic en Permitir para autorizar el acceso al micrófono.
Si ha autorizado previamente el micrófono, es posible que el navegador no vuelva a solicitar permiso. Para verificar o cambiar la configuración de permisos, puede verlos en el ícono de candado a la izquierda de la barra de direcciones del navegador.
Descripción del estado de grabación
Sección titulada «Descripción del estado de grabación»Una vez que la autorización sea exitosa, el reconocimiento de voz se iniciará automáticamente y podrá ver:
- Animación de forma de onda: La forma de onda de sonido dinámica se mostrará dentro del botón del micrófono, lo que indica que la grabación está en progreso.
- Visualización de duración: La duración de la grabación actual se mostrará debajo del botón
- Reconocimiento en tiempo real: el texto reconocido se mostrará temporalmente en la posición del cursor
Visualización de resultados de reconocimiento en tiempo real
Sección titulada «Visualización de resultados de reconocimiento en tiempo real»Durante la grabación, el motor de reconocimiento de voz convertirá su voz en texto en tiempo real:
- El texto reconocido se mostrará temporalmente en gris en el cuadro de entrada
- Los resultados del reconocimiento se actualizarán continuamente a medida que habla.
- Admite el reconocimiento de chino mandarín con alta precisión
Para mejores resultados de reconocimiento, se recomienda:
- Usar en un ambiente tranquilo
- Habla con claridad y a un ritmo moderado.
- Evite la interferencia del ruido de fondo
Detener el reconocimiento
Sección titulada «Detener el reconocimiento»Para detener el reconocimiento de voz, puede:
- Haga clic en el botón del micrófono: haga clic en el botón nuevamente para detener la grabación
- Haga clic en el cuadro de entrada: haga clic en otras áreas del cuadro de entrada para detener la grabación.
Después de detenerse, el texto final reconocido se insertará formalmente en el cuadro de entrada y podrá continuar editando o enviando.