Ir al contenido

Guía de entrada de voz de Doubao

Edita esta página

Cuota de prueba: Doubao Open Platform ofrece a los nuevos usuarios 20 horas de reconocimiento de voz gratuito, lo que es suficiente para comprobar si este flujo de entrada de voz se adapta a su trabajo.

Doubao Voice Input es la función integrada de reconocimiento de voz de HagiCode, respaldada por la plataforma abierta ByteDance Doubao. Usted habla y el sistema convierte la voz en texto. HagiCode también utiliza el contexto actual del proyecto para ayudar a reconocer el vocabulario del dominio y los términos técnicos de manera más confiable.

En HagiCode, la entrada de voz funciona mejor para:

  • Ingreso de propuestas rápidamente: cree y envíe propuestas simplemente hablando, lo que mejora significativamente la eficiencia sin escribir
  • Proporcionar comentarios: agregue comentarios y comentarios durante las revisiones de código o revisiones de documentos con entrada de voz.
  • Responder a mensajes: responda rápidamente a mensajes en conversaciones y debates sin escribir
  • Creación de contenido de formato largo: genere rápidamente documentación del proyecto, especificaciones técnicas, notas de reuniones y otro contenido de formato largo.
  • Integración profunda con conocimiento del contexto: HagiCode se integra profundamente con el reconocimiento de voz de Doubao, aprovechando automáticamente el contexto actual del proyecto (como la estructura del código, la pila de tecnología, la terminología de dominio) para proporcionar un reconocimiento preciso del vocabulario del dominio, mejorando significativamente la precisión del reconocimiento de términos técnicos.
  • Horas de prueba gratuitas: la plataforma Doubao ofrece 20 horas de tiempo de reconocimiento gratuito para que los nuevos usuarios experimenten la entrada de voz sin barreras.
  • Extremadamente rápido: reconocimiento en tiempo real, vea el texto mientras habla sin esperas
  • Alta precisión: Desarrollado por los modelos avanzados de reconocimiento de voz de Doubao combinados con el contexto del proyecto para obtener resultados precisos y confiables.
  • Integración perfecta: Integrado directamente en el cuadro de entrada de mensajes de HagiCode, sin necesidad de cambiar de aplicación
  • Fácil de usar: Simplemente haga clic en el micrófono para comenzar, intuitivo y sencillo

Antes de utilizar la entrada por voz de Doubao, debe:

  1. Obtenga una cuenta de plataforma abierta Doubao

  2. Cree una solicitud y obtenga credenciales

    • Crear una aplicación de reconocimiento de voz en la plataforma
    • Consigue tu APP ID y Access Token
  3. Asegure la conexión de red

    • El servicio de reconocimiento de voz requiere conexión de red
    • Asegúrese de que su dispositivo pueda acceder al servicio API de Doubao

Estos son los pasos básicos para utilizar la entrada de voz de Doubao:

  1. Obtener APP ID y Access Token
  2. Configurar el reconocimiento de voz en el producto.
  3. Pruebe la clave API
  4. Encuentra el cuadro de entrada de voz
  5. Haga clic en el botón del micrófono
  6. Conceder permiso al micrófono
  7. Empezar a grabar
  8. Ver los resultados del reconocimiento en tiempo real
  9. Haga clic para detener la grabación
  10. Confirma que el texto está insertado.

Doubao Voice Input requiere ejecutarse en un entorno HTTP/HTTPS.

Medio ambienteEstado de soporteDescripción
host localEntorno de desarrollo local (http://localhost o http://127.0.0.1)
Servidor remoto HTTPSAplicaciones web implementadas en redes públicas con HTTPS
Servidor remoto HTTPAplicaciones web implementadas en redes públicas con HTTP
archivo:// protocoloNo se admite la apertura directa de archivos HTML

:::precaución La entrada de voz de Doubao tiene las siguientes limitaciones:

  1. Se requiere HTTPS para implementación externa: debido a restricciones de seguridad del navegador, el acceso al micrófono requiere HTTPS cuando se accede desde redes públicas
  2. Direcciones locales sin restricciones: se admiten tanto HTTP como HTTPS cuando se usa localhost o 127.0.0.1
  3. protocolo file:// no compatible: El file:// El entorno de protocolo no puede utilizar conexiones de micrófono ni WebSocket. :::

La versión de escritorio de HagiCode tiene un entorno HTTP local integrado y es totalmente compatible con la entrada de voz. Puede utilizar el reconocimiento de voz directamente sin configuración adicional.

El modo de host local admite entrada de voz:

  • Tanto HTTP como HTTPS son compatibles cuando se utiliza localhost o 127.0.0.1
  • Se requiere HTTPS cuando se implementa en redes públicas
  1. Visita Consola de reconocimiento de voz Doubao
  2. Iniciar sesión o registrar una cuenta
  3. Vaya a la consola y cree una nueva aplicación de reconocimiento de voz.
  4. En la página de detalles de la aplicación, busque y copie el APP ID
  1. En la consola de la plataforma abierta de Doubao
  2. Vaya a su aplicación de reconocimiento de voz
  3. Encuentre el área de administración de claves API
  4. Generar o copiar el Access Token

Por favor mantén tu Access Token seguro y no lo comparta con otros. Si necesita reemplazarlo, puede regenerarlo en Doubao Open Platform.

  1. Abra la aplicación HagiCode
  2. Vaya a ConfiguraciónConfiguración de reconocimiento de voz
  3. Complete la siguiente información en el formulario de configuración:
    • Proveedor: Seleccionar doubao (Doubao)
    • ID DE APLICACIÓN: Pega el ID de APLICACIÓN que obtuviste de la plataforma Doubao
    • Token de acceso: Pega el token de acceso que obtuviste de la plataforma Doubao
  4. (Opcional) Ajuste otros parámetros de configuración según sea necesario
  5. Haga clic en el botón Probar clave API para verificar la configuración.
  6. Después de una verificación exitosa, la configuración se guarda automáticamente en el almacenamiento local del navegador.
FieldRequiredDescriptionDefault
ProviderYesSpeech recognition service providerdoubao
APP IDYesApplication unique identifier, obtained from Doubao Open Platform-
Access TokenYesAuthentication access token, obtained from Doubao Open Platform-
Service URLNoAPI service address, usually use default value(1)
Hotword Table IDNoUsed to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation-
Max Recording DurationNoMaximum duration for a single recording, range 10-600 seconds300 seconds
Sample RateNoAudio sample rate, supports 16000 Hz16000 Hz
Bit DepthNoAudio bit depth16-bit
Channel CountNoAudio channel count, mono1
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async

Después de la configuración, se recomienda probar si la clave API es válida:

  1. Haga clic en el botón Probar clave API
  2. El sistema llamará a la interfaz de prueba para verificar su configuración.
  3. Si la configuración es correcta se mostrará un mensaje de éxito
  4. Si la configuración es incorrecta, se mostrará un mensaje de error. Por favor verifique:
    • Si el ID de la aplicación y el token de acceso son correctos
    • Si la conexión de red es normal
    • Si el token de acceso ha caducado

Si la prueba falla, primero verifique si la conexión de red es normal, luego confirme que la clave API de Doubao Open Platform sea válida y no esté vencida.

En HagiCode, los cuadros de entrada de texto con un icono de micrófono admiten la entrada de voz. Estos componentes normalmente se denominan VoiceTextArea.

Las ubicaciones comunes de entrada de voz incluyen:

  • Cuadros de entrada de mensajes
  • Áreas de edición de texto
  • Varios campos de formulario que requieren entrada de texto
  1. Busque el cuadro de entrada con un icono de micrófono
  2. Haga clic en el botón del micrófono
  3. El navegador solicitará permiso para el micrófono.
  4. Haga clic en Permitir para autorizar el acceso al micrófono.

Si ha autorizado previamente el micrófono, es posible que el navegador no vuelva a solicitar permiso. Para verificar o cambiar la configuración de permisos, puede verlos en el ícono de candado a la izquierda de la barra de direcciones del navegador.

Una vez que la autorización sea exitosa, el reconocimiento de voz se iniciará automáticamente y podrá ver:

  • Animación de forma de onda: La forma de onda de sonido dinámica se mostrará dentro del botón del micrófono, lo que indica que la grabación está en progreso.
  • Visualización de duración: La duración de la grabación actual se mostrará debajo del botón
  • Reconocimiento en tiempo real: el texto reconocido se mostrará temporalmente en la posición del cursor

Visualización de resultados de reconocimiento en tiempo real

Sección titulada «Visualización de resultados de reconocimiento en tiempo real»

Durante la grabación, el motor de reconocimiento de voz convertirá su voz en texto en tiempo real:

  • El texto reconocido se mostrará temporalmente en gris en el cuadro de entrada
  • Los resultados del reconocimiento se actualizarán continuamente a medida que habla.
  • Admite el reconocimiento de chino mandarín con alta precisión

Para mejores resultados de reconocimiento, se recomienda:

  • Usar en un ambiente tranquilo
  • Habla con claridad y a un ritmo moderado.
  • Evite la interferencia del ruido de fondo

Para detener el reconocimiento de voz, puede:

  1. Haga clic en el botón del micrófono: haga clic en el botón nuevamente para detener la grabación
  2. Haga clic en el cuadro de entrada: haga clic en otras áreas del cuadro de entrada para detener la grabación.

Después de detenerse, el texto final reconocido se insertará formalmente en el cuadro de entrada y podrá continuar editando o enviando.