Guia de entrada de voz Doubao

Cota de teste: a Doubao Open Platform oferece aos novos usuários 20 horas de reconhecimento de fala gratuito, o que é suficiente para verificar se esse fluxo de entrada de voz se adapta ao seu trabalho.

Visão geral

O que é entrada de voz Doubao

Doubao Voice Input é um recurso integrado de reconhecimento de fala do HagiCode, apoiado pela ByteDance Doubao Open Platform. Você fala e o sistema transforma a fala em texto. O HagiCode também usa o contexto atual do projeto para ajudar a reconhecer o vocabulário do domínio e os termos técnicos de maneira mais confiável.

Principais casos de uso

No HagiCode, a entrada de voz funciona melhor para:

Inserção rápida de propostas: Crie e envie propostas simplesmente falando, melhorando significativamente a eficiência sem digitar
Fornecendo comentários: adicione comentários e feedback durante revisões de código ou de documentos com entrada de voz
Responder mensagens: responda rapidamente às mensagens em conversas e discussões sem digitar
Criação de conteúdo longo: gere rapidamente documentação de projeto, especificações técnicas, notas de reuniões e outros conteúdos longos

Vantagens práticas

Integração profunda com reconhecimento de contexto: o HagiCode se integra profundamente ao reconhecimento de fala Doubao, aproveitando automaticamente o contexto atual do projeto (como estrutura de código, pilha de tecnologia, terminologia de domínio) para fornecer reconhecimento preciso de vocabulário de domínio, melhorando significativamente a precisão do reconhecimento de termos técnicos
Horas de teste gratuito: a plataforma Doubao oferece 20 horas de tempo de reconhecimento gratuito para novos usuários experimentarem a entrada de voz sem barreira
Extremamente rápido: reconhecimento em tempo real, veja o texto enquanto você fala, sem espera
Alta precisão: alimentado pelos modelos avançados de reconhecimento de fala da Doubao combinados com o contexto do projeto para resultados precisos e confiáveis
Integração Perfeita: Integrado diretamente na caixa de entrada de mensagens do HagiCode, sem necessidade de trocar de aplicativo
Fácil de usar: basta clicar no microfone para iniciar, intuitivo e direto

Início rápido

Pré-requisitos

Antes de usar a entrada de voz Doubao, você precisa:

Obtenha uma conta de plataforma aberta Doubao
- Visite Console de reconhecimento de fala Doubao
- Registre-se ou faça login em sua conta
Crie um aplicativo e obtenha credenciais
- Crie um aplicativo de reconhecimento de fala na plataforma
- Obtenha o seu APP ID e Access Token
Garanta a conexão de rede
- O serviço de reconhecimento de fala requer conexão de rede
- Certifique-se de que seu dispositivo possa acessar o serviço API Doubao

Fluxo de uso básico

Aqui estão as etapas básicas para usar a entrada de voz Doubao:

Obter APP ID e Access Token
Configure o reconhecimento de voz no produto
Teste a chave API
Encontre a caixa de entrada de voz
Clique no botão do microfone
Conceder permissão ao microfone
Comece a gravar
Veja os resultados do reconhecimento em tempo real
Clique para parar a gravação
Confirme se o texto foi inserido

Requisitos Técnicos

Ambiente HTTP

A entrada de voz Doubao requer execução em um ambiente HTTP/HTTPS.

Meio Ambiente	Status de suporte	Descrição
localhost	✓	Ambiente de desenvolvimento local (http://localhost ou http://127.0.0.1)
Servidor remoto HTTPS	✓	Aplicativos Web implantados em redes públicas com HTTPS
Servidor remoto HTTP	✗	Aplicativos Web implantados em redes públicas com HTTP
arquivo://protocolo	✗	A abertura direta de arquivos HTML não é suportada

A entrada de voz Doubao tem as seguintes limitações:

HTTPS necessário para implantação externa: devido a restrições de segurança do navegador, o acesso ao microfone requer HTTPS ao acessar de redes públicas
Endereços locais irrestritos: HTTP e HTTPS são suportados ao usar localhost ou 127.0.0.1
protocolo file:// não suportado: O file:// ambiente de protocolo não pode usar conexões de microfone e WebSocket

Versão para desktop

A versão Desktop do HagiCode possui um ambiente HTTP local integrado e suporta totalmente entrada de voz. Você pode usar o reconhecimento de fala diretamente, sem configuração adicional.

Modo anfitrião

O modo host local suporta entrada de voz:

HTTP e HTTPS são suportados ao usar localhost ou 127.0.0.1
HTTPS é necessário quando implantado em redes públicas

Etapas de configuração

Obtenha o ID do APP

Visite Console de reconhecimento de fala Doubao
Faça login ou registre uma conta
Vá para o console e crie um novo aplicativo de reconhecimento de fala
Na página de detalhes do aplicativo, localize e copie o APP ID

Obtenha token de acesso

No console da plataforma aberta Doubao
Vá para o seu aplicativo de reconhecimento de fala
Encontre a área de gerenciamento de chaves de API
Gere ou copie o Access Token

Por favor, mantenha o seu Access Token seguro e não o compartilhe com outras pessoas. Se precisar substituí-lo, você pode regenerá-lo na plataforma aberta Doubao.

Configurar no produto

Abra o aplicativo HagiCode
Vá para Configurações → Configurações de reconhecimento de voz
Preencha as seguintes informações no formulário de configuração:
- Provedor: Selecione doubao (Doubáo)
- APP ID: Cole o APP ID que você obteve na plataforma Doubao
- Token de acesso: cole o token de acesso obtido na plataforma Doubao
(Opcional) Ajuste outros parâmetros de configuração conforme necessário
Clique no botão Testar chave de API para verificar a configuração
Após a verificação bem-sucedida, a configuração é salva automaticamente no armazenamento local do navegador

Descrição do campo de configuração

Field	Required	Description	Default
Provider	Yes	Speech recognition service provider	doubao
APP ID	Yes	Application unique identifier, obtained from Doubao Open Platform	-
Access Token	Yes	Authentication access token, obtained from Doubao Open Platform	-
Service URL	No	API service address, usually use default value	(1)
Hotword Table ID	No	Used to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation	-
Max Recording Duration	No	Maximum duration for a single recording, range 10-600 seconds	300 seconds
Sample Rate	No	Audio sample rate, supports 16000 Hz	16000 Hz
Bit Depth	No	Audio bit depth	16-bit
Channel Count	No	Audio channel count, mono	1
(1) `wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async`

Chave de API de teste

Após a configuração, é recomendado testar se a chave API é válida:

Clique no botão Testar chave de API
O sistema chamará a interface de teste para verificar sua configuração
Se a configuração estiver correta, uma mensagem de sucesso será exibida
Se a configuração estiver incorreta, uma mensagem de erro será exibida. Por favor verifique:
- Se o APP ID e o token de acesso estão corretos
- Se a conexão de rede está normal
- Se o token de acesso expirou

Se o teste falhar, primeiro verifique se a conexão de rede está normal e, em seguida, confirme se a chave API da Doubao Open Platform é válida e não expirou.

Uso

Encontre o local de entrada de voz

No HagiCode, caixas de entrada de texto com um ícone de microfone suportam entrada de voz. Esses componentes são normalmente chamados VoiceTextArea.

Os locais comuns de entrada de voz incluem:

Caixas de entrada de mensagens
Áreas de edição de texto
Vários campos de formulário que exigem entrada de texto

Iniciar reconhecimento de voz

Encontre a caixa de entrada com um ícone de microfone
Clique no botão do microfone
O navegador solicitará permissão de microfone
Clique em Permitir para autorizar o acesso ao microfone

Se você autorizou o microfone anteriormente, o navegador não poderá solicitar permissão novamente. Para verificar ou alterar as configurações de permissão, você pode visualizá-las no ícone de cadeado à esquerda da barra de endereço do navegador.

Descrição do status de gravação

Depois que a autorização for bem-sucedida, o reconhecimento de voz será iniciado automaticamente e você poderá ver:

Animação de forma de onda: a forma de onda de onda sonora dinâmica será exibida dentro do botão do microfone, indicando que a gravação está em andamento
Exibição de duração: A duração da gravação atual será exibida abaixo do botão
Reconhecimento em tempo real: o texto reconhecido será exibido temporariamente na posição do cursor

Exibição de resultados de reconhecimento em tempo real

Durante a gravação, o mecanismo de reconhecimento de fala converterá sua fala em texto em tempo real:

O texto reconhecido será temporariamente exibido em cinza na caixa de entrada
Os resultados do reconhecimento serão atualizados continuamente enquanto você fala
Suporta reconhecimento de mandarim com alta precisão

Para melhores resultados de reconhecimento, recomenda-se:

Use em um ambiente silencioso
Fale claramente e em um ritmo moderado
Evite interferência de ruído de fundo

Parar o reconhecimento

Para interromper o reconhecimento de voz, você pode:

Clique no botão do microfone: Clique no botão novamente para interromper a gravação
Clique na caixa de entrada: Clicar em outras áreas da caixa de entrada também interromperá a gravação

Após parar, o texto final reconhecido será formalmente inserido na caixa de entrada e você poderá continuar editando ou enviando.