Pular para o conteúdo

Guia de entrada de voz Doubao

Editar página

Cota de teste: a Doubao Open Platform oferece aos novos usuários 20 horas de reconhecimento de fala gratuito, o que é suficiente para verificar se esse fluxo de entrada de voz se adapta ao seu trabalho.

Doubao Voice Input é um recurso integrado de reconhecimento de fala do HagiCode, apoiado pela ByteDance Doubao Open Platform. Você fala e o sistema transforma a fala em texto. O HagiCode também usa o contexto atual do projeto para ajudar a reconhecer o vocabulário do domínio e os termos técnicos de maneira mais confiável.

No HagiCode, a entrada de voz funciona melhor para:

  • Inserção rápida de propostas: Crie e envie propostas simplesmente falando, melhorando significativamente a eficiência sem digitar
  • Fornecendo comentários: adicione comentários e feedback durante revisões de código ou de documentos com entrada de voz
  • Responder mensagens: responda rapidamente às mensagens em conversas e discussões sem digitar
  • Criação de conteúdo longo: gere rapidamente documentação de projeto, especificações técnicas, notas de reuniões e outros conteúdos longos
  • Integração profunda com reconhecimento de contexto: o HagiCode se integra profundamente ao reconhecimento de fala Doubao, aproveitando automaticamente o contexto atual do projeto (como estrutura de código, pilha de tecnologia, terminologia de domínio) para fornecer reconhecimento preciso de vocabulário de domínio, melhorando significativamente a precisão do reconhecimento de termos técnicos
  • Horas de teste gratuito: a plataforma Doubao oferece 20 horas de tempo de reconhecimento gratuito para novos usuários experimentarem a entrada de voz sem barreira
  • Extremamente rápido: reconhecimento em tempo real, veja o texto enquanto você fala, sem espera
  • Alta precisão: alimentado pelos modelos avançados de reconhecimento de fala da Doubao combinados com o contexto do projeto para resultados precisos e confiáveis
  • Integração Perfeita: Integrado diretamente na caixa de entrada de mensagens do HagiCode, sem necessidade de trocar de aplicativo
  • Fácil de usar: basta clicar no microfone para iniciar, intuitivo e direto

Antes de usar a entrada de voz Doubao, você precisa:

  1. Obtenha uma conta de plataforma aberta Doubao

  2. Crie um aplicativo e obtenha credenciais

    • Crie um aplicativo de reconhecimento de fala na plataforma
    • Obtenha o seu APP ID e Access Token
  3. Garanta a conexão de rede

    • O serviço de reconhecimento de fala requer conexão de rede
    • Certifique-se de que seu dispositivo possa acessar o serviço API Doubao

Aqui estão as etapas básicas para usar a entrada de voz Doubao:

  1. Obter APP ID e Access Token
  2. Configure o reconhecimento de voz no produto
  3. Teste a chave API
  4. Encontre a caixa de entrada de voz
  5. Clique no botão do microfone
  6. Conceder permissão ao microfone
  7. Comece a gravar
  8. Veja os resultados do reconhecimento em tempo real
  9. Clique para parar a gravação
  10. Confirme se o texto foi inserido

A entrada de voz Doubao requer execução em um ambiente HTTP/HTTPS.

Meio AmbienteStatus de suporteDescrição
localhostAmbiente de desenvolvimento local (http://localhost ou http://127.0.0.1)
Servidor remoto HTTPSAplicativos Web implantados em redes públicas com HTTPS
Servidor remoto HTTPAplicativos Web implantados em redes públicas com HTTP
arquivo://protocoloA abertura direta de arquivos HTML não é suportada

A entrada de voz Doubao tem as seguintes limitações:

  1. HTTPS necessário para implantação externa: devido a restrições de segurança do navegador, o acesso ao microfone requer HTTPS ao acessar de redes públicas
  2. Endereços locais irrestritos: HTTP e HTTPS são suportados ao usar localhost ou 127.0.0.1
  3. protocolo file:// não suportado: O file:// ambiente de protocolo não pode usar conexões de microfone e WebSocket

A versão Desktop do HagiCode possui um ambiente HTTP local integrado e suporta totalmente entrada de voz. Você pode usar o reconhecimento de fala diretamente, sem configuração adicional.

O modo host local suporta entrada de voz:

  • HTTP e HTTPS são suportados ao usar localhost ou 127.0.0.1
  • HTTPS é necessário quando implantado em redes públicas
  1. Visite Console de reconhecimento de fala Doubao
  2. Faça login ou registre uma conta
  3. Vá para o console e crie um novo aplicativo de reconhecimento de fala
  4. Na página de detalhes do aplicativo, localize e copie o APP ID
  1. No console da plataforma aberta Doubao
  2. Vá para o seu aplicativo de reconhecimento de fala
  3. Encontre a área de gerenciamento de chaves de API
  4. Gere ou copie o Access Token

Por favor, mantenha o seu Access Token seguro e não o compartilhe com outras pessoas. Se precisar substituí-lo, você pode regenerá-lo na plataforma aberta Doubao.

  1. Abra o aplicativo HagiCode
  2. Vá para ConfiguraçõesConfigurações de reconhecimento de voz
  3. Preencha as seguintes informações no formulário de configuração:
    • Provedor: Selecione doubao (Doubáo)
    • APP ID: Cole o APP ID que você obteve na plataforma Doubao
    • Token de acesso: cole o token de acesso obtido na plataforma Doubao
  4. (Opcional) Ajuste outros parâmetros de configuração conforme necessário
  5. Clique no botão Testar chave de API para verificar a configuração
  6. Após a verificação bem-sucedida, a configuração é salva automaticamente no armazenamento local do navegador
FieldRequiredDescriptionDefault
ProviderYesSpeech recognition service providerdoubao
APP IDYesApplication unique identifier, obtained from Doubao Open Platform-
Access TokenYesAuthentication access token, obtained from Doubao Open Platform-
Service URLNoAPI service address, usually use default value(1)
Hotword Table IDNoUsed to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation-
Max Recording DurationNoMaximum duration for a single recording, range 10-600 seconds300 seconds
Sample RateNoAudio sample rate, supports 16000 Hz16000 Hz
Bit DepthNoAudio bit depth16-bit
Channel CountNoAudio channel count, mono1
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async

Após a configuração, é recomendado testar se a chave API é válida:

  1. Clique no botão Testar chave de API
  2. O sistema chamará a interface de teste para verificar sua configuração
  3. Se a configuração estiver correta, uma mensagem de sucesso será exibida
  4. Se a configuração estiver incorreta, uma mensagem de erro será exibida. Por favor verifique:
    • Se o APP ID e o token de acesso estão corretos
    • Se a conexão de rede está normal
    • Se o token de acesso expirou

Se o teste falhar, primeiro verifique se a conexão de rede está normal e, em seguida, confirme se a chave API da Doubao Open Platform é válida e não expirou.

No HagiCode, caixas de entrada de texto com um ícone de microfone suportam entrada de voz. Esses componentes são normalmente chamados VoiceTextArea.

Os locais comuns de entrada de voz incluem:

  • Caixas de entrada de mensagens
  • Áreas de edição de texto
  • Vários campos de formulário que exigem entrada de texto
  1. Encontre a caixa de entrada com um ícone de microfone
  2. Clique no botão do microfone
  3. O navegador solicitará permissão de microfone
  4. Clique em Permitir para autorizar o acesso ao microfone

Se você autorizou o microfone anteriormente, o navegador não poderá solicitar permissão novamente. Para verificar ou alterar as configurações de permissão, você pode visualizá-las no ícone de cadeado à esquerda da barra de endereço do navegador.

Depois que a autorização for bem-sucedida, o reconhecimento de voz será iniciado automaticamente e você poderá ver:

  • Animação de forma de onda: a forma de onda de onda sonora dinâmica será exibida dentro do botão do microfone, indicando que a gravação está em andamento
  • Exibição de duração: A duração da gravação atual será exibida abaixo do botão
  • Reconhecimento em tempo real: o texto reconhecido será exibido temporariamente na posição do cursor

Exibição de resultados de reconhecimento em tempo real

Seção intitulada “Exibição de resultados de reconhecimento em tempo real”

Durante a gravação, o mecanismo de reconhecimento de fala converterá sua fala em texto em tempo real:

  • O texto reconhecido será temporariamente exibido em cinza na caixa de entrada
  • Os resultados do reconhecimento serão atualizados continuamente enquanto você fala
  • Suporta reconhecimento de mandarim com alta precisão

Para melhores resultados de reconhecimento, recomenda-se:

  • Use em um ambiente silencioso
  • Fale claramente e em um ritmo moderado
  • Evite interferência de ruído de fundo

Para interromper o reconhecimento de voz, você pode:

  1. Clique no botão do microfone: Clique no botão novamente para interromper a gravação
  2. Clique na caixa de entrada: Clicar em outras áreas da caixa de entrada também interromperá a gravação

Após parar, o texto final reconhecido será formalmente inserido na caixa de entrada e você poderá continuar editando ou enviando.