Guia de entrada de voz Doubao
Editar páginaCota de teste: a Doubao Open Platform oferece aos novos usuários 20 horas de reconhecimento de fala gratuito, o que é suficiente para verificar se esse fluxo de entrada de voz se adapta ao seu trabalho.
Visão geral
Seção intitulada “Visão geral”O que é entrada de voz Doubao
Seção intitulada “O que é entrada de voz Doubao”Doubao Voice Input é um recurso integrado de reconhecimento de fala do HagiCode, apoiado pela ByteDance Doubao Open Platform. Você fala e o sistema transforma a fala em texto. O HagiCode também usa o contexto atual do projeto para ajudar a reconhecer o vocabulário do domínio e os termos técnicos de maneira mais confiável.
Principais casos de uso
Seção intitulada “Principais casos de uso”No HagiCode, a entrada de voz funciona melhor para:
- Inserção rápida de propostas: Crie e envie propostas simplesmente falando, melhorando significativamente a eficiência sem digitar
- Fornecendo comentários: adicione comentários e feedback durante revisões de código ou de documentos com entrada de voz
- Responder mensagens: responda rapidamente às mensagens em conversas e discussões sem digitar
- Criação de conteúdo longo: gere rapidamente documentação de projeto, especificações técnicas, notas de reuniões e outros conteúdos longos
Vantagens práticas
Seção intitulada “Vantagens práticas”- Integração profunda com reconhecimento de contexto: o HagiCode se integra profundamente ao reconhecimento de fala Doubao, aproveitando automaticamente o contexto atual do projeto (como estrutura de código, pilha de tecnologia, terminologia de domínio) para fornecer reconhecimento preciso de vocabulário de domínio, melhorando significativamente a precisão do reconhecimento de termos técnicos
- Horas de teste gratuito: a plataforma Doubao oferece 20 horas de tempo de reconhecimento gratuito para novos usuários experimentarem a entrada de voz sem barreira
- Extremamente rápido: reconhecimento em tempo real, veja o texto enquanto você fala, sem espera
- Alta precisão: alimentado pelos modelos avançados de reconhecimento de fala da Doubao combinados com o contexto do projeto para resultados precisos e confiáveis
- Integração Perfeita: Integrado diretamente na caixa de entrada de mensagens do HagiCode, sem necessidade de trocar de aplicativo
- Fácil de usar: basta clicar no microfone para iniciar, intuitivo e direto
Início rápido
Seção intitulada “Início rápido”Pré-requisitos
Seção intitulada “Pré-requisitos”Antes de usar a entrada de voz Doubao, você precisa:
-
Obtenha uma conta de plataforma aberta Doubao
- Visite Console de reconhecimento de fala Doubao
- Registre-se ou faça login em sua conta
-
Crie um aplicativo e obtenha credenciais
- Crie um aplicativo de reconhecimento de fala na plataforma
- Obtenha o seu
APP IDeAccess Token
-
Garanta a conexão de rede
- O serviço de reconhecimento de fala requer conexão de rede
- Certifique-se de que seu dispositivo possa acessar o serviço API Doubao
Fluxo de uso básico
Seção intitulada “Fluxo de uso básico”Aqui estão as etapas básicas para usar a entrada de voz Doubao:
- Obter
APP IDeAccess Token - Configure o reconhecimento de voz no produto
- Teste a chave API
- Encontre a caixa de entrada de voz
- Clique no botão do microfone
- Conceder permissão ao microfone
- Comece a gravar
- Veja os resultados do reconhecimento em tempo real
- Clique para parar a gravação
- Confirme se o texto foi inserido
Requisitos Técnicos
Seção intitulada “Requisitos Técnicos”Ambiente HTTP
Seção intitulada “Ambiente HTTP”A entrada de voz Doubao requer execução em um ambiente HTTP/HTTPS.
| Meio Ambiente | Status de suporte | Descrição |
|---|---|---|
| localhost | ✓ | Ambiente de desenvolvimento local (http://localhost ou http://127.0.0.1) |
| Servidor remoto HTTPS | ✓ | Aplicativos Web implantados em redes públicas com HTTPS |
| Servidor remoto HTTP | ✗ | Aplicativos Web implantados em redes públicas com HTTP |
| arquivo://protocolo | ✗ | A abertura direta de arquivos HTML não é suportada |
A entrada de voz Doubao tem as seguintes limitações:
- HTTPS necessário para implantação externa: devido a restrições de segurança do navegador, o acesso ao microfone requer HTTPS ao acessar de redes públicas
- Endereços locais irrestritos: HTTP e HTTPS são suportados ao usar
localhostou127.0.0.1 - protocolo file:// não suportado: O
file://ambiente de protocolo não pode usar conexões de microfone e WebSocket
Versão para desktop
Seção intitulada “Versão para desktop”A versão Desktop do HagiCode possui um ambiente HTTP local integrado e suporta totalmente entrada de voz. Você pode usar o reconhecimento de fala diretamente, sem configuração adicional.
Modo anfitrião
Seção intitulada “Modo anfitrião”O modo host local suporta entrada de voz:
- HTTP e HTTPS são suportados ao usar
localhostou127.0.0.1 - HTTPS é necessário quando implantado em redes públicas
Etapas de configuração
Seção intitulada “Etapas de configuração”Obtenha o ID do APP
Seção intitulada “Obtenha o ID do APP”- Visite Console de reconhecimento de fala Doubao
- Faça login ou registre uma conta
- Vá para o console e crie um novo aplicativo de reconhecimento de fala
- Na página de detalhes do aplicativo, localize e copie o
APP ID
Obtenha token de acesso
Seção intitulada “Obtenha token de acesso”- No console da plataforma aberta Doubao
- Vá para o seu aplicativo de reconhecimento de fala
- Encontre a área de gerenciamento de chaves de API
- Gere ou copie o
Access Token
Por favor, mantenha o seu Access Token seguro e não o compartilhe com outras pessoas. Se precisar substituí-lo, você pode regenerá-lo na plataforma aberta Doubao.
Configurar no produto
Seção intitulada “Configurar no produto”- Abra o aplicativo HagiCode
- Vá para Configurações → Configurações de reconhecimento de voz
- Preencha as seguintes informações no formulário de configuração:
- Provedor: Selecione
doubao(Doubáo) - APP ID: Cole o APP ID que você obteve na plataforma Doubao
- Token de acesso: cole o token de acesso obtido na plataforma Doubao
- Provedor: Selecione
- (Opcional) Ajuste outros parâmetros de configuração conforme necessário
- Clique no botão Testar chave de API para verificar a configuração
- Após a verificação bem-sucedida, a configuração é salva automaticamente no armazenamento local do navegador
Descrição do campo de configuração
Seção intitulada “Descrição do campo de configuração”| Field | Required | Description | Default |
|---|---|---|---|
| Provider | Yes | Speech recognition service provider | doubao |
| APP ID | Yes | Application unique identifier, obtained from Doubao Open Platform | - |
| Access Token | Yes | Authentication access token, obtained from Doubao Open Platform | - |
| Service URL | No | API service address, usually use default value | (1) |
| Hotword Table ID | No | Used to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation | - |
| Max Recording Duration | No | Maximum duration for a single recording, range 10-600 seconds | 300 seconds |
| Sample Rate | No | Audio sample rate, supports 16000 Hz | 16000 Hz |
| Bit Depth | No | Audio bit depth | 16-bit |
| Channel Count | No | Audio channel count, mono | 1 |
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async | |||
Chave de API de teste
Seção intitulada “Chave de API de teste”Após a configuração, é recomendado testar se a chave API é válida:
- Clique no botão Testar chave de API
- O sistema chamará a interface de teste para verificar sua configuração
- Se a configuração estiver correta, uma mensagem de sucesso será exibida
- Se a configuração estiver incorreta, uma mensagem de erro será exibida. Por favor verifique:
- Se o APP ID e o token de acesso estão corretos
- Se a conexão de rede está normal
- Se o token de acesso expirou
Se o teste falhar, primeiro verifique se a conexão de rede está normal e, em seguida, confirme se a chave API da Doubao Open Platform é válida e não expirou.
Encontre o local de entrada de voz
Seção intitulada “Encontre o local de entrada de voz”No HagiCode, caixas de entrada de texto com um ícone de microfone suportam entrada de voz. Esses componentes são normalmente chamados VoiceTextArea.
Os locais comuns de entrada de voz incluem:
- Caixas de entrada de mensagens
- Áreas de edição de texto
- Vários campos de formulário que exigem entrada de texto
Iniciar reconhecimento de voz
Seção intitulada “Iniciar reconhecimento de voz”- Encontre a caixa de entrada com um ícone de microfone
- Clique no botão do microfone
- O navegador solicitará permissão de microfone
- Clique em Permitir para autorizar o acesso ao microfone
Se você autorizou o microfone anteriormente, o navegador não poderá solicitar permissão novamente. Para verificar ou alterar as configurações de permissão, você pode visualizá-las no ícone de cadeado à esquerda da barra de endereço do navegador.
Descrição do status de gravação
Seção intitulada “Descrição do status de gravação”Depois que a autorização for bem-sucedida, o reconhecimento de voz será iniciado automaticamente e você poderá ver:
- Animação de forma de onda: a forma de onda de onda sonora dinâmica será exibida dentro do botão do microfone, indicando que a gravação está em andamento
- Exibição de duração: A duração da gravação atual será exibida abaixo do botão
- Reconhecimento em tempo real: o texto reconhecido será exibido temporariamente na posição do cursor
Exibição de resultados de reconhecimento em tempo real
Seção intitulada “Exibição de resultados de reconhecimento em tempo real”Durante a gravação, o mecanismo de reconhecimento de fala converterá sua fala em texto em tempo real:
- O texto reconhecido será temporariamente exibido em cinza na caixa de entrada
- Os resultados do reconhecimento serão atualizados continuamente enquanto você fala
- Suporta reconhecimento de mandarim com alta precisão
Para melhores resultados de reconhecimento, recomenda-se:
- Use em um ambiente silencioso
- Fale claramente e em um ritmo moderado
- Evite interferência de ruído de fundo
Parar o reconhecimento
Seção intitulada “Parar o reconhecimento”Para interromper o reconhecimento de voz, você pode:
- Clique no botão do microfone: Clique no botão novamente para interromper a gravação
- Clique na caixa de entrada: Clicar em outras áreas da caixa de entrada também interromperá a gravação
Após parar, o texto final reconhecido será formalmente inserido na caixa de entrada e você poderá continuar editando ou enviando.