Guide de saisie vocale Doubao

Quota d’essai : Doubao Open Platform offre aux nouveaux utilisateurs 20 heures de reconnaissance vocale gratuite, ce qui est suffisant pour vérifier si ce flux de saisie vocale correspond à votre travail.

Aperçu

Qu’est-ce que la saisie vocale Doubao

Doubao Voice Input est la fonction de reconnaissance vocale intégrée de HagiCode, soutenue par la plate-forme ouverte ByteDance Doubao. Vous parlez et le système transforme la parole en texte. HagiCode utilise également le contexte actuel du projet pour aider à reconnaître de manière plus fiable le vocabulaire du domaine et les termes techniques.

Cas d’utilisation clés

Dans HagiCode, la saisie vocale fonctionne mieux pour :

Saisie rapide de propositions : créez et soumettez des propositions simplement en parlant, améliorant ainsi considérablement l’efficacité sans avoir à taper.
Fournir des commentaires : ajoutez des commentaires et des retours lors des révisions de code ou des révisions de documents avec saisie vocale
Réponse aux messages : répondez rapidement aux messages dans les conversations et les discussions sans taper
Création de contenu long : générez rapidement de la documentation de projet, des spécifications techniques, des notes de réunion et d’autres contenus longs

Avantages pratiques

Intégration approfondie avec connaissance du contexte : HagiCode s’intègre profondément à la reconnaissance vocale Doubao, exploitant automatiquement le contexte actuel du projet (tel que la structure du code, la pile technologique, la terminologie du domaine) pour fournir une reconnaissance précise du vocabulaire du domaine, améliorant considérablement la précision de la reconnaissance des termes techniques.
Heures d’essai gratuites : La plateforme Doubao offre 20 heures de temps de reconnaissance gratuit aux nouveaux utilisateurs pour expérimenter la saisie vocale sans barrière.
Extrêmement rapide : reconnaissance en temps réel, consultez le texte pendant que vous parlez sans attente
Haute précision : optimisé par les modèles avancés de reconnaissance vocale de Doubao combinés au contexte du projet pour des résultats précis et fiables
Intégration transparente : Directement intégré dans la zone de saisie des messages de HagiCode, pas besoin de changer d’application
Facile à utiliser : cliquez simplement sur le microphone pour démarrer, intuitif et simple

Démarrage rapide

Conditions préalables

Avant d’utiliser la saisie vocale Doubao, vous devez :

Obtenez un compte sur la plateforme ouverte Doubao
- Visite Console de reconnaissance vocale Doubao
- Inscrivez-vous ou connectez-vous à votre compte
Créez une application et obtenez des informations d’identification
- Créer une application de reconnaissance vocale sur la plateforme
- Obtenez votre APP ID et Access Token
Assurer la connexion réseau
- Le service de reconnaissance vocale nécessite une connexion réseau
- Assurez-vous que votre appareil peut accéder au service API Doubao

Flux d’utilisation de base

Voici les étapes de base pour utiliser la saisie vocale Doubao :

Obtenir APP ID et Access Token
Configurer la reconnaissance vocale dans le produit
Testez la clé API
Trouver la zone de saisie vocale
Cliquez sur le bouton du microphone
Accorder l’autorisation du microphone
Commencer l’enregistrement
Visualisez les résultats de la reconnaissance en temps réel
Cliquez pour arrêter l’enregistrement
Confirmez que le texte est inséré

Exigences techniques

Environnement HTTP

Doubao Voice Input nécessite une exécution dans un environnement HTTP/HTTPS.

Environnement	Statut d’assistance	Descriptif
hôte local	✓	Environnement de développement local (http://localhost ou http://127.0.0.1)
Serveur distant HTTPS	✓	Applications Web déployées sur les réseaux publics avec HTTPS
Serveur distant HTTP	✗	Applications Web déployées sur les réseaux publics avec HTTP
fichier:// protocole	✗	L’ouverture directe des fichiers HTML n’est pas prise en charge

La saisie vocale Doubao présente les limitations suivantes :

HTTPS requis pour le déploiement externe : en raison des restrictions de sécurité du navigateur, l’accès au microphone nécessite HTTPS lors de l’accès à partir de réseaux publics.
Adresses locales sans restriction : HTTP et HTTPS sont pris en charge lors de l’utilisation localhost ou 127.0.0.1
protocole file:// non pris en charge : le file:// l’environnement de protocole ne peut pas utiliser les connexions microphone et WebSocket

Version de bureau

La version de bureau de HagiCode dispose d’un environnement HTTP local intégré et prend entièrement en charge la saisie vocale. Vous pouvez utiliser la reconnaissance vocale directement sans configuration supplémentaire.

Mode hôte

Le mode hôte local prend en charge la saisie vocale :

HTTP et HTTPS sont pris en charge lors de l’utilisation localhost ou 127.0.0.1
HTTPS est requis lors du déploiement sur les réseaux publics

Étapes de configuration

Obtenir l’identifiant de l’application

Visite Console de reconnaissance vocale Doubao
Connectez-vous ou créez un compte
Accédez à la console et créez une nouvelle application de reconnaissance vocale
Dans la page des détails de l’application, recherchez et copiez le APP ID

Obtenir un jeton d’accès

Dans la console Doubao Open Platform
Accédez à votre application de reconnaissance vocale
Trouver la zone de gestion des clés API
Générez ou copiez le Access Token

S’il vous plaît, gardez votre Access Token en sécurité et ne le partagez pas avec d’autres. Si vous devez le remplacer, vous pouvez le régénérer sur la Plateforme Ouverte Doubao.

Configurer dans le produit

Ouvrir l’application HagiCode
Accédez à Paramètres → Paramètres de reconnaissance vocale.
Remplissez les informations suivantes dans le formulaire de configuration :
- Fournisseur : sélectionnez doubao (Doubao)
- APP ID : collez l’ID d’application que vous avez obtenu de la plateforme Doubao
- Jeton d’accès : collez le jeton d’accès que vous avez obtenu sur la plateforme Doubao
(Facultatif) Ajustez d’autres paramètres de configuration selon vos besoins
Cliquez sur le bouton Test API Key pour vérifier la configuration.
Après une vérification réussie, la configuration est automatiquement enregistrée dans le stockage local du navigateur

Champ de configuration Description

Field	Required	Description	Default
Provider	Yes	Speech recognition service provider	doubao
APP ID	Yes	Application unique identifier, obtained from Doubao Open Platform	-
Access Token	Yes	Authentication access token, obtained from Doubao Open Platform	-
Service URL	No	API service address, usually use default value	(1)
Hotword Table ID	No	Used to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation	-
Max Recording Duration	No	Maximum duration for a single recording, range 10-600 seconds	300 seconds
Sample Rate	No	Audio sample rate, supports 16000 Hz	16000 Hz
Bit Depth	No	Audio bit depth	16-bit
Channel Count	No	Audio channel count, mono	1
(1) `wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async`

Clé API de test

Après la configuration, il est recommandé de tester si la clé API est valide :

Cliquez sur le bouton Tester la clé API.
Le système appellera l’interface de test pour vérifier votre configuration
Si la configuration est correcte, un message de réussite s’affichera
Si la configuration est incorrecte, un message d’erreur s’affichera. Veuillez vérifier :
- Si l’ID d’application et le jeton d’accès sont corrects
- Si la connexion réseau est normale
- Si le jeton d’accès a expiré

Si le test échoue, vérifiez d’abord si la connexion réseau est normale, puis confirmez que la clé API de la plateforme ouverte Doubao est valide et n’a pas expiré.

Utilisation

Trouver l’emplacement de la saisie vocale

Dans HagiCode, les zones de saisie de texte avec une icône de microphone prennent en charge la saisie vocale. Ces composants sont généralement appelés VoiceTextArea.

Les emplacements de saisie vocale courants incluent :

Zones de saisie des messages
Zones d’édition de texte
Divers champs de formulaire nécessitant la saisie de texte

Démarrer la reconnaissance vocale

Recherchez la zone de saisie avec une icône de microphone
Cliquez sur le bouton du microphone
Le navigateur demandera l’autorisation du microphone
Cliquez sur Autoriser pour autoriser l’accès au microphone.

Si vous avez déjà autorisé le microphone, le navigateur ne peut plus demander l’autorisation. Pour vérifier ou modifier les paramètres d’autorisation, vous pouvez les afficher dans l’icône de verrouillage à gauche de la barre d’adresse du navigateur.

Description de l’état d’enregistrement

Une fois l’autorisation réussie, la reconnaissance vocale démarrera automatiquement et vous pourrez voir :

Animation de forme d’onde : la forme d’onde sonore dynamique s’affichera à l’intérieur du bouton du microphone, indiquant que l’enregistrement est en cours
Affichage de la durée : la durée d’enregistrement actuelle s’affichera sous le bouton
Reconnaissance en temps réel : le texte reconnu s’affichera temporairement à la position du curseur

Affichage des résultats de reconnaissance en temps réel

Pendant l’enregistrement, le moteur de reconnaissance vocale convertira votre parole en texte en temps réel :

Le texte reconnu sera temporairement affiché en gris dans la zone de saisie
Les résultats de la reconnaissance seront continuellement mis à jour au fur et à mesure que vous parlez
Prend en charge la reconnaissance du chinois mandarin avec une grande précision

Pour de meilleurs résultats de reconnaissance, il est recommandé de :

Utilisation dans un environnement calme
Parlez clairement et à un rythme modéré
Évitez les interférences du bruit de fond

Arrêter la reconnaissance

Pour arrêter la reconnaissance vocale, vous pouvez :

Cliquez sur le bouton du microphone : cliquez à nouveau sur le bouton pour arrêter l’enregistrement
Cliquez sur la zone de saisie : Cliquez sur d’autres zones de la zone de saisie pour arrêter également l’enregistrement

Après l’arrêt, le texte final reconnu sera formellement inséré dans la zone de saisie et vous pourrez continuer à l’éditer ou à l’envoyer.