Aller au contenu

Guide de saisie vocale Doubao

Modifier cette page

Quota d’essai : Doubao Open Platform offre aux nouveaux utilisateurs 20 heures de reconnaissance vocale gratuite, ce qui est suffisant pour vérifier si ce flux de saisie vocale correspond à votre travail.

Doubao Voice Input est la fonction de reconnaissance vocale intégrée de HagiCode, soutenue par la plate-forme ouverte ByteDance Doubao. Vous parlez et le système transforme la parole en texte. HagiCode utilise également le contexte actuel du projet pour aider à reconnaître de manière plus fiable le vocabulaire du domaine et les termes techniques.

Dans HagiCode, la saisie vocale fonctionne mieux pour :

  • Saisie rapide de propositions : créez et soumettez des propositions simplement en parlant, améliorant ainsi considérablement l’efficacité sans avoir à taper.
  • Fournir des commentaires : ajoutez des commentaires et des retours lors des révisions de code ou des révisions de documents avec saisie vocale
  • Réponse aux messages : répondez rapidement aux messages dans les conversations et les discussions sans taper
  • Création de contenu long : générez rapidement de la documentation de projet, des spécifications techniques, des notes de réunion et d’autres contenus longs
  • Intégration approfondie avec connaissance du contexte : HagiCode s’intègre profondément à la reconnaissance vocale Doubao, exploitant automatiquement le contexte actuel du projet (tel que la structure du code, la pile technologique, la terminologie du domaine) pour fournir une reconnaissance précise du vocabulaire du domaine, améliorant considérablement la précision de la reconnaissance des termes techniques.
  • Heures d’essai gratuites : La plateforme Doubao offre 20 heures de temps de reconnaissance gratuit aux nouveaux utilisateurs pour expérimenter la saisie vocale sans barrière.
  • Extrêmement rapide : reconnaissance en temps réel, consultez le texte pendant que vous parlez sans attente
  • Haute précision : optimisé par les modèles avancés de reconnaissance vocale de Doubao combinés au contexte du projet pour des résultats précis et fiables
  • Intégration transparente : Directement intégré dans la zone de saisie des messages de HagiCode, pas besoin de changer d’application
  • Facile à utiliser : cliquez simplement sur le microphone pour démarrer, intuitif et simple

Avant d’utiliser la saisie vocale Doubao, vous devez :

  1. Obtenez un compte sur la plateforme ouverte Doubao

  2. Créez une application et obtenez des informations d’identification

    • Créer une application de reconnaissance vocale sur la plateforme
    • Obtenez votre APP ID et Access Token
  3. Assurer la connexion réseau

    • Le service de reconnaissance vocale nécessite une connexion réseau
    • Assurez-vous que votre appareil peut accéder au service API Doubao

Voici les étapes de base pour utiliser la saisie vocale Doubao :

  1. Obtenir APP ID et Access Token
  2. Configurer la reconnaissance vocale dans le produit
  3. Testez la clé API
  4. Trouver la zone de saisie vocale
  5. Cliquez sur le bouton du microphone
  6. Accorder l’autorisation du microphone
  7. Commencer l’enregistrement
  8. Visualisez les résultats de la reconnaissance en temps réel
  9. Cliquez pour arrêter l’enregistrement
  10. Confirmez que le texte est inséré

Doubao Voice Input nécessite une exécution dans un environnement HTTP/HTTPS.

EnvironnementStatut d’assistanceDescriptif
hôte localEnvironnement de développement local (http://localhost ou http://127.0.0.1)
Serveur distant HTTPSApplications Web déployées sur les réseaux publics avec HTTPS
Serveur distant HTTPApplications Web déployées sur les réseaux publics avec HTTP
fichier:// protocoleL’ouverture directe des fichiers HTML n’est pas prise en charge

La saisie vocale Doubao présente les limitations suivantes :

  1. HTTPS requis pour le déploiement externe : en raison des restrictions de sécurité du navigateur, l’accès au microphone nécessite HTTPS lors de l’accès à partir de réseaux publics.
  2. Adresses locales sans restriction : HTTP et HTTPS sont pris en charge lors de l’utilisation localhost ou 127.0.0.1
  3. protocole file:// non pris en charge : le file:// l’environnement de protocole ne peut pas utiliser les connexions microphone et WebSocket

La version de bureau de HagiCode dispose d’un environnement HTTP local intégré et prend entièrement en charge la saisie vocale. Vous pouvez utiliser la reconnaissance vocale directement sans configuration supplémentaire.

Le mode hôte local prend en charge la saisie vocale :

  • HTTP et HTTPS sont pris en charge lors de l’utilisation localhost ou 127.0.0.1
  • HTTPS est requis lors du déploiement sur les réseaux publics
  1. Visite Console de reconnaissance vocale Doubao
  2. Connectez-vous ou créez un compte
  3. Accédez à la console et créez une nouvelle application de reconnaissance vocale
  4. Dans la page des détails de l’application, recherchez et copiez le APP ID
  1. Dans la console Doubao Open Platform
  2. Accédez à votre application de reconnaissance vocale
  3. Trouver la zone de gestion des clés API
  4. Générez ou copiez le Access Token

S’il vous plaît, gardez votre Access Token en sécurité et ne le partagez pas avec d’autres. Si vous devez le remplacer, vous pouvez le régénérer sur la Plateforme Ouverte Doubao.

  1. Ouvrir l’application HagiCode
  2. Accédez à ParamètresParamètres de reconnaissance vocale.
  3. Remplissez les informations suivantes dans le formulaire de configuration :
    • Fournisseur : sélectionnez doubao (Doubao)
    • APP ID : collez l’ID d’application que vous avez obtenu de la plateforme Doubao
    • Jeton d’accès : collez le jeton d’accès que vous avez obtenu sur la plateforme Doubao
  4. (Facultatif) Ajustez d’autres paramètres de configuration selon vos besoins
  5. Cliquez sur le bouton Test API Key pour vérifier la configuration.
  6. Après une vérification réussie, la configuration est automatiquement enregistrée dans le stockage local du navigateur
FieldRequiredDescriptionDefault
ProviderYesSpeech recognition service providerdoubao
APP IDYesApplication unique identifier, obtained from Doubao Open Platform-
Access TokenYesAuthentication access token, obtained from Doubao Open Platform-
Service URLNoAPI service address, usually use default value(1)
Hotword Table IDNoUsed to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation-
Max Recording DurationNoMaximum duration for a single recording, range 10-600 seconds300 seconds
Sample RateNoAudio sample rate, supports 16000 Hz16000 Hz
Bit DepthNoAudio bit depth16-bit
Channel CountNoAudio channel count, mono1
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async

Après la configuration, il est recommandé de tester si la clé API est valide :

  1. Cliquez sur le bouton Tester la clé API.
  2. Le système appellera l’interface de test pour vérifier votre configuration
  3. Si la configuration est correcte, un message de réussite s’affichera
  4. Si la configuration est incorrecte, un message d’erreur s’affichera. Veuillez vérifier :
    • Si l’ID d’application et le jeton d’accès sont corrects
    • Si la connexion réseau est normale
    • Si le jeton d’accès a expiré

Si le test échoue, vérifiez d’abord si la connexion réseau est normale, puis confirmez que la clé API de la plateforme ouverte Doubao est valide et n’a pas expiré.

Dans HagiCode, les zones de saisie de texte avec une icône de microphone prennent en charge la saisie vocale. Ces composants sont généralement appelés VoiceTextArea.

Les emplacements de saisie vocale courants incluent :

  • Zones de saisie des messages
  • Zones d’édition de texte
  • Divers champs de formulaire nécessitant la saisie de texte
  1. Recherchez la zone de saisie avec une icône de microphone
  2. Cliquez sur le bouton du microphone
  3. Le navigateur demandera l’autorisation du microphone
  4. Cliquez sur Autoriser pour autoriser l’accès au microphone.

Si vous avez déjà autorisé le microphone, le navigateur ne peut plus demander l’autorisation. Pour vérifier ou modifier les paramètres d’autorisation, vous pouvez les afficher dans l’icône de verrouillage à gauche de la barre d’adresse du navigateur.

Une fois l’autorisation réussie, la reconnaissance vocale démarrera automatiquement et vous pourrez voir :

  • Animation de forme d’onde : la forme d’onde sonore dynamique s’affichera à l’intérieur du bouton du microphone, indiquant que l’enregistrement est en cours
  • Affichage de la durée : la durée d’enregistrement actuelle s’affichera sous le bouton
  • Reconnaissance en temps réel : le texte reconnu s’affichera temporairement à la position du curseur

Affichage des résultats de reconnaissance en temps réel

Section intitulée « Affichage des résultats de reconnaissance en temps réel »

Pendant l’enregistrement, le moteur de reconnaissance vocale convertira votre parole en texte en temps réel :

  • Le texte reconnu sera temporairement affiché en gris dans la zone de saisie
  • Les résultats de la reconnaissance seront continuellement mis à jour au fur et à mesure que vous parlez
  • Prend en charge la reconnaissance du chinois mandarin avec une grande précision

Pour de meilleurs résultats de reconnaissance, il est recommandé de :

  • Utilisation dans un environnement calme
  • Parlez clairement et à un rythme modéré
  • Évitez les interférences du bruit de fond

Pour arrêter la reconnaissance vocale, vous pouvez :

  1. Cliquez sur le bouton du microphone : cliquez à nouveau sur le bouton pour arrêter l’enregistrement
  2. Cliquez sur la zone de saisie : Cliquez sur d’autres zones de la zone de saisie pour arrêter également l’enregistrement

Après l’arrêt, le texte final reconnu sera formellement inséré dans la zone de saisie et vous pourrez continuer à l’éditer ou à l’envoyer.