Zum Inhalt springen

Anleitung zur Doubao-Spracheingabe

Seite bearbeiten

Testkontingent: Die Doubao Open Platform bietet neuen Benutzern 20 Stunden freie Spracherkennung, was ausreicht, um zu überprüfen, ob dieser Spracheingabefluss zu Ihrer Arbeit passt.

Doubao Voice Input ist die integrierte Spracherkennungsfunktion von HagiCode, die von der ByteDance Doubao Open Platform unterstützt wird. Sie sprechen und das System wandelt Sprache in Text um. HagiCode nutzt außerdem den aktuellen Projektkontext, um Domänenvokabular und Fachbegriffe zuverlässiger zu erkennen.

In HagiCode funktioniert die Spracheingabe am besten für:

  • Schnelle Eingabe von Vorschlägen: Erstellen und übermitteln Sie Vorschläge durch einfaches Sprechen, wodurch die Effizienz ohne Tippen erheblich verbessert wird
  • Kommentare bereitstellen: Fügen Sie Kommentare und Feedback während Codeüberprüfungen oder Dokumentüberprüfungen mit Spracheingabe hinzu
  • Auf Nachrichten antworten: Reagieren Sie schnell auf Nachrichten in Gesprächen und Diskussionen, ohne etwas eintippen zu müssen
  • Erstellung von Inhalten in Langform: Erstellen Sie schnell Projektdokumentationen, technische Spezifikationen, Besprechungsnotizen und andere Inhalte in Langform
  • Umfassende Integration mit Kontextbewusstsein: HagiCode lässt sich tief in die Doubao-Spracherkennung integrieren und nutzt automatisch den aktuellen Projektkontext (wie Codestruktur, Technologie-Stack, Domänenterminologie), um eine präzise Erkennung des Domänenvokabulars zu ermöglichen und so die Genauigkeit der Erkennung technischer Begriffe erheblich zu verbessern
  • Kostenlose Teststunden: Die Doubao-Plattform bietet neuen Benutzern 20 Stunden kostenlose Erkennungszeit, um die Spracheingabe ohne Barrieren zu erleben
  • Extrem schnell: Echtzeiterkennung, sehen Sie den Text, während Sie sprechen, ohne Wartezeit
  • Hohe Genauigkeit: Unterstützt durch die fortschrittlichen Spracherkennungsmodelle von Doubao in Kombination mit dem Projektkontext für präzise und zuverlässige Ergebnisse
  • Nahtlose Integration: Direkt in das Nachrichteneingabefeld von HagiCode integriert, kein Wechsel der Anwendung erforderlich
  • Einfach zu bedienen: Zum Starten einfach auf das Mikrofon klicken, intuitiv und unkompliziert

Bevor Sie die Doubao-Spracheingabe verwenden, müssen Sie Folgendes tun:

  1. Erhalten Sie ein Doubao Open Platform-Konto

  2. Erstellen Sie eine Anwendung und erhalten Sie Anmeldeinformationen

    • Erstellen Sie eine Spracherkennungsanwendung auf der Plattform
    • Holen Sie sich Ihr APP ID und Access Token
  3. Netzwerkverbindung sicherstellen

    • Für den Spracherkennungsdienst ist eine Netzwerkverbindung erforderlich
    • Stellen Sie sicher, dass Ihr Gerät auf den Doubao-API-Dienst zugreifen kann

Hier sind die grundlegenden Schritte zur Verwendung der Doubao-Spracheingabe:

  1. Erhalten APP ID und Access Token
  2. Konfigurieren Sie die Spracherkennung im Produkt
  3. Testen Sie den API-Schlüssel
  4. Suchen Sie das Spracheingabefeld
  5. Klicken Sie auf die Mikrofonschaltfläche
  6. Erteilen Sie die Mikrofonberechtigung
  7. Starten Sie die Aufnahme
  8. Erkennungsergebnisse in Echtzeit anzeigen
  9. Klicken Sie, um die Aufnahme zu stoppen
  10. Bestätigen Sie, dass der Text eingefügt wurde

Doubao Voice Input erfordert die Ausführung in einer HTTP/HTTPS-Umgebung.

UmweltSupportstatusBeschreibung
localhostLokale Entwicklungsumgebung (http://localhost oder http://127.0.0.1)
HTTPS-RemoteserverWebanwendungen, die mit HTTPS in öffentlichen Netzwerken bereitgestellt werden
HTTP-RemoteserverWebanwendungen, die mit HTTP in öffentlichen Netzwerken bereitgestellt werden
Datei:// ProtokollDas direkte Öffnen von HTML-Dateien wird nicht unterstützt

Für die Doubao-Spracheingabe gelten die folgenden Einschränkungen:

  1. HTTPS für externe Bereitstellung erforderlich: Aufgrund von Browser-Sicherheitseinschränkungen erfordert der Mikrofonzugriff HTTPS, wenn aus öffentlichen Netzwerken darauf zugegriffen wird
  2. Lokale Adressen uneingeschränkt: Bei der Verwendung werden sowohl HTTP als auch HTTPS unterstützt localhost oder 127.0.0.1
  3. file://-Protokoll nicht unterstützt: Das file:// In der Protokollumgebung können keine Mikrofon- und WebSocket-Verbindungen verwendet werden

Die Desktop-Version von HagiCode verfügt über eine integrierte lokale HTTP-Umgebung und unterstützt die Spracheingabe vollständig. Sie können die Spracherkennung ohne zusätzliche Konfiguration direkt nutzen.

Der lokale Host-Modus unterstützt die Spracheingabe:

  • Bei der Verwendung werden sowohl HTTP als auch HTTPS unterstützt localhost oder 127.0.0.1
  • Bei der Bereitstellung in öffentlichen Netzwerken ist HTTPS erforderlich
  1. Besuchen Sie Doubao-Spracherkennungskonsole
  2. Melden Sie sich an oder registrieren Sie ein Konto
  3. Gehen Sie zur Konsole und erstellen Sie eine neue Spracherkennungsanwendung
  4. Suchen und kopieren Sie auf der Seite mit den Anwendungsdetails die Datei APP ID
  1. In der Doubao Open Platform-Konsole
  2. Gehen Sie zu Ihrer Spracherkennungsanwendung
  3. Suchen Sie den API-Schlüsselverwaltungsbereich
  4. Generieren oder kopieren Sie die Access Token

Bitte behalten Sie Ihre Access Token sicher und geben Sie es nicht an andere weiter. Wenn Sie es ersetzen müssen, können Sie es auf der Doubao Open Platform neu generieren.

  1. Öffnen Sie die HagiCode-Anwendung
  2. Gehen Sie zu EinstellungenEinstellungen für die Spracherkennung
  3. Geben Sie die folgenden Informationen in das Konfigurationsformular ein:
    • Anbieter: Auswählen doubao (Doubao)
    • APP-ID: Fügen Sie die APP-ID ein, die Sie von der Doubao-Plattform erhalten haben
    • Zugriffstoken: Fügen Sie den Zugriffstoken ein, den Sie von der Doubao-Plattform erhalten haben
  4. (Optional) Passen Sie andere Konfigurationsparameter nach Bedarf an
  5. Klicken Sie auf die Schaltfläche API-Schlüssel testen, um die Konfiguration zu überprüfen
  6. Nach erfolgreicher Überprüfung wird die Konfiguration automatisch im lokalen Speicher des Browsers gespeichert
FieldRequiredDescriptionDefault
ProviderYesSpeech recognition service providerdoubao
APP IDYesApplication unique identifier, obtained from Doubao Open Platform-
Access TokenYesAuthentication access token, obtained from Doubao Open Platform-
Service URLNoAPI service address, usually use default value(1)
Hotword Table IDNoUsed to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation-
Max Recording DurationNoMaximum duration for a single recording, range 10-600 seconds300 seconds
Sample RateNoAudio sample rate, supports 16000 Hz16000 Hz
Bit DepthNoAudio bit depth16-bit
Channel CountNoAudio channel count, mono1
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async

Nach der Konfiguration wird empfohlen, zu testen, ob der API-Schlüssel gültig ist:

  1. Klicken Sie auf die Schaltfläche API-Schlüssel testen
  2. Das System ruft die Testschnittstelle auf, um Ihre Konfiguration zu überprüfen
  3. Wenn die Konfiguration korrekt ist, wird eine Erfolgsmeldung angezeigt
  4. Wenn die Konfiguration falsch ist, wird eine Fehlermeldung angezeigt. Bitte überprüfen Sie:
    • Ob APP-ID und Zugriffstoken korrekt sind
    • Ob die Netzwerkverbindung normal ist
    • Ob das Zugriffstoken abgelaufen ist

Wenn der Test fehlschlägt, überprüfen Sie zunächst, ob die Netzwerkverbindung normal ist, und bestätigen Sie dann, dass der API-Schlüssel der Doubao Open Platform gültig und nicht abgelaufen ist.

In HagiCode unterstützen Texteingabefelder mit einem Mikrofonsymbol die Spracheingabe. Diese Komponenten werden normalerweise aufgerufen VoiceTextArea.

Zu den gängigen Orten für die Spracheingabe gehören:

  • Eingabefelder für Nachrichten
  • Textbearbeitungsbereiche
  • Verschiedene Formularfelder, die eine Texteingabe erfordern
  1. Suchen Sie das Eingabefeld mit einem Mikrofonsymbol
  2. Klicken Sie auf die Mikrofonschaltfläche
  3. Der Browser fordert eine Mikrofonberechtigung an
  4. Klicken Sie auf Zulassen, um den Mikrofonzugriff zu autorisieren

Wenn Sie das Mikrofon zuvor autorisiert haben, fordert der Browser möglicherweise keine erneute Erlaubnis an. Um die Berechtigungseinstellungen zu überprüfen oder zu ändern, können Sie diese im Schlosssymbol links neben der Adressleiste des Browsers anzeigen.

Nach erfolgreicher Autorisierung startet die Spracherkennung automatisch und Sie können Folgendes sehen:

  • Wellenformanimation: Die dynamische Schallwellenform wird in der Mikrofontaste angezeigt und zeigt an, dass die Aufnahme läuft
  • Daueranzeige: Die aktuelle Aufnahmedauer wird unter der Schaltfläche angezeigt
  • Echtzeiterkennung: Erkannter Text wird vorübergehend an der Cursorposition angezeigt

Während der Aufnahme wandelt die Spracherkennungs-Engine Ihre Sprache in Echtzeit in Text um:

  • Erkannter Text wird im Eingabefeld vorübergehend grau angezeigt
  • Die Erkennungsergebnisse werden kontinuierlich aktualisiert, während Sie sprechen
  • Unterstützt die Erkennung von Mandarin-Chinesisch mit hoher Genauigkeit

Für bessere Erkennungsergebnisse wird Folgendes empfohlen:

  • Verwendung in ruhiger Umgebung
  • Sprechen Sie deutlich und in mäßigem Tempo
  • Vermeiden Sie Hintergrundgeräusche

Um die Spracherkennung zu stoppen, können Sie:

  1. Klicken Sie auf die Mikrofonschaltfläche: Klicken Sie erneut auf die Schaltfläche, um die Aufnahme zu stoppen
  2. Auf das Eingabefeld klicken: Wenn Sie auf andere Bereiche des Eingabefelds klicken, wird die Aufzeichnung ebenfalls gestoppt

Nach dem Stoppen wird der endgültig erkannte Text offiziell in das Eingabefeld eingefügt und Sie können mit der Bearbeitung oder dem Senden fortfahren.