Anleitung zur Doubao-Spracheingabe
Seite bearbeitenTestkontingent: Die Doubao Open Platform bietet neuen Benutzern 20 Stunden freie Spracherkennung, was ausreicht, um zu überprüfen, ob dieser Spracheingabefluss zu Ihrer Arbeit passt.
Übersicht
Abschnitt betitelt „Übersicht“Was ist Doubao-Spracheingabe?
Abschnitt betitelt „Was ist Doubao-Spracheingabe?“Doubao Voice Input ist die integrierte Spracherkennungsfunktion von HagiCode, die von der ByteDance Doubao Open Platform unterstützt wird. Sie sprechen und das System wandelt Sprache in Text um. HagiCode nutzt außerdem den aktuellen Projektkontext, um Domänenvokabular und Fachbegriffe zuverlässiger zu erkennen.
Wichtige Anwendungsfälle
Abschnitt betitelt „Wichtige Anwendungsfälle“In HagiCode funktioniert die Spracheingabe am besten für:
- Schnelle Eingabe von Vorschlägen: Erstellen und übermitteln Sie Vorschläge durch einfaches Sprechen, wodurch die Effizienz ohne Tippen erheblich verbessert wird
- Kommentare bereitstellen: Fügen Sie Kommentare und Feedback während Codeüberprüfungen oder Dokumentüberprüfungen mit Spracheingabe hinzu
- Auf Nachrichten antworten: Reagieren Sie schnell auf Nachrichten in Gesprächen und Diskussionen, ohne etwas eintippen zu müssen
- Erstellung von Inhalten in Langform: Erstellen Sie schnell Projektdokumentationen, technische Spezifikationen, Besprechungsnotizen und andere Inhalte in Langform
Praktische Vorteile
Abschnitt betitelt „Praktische Vorteile“- Umfassende Integration mit Kontextbewusstsein: HagiCode lässt sich tief in die Doubao-Spracherkennung integrieren und nutzt automatisch den aktuellen Projektkontext (wie Codestruktur, Technologie-Stack, Domänenterminologie), um eine präzise Erkennung des Domänenvokabulars zu ermöglichen und so die Genauigkeit der Erkennung technischer Begriffe erheblich zu verbessern
- Kostenlose Teststunden: Die Doubao-Plattform bietet neuen Benutzern 20 Stunden kostenlose Erkennungszeit, um die Spracheingabe ohne Barrieren zu erleben
- Extrem schnell: Echtzeiterkennung, sehen Sie den Text, während Sie sprechen, ohne Wartezeit
- Hohe Genauigkeit: Unterstützt durch die fortschrittlichen Spracherkennungsmodelle von Doubao in Kombination mit dem Projektkontext für präzise und zuverlässige Ergebnisse
- Nahtlose Integration: Direkt in das Nachrichteneingabefeld von HagiCode integriert, kein Wechsel der Anwendung erforderlich
- Einfach zu bedienen: Zum Starten einfach auf das Mikrofon klicken, intuitiv und unkompliziert
Schnellstart
Abschnitt betitelt „Schnellstart“Voraussetzungen
Abschnitt betitelt „Voraussetzungen“Bevor Sie die Doubao-Spracheingabe verwenden, müssen Sie Folgendes tun:
-
Erhalten Sie ein Doubao Open Platform-Konto
- Besuchen Sie Doubao-Spracherkennungskonsole
- Registrieren Sie sich oder melden Sie sich bei Ihrem Konto an
-
Erstellen Sie eine Anwendung und erhalten Sie Anmeldeinformationen
- Erstellen Sie eine Spracherkennungsanwendung auf der Plattform
- Holen Sie sich Ihr
APP IDundAccess Token
-
Netzwerkverbindung sicherstellen
- Für den Spracherkennungsdienst ist eine Netzwerkverbindung erforderlich
- Stellen Sie sicher, dass Ihr Gerät auf den Doubao-API-Dienst zugreifen kann
Grundlegender Nutzungsablauf
Abschnitt betitelt „Grundlegender Nutzungsablauf“Hier sind die grundlegenden Schritte zur Verwendung der Doubao-Spracheingabe:
- Erhalten
APP IDundAccess Token - Konfigurieren Sie die Spracherkennung im Produkt
- Testen Sie den API-Schlüssel
- Suchen Sie das Spracheingabefeld
- Klicken Sie auf die Mikrofonschaltfläche
- Erteilen Sie die Mikrofonberechtigung
- Starten Sie die Aufnahme
- Erkennungsergebnisse in Echtzeit anzeigen
- Klicken Sie, um die Aufnahme zu stoppen
- Bestätigen Sie, dass der Text eingefügt wurde
Technische Anforderungen
Abschnitt betitelt „Technische Anforderungen“HTTP-Umgebung
Abschnitt betitelt „HTTP-Umgebung“Doubao Voice Input erfordert die Ausführung in einer HTTP/HTTPS-Umgebung.
| Umwelt | Supportstatus | Beschreibung |
|---|---|---|
| localhost | ✓ | Lokale Entwicklungsumgebung (http://localhost oder http://127.0.0.1) |
| HTTPS-Remoteserver | ✓ | Webanwendungen, die mit HTTPS in öffentlichen Netzwerken bereitgestellt werden |
| HTTP-Remoteserver | ✗ | Webanwendungen, die mit HTTP in öffentlichen Netzwerken bereitgestellt werden |
| Datei:// Protokoll | ✗ | Das direkte Öffnen von HTML-Dateien wird nicht unterstützt |
Für die Doubao-Spracheingabe gelten die folgenden Einschränkungen:
- HTTPS für externe Bereitstellung erforderlich: Aufgrund von Browser-Sicherheitseinschränkungen erfordert der Mikrofonzugriff HTTPS, wenn aus öffentlichen Netzwerken darauf zugegriffen wird
- Lokale Adressen uneingeschränkt: Bei der Verwendung werden sowohl HTTP als auch HTTPS unterstützt
localhostoder127.0.0.1 - file://-Protokoll nicht unterstützt: Das
file://In der Protokollumgebung können keine Mikrofon- und WebSocket-Verbindungen verwendet werden
Desktop-Version
Abschnitt betitelt „Desktop-Version“Die Desktop-Version von HagiCode verfügt über eine integrierte lokale HTTP-Umgebung und unterstützt die Spracheingabe vollständig. Sie können die Spracherkennung ohne zusätzliche Konfiguration direkt nutzen.
Host-Modus
Abschnitt betitelt „Host-Modus“Der lokale Host-Modus unterstützt die Spracheingabe:
- Bei der Verwendung werden sowohl HTTP als auch HTTPS unterstützt
localhostoder127.0.0.1 - Bei der Bereitstellung in öffentlichen Netzwerken ist HTTPS erforderlich
Konfigurationsschritte
Abschnitt betitelt „Konfigurationsschritte“Holen Sie sich die APP-ID
Abschnitt betitelt „Holen Sie sich die APP-ID“- Besuchen Sie Doubao-Spracherkennungskonsole
- Melden Sie sich an oder registrieren Sie ein Konto
- Gehen Sie zur Konsole und erstellen Sie eine neue Spracherkennungsanwendung
- Suchen und kopieren Sie auf der Seite mit den Anwendungsdetails die Datei
APP ID
Holen Sie sich Zugriffstoken
Abschnitt betitelt „Holen Sie sich Zugriffstoken“- In der Doubao Open Platform-Konsole
- Gehen Sie zu Ihrer Spracherkennungsanwendung
- Suchen Sie den API-Schlüsselverwaltungsbereich
- Generieren oder kopieren Sie die
Access Token
Bitte behalten Sie Ihre Access Token sicher und geben Sie es nicht an andere weiter. Wenn Sie es ersetzen müssen, können Sie es auf der Doubao Open Platform neu generieren.
Im Produkt konfigurieren
Abschnitt betitelt „Im Produkt konfigurieren“- Öffnen Sie die HagiCode-Anwendung
- Gehen Sie zu Einstellungen → Einstellungen für die Spracherkennung
- Geben Sie die folgenden Informationen in das Konfigurationsformular ein:
- Anbieter: Auswählen
doubao(Doubao) - APP-ID: Fügen Sie die APP-ID ein, die Sie von der Doubao-Plattform erhalten haben
- Zugriffstoken: Fügen Sie den Zugriffstoken ein, den Sie von der Doubao-Plattform erhalten haben
- Anbieter: Auswählen
- (Optional) Passen Sie andere Konfigurationsparameter nach Bedarf an
- Klicken Sie auf die Schaltfläche API-Schlüssel testen, um die Konfiguration zu überprüfen
- Nach erfolgreicher Überprüfung wird die Konfiguration automatisch im lokalen Speicher des Browsers gespeichert
Beschreibung des Konfigurationsfelds
Abschnitt betitelt „Beschreibung des Konfigurationsfelds“| Field | Required | Description | Default |
|---|---|---|---|
| Provider | Yes | Speech recognition service provider | doubao |
| APP ID | Yes | Application unique identifier, obtained from Doubao Open Platform | - |
| Access Token | Yes | Authentication access token, obtained from Doubao Open Platform | - |
| Service URL | No | API service address, usually use default value | (1) |
| Hotword Table ID | No | Used to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation | - |
| Max Recording Duration | No | Maximum duration for a single recording, range 10-600 seconds | 300 seconds |
| Sample Rate | No | Audio sample rate, supports 16000 Hz | 16000 Hz |
| Bit Depth | No | Audio bit depth | 16-bit |
| Channel Count | No | Audio channel count, mono | 1 |
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async | |||
API-Schlüssel testen
Abschnitt betitelt „API-Schlüssel testen“Nach der Konfiguration wird empfohlen, zu testen, ob der API-Schlüssel gültig ist:
- Klicken Sie auf die Schaltfläche API-Schlüssel testen
- Das System ruft die Testschnittstelle auf, um Ihre Konfiguration zu überprüfen
- Wenn die Konfiguration korrekt ist, wird eine Erfolgsmeldung angezeigt
- Wenn die Konfiguration falsch ist, wird eine Fehlermeldung angezeigt. Bitte überprüfen Sie:
- Ob APP-ID und Zugriffstoken korrekt sind
- Ob die Netzwerkverbindung normal ist
- Ob das Zugriffstoken abgelaufen ist
Wenn der Test fehlschlägt, überprüfen Sie zunächst, ob die Netzwerkverbindung normal ist, und bestätigen Sie dann, dass der API-Schlüssel der Doubao Open Platform gültig und nicht abgelaufen ist.
Verwendung
Abschnitt betitelt „Verwendung“Finden Sie den Ort der Spracheingabe
Abschnitt betitelt „Finden Sie den Ort der Spracheingabe“In HagiCode unterstützen Texteingabefelder mit einem Mikrofonsymbol die Spracheingabe. Diese Komponenten werden normalerweise aufgerufen VoiceTextArea.
Zu den gängigen Orten für die Spracheingabe gehören:
- Eingabefelder für Nachrichten
- Textbearbeitungsbereiche
- Verschiedene Formularfelder, die eine Texteingabe erfordern
Starten Sie die Spracherkennung
Abschnitt betitelt „Starten Sie die Spracherkennung“- Suchen Sie das Eingabefeld mit einem Mikrofonsymbol
- Klicken Sie auf die Mikrofonschaltfläche
- Der Browser fordert eine Mikrofonberechtigung an
- Klicken Sie auf Zulassen, um den Mikrofonzugriff zu autorisieren
Wenn Sie das Mikrofon zuvor autorisiert haben, fordert der Browser möglicherweise keine erneute Erlaubnis an. Um die Berechtigungseinstellungen zu überprüfen oder zu ändern, können Sie diese im Schlosssymbol links neben der Adressleiste des Browsers anzeigen.
Beschreibung des Aufnahmestatus
Abschnitt betitelt „Beschreibung des Aufnahmestatus“Nach erfolgreicher Autorisierung startet die Spracherkennung automatisch und Sie können Folgendes sehen:
- Wellenformanimation: Die dynamische Schallwellenform wird in der Mikrofontaste angezeigt und zeigt an, dass die Aufnahme läuft
- Daueranzeige: Die aktuelle Aufnahmedauer wird unter der Schaltfläche angezeigt
- Echtzeiterkennung: Erkannter Text wird vorübergehend an der Cursorposition angezeigt
Anzeige der Erkennungsergebnisse in Echtzeit
Abschnitt betitelt „Anzeige der Erkennungsergebnisse in Echtzeit“Während der Aufnahme wandelt die Spracherkennungs-Engine Ihre Sprache in Echtzeit in Text um:
- Erkannter Text wird im Eingabefeld vorübergehend grau angezeigt
- Die Erkennungsergebnisse werden kontinuierlich aktualisiert, während Sie sprechen
- Unterstützt die Erkennung von Mandarin-Chinesisch mit hoher Genauigkeit
Für bessere Erkennungsergebnisse wird Folgendes empfohlen:
- Verwendung in ruhiger Umgebung
- Sprechen Sie deutlich und in mäßigem Tempo
- Vermeiden Sie Hintergrundgeräusche
Stoppen Sie die Erkennung
Abschnitt betitelt „Stoppen Sie die Erkennung“Um die Spracherkennung zu stoppen, können Sie:
- Klicken Sie auf die Mikrofonschaltfläche: Klicken Sie erneut auf die Schaltfläche, um die Aufnahme zu stoppen
- Auf das Eingabefeld klicken: Wenn Sie auf andere Bereiche des Eingabefelds klicken, wird die Aufzeichnung ebenfalls gestoppt
Nach dem Stoppen wird der endgültig erkannte Text offiziell in das Eingabefeld eingefügt und Sie können mit der Bearbeitung oder dem Senden fortfahren.