Doubao 음성 입력 가이드
페이지 편집:::팁 평가판 할당량: Doubao Open Platform은 신규 사용자에게 20시간의 무료 음성 인식 기능을 제공합니다. 이는 이 음성 입력 흐름이 작업에 적합한지 확인하는 데 충분합니다. :::
Doubao 음성 입력이란 무엇입니까?
섹션 제목: “Doubao 음성 입력이란 무엇입니까?”Doubao 음성 입력은 ByteDance Doubao 개방형 플랫폼이 지원하는 HagiCode의 통합 음성 인식 기능입니다. 당신이 말하면 시스템은 음성을 텍스트로 변환합니다. HagiCode는 또한 현재 프로젝트 컨텍스트를 사용하여 도메인 어휘 및 기술 용어를 보다 안정적으로 인식하는 데 도움을 줍니다.
주요 사용 사례
섹션 제목: “주요 사용 사례”HagiCode에서 음성 입력은 다음과 같은 경우에 가장 적합합니다.
- 빠른 제안서 입력: 간단히 말하면 제안서를 작성하고 제출할 수 있어 입력하지 않고도 효율성이 크게 향상됩니다.
- 댓글 제공: 음성 입력을 통해 코드 검토 또는 문서 검토 중에 댓글 및 피드백 추가
- 메시지에 답장: 입력하지 않고도 대화 및 토론에서 메시지에 빠르게 응답할 수 있습니다.
- 장문 콘텐츠 생성: 프로젝트 문서, 기술 사양, 회의록, 기타 장문 콘텐츠를 빠르게 생성합니다.
실용적인 장점
섹션 제목: “실용적인 장점”- 컨텍스트 인식과의 긴밀한 통합: HagiCode는 Doubao 음성 인식과 긴밀하게 통합되어 현재 프로젝트 컨텍스트(예: 코드 구조, 기술 스택, 도메인 용어)를 자동으로 활용하여 정확한 도메인 어휘 인식을 제공하고 기술 용어 인식 정확도를 크게 향상시킵니다.
- 무료 평가판 시간: Doubao 플랫폼은 신규 사용자가 장벽 없이 음성 입력을 경험할 수 있도록 20시간의 무료 인식 시간을 제공합니다.
- 매우 빠름: 실시간 인식, 말할 때 기다리지 않고 텍스트 확인
- 높은 정확도: 정확하고 신뢰할 수 있는 결과를 위해 프로젝트 컨텍스트와 결합된 Doubao의 고급 음성 인식 모델을 기반으로 합니다.
- 원활한 통합: HagiCode의 메시지 입력 상자에 직접 통합되어 애플리케이션을 전환할 필요가 없습니다.
- 사용하기 쉬움: 마이크를 클릭하기만 하면 직관적이고 간단하게 시작할 수 있습니다.
빠른 시작
섹션 제목: “빠른 시작”전제조건
섹션 제목: “전제조건”Doubao 음성 입력을 사용하기 전에 다음을 수행해야 합니다.
-
Doubao 오픈 플랫폼 계정 받기
- 방문 Doubao 음성 인식 콘솔
- 귀하의 계정에 등록하거나 로그인하십시오
-
애플리케이션 작성 및 자격 증명 받기
- 플랫폼에서 음성 인식 애플리케이션 생성
- 당신의
APP ID그리고Access Token
-
네트워크 연결 확인
- 음성인식 서비스를 이용하려면 네트워크 연결이 필요합니다.
- 장치가 Doubao API 서비스에 액세스할 수 있는지 확인하세요.
기본 이용 흐름
섹션 제목: “기본 이용 흐름”Doubao 음성 입력을 사용하는 기본 단계는 다음과 같습니다.
- 받기
APP ID그리고Access Token - 제품에서 음성 인식 구성
- API 키 테스트
- 음성 입력 상자 찾기
- 마이크 버튼을 클릭하세요
- 마이크 권한 부여
- 녹음 시작
- 실시간으로 인식 결과 보기
- 녹음을 중지하려면 클릭하세요.
- 텍스트가 삽입되었는지 확인
기술 요구 사항
섹션 제목: “기술 요구 사항”HTTP 환경
섹션 제목: “HTTP 환경”Doubao 음성 입력은 HTTP/HTTPS 환경에서 실행되어야 합니다.
| 환경 | 지원현황 | 설명 |
|---|---|---|
| 로컬호스트 | ✓ | 로컬 개발 환경(http://localhost 또는 http://127.0.0.1) |
| HTTPS 원격 서버 | ✓ | HTTPS를 사용하여 공용 네트워크에 배포된 웹 애플리케이션 |
| HTTP 원격 서버 | ✗ | HTTP를 사용하여 공용 네트워크에 배포된 웹 애플리케이션 |
| 파일://프로토콜 | ✗ | HTML 파일을 직접 여는 것은 지원되지 않습니다. |
:::주의 Doubao 음성 입력에는 다음과 같은 제한 사항이 있습니다.
- 외부 배포에는 HTTPS 필요: 브라우저 보안 제한으로 인해 공용 네트워크에서 액세스할 때 마이크 액세스에는 HTTPS가 필요합니다.
- 로컬 주소 제한 없음: 사용 시 HTTP와 HTTPS가 모두 지원됩니다.
localhost또는127.0.0.1 - file:// 프로토콜은 지원되지 않습니다:
file://프로토콜 환경에서는 마이크 및 WebSocket 연결을 사용할 수 없습니다. :::
데스크톱 버전
섹션 제목: “데스크톱 버전”HagiCode의 데스크톱 버전에는 로컬 HTTP 환경이 내장되어 있으며 음성 입력을 완벽하게 지원합니다. 별도의 설정 없이 바로 음성인식을 사용할 수 있습니다.
호스트 모드
섹션 제목: “호스트 모드”로컬 호스트 모드는 음성 입력을 지원합니다.
- 사용할 때 HTTP와 HTTPS가 모두 지원됩니다.
localhost또는127.0.0.1 - 공용 네트워크에 배포할 때 HTTPS가 필요합니다.
구성 단계
섹션 제목: “구성 단계”앱 ID 받기
섹션 제목: “앱 ID 받기”- 방문 Doubao 음성 인식 콘솔
- 로그인 또는 계정 등록
- 콘솔로 이동하여 새 음성 인식 애플리케이션을 만듭니다.
- 신청서 세부정보 페이지에서
APP ID
액세스 토큰 받기
섹션 제목: “액세스 토큰 받기”- Doubao Open Platform 콘솔에서
- 음성 인식 애플리케이션으로 이동
- API Key 관리 영역 찾기
- 생성 또는 복사
Access Token
:::참고
당신의 Access Token 안전하며 다른 사람과 공유하지 마세요. 교체가 필요한 경우 Doubao Open Platform에서 재생성할 수 있습니다.
:::
제품에서 구성
섹션 제목: “제품에서 구성”- HagiCode 애플리케이션 열기
- 설정 → 음성인식 설정으로 이동하세요.
- 구성 양식에 다음 정보를 입력합니다.
- 공급업체: 선택
doubao(두바오) - APP ID: Doubao 플랫폼에서 받은 앱 ID를 붙여넣으세요.
- 액세스 토큰: Doubao 플랫폼에서 받은 액세스 토큰을 붙여넣습니다.
- 공급업체: 선택
- (선택 사항) 필요에 따라 다른 구성 매개변수를 조정합니다.
- API 키 테스트 버튼을 클릭하여 구성을 확인하세요.
- 성공적으로 확인되면 구성이 자동으로 브라우저 로컬 저장소에 저장됩니다.
구성 필드 설명
섹션 제목: “구성 필드 설명”| Field | Required | Description | Default |
|---|---|---|---|
| Provider | Yes | Speech recognition service provider | doubao |
| APP ID | Yes | Application unique identifier, obtained from Doubao Open Platform | - |
| Access Token | Yes | Authentication access token, obtained from Doubao Open Platform | - |
| Service URL | No | API service address, usually use default value | (1) |
| Hotword Table ID | No | Used to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation | - |
| Max Recording Duration | No | Maximum duration for a single recording, range 10-600 seconds | 300 seconds |
| Sample Rate | No | Audio sample rate, supports 16000 Hz | 16000 Hz |
| Bit Depth | No | Audio bit depth | 16-bit |
| Channel Count | No | Audio channel count, mono | 1 |
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async | |||
테스트 API 키
섹션 제목: “테스트 API 키”구성 후에는 API 키가 유효한지 테스트하는 것이 좋습니다.
- API 키 테스트 버튼을 클릭하세요.
- 시스템은 테스트 인터페이스를 호출하여 구성을 확인합니다.
- 구성이 올바르면 성공 메시지가 표시됩니다.
- 구성이 올바르지 않으면 오류 메시지가 표시됩니다. 확인하세요:
- APP ID와 Access Token이 올바른지 여부
- 네트워크 연결이 정상인지
- 액세스 토큰이 만료되었는지 여부
:::팁 테스트에 실패하면 먼저 네트워크 연결이 정상인지 확인한 다음 Doubao Open Platform의 API 키가 유효하고 만료되지 않았는지 확인하세요. :::
사용법
섹션 제목: “사용법”음성 입력 위치 찾기
섹션 제목: “음성 입력 위치 찾기”HagiCode에서는 마이크 아이콘이 있는 텍스트 입력 상자가 음성 입력을 지원합니다. 이러한 구성요소는 일반적으로 VoiceTextArea.
일반적인 음성 입력 위치는 다음과 같습니다.
- 메시지 입력 상자
- 텍스트 편집 영역
- 텍스트 입력이 필요한 다양한 양식 필드
음성 인식 시작
섹션 제목: “음성 인식 시작”- 마이크 아이콘이 있는 입력 상자 찾기
- 마이크 버튼을 클릭하세요
- 브라우저가 마이크 권한을 요청합니다
- 마이크 액세스를 승인하려면 허용을 클릭하세요.
:::참고 이전에 마이크를 승인한 경우 브라우저에서 다시 권한을 요청하지 않을 수 있습니다. 권한 설정을 확인하거나 변경하려면 브라우저 주소 표시줄 왼쪽에 있는 자물쇠 아이콘에서 확인할 수 있습니다. :::
녹화 상태 설명
섹션 제목: “녹화 상태 설명”승인이 성공하면 음성 인식이 자동으로 시작되고 다음을 확인할 수 있습니다.
- 파형 애니메이션: 동적 음파 파형이 마이크 버튼 내부에 표시되어 녹음이 진행 중임을 나타냅니다.
- 기간 표시: 현재 녹화 기간이 버튼 아래에 표시됩니다.
- 실시간 인식: 인식된 텍스트가 커서 위치에 일시적으로 표시됩니다.
실시간 인식 결과 표시
섹션 제목: “실시간 인식 결과 표시”녹음하는 동안 음성 인식 엔진은 실시간으로 음성을 텍스트로 변환합니다.
- 인식된 텍스트는 입력 상자에 일시적으로 회색으로 표시됩니다.
- 말하는 동안 인식 결과가 지속적으로 업데이트됩니다.
- 높은 정확도로 중국어 인식 지원
:::팁 더 나은 인식 결과를 얻으려면 다음을 수행하는 것이 좋습니다.
- 조용한 환경에서 사용
- 명확하고 적당한 속도로 말하세요.
- 배경 소음 간섭을 피하세요 :::
인식 중지
섹션 제목: “인식 중지”음성 인식을 중지하려면 다음을 수행하세요.
- 마이크 버튼 클릭: 녹음을 중지하려면 버튼을 다시 클릭하세요.
- 입력 상자 클릭: 입력 상자의 다른 영역을 클릭해도 녹음이 중지됩니다.
중지 후에는 최종 인식된 텍스트가 입력 상자에 정식으로 삽입되며 계속해서 편집하거나 보낼 수 있습니다.