콘텐츠로 이동

Doubao 음성 입력 가이드

페이지 편집

:::팁 평가판 할당량: Doubao Open Platform은 신규 사용자에게 20시간의 무료 음성 인식 기능을 제공합니다. 이는 이 음성 입력 흐름이 작업에 적합한지 확인하는 데 충분합니다. :::

Doubao 음성 입력이란 무엇입니까?

섹션 제목: “Doubao 음성 입력이란 무엇입니까?”

Doubao 음성 입력은 ByteDance Doubao 개방형 플랫폼이 지원하는 HagiCode의 통합 음성 인식 기능입니다. 당신이 말하면 시스템은 음성을 텍스트로 변환합니다. HagiCode는 또한 현재 프로젝트 컨텍스트를 사용하여 도메인 어휘 및 기술 용어를 보다 안정적으로 인식하는 데 도움을 줍니다.

HagiCode에서 음성 입력은 다음과 같은 경우에 가장 적합합니다.

  • 빠른 제안서 입력: 간단히 말하면 제안서를 작성하고 제출할 수 있어 입력하지 않고도 효율성이 크게 향상됩니다.
  • 댓글 제공: 음성 입력을 통해 코드 검토 또는 문서 검토 중에 댓글 및 피드백 추가
  • 메시지에 답장: 입력하지 않고도 대화 및 토론에서 메시지에 빠르게 응답할 수 있습니다.
  • 장문 콘텐츠 생성: 프로젝트 문서, 기술 사양, 회의록, 기타 장문 콘텐츠를 빠르게 생성합니다.
  • 컨텍스트 인식과의 긴밀한 통합: HagiCode는 Doubao 음성 인식과 긴밀하게 통합되어 현재 프로젝트 컨텍스트(예: 코드 구조, 기술 스택, 도메인 용어)를 자동으로 활용하여 정확한 도메인 어휘 인식을 제공하고 기술 용어 인식 정확도를 크게 향상시킵니다.
  • 무료 평가판 시간: Doubao 플랫폼은 신규 사용자가 장벽 없이 음성 입력을 경험할 수 있도록 20시간의 무료 인식 시간을 제공합니다.
  • 매우 빠름: 실시간 인식, 말할 때 기다리지 않고 텍스트 확인
  • 높은 정확도: 정확하고 신뢰할 수 있는 결과를 위해 프로젝트 컨텍스트와 결합된 Doubao의 고급 음성 인식 모델을 기반으로 합니다.
  • 원활한 통합: HagiCode의 메시지 입력 상자에 직접 통합되어 애플리케이션을 전환할 필요가 없습니다.
  • 사용하기 쉬움: 마이크를 클릭하기만 하면 직관적이고 간단하게 시작할 수 있습니다.

Doubao 음성 입력을 사용하기 전에 다음을 수행해야 합니다.

  1. Doubao 오픈 플랫폼 계정 받기

  2. 애플리케이션 작성 및 자격 증명 받기

    • 플랫폼에서 음성 인식 애플리케이션 생성
    • 당신의 APP ID 그리고 Access Token
  3. 네트워크 연결 확인

    • 음성인식 서비스를 이용하려면 네트워크 연결이 필요합니다.
    • 장치가 Doubao API 서비스에 액세스할 수 있는지 확인하세요.

Doubao 음성 입력을 사용하는 기본 단계는 다음과 같습니다.

  1. 받기 APP ID 그리고 Access Token
  2. 제품에서 음성 인식 구성
  3. API 키 테스트
  4. 음성 입력 상자 찾기
  5. 마이크 버튼을 클릭하세요
  6. 마이크 권한 부여
  7. 녹음 시작
  8. 실시간으로 인식 결과 보기
  9. 녹음을 중지하려면 클릭하세요.
  10. 텍스트가 삽입되었는지 확인

Doubao 음성 입력은 HTTP/HTTPS 환경에서 실행되어야 합니다.

환경지원현황설명
로컬호스트로컬 개발 환경(http://localhost 또는 http://127.0.0.1)
HTTPS 원격 서버HTTPS를 사용하여 공용 네트워크에 배포된 웹 애플리케이션
HTTP 원격 서버HTTP를 사용하여 공용 네트워크에 배포된 웹 애플리케이션
파일://프로토콜HTML 파일을 직접 여는 것은 지원되지 않습니다.

:::주의 Doubao 음성 입력에는 다음과 같은 제한 사항이 있습니다.

  1. 외부 배포에는 HTTPS 필요: 브라우저 보안 제한으로 인해 공용 네트워크에서 액세스할 때 마이크 액세스에는 HTTPS가 필요합니다.
  2. 로컬 주소 제한 없음: 사용 시 HTTP와 HTTPS가 모두 지원됩니다. localhost 또는 127.0.0.1
  3. file:// 프로토콜은 지원되지 않습니다: file:// 프로토콜 환경에서는 마이크 및 WebSocket 연결을 사용할 수 없습니다. :::

HagiCode의 데스크톱 버전에는 로컬 HTTP 환경이 내장되어 있으며 음성 입력을 완벽하게 지원합니다. 별도의 설정 없이 바로 음성인식을 사용할 수 있습니다.

로컬 호스트 모드는 음성 입력을 지원합니다.

  • 사용할 때 HTTP와 HTTPS가 모두 지원됩니다. localhost 또는 127.0.0.1
  • 공용 네트워크에 배포할 때 HTTPS가 필요합니다.
  1. 방문 Doubao 음성 인식 콘솔
  2. 로그인 또는 계정 등록
  3. 콘솔로 이동하여 새 음성 인식 애플리케이션을 만듭니다.
  4. 신청서 세부정보 페이지에서 APP ID
  1. Doubao Open Platform 콘솔에서
  2. 음성 인식 애플리케이션으로 이동
  3. API Key 관리 영역 찾기
  4. 생성 또는 복사 Access Token

:::참고 당신의 Access Token 안전하며 다른 사람과 공유하지 마세요. 교체가 필요한 경우 Doubao Open Platform에서 재생성할 수 있습니다. :::

  1. HagiCode 애플리케이션 열기
  2. 설정음성인식 설정으로 이동하세요.
  3. 구성 양식에 다음 정보를 입력합니다.
    • 공급업체: 선택 doubao (두바오)
    • APP ID: Doubao 플랫폼에서 받은 앱 ID를 붙여넣으세요.
    • 액세스 토큰: Doubao 플랫폼에서 받은 액세스 토큰을 붙여넣습니다.
  4. (선택 사항) 필요에 따라 다른 구성 매개변수를 조정합니다.
  5. API 키 테스트 버튼을 클릭하여 구성을 확인하세요.
  6. 성공적으로 확인되면 구성이 자동으로 브라우저 로컬 저장소에 저장됩니다.
FieldRequiredDescriptionDefault
ProviderYesSpeech recognition service providerdoubao
APP IDYesApplication unique identifier, obtained from Doubao Open Platform-
Access TokenYesAuthentication access token, obtained from Doubao Open Platform-
Service URLNoAPI service address, usually use default value(1)
Hotword Table IDNoUsed to improve recognition accuracy for specific vocabulary, see Hotword Table Documentation-
Max Recording DurationNoMaximum duration for a single recording, range 10-600 seconds300 seconds
Sample RateNoAudio sample rate, supports 16000 Hz16000 Hz
Bit DepthNoAudio bit depth16-bit
Channel CountNoAudio channel count, mono1
(1) wss://openspeech.bytedance.com/api/v3/sauc/bigmodel_async

구성 후에는 API 키가 유효한지 테스트하는 것이 좋습니다.

  1. API 키 테스트 버튼을 클릭하세요.
  2. 시스템은 테스트 인터페이스를 호출하여 구성을 확인합니다.
  3. 구성이 올바르면 성공 메시지가 표시됩니다.
  4. 구성이 올바르지 않으면 오류 메시지가 표시됩니다. 확인하세요:
    • APP ID와 Access Token이 올바른지 여부
    • 네트워크 연결이 정상인지
    • 액세스 토큰이 만료되었는지 여부

:::팁 테스트에 실패하면 먼저 네트워크 연결이 정상인지 확인한 다음 Doubao Open Platform의 API 키가 유효하고 만료되지 않았는지 확인하세요. :::

HagiCode에서는 마이크 아이콘이 있는 텍스트 입력 상자가 음성 입력을 지원합니다. 이러한 구성요소는 일반적으로 VoiceTextArea.

일반적인 음성 입력 위치는 다음과 같습니다.

  • 메시지 입력 상자
  • 텍스트 편집 영역
  • 텍스트 입력이 필요한 다양한 양식 필드
  1. 마이크 아이콘이 있는 입력 상자 찾기
  2. 마이크 버튼을 클릭하세요
  3. 브라우저가 마이크 권한을 요청합니다
  4. 마이크 액세스를 승인하려면 허용을 클릭하세요.

:::참고 이전에 마이크를 승인한 경우 브라우저에서 다시 권한을 요청하지 않을 수 있습니다. 권한 설정을 확인하거나 변경하려면 브라우저 주소 표시줄 왼쪽에 있는 자물쇠 아이콘에서 확인할 수 있습니다. :::

승인이 성공하면 음성 인식이 자동으로 시작되고 다음을 확인할 수 있습니다.

  • 파형 애니메이션: 동적 음파 파형이 마이크 버튼 내부에 표시되어 녹음이 진행 중임을 나타냅니다.
  • 기간 표시: 현재 녹화 기간이 버튼 아래에 표시됩니다.
  • 실시간 인식: 인식된 텍스트가 커서 위치에 일시적으로 표시됩니다.

녹음하는 동안 음성 인식 엔진은 실시간으로 음성을 텍스트로 변환합니다.

  • 인식된 텍스트는 입력 상자에 일시적으로 회색으로 표시됩니다.
  • 말하는 동안 인식 결과가 지속적으로 업데이트됩니다.
  • 높은 정확도로 중국어 인식 지원

:::팁 더 나은 인식 결과를 얻으려면 다음을 수행하는 것이 좋습니다.

  • 조용한 환경에서 사용
  • 명확하고 적당한 속도로 말하세요.
  • 배경 소음 간섭을 피하세요 :::

음성 인식을 중지하려면 다음을 수행하세요.

  1. 마이크 버튼 클릭: 녹음을 중지하려면 버튼을 다시 클릭하세요.
  2. 입력 상자 클릭: 입력 상자의 다른 영역을 클릭해도 녹음이 중지됩니다.

중지 후에는 최종 인식된 텍스트가 입력 상자에 정식으로 삽입되며 계속해서 편집하거나 보낼 수 있습니다.