Providers

Azure Speech

Azure Speech는 Azure AI Speech 텍스트 음성 변환 provider입니다. OpenClaw에서는 기본적으로 아웃바운드 응답 오디오를 MP3로 합성하고, 음성 노트에는 네이티브 Ogg/Opus를, Voice Call과 같은 전화 채널에는 8 kHz mulaw 오디오를 사용합니다.

OpenClaw는 SSML과 함께 Azure Speech REST API를 직접 사용하며, provider 소유의 출력 형식을 X-Microsoft-OutputFormat을 통해 전송합니다.

세부 정보
웹사이트 Azure AI Speech
문서 Speech REST text-to-speech
인증 AZURE_SPEECH_KEYAZURE_SPEECH_REGION
기본 음성 en-US-JennyNeural
기본 파일 출력 audio-24khz-48kbitrate-mono-mp3
기본 음성 노트 파일 ogg-24khz-16bit-mono-opus

시작하기

  • Azure Speech 리소스 만들기

    Azure 포털에서 Speech 리소스를 만듭니다. Resource Management > Keys and Endpoint에서 KEY 1을 복사하고, eastus와 같은 리소스 위치도 복사합니다.

    AZURE_SPEECH_KEY=<speech-resource-key>
    AZURE_SPEECH_REGION=eastus
    
  • messages.tts에서 Azure Speech 선택

    {
      messages: {
        tts: {
          auto: "always",
          provider: "azure-speech",
          providers: {
            "azure-speech": {
              voice: "en-US-JennyNeural",
              lang: "en-US",
            },
          },
        },
      },
    }
    
  • 메시지 보내기

    연결된 아무 채널에서나 응답을 보냅니다. OpenClaw가 Azure Speech로 오디오를 합성하고 일반 오디오에는 MP3를, 채널이 음성 노트를 기대하는 경우에는 Ogg/Opus를 전달합니다.

  • 구성 옵션

    옵션 경로 설명
    apiKey messages.tts.providers.azure-speech.apiKey Azure Speech 리소스 키입니다. AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY, 또는 SPEECH_KEY로 대체됩니다.
    region messages.tts.providers.azure-speech.region Azure Speech 리소스 리전입니다. AZURE_SPEECH_REGION 또는 SPEECH_REGION으로 대체됩니다.
    endpoint messages.tts.providers.azure-speech.endpoint 선택 사항인 Azure Speech 엔드포인트/기본 URL 재정의입니다.
    baseUrl messages.tts.providers.azure-speech.baseUrl 선택 사항인 Azure Speech 기본 URL 재정의입니다.
    voice messages.tts.providers.azure-speech.voice Azure 음성 ShortName 값입니다(기본값 en-US-JennyNeural).
    lang messages.tts.providers.azure-speech.lang SSML 언어 코드입니다(기본값 en-US).
    outputFormat messages.tts.providers.azure-speech.outputFormat 오디오 파일 출력 형식입니다(기본값 audio-24khz-48kbitrate-mono-mp3).
    voiceNoteOutputFormat messages.tts.providers.azure-speech.voiceNoteOutputFormat 음성 노트 출력 형식입니다(기본값 ogg-24khz-16bit-mono-opus).

    참고 사항

    인증

    Azure Speech는 Azure OpenAI 키가 아니라 Speech 리소스 키를 사용합니다. 이 키는 Ocp-Apim-Subscription-Key로 전송되며, OpenClaw는 endpoint 또는 baseUrl을 제공하지 않으면 region에서 https://<region>.tts.speech.microsoft.com를 도출합니다.

    음성 이름

    예를 들어 en-US-JennyNeural과 같은 Azure Speech 음성의 ShortName 값을 사용하세요. 번들된 provider는 동일한 Speech 리소스를 통해 음성 목록을 가져올 수 있으며, deprecated 또는 retired로 표시된 음성은 필터링합니다.

    오디오 출력

    Azure는 audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus, riff-24khz-16bit-mono-pcm과 같은 출력 형식을 지원합니다. OpenClaw는 voice-note 대상에 대해 Ogg/Opus를 요청하므로 채널이 추가 MP3 변환 없이 네이티브 음성 버블을 보낼 수 있습니다.

    별칭

    기존 PR과 사용자 구성에서는 provider 별칭으로 azure도 허용되지만, Azure OpenAI 모델 provider와의 혼동을 피하려면 새 구성에서는 azure-speech를 사용해야 합니다.

    관련 항목