2026년 3월 25일, ElevenLabs가 IBM watsonx Orchestrate와의 기술 통합을 발표했습니다. ElevenLabs의 TTS(텍스트-투-스피치) 및 STT(스피치-투-텍스트) 엔진이 IBM의 에이전틱 AI 오케스트레이션 플랫폼에 탑재되면서, 엔터프라이즈 보이스 AI 시장의 판도가 바뀔 전망입니다.
배경
IBM watsonx Orchestrate는 기업용 AI 에이전트를 설계·배포·관리하는 오케스트레이션 플랫폼입니다. 기존에는 텍스트 기반 에이전트 중심이었으나, 음성 채널 수요가 급증하면서 고품질 음성 엔진 통합이 과제로 떠올랐습니다. ElevenLabs는 10,000개 이상의 음성 라이브러리와 70개 언어 지원으로 TTS 분야에서 독보적 위치를 확보해온 회사입니다.
상세 내용
이번 통합의 핵심은 세 가지입니다.
- 음성 품질 — 10,000개 이상 음성 라이브러리, 70개 언어, 다양한 지역 억양을 지원하여 글로벌 엔터프라이즈가 현지화된 보이스 에이전트를 구축할 수 있습니다.
- 컴플라이언스 — PCI 컴플라이언스(결제 보안)와 Zero Retention Mode를 지원합니다. Zero Retention Mode는 음성 데이터를 처리 즉시 삭제하여 HIPAA 등 의료 데이터 규정을 충족하는 방식입니다.
- 데이터 레지던시 — 음성 데이터의 저장·처리 위치를 기업이 직접 지정할 수 있어, 각국 데이터 주권 요건에 대응할 수 있습니다.
양사의 공통 목표는 레거시 음성 시스템(IVR, ARS 등)을 AI 네이티브 보이스 에이전트로 대체하는 것입니다. 단순 TTS 도입이 아니라, 보이스 퍼스트 AI 아키텍처로의 전환을 지향합니다.
국내 시사점
한국 시장에서 이 파트너십이 주목받는 이유는 컴플라이언스 인프라에 있습니다. 금융권의 경우 전자금융감독규정과 개인정보보호법에 따라 음성 녹취 데이터의 보관·파기 기준이 엄격합니다. 의료 분야 역시 민감정보 처리에 대한 규제가 강화되고 있습니다.
PCI 컴플라이언스와 Zero Retention Mode 같은 기능은 이러한 규제 산업에서 보이스 AI 도입의 선결 조건이 됩니다. 국내 금융·의료 기업이 보이스 AI를 검토할 때, 음성 품질만큼이나 데이터 처리 방식과 컴플라이언스 인증 여부가 도입 의사결정의 핵심 기준이 될 전망입니다.
향후 전망
ElevenLabs-IBM 통합은 보이스 AI가 실험 단계를 넘어 엔터프라이즈 프로덕션 환경으로 진입하고 있음을 보여주는 신호입니다. 글로벌 대형 벤더 간 파트너십이 본격화되면서, 보이스 AI의 도입 기준은 '음질'에서 '컴플라이언스 + 오케스트레이션'으로 이동하고 있습니다.
