음성 AI 에이전트의 표준 아키텍처였던 STT→LLM→TTS 파이프라인이 해체되고 있습니다. OpenAI gpt-realtime, Mistral Voxtral Mini 4B 등 엔드투엔드 Speech-to-Speech 모델이 프로덕션에 투입되면서, 엔터프라이즈 음성 에이전트의 설계 기준 자체가 달라지고 있습니다.
기존 파이프라인의 구조적 한계
기존 음성 에이전트는 세 단계를 순차 처리합니다. 음성을 텍스트로 변환하고(STT), 언어 모델이 응답을 생성하고(LLM), 다시 음성으로 합성합니다(TTS). 개별 컴포넌트의 지연은 짧지만, 파이프라인 전체로 보면 800ms~2초까지 누적됩니다. 사람 간 대화의 응답 윈도우가 300~500ms인 점을 감안하면, 이 지연은 사용자 경험에 치명적입니다.
Speech-to-Speech 모델의 등장
2025년 8월 OpenAI는 gpt-realtime을 출시하며 Realtime API를 정식 공개했습니다. 단일 모델이 음성 입력을 직접 이해하고 음성으로 응답하는 구조로, 별도의 STT·TTS 체인 없이 서브초 지연을 달성합니다. 2026년 3월에는 Mistral이 Voxtral Mini 4B를 발표해 40억 파라미터 모델로 브라우저 내 실시간 음성 처리를 시연했습니다. Apache 2.0 라이선스로 공개되어 온프레미스 배포 장벽도 낮아졌습니다.
엔터프라이즈 도입이 가속되는 이유
MarketsandMarkets는 대화형 AI 시장의 연평균 성장률을 2031년까지 19.6%로 전망합니다. Accenture, PwC, BCG 등 주요 SI가 음성 AI 전담 조직을 신설했고, 기업 RFP에서 실시간 음성 지원이 필수 요건으로 자리잡고 있습니다. CB Insights는 2026년 핵심 트렌드로 ‘음성 AI 벤더의 온사이트 엔지니어 파견’을 꼽았습니다. 데모가 아닌 프로덕션 안정성이 계약의 기준이 된 것입니다.
지연 시간이 여전히 승부처
Deepgram STT 150ms, ElevenLabs TTS 75ms — 개별 수치는 인상적이지만, 실제 에이전트에서는 오케스트레이션, 네트워크 홍, 컨텍스트 로딩이 더해집니다. Soniox v4는 60개 이상 언어에서 네이티브 수준 정확도를 실시간으로 제공하지만, 전체 응답 루프를 500ms 안에 닫으려면 인프라 설계가 관건입니다. Speech-to-Speech 모델이 파이프라인을 단순화해도, 툴 호출과 CRM 연동 같은 비즈니스 로직 지연은 여전히 남습니다.
프로덕션에서 중요한 것
모델 성능만으로는 프로덕션 음성 에이전트가 완성되지 않습니다. 통화 중 발생하는 PII 처리, 실시간 CRM 연동, 감정 기반 에스컬레이션, 다국어 전환 — 이런 요소들이 실제 기업 환경에서의 성패를 결정합니다. 브링톡은 LQA(리드 자격 판별 자동화)와 FUA(사후 팔로업 자동화)를 통해 모델 계층 위의 비즈니스 로직을 최적화하고, Zero Retention 아키텍처로 민감 데이터가 외부 LLM에 잔류하지 않도록 설계합니다.

