BACK TO BLOG
BLOG

보이스AI 지연시간 최적화: STT→LLM→TTS 파이프라인에서 500ms 벽을 깨는 법

2026년 3월 19일
Moon Kim

Moon Kim

Tech Lead

보이스AI 지연시간 최적화: STT→LLM→TTS 파이프라인에서 500ms 벽을 깨는 법

보이스AI에서 500ms는 UX 숫자가 아니라 파이프라인 예산입니다. Daily/Pipecat의 2026 STT benchmark만 봐도 TTFS median이 247ms에서 1,136ms까지 벌어졌고, 여기에 LLM inference, TTS, 네트워크 왕복이 더해지면 프로덕션에서는 응답 시작이 1초를 넘기기 쉽습니다.

500ms 벽은 모델 하나가 아니라 시스템 전체가 만듭니다

WebRTC Hacks가 2025년 OpenAI Realtime API를 계측했을 때 STUN RTT의 이론적 하한은 60-70ms였지만, 실제 응답 지연은 약 1.66-1.86초였습니다. 의미는 단순합니다. GPU가 빨라도 transport, endpointing, buffering, connection setup이 겹치면 사용자는 '빠른 모델'이 아니라 '멈춘 시스템'을 경험합니다. 그래서 latency budget은 STT, first-token, TTS TTFB, transport RTT로 분리해서 봐야 합니다.

STT 단계에서는 정확도보다 TTFS와 EOT가 먼저입니다

Daily의 공개 benchmark는 1,000개 실제 음성 샘플에서 Deepgram 247ms median·326ms p99, Soniox 249ms median·310ms p99, Speechmatics 495ms median·736ms p99를 기록했습니다. 반면 AWS는 1,136ms median, Azure는 1,016ms median으로 tail이 길었습니다. 프로덕션 voice agent에서 평균보다 p95, p99가 중요한 이유가 여기 있습니다. Deepgram도 voice agent용 핵심 지표를 transcript latency가 아니라 end-of-turn latency로 정의하고, 20-100ms audio chunk와 integrated turn detection을 권장하며 Flux가 기존 STT+VAD 대비 200-600ms를 줄일 수 있다고 설명합니다.

LLM 병목은 모델 크기보다 첫 토큰 전략에서 갈립니다

LLM 단계는 tokens per second보다 first-token latency가 중요합니다. 2023년 staged speculative decoding 논문은 small-batch on-device 환경에서 decoding latency를 3.16배 줄였고, 이 방향은 지금도 production inference 최적화의 핵심입니다. 실무에서는 speculative decoding, prompt 축소, tool prefetch, response streaming을 함께 써야 합니다. 특히 Context Injection은 많이 넣는 것이 아니라 빨리 맞는 정보를 넣는 것이 중요하며, 상담 이력 전체를 붙이기보다 intent 분류에 필요한 필드만 주입해야 첫 응답이 빨라집니다.

TTS는 음질보다 먼저 TTFB를 관리해야 합니다

사용자는 문장 전체 합성 시간이 아니라 첫 오디오 바이트가 언제 오느냐를 먼저 느낍니다. Async의 2025 streaming TTS benchmark는 AsyncFlow가 약 20ms model inference latency와 166ms median TTFB를 기록했고, 250-300ms를 넘기면 사람이 pause를 인지한다고 정리합니다. 그래서 production에서는 완성된 WAV를 기다리지 말고 chunked streaming으로 바로 재생해야 합니다. 브라우저는 WebRTC, 전화망 연동은 persistent WebSocket처럼 세션을 재사용하는 방식이 유리합니다.

BringTalk는 평균이 아니라 p99 예산으로 설계합니다

BringTalk는 latency를 단일 모델 성능이 아니라 파이프라인 SLO로 관리합니다. STT finalization, LLM first token, TTS TTFB, transport RTT를 각각 추적하고, 지역 근접 배치와 필요한 경우 self-hosted 또는 edge inference를 통해 왕복 시간을 줄입니다. 또한 Zero Retention이 필요한 환경에서도 불필요한 중계 hop를 늘리지 않도록 연결 재사용과 selective Context Injection을 함께 설계합니다. 결과적으로 중요한 것은 '가장 좋은 모델'이 아니라 p99에서 먼저 말하기 시작하는 시스템입니다.

📌
핵심 지표: Deepgram TTFS 247ms median·326ms p99, AsyncFlow TTFB 166ms, staged speculative decoding 최대 3.16배 가속. 보이스AI의 체감 성능은 평균이 아니라 p95/p99와 첫 오디오 시작 시점이 결정합니다.
📎
본 글의 레이턴시 수치는 BringTalk 프로덕션 환경 및 webrtcHacks(2025) 등 외부 벤치마크를 참고한 reference target입니다. 사용자가 체감하는 전체 지연(end-to-end latency)과 내부 컴포넌트별 지연(STT/LLM/TTS)은 구분해서 측정해야 하며, 실제 수치는 네트워크 환경·모델 선택·인프라 구성에 따라 달라집니다.

Related Posts

View All