보이스 AI가 '끼어들기'를 다루는 법: 자연스러운 대화의 조건

사람은 상대의 말이 끝나기도 전에 다음 말을 준비합니다. 한 연구는 10개 언어를 분석해 화자가 바뀌는 데 걸리는 시간이 평균 약 200밀리초에 불과하다고 보고했습니다(Stivers et al., PNAS 2009). 보이스 AI가 어색하게 느껴지는 순간은 대부분 이 짧은 리듬을 놓칠 때입니다.
200밀리초, 대화의 보이지 않는 규칙
사람의 대화는 침묵을 거의 남기지 않습니다. 상대의 문장이 끝나는 지점을 예측하고, 끝나기 전에 다음 발화를 준비하기 때문입니다. 이 예측이 어긋나면 우리는 즉시 "대화가 끊겼다"고 느낍니다.
자연스러움은 응답의 정확성보다 타이밍에서 먼저 결정됩니다.
보이스 AI도 같은 기준으로 평가받습니다. 답이 맞아도 0.5초 늦으면 사용자는 망설임으로 받아들이고, 너무 빠르면 말을 자른다고 느낍니다.
침묵을 읽는 기술: VAD와 endpointing
AI가 "지금이 내 차례"라고 판단하려면 상대가 말을 멈췄는지, 아니면 잠시 숨을 고르는 것인지 구분해야 합니다. 이 판단을 담당하는 것이 VAD(Voice Activity Detection)와 endpointing입니다. VAD는 음성과 비음성을 구분하고, endpointing은 그 침묵이 '발화의 끝'인지 결정합니다.

위 흐름처럼 사용자 음성은 VAD와 endpointing 게이트를 거쳐 '턴의 끝'으로 판정될 때만 AI 응답으로 넘어갑니다.
끼어들기(barge-in)를 처리하는 순서
사람은 상대가 말하는 도중에도 거리낌 없이 끼어듭니다. 보이스 AI가 이를 허용하지 않으면 사용자는 AI의 긴 안내가 끝날 때까지 기다려야 하고, 통화는 답답해집니다. barge-in 처리는 보통 다음 순서를 따릅니다.
- AI가 말하는 동안에도 입력 오디오를 계속 청취합니다
- 사용자 음성이 다시 감지되면 진행 중인 TTS를 즉시 중단합니다
- 끊긴 지점까지의 맥락을 유지한 채 사용자 발화를 다시 인식합니다
- 새 의도에 맞춰 응답을 재생성합니다
성급함과 굼뜸 사이의 균형
endpointing은 정답이 없는 trade-off입니다. 임계값을 공격적으로 잡으면 응답은 빨라지지만 사용자가 잠깐 멈출 때마다 말을 자릅니다. 보수적으로 잡으면 끼어들기는 줄지만 매 턴이 굼떠집니다.
- 공격적 endpointing — 빠른 응답, 잦은 말 끊김
- 보수적 endpointing — 안정적 청취, 느린 반응
- 맥락 기반 조정 — 질문 유형과 발화 길이에 따라 임계값을 동적으로 변경
실제 운영에서는 고정값 하나로 맞추기보다, 통화 상황에 따라 이 균형점을 조정하는 쪽이 자연스러움을 끌어올립니다.
자연스러운 턴테이킹이 통화 성과로 이어진다
턴테이킹은 단순한 사용성 문제가 아니라 성과 지표와 연결됩니다. 리드 확보 직후의 짧은 응대 시간, 이른바 Golden Time에 AI가 사람처럼 매끄럽게 대화하면 고객은 끝까지 통화를 이어갈 가능성이 높아집니다. BringTalk은 LQA(Lead Qualification Automation) 시나리오에서 endpointing과 barge-in 정책을 통화 목적에 맞춰 설계해, 정보 전달이 아니라 '대화'가 이어지도록 합니다.
핵심: 사람의 턴 전환은 평균 약 200밀리초입니다(Stivers et al., 2009). 보이스 AI의 자연스러움은 응답 내용이 아니라 endpointing과 barge-in의 타이밍에서 먼저 갈립니다.


