
NDC 2026 현장에서 넥슨게임즈 IO본부 ML팀 김영지 파트장은 '캐릭터성과 감정을 담은 TTS(Text-to-Speech) 개발 여정'을 주제로 발표를 진행했다. 발표에서는 모바일 RPG 블루 아카이브의 대표 캐릭터인 아로나와 프라나의 목소리를 중심으로, 보다 자연스럽고 감정이 살아있는 음성 합성 기술을 구현하기까지의 과정을 공유했다.
김영지 파트장은 "이상적인 TTS는 이용자가 발음의 어색함을 먼저 인식하는 것이 아니라 캐릭터가 직접 말을 걸고 있다는 느낌을 자연스럽게 받게 만드는 것"이라며 연구의 출발점을 설명했다.
실제로 블루 아카이브는 출시 초기부터 TTS를 활용해 캐릭터가 이용자의 닉네임을 직접 불러주는 기능을 도입한 바 있다. 하지만 개발진은 단순한 음성 출력에 그치지 않고, 캐릭터 고유의 성격과 감정을 유지하면서 상황에 맞게 표현할 수 있는 수준의 음성 합성을 목표로 삼았다.
발표에서 공개된 시연에서는 초기 모델과 개선된 모델의 음성을 비교했다. 개선된 모델은 단순히 문장을 읽는 수준을 넘어 실제로 곤란해하거나 기뻐하는 듯한 감정 표현이 자연스럽게 드러나며 현장 참가자들의 관심을 끌었다.
이를 위해 ML팀은 다양한 오픈소스 TTS 모델을 검토했다. 모델 선정 과정에서는 캐릭터성과 감정 표현, 자연스러움을 핵심 평가 기준으로 설정했다. 특히 캐릭터성은 음색과 발성 습관, 말투와 리듬, 감정 표현 등을 세부적으로 나눠 평가했으며, 자연스러움은 실제 사내 검수 과정에서 반복적으로 제기되는 피드백을 기반으로 분석했다.


검수 과정에서 가장 많이 접수된 의견은 무음 길이 조절, 장음 표현, 음 높낮이 조절, 노이즈 제거 등 네 가지였다. 팀은 이러한 요구 사항을 충족할 수 있는 모델을 찾기 위해 여러 후보를 실험한 끝에 일본어 특화 TTS 모델인 'Style-Bert-VITS2'를 채택했다.
Style-Bert-VITS2는 문장 부호에 따른 발성 패턴과 다양한 스타일 벡터를 학습할 수 있는 것이 특징이다. 이를 통해 동일한 캐릭터라도 평상시에는 차분하게, 긴급한 상황에서는 긴장감 있게 말하는 등 감정 변화 표현이 가능하다. 다만 해당 모델은 일본어 전용으로 설계돼 한국어를 지원하지 않는 문제가 있었다. 이에 ML팀은 모델의 구조를 분석한 뒤 한국어 학습 모드를 직접 개발하는 방식을 선택했다.

개발 과정에서는 텍스트를 학습 가능한 데이터로 변환하는 G2P(Grpaheme to Phoneme) 과정과 문맥 정보를 이해하는 BERT 모델을 한국어에 맞게 새롭게 구축했다. 일본어에서 사용하던 악센트 추출 과정은 제외하고 한국어 발음 규칙에 맞춘 음소 변환 기능을 추가했으며, 일본어 BERT 대신 한국어 모델인 KC-BERT Large를 적용했다.
기반 모델 제작 과정도 순탄하지 않았다. 생성자와 판별자가 함께 경쟁하며 학습하는 구조에서 판별자가 지나치게 빠르게 학습되는 오버피팅 문제가 발생했다. 팀은 생성자를 먼저 학습시키고 판별자의 학습 속도를 낮추는 방식으로 균형을 맞춰 문제를 해결했다.

또한 약 900GB 규모의 음성 데이터셋을 분석하는 과정에서 특정 데이터셋이 학습 품질을 크게 저해한다는 사실도 확인했다. 해당 데이터셋은 평균 음성 길이가 길고 노이즈 비율이 높아 최종 학습에서는 제외됐으며, 이후 모델 성능이 크게 개선됐다고 설명했다.

한국어 기반 모델 완성 이후 진행된 실험에서는 감정 스타일과 스타일 강도 조절 기능도 정상적으로 구현된 것으로 나타났다. 같은 문장이라도 평상시, 슬픔, 긴장 등 다양한 감정 상태에 따라 자연스럽게 다른 톤으로 표현됐으며, 스타일 강도를 조절해 감정을 더욱 강조하는 것도 가능했다.




김영지 파트장은 "현재 한국어 환경에서는 객관적인 음 높낮이 정보를 정의하기 어려워 관련 기능 구현을 보류했지만, 향후 연구 과제로 검토하고 있다"며 "궁극적으로는 이용자가 캐릭터와 실제로 대화하고 있다고 느낄 수 있는 수준의 음성 경험을 제공하는 것이 목표"라고 밝혔다.
[이시영 기자 banshee@chosun.com] [gamechosun.co.kr]
ⓒ기사의 저작권은 게임조선에 있습니다. 허락없이 무단으로 기사 내용 전제 및 다운로드 링크배포를 금지합니다.



