겜조뉴스

copyright 2009(c) GAMECHOSUN

게임조선 네트워크

주요 서비스 메뉴 펼치기

커뮤니티 펼치기

게임조선

[NDC 26] "복합 감정까지 AI가 생성할 것", 엔씨 AI의 얼굴 애니메이션 청사진

 

 
NDC 2026에서 엔씨 AI 장한용 실장은 "이제는 얼굴 애니메이션이 게임의 몰입감을 결정하는 핵심 요소가 됐다"며 음성만으로 캐릭터의 입술과 표정 애니메이션을 자동 생성하는 AI 기술 개발 경험을 공개했다.

그는 발표에서 "그래픽과 바디 애니메이션 품질은 이미 매우 높은 수준에 도달했다"며 "반면 얼굴 애니메이션은 여전히 많은 비용과 시간이 투입되는 영역이며, 이 부분이 부족하면 이용자는 강한 이질감을 느끼게 된다"고 설명했다. 실제로 발표 현장에서는 기존 게임 영상에 얼굴 애니메이션을 추가한 버전과 원본 영상을 비교하는 시연이 진행됐다. 입술 움직임이 없던 캐릭터에 AI 기반 립싱크를 적용하자 캐릭터가 실제로 대화를 나누는 듯한 느낌이 크게 강화됐고, 참가자들 역시 품질 차이를 쉽게 확인할 수 있었다.
 
 
현재 얼굴 애니메이션 제작은 대부분 모션 캡처와 수작업 보정에 의존하고 있다. 배우가 헤드마운트 카메라를 착용한 상태에서 연기를 수행하고, 이후 아티스트가 캡처 데이터를 직접 수정하는 방식이다. 문제는 바디 모션 캡처보다 얼굴 캡처가 훨씬 까다롭고 품질 편차도 크다는 점이다.

장한용 실장은 "실제로 최종 결과물을 만들기 위해 상당한 수작업이 필요하다"며 "제작 가능한 분량 자체에도 한계가 있다"고 말했다.

이러한 문제를 해결하기 위해 글로벌 게임사와 AI 기업들은 수년 전부터 음성 기반 립싱크 자동 생성 기술 개발에 뛰어들었다. 엔비디아와 에픽게임즈를 비롯해 크래프톤, 스마일게이트, 넷마블, 엔씨소프트 등 국내외 주요 기업들이 관련 기술을 연구하고 있다.
 
그러나 장한용 실장은 "논문과 데모 영상 수준에서는 문제가 해결된 것처럼 보이지만 실제 게임 서비스에 적용하려면 여전히 많은 장벽이 존재한다"고 강조했다.
 
대표적인 문제가 음성 효과와 감정 표현이다. 게임 음성은 실제 녹음 음성과 달리 과장된 연기와 각종 음향 효과가 포함된다. 엔비디아 등 공개 기술을 그대로 적용할 경우 울림 효과나 과장된 대사 때문에 입술이 떨리거나 불규칙하게 움직이는 현상이 발생한다.
 
 
감정 표현도 마찬가지다. 기존 기술은 웃는 표정이나 화난 표정을 기본 상태로 만든 뒤 입술 움직임만 추가하는 경우가 많다. 그 결과 감정과 발음이 자연스럽게 결합되지 못하고 어색한 결과물이 나온다. 에픽게임즈 기술은 떨림 현상을 상당 부분 억제했지만 반대로 입술 움직임이 지나치게 부드러워져 발음 전달력이 떨어지는 문제가 있다고 설명했다.

장한용 실장은 "결국 상용 프로젝트에서는 많은 후처리 작업이 필요해진다"며 "그 과정에서 시간과 비용이 증가한다"고 말했다.
 
엔씨 AI가 현업 개발진을 대상으로 조사한 결과도 공개헀다. 현업에서는 최고 수준의 품질보다 안정성을 더 중요하게 평가했다는 것이다. 장한용 실장은 "실무진의 요구는 의외로 명확했다"며 "품질이 조금 부족해도 괜찮지만 이상한 결과가 나오면 안 된다는 의견이 압도적으로 많았다"고 설명했다.

입술 떨림이나 표정 깨짐 같은 오류가 발생하면 결국 사람이 수정해야 하므로 자동화의 의미가 사라진다는 것이다. 이에 엔씨 AI는 후처리 없이도 바로 게임에 적용할 수 있는 안정적인 품질 확보를 최우선 목표로 설정했다. 현재 시스템은 음성을 입력하면 AI가 즉시 애니메이션 커브를 생성하며, TTS 음성도 그대로 활용할 수 있다. 또한 언리얼 엔진 기반 파이프라인과 연동해 음성 데이터만 있으면 애니메이션 시퀀스를 자동 생성하도록 구축했다.
 
장한용 실장은 립싱크 기술에서 가장 중요한 요소로 양순음을 꼽았다. 양순음은 'ㅁ', 'ㅂ', 'ㅍ'처럼 입술을 완전히 닫았다가 열어야 발음할 수 있는 음이다. 사람은 다른 발음의 부정확함에는 비교적 관대하지만 양순음이 제대로 표현되지 않으면 즉시 어색함을 느낀다.
 
 
문제는 기존 연구에서 사용되는 학습 데이터가 이 부분을 제대로 담아내지 못한다는 점이다. 실제로 업계에서 널리 활용되는 데이터셋 상당수가 양순음 표현 정확도가 낮아 결과물 역시 한계를 보인다고 설명했다.
 
이를 해결하기 위해 엔씨 AI는 자체 얼굴 모션 캡처 시스템을 개발했다. 입술 움직임을 보다 정밀하게 수집하고, 추가 후처리를 통해 양순음 비중을 높인 학습 데이터를 구축했다. 그 결과 별도 수정 없이도 자연스러운 입술 개폐 동작이 구현됐다고 밝혔다.

또 다른 난관은 음성 다양성이다. 같은 '아' 발음이라도 사람마다 음량과 음높이, 발성 방식이 모두 다르다. AI는 이러한 차이를 학습 과정에서 평균화하려는 경향이 있다. 결국 입술 움직임도 평균적인 형태로 수렴하면서 웅얼거리는 듯한 결과물이 만들어진다.
 
엔씨 AI는 이를 해결하기 위해 디퓨전 트랜스포머 기반 모델을 채택했다. 기존 발화 패턴을 최대한 복원하는 방식으로 학습시켜 보다 자연스러운 입술 움직임을 생성하도록 했다. 또한 수백 명 이상의 화자를 처리하기 위해 리트리벌 기반 보이스 컨버전 기술도 도입했다. 다양한 화자의 음성을 대표 화자 데이터 공간으로 변환한 뒤 애니메이션을 생성하는 방식이다. 이를 통해 화자 수가 늘어나더라도 품질 편차와 노이즈를 최소화할 수 있었다고 설명했다.
 

감정 표현 역시 별도의 연구가 진행됐다. 일반적으로 얼굴 애니메이션 제작에서는 기쁨, 슬픔, 분노, 놀람 정도의 제한된 감정만 사용한다. 하지만 실제 배우는 장시간 동일한 감정을 유지하기 어렵기 때문에 데이터 품질 확보가 쉽지 않다.
 
장한용 실장은 "기쁨 데이터라고 해서 계속 웃고 있는 것이 아니다"라며 "실제로는 순간적으로 나타나는 표정을 포착해야 한다"고 설명했다. 이에 엔씨 AI는 감정이 강하게 드러나는 장면만 선별적으로 라벨링하는 방식을 적용했다. 이를 통해 보다 자연스러운 감정 변화가 가능해졌다고 밝혔다.
 
현재 엔씨 AI 기술은 입술 애니메이션 자동 생성에 초점이 맞춰져 있다. 하지만 장한용 실장은 앞으로 눈 움직임과 표정, 제스처까지 통합 생성하는 방향으로 발전할 것이라고 전했다.
 

그는 "입술이 움직이면 이용자는 곧바로 눈 움직임을 원하고, 표정이 자연스러워지면 이번에는 제스처를 요구하게 된다"며 "결국 모든 요소가 조화롭게 생성돼야 한다"고 말했다. 또한 향후에는 배우 데이터보다 영상 생성 AI를 활용한 데이터 구축이 더 효율적일 것으로 내다봤다. 원하는 감정과 상황을 가진 데이터를 대량 생산하고 선별 학습하는 방식이 품질 향상에 더 효과적이라는 설명이다.
 
 
장한용 실장은 "궁극적으로는 '허탈한 미소가 묻어나는 씁쓸한 표정' 같은 복합 감정까지 AI가 이해하고 생성하는 수준으로 발전해야 한다"며 "얼굴 애니메이션의 완전 자동화는 충분히 실현 가능한 목표"라고 발표를 마무리했다.
 
[이시영 기자 banshee@chosun.com] [gamechosun.co.kr]

ⓒ기사의 저작권은 게임조선에 있습니다. 허락없이 무단으로 기사 내용 전제 및 다운로드 링크배포를 금지합니다.

이시영 기자의

댓글 0