하루 200TB가 넘는 대규모 로그 데이터를 클라우드에 적재하면서 발생하는 비용 문제를 대규모 로그 데이터 적재 구조를 재설계해 연간 약 10억 원 규모의 비용을 절감한 사례를 공개했다.

18일 진행된 넥슨 개발자 콘퍼런스(NDC26)에서 넥슨코리아 데이터최적화팀 김준성 파트장은 클라우드 서비스를 깊이 파고들어 데이터 적재 비용을 80% 줄인 이야기를 주제로 발표를 진행했다. 김 파트장은 넥슨코리아에서 대용량 데이터 적재와 비용 및 성능 최적화를 담당하고 있으며, 지난 NDC24에서도 준실시간 데이터 적재 경험을 공유한 바 있다.

넥슨이 스노우플레이크에 적재하는 일간 유입 데이터는 200TB 이상, 파일 개수는 2.5억 개, 일간 레코드 수는 1,300억 개에 달하는 거대한 규모이다. 이 정도 대용량 파이프라인 환경에서는 데이터 적재 방식의 미세한 차이가 기업의 전체 클라우드 비용에 막대한 차이를 발생시킨다.
기존 데이터 파이프라인은 게임 서버에서 생성된 로그가 클라우드 스토리지에 쌓인 후 행 기반 방식인 스노우플레이크의 스노우파이프 스트리밍을 통해 적재되는 구조였다.
파일 기반인 스노우파이프를 사용할 경우 일간 2.5억 개라는 엄청난 파일 수에 비례하여 서버리스 리소스 비용이 청구되어 매일 18,000 크레딧 이상이 소모되는 문제가 있었다. 반면 행 기반의 스노우파이프 스트리밍은 서버 리소스만을 소모하여 일간 700 크레딧 수준으로 운영이 가능했기에 연간 625만 크레딧 이상의 격차를 줄이기 위한 당시의 최선책이었다.

그러나 행 단위 적재 방식은 비용을 낮추는 대신 운영상의 대가를 요구했다. 워크로드에 따라 서버리스 리소스 변동성이 심해 비용 예측이 어려웠고, 장애 발생 시 적재 지점을 직접 추적해야 하는 오프셋 관리 부담과 네트워크 단절 등에 대응하는 예외 처리의 복잡성이라는 단점이 존재했다.

변화의 기회는 과금 정책 변경 공지에서 시작되었다. 스노우플레이크 측은 기존의 파일 개수당 추가 비용과 서버리스 리소스 비용을 삭제하고, 오직 적재되는 데이터 용량을 기준으로 바이너리 압축 실측 과금을 하겠다는 정책을 발표했다. 대다수의 유저에게는 평범한 릴리즈 노트 중 하나였으나, 기존 파이프라인의 특성과 과금 구조를 완벽하게 이해하고 있던 데이터최적화팀에는 거대한 비용 절감의 연결고리로 다가왔다.

김준성 파트장은 "스노우파이프는 비싸다는 편견이 있었다면 이 공지는 눈에 들어오지 않았을 것"이라며 "파이프라인 구조와 과금 체계를 모두 이해하고 있었기 때문에 기회로 볼 수 있었다"고 말했다.
넥슨코리아는 기존 스트리밍 방식에서 파일 기반의 스노우파이프로 전환하기 위해 기존 구조를 전면 재설계했다. 하루 2억5000만 개 이상의 JSON 파일이 생성되고 있었으며, 파일 병합 여력이 충분하다는 점에 주목했다. 여기에 과금 기준이 파일 수에서 데이터 용량 중심으로 변경된 만큼 스노우파이프 방식이 다시 경쟁력을 가질 수 있다고 판단했다.
새로운 구조에서는 중간 버퍼링 단계를 추가했다. 데이터를 최대 30초 동안 대기시키거나 일정 수량 이상 모은 뒤 하나의 파일로 병합하고, JSON 데이터를 Parquet 포맷으로 변환해 압축한 뒤 적재하는 방식이다. 스노우파이프가 파일 단위로 동작하는 특성을 활용해 적재 효율을 극대화한 것이다.

이와 같은 데이터 흐름의 변화를 통해 RawNXLog 파이프라인에서 82.8%의 비용 절감률을 달성했다. 매일 750 크레딧 가량 소모되던 유입 데이터 1TB당 적재 비용을 90 크레딧 수준으로 낮춘 결과이다. 이로 인해 연간 약 10.2억 원($705,783)의 비용이 절감되는 계량적 효과를 얻었으며 데이터 용량 기반으로 과금 방식이 바뀌면서 명확한 비용 예측이 가능해졌고 운영 안정성도 대폭 향상되었다.
물론 실시간성이 최대 30초 이상의 적재 지연으로 늘어났고 S3 중간 저장소라는 스테이지 관리 포인트가 증가하는 트레이드오프를 감수해야 했다. 그러나 수분 내 조회를 지향하는 준실시간 데이터 파이프라인 특성상 30초의 지연은 수용 가능한 범위였기에 과감한 아키텍처 전환 결정을 내릴 수 있었다.
김준성 파트장은 발표 중 별도의 슬라이드를 통해 "솔직하게 잃은 것도 있다"고 언급하며 적재 지연 증가와 운영 복잡성 확대를 직접 설명했다. 하지만 넥슨은 비용 절감과 운영 안정성 향상이 가져오는 이득이 훨씬 크다고 판단했다.

현재 데이터최적화팀은 검증된 아키텍처를 확장하기 위한 퓨처 워크를 진행 중이다. 스키마가 제각각인 40,000개 이상의 테이블로 확장하는 과정에서 파라미터 튜닝과 업스트림 최적화라는 복잡성에 직면해 있다. 하지만 이미 버퍼링 구조를 갖추고 있어 추가 지연이 없고 과금 구조 수혜가 동일하기 때문에 성공적으로 라이브 환경에 안착할 시 기존 일간 2,500 크레딧 이상의 비용을 25 크레딧 수준까지 줄여 99% 비용 절감이 가능할 것으로 기대하고 있다.

김준성 파트장은 클라우드 서비스의 과금 정책은 상시 변동되므로 변화가 내 파이프라인에 어떤 의미를 가지는지 판단할 수 있는 눈이 중요하다고 언급했다. 아울러 NDC24에서의 조회 비용 최적화와 이번 NDC26에서의 적재 비용 최적화 모두 그냥 쓰지 말고 서비스와 파이프라인을 깊이 이해하고 쓰자는 일관된 원칙에서 비롯되었다고 밝히며, 아는 만큼 아낄 수 있다는 메시지와 함께 강연을 마무리했다.
[홍이표 기자 siriused@chosun.com] [gamechosun.co.kr]
ⓒ기사의 저작권은 게임조선에 있습니다. 허락없이 무단으로 기사 내용 전제 및 다운로드 링크배포를 금지합니다.

몬길:스타다이브 

