(부제: AI 기반 미디어 현지화 도구 MediaCAT의 과거, 현재, 미래)
XL8에서는 한 달에 하나씩 기술 블로그에 글을 작성한다. 항상 다른 분들이 고생하셨는데 마침내 나의 차례가 도래하여, CTO님의 제안으로 작년 9월에 런칭하여 지난주에 2.0 버전이 나온 MediaCAT에 대해 소개하는 글을 썼다. 우리가 MediaCAT을 만들면서 어떤 고민을 해왔는지, 이번에는 무엇을 염두에 두고 업데이트를 했는지, 앞으로는 어떻게 발전시키고자 하는지를 담았다.
내가 기획한 글이지만, 개발 시작부터 쳐도 1년도 안 됐고 별로 알려지지도 않은 제품에 대해 자서전 쓰듯 역사를 기술하려니 살짝 민망한 마음도 있었다. 그래도 글이 부끄럽지 않을 만큼 더 훌륭한 제품으로 만들면 된다고 여기며 뻔뻔하게 썼다. 글 쓰면서 재미있었고 사내에서도 반응이 좋아 보람찼다. 멋진 커버 이미지 만들어주신 디자이너 토드와, 항상 홍보 업무 열일하시는 로사에게 감사드린다.
- 영어 버전: https://blog.xl8.ai/posts/the-past-present-and-future-of-mediacat-ai-powered-media-localization-tool
2022년 9월 런칭했던 MediaCAT이 7개월간의 숙성을 거쳐 최근 “Projects”와 함께 2.0 버전으로 재탄생했습니다. XL8과 같은 초기 스타트업에게 7개월은 정말 긴 시간이죠. 이번 글은 XL8이 MediaCAT을 왜 만들었고, 무엇을 염두에 두고 2.0으로 업데이트했으며, MediaCAT을 앞으로는 어떻게 발전시키려고 하는지 소개하고자 합니다.
MediaCAT의 과거
Skroll: XL8의 뛰어난 번역 API 결과를 보여주는 테스트베드
저희 블로그를 읽어오셨던 분들이라면 잘 아시겠지만 XL8의 가장 강력한 경쟁력은 미디어 컨텐츠의 다국어 번역에서 독보적인 성능을 보여준다는 데 있습니다. 우리는 뛰어난 번역 성능을 탑재한 API를 LSP(Localization Service Provider, 미디어 컨텐츠의 다국어 자막을 제공하는 사업자들)에게 제공하면 그들이 초벌 번역을 하는데 걸리는 시간을 크게 단축시킬 수 있을 거라고 봤습니다.
일반 사용자를 대상으로 한 제품이 아니었고, API 제공에 중점을 뒀기 때문에 초기에 저희는 UI에 크게 신경쓰지 않았습니다. LSP 고객들이 제대로 API를 붙이기 전에 번역 성능을 시험해보는 정도로만 사용될 거라고 가정했으므로, UI는 API의 호출 결과 목록을 보여주는 정도면 충분하리라고 생각했죠. 그게 MediaCAT의 전신인 Skroll이었습니다.
처음에는 이 가정이 어느정도 맞았지만, 우리가 제품의 모토를 “미디어 컨텐츠의 다국어 번역을 돕는다”에서 “다국어화된 미디어 컨텐츠 제작을 돕는다”로 확장하면서 상황이 달라졌습니다. Skroll이 제공하는 서비스도 앞과(Sync
: 미디어로부터 원본 자막 추출하기) 뒤로(Dub
: 다국어 자막을 입힌 영상 만들기) 넓어졌고, LSP가 아닌 고객군(e.g., 번역을 직접 검수할 수 없는 컨텐츠 제공자와 유튜버와 같은 컨텐츠 제작자)도 늘어났습니다. 당연히 요구사항도 다양해졌고요. Skroll이 이전보다 훨씬 더 많이 사용됐는데, 이런 사용을 기대하고 만든 서비스가 아니었으니 UX 개선에도 한계가 있었죠.
미디어 컨텐츠 제작 도구들의 파편화를 기회로 보다
사실 제대로 된 다국어 영상을 제작하려면 대략 이런 과정을 거쳐야 합니다.
- 영상 제작
- 영상 편집
- 원본 자막 생성
- 원본 자막을 다국어로 번역
- 언어별로 번역 검수
- 자막 번인, 더빙, 효과 입히기 등 추가 작업
- 영상 송출 플랫폼에 맞게 업로드
이 과정의 대부분을 커버하는 시장 지배적인 도구가 있었다면 거기에만 우리 API를 연동하면 되었겠지만 실제로는 그렇지 않았습니다. 많은 고객들이 단계별로 특화된 도구를 자신만의 워크플로우로 다양하게 조합해서 사용하고 있더군요. 특히 번역과 검수는 대개 프리랜서 번역가나 번역 업체에 맡겨야 하니, 그러한 협업과 관련된 프로젝트 관리 도구까지 워크플로우에 추가되어야 했고요. 각 도구들은 영상편집과 원본자막 생성은 되는데 번역이 안 된다거나, 번역은 되는데 자막 형태랑 맞지 않다거나, 프로젝트 관리는 되는데 나머지가 안 된다거나, 아무튼 뭔가 핀트가 잘 안 맞는 상황이었습니다.
우리가 API 연동만 고집했다면 이 상황이 곤란했겠으나 관점을 바꾸니 오히려 문제가 아닌 기회로 보였습니다. 직접 다국어 미디어 컨텐츠 제작의 A to Z를 아우르는 도구를 만들어보자는 생각이 들었죠. 물론 처음에는 우리 또한 몇 가지 단계만 잘 커버하겠지만 그 범위를 점차 넓힐 수 있으리라는 자신이 있었습니다. 그렇게 MediaCAT을 만들기 시작했습니다.
MediaCAT 1.0: Sync, Translate, Dub.
MediaCAT의 설계 목표
MediaCAT의 거시적인 가치 제안은 ‘미디어 컨텐츠를 다국어화하는데 걸리는 시간과 비용을 줄여준다’입니다. 문제는 ‘누구의 시간과 비용인가’ 였는데요. 고객군에 따라 현재 어디에 시간과 비용을 많이 들이고 있는지가 달랐기 때문에, 주요 타겟 고객군을 누구로 잡을 것인지 제품 설계 및 개발 초기에 정말 많은 논의를 했습니다.
고민 끝에 ‘XL8의 API를 직접 연동하기 어려운 중소형 LSP’를 첫번째 타겟으로 정했습니다. 미디어 유틸리티 도구 시장에 새로 진입하는 입장에서, XL8의 강점인 초벌 번역 품질을 통해 가장 큰 가치를 부여할 수 있는 고객군이 이들일 것이라고 생각했기 때문입니다. 실제로 이들이 Skroll을 가장 자주 사용하는 (그래서 가장 크게 불편해했던) 고객들이기도 했고요. 또한 유튜버와 같은 신규 B2C 고객들을 유입시키고 온보딩하는 데 초기 리소스를 투입하기보다는, 이미 우리 제품(Skroll)을 쓰고 있는 소수 B2B 고객에 집중하는 게 더 ROI가 높겠다는 판단도 있었습니다.
우리는 중소형 LSP가 미디어 컨텐츠를 다국어화하는 데 걸리는 시간과 비용을 줄이려면 단순히 전사와 번역의 품질이 좋은 것만으로는 부족하다고 봤습니다. 아무리 전사와 번역 품질이 좋아지더라도 아직까지 사람이 전혀 손대지 않고 납품할 수 있는 수준으로 자막을 만들기는 쉽지 않습니다. 그러니 그들이 자막을 검수하고, 편집하고, 납품하는 워크플로우를 이해해야 했으며 이해한 결과를 MediaCAT의 UX 안에 녹여야만 했죠. 동시에, 우리가 앞으로 더 넓은 범위의 작업을 커버할 수 있도록 확장 가능하게 구조를 설계해야 했습니다. 이 모든 걸 고려하여 MediaCAT 1.0의 미시적 설계 목표를 크게 세 가지로 잡았습니다.
- Skroll을 사용하는 기존 고객의 불편함 개선하기: 미디어 파일이나 자막 파일을 한번 업로드하고 나면 이후 다국어 컨텐츠 제작 과정이 끊김없이 연결되어 다시 파일을 올릴 필요 없게 하자.
- 전사 및 번역 결과를 빠르게 확인하고 수정하기: 전사와 번역의 초벌 결과는 부정확할 수밖에 없다. 결과를 미리보기로 보여주고, 자막 편집기를 내장하여 편집이 더 쉬워지게 하자.
- ‘다국어 미디어 컨텐츠 제작’의 전체 과정을 커버할 수 있는 기반 만들기: 비록 지금은 전체 과정의 일부만 담당하겠지만, 전사와 번역 시간을 아낄 수 있게 해주는 다양한 요소를 깊고(전사와 번역에 더 많은 지원) 넓게(전사와 번역 앞뒤로 더 많은 과정을 담당) 추가할 수 있도록 틀을 짜두자.
또한 런칭 이후에는, 끊임없는 제품 개선을 실천하기 위해 ‘꼭 2주에 최소 2개씩은 사용자 편의를 위한 기능 업데이트를 하자’고 MediaCAT 개발팀 내에서 선언했고 다행히 아직까지는 잘 지키고 있습니다. 2023년 2월부터는 그러한 주요 업데이트를 사용자들에게 What's New on MediaCAT
으로 알리고 있기도 하고요.
MediaCAT 1.0의 주요 기능들
이러한 노력의 결과로 MediaCAT 1.0에서는 다음과 같은 기능들을 제공할 수 있었습니다.
Sync
- 사용자의 미디어(영상 또는 음성) 파일을 전사하여 원본 언어의 자막을 생성합니다. 미디어 파일은 유튜브나 구글 드라이브, 드롭박스 등의 링크를 통해서도 업로드할 수 있습니다.
- 대본(Transcript)을 첨부하면 대본 안의 문장을 최대한 살려서 자막의 시간을 맞춰주며, 용어사전(Glossary)을 첨부해 음성인식의 성능을 끌어올릴 수 있습니다.
- 최근에는 음성과 영상의 정보를 이용해 화자를 분리하여 성별과 나이를 추정하고, 저청력자를 위한 효과음 추출(SDH, Subtitles for the Deaf or Hard-of-Hearing)하는 등 다양한 자막 제작 지원 기능이 추가되기도 했습니다.
- 2023년 4월 기준 총 37개 언어를 지원합니다.
Translate
- 사용자의 (원본 언어가 담긴) 자막 파일을 다국어로 번역한 자막을 생성합니다. 꼭 파일을 직접 업로드할 필요 없이,
Proceed
기능을 통해 Sync 에서 생성한 자막을 그대로 번역에 사용할 수도 있습니다. - 특정한 언어쌍의 번역은 특별한 옵션을 제공합니다. 예를 들어 영-한 번역에서는
Formality
를 지정하여 어떤 말투로 번역할지(e.g., 합쇼체, 하게체) 지정할 수 있고, 영-독 번역에서는Genre
를 지정하여 어떤 분위기로 번역할지(e.g., 코미디, 호러, 밀리터리) 지정할 수 있습니다. 참고로 2022년 10월 이후 출시한 모든 번역 모델은Genre
옵션을 지원합니다. - Sync와 마찬가지로 용어사전(Glossary)을 첨부해 번역 성능을 끌어올릴 수 있습니다.
- 2023년 4월 기준 총 42개 언어를 지원합니다.
Dub(Beta)
- 자막의 언어를 타임코드에 맞춰 원하는 목소리로 더빙해줍니다. 파일을 직접 업로드할 필요 없이,
Proceed
기능을 통해 Translate에서 생성한 자막을 그대로 더빙에 사용할 수도 있습니다. - 사용자가 영상을 함께 첨부하면 영상 위에 더빙해주고 영상이 없으면 그대로 음성으로 만들어줍니다.
- 2023년 4월 기준 총 24개 언어를 지원합니다.
Edit
- Sync와 Translate의 결과로 생성된 자막을 확인하고, 원하는대로 타임코드와 내용을 수정할 수 있습니다.
- 전술했듯 AI가 전사해준 결과와 번역해준 결과는 초벌에 불과합니다. Sync에서는 배경음악이나 잡음의 존재, 부정확한 발음, 음성 겹침 등 수많은 요인으로 인해 실제 사람도 받아적기 어려운 영상이 주어지기도 합니다. 그래도 전사는 ‘정답’이 있을 수 있어 그나마 낫지만 번역은 번역가의 취향이나 (시리즈물의 경우 등) 기존 번역물과의 관계를 비롯해 정답이 없는 영역이죠. 따라서 LSP에서는 초벌 번역을 AI에게 맡기더라도, 최종 결과물은 반드시 사람이 검수 및 편집해서 납품해야 합니다. 이 과정을 다른 도구를 거치지 않고도 수행할 수 있도록 MediaCAT이 자체 편집기를 제공하는 것입니다.
지난 몇개월간의 작업으로 3가지 미시적 설계 목표를 어느정도 달성했다고 판단했습니다. 그리고 기반이 갖춰졌으니 다음 단계로 확장할 때가 되었음을 느꼈습니다. 그 방향은 “Projects”였습니다.
MediaCAT 2.0: Projects.
MediaCAT이 제공하는 세 가지 주요 기능인 Sync, Translate, Dub이 “Tasks”라는 비교적 가벼운 이름으로 지칭된 것은 우연이 아닙니다. 이들은 다국어 미디어 컨텐츠 제작 과정에서 각각 중요한 단계를 차지하고 있는 녀석들이지만, MediaCAT 내에서 Proceed
기능을 제외하면 각 Task는 독립적으로 기능한다고 볼 수 있습니다.
이는 하나하나의 Task만을 원하는 고객에게는 충분히 가치를 제공할 수 있는 형태였지만, 두 개 이상의 Task를 연속해서 이용하려는 고객에게는 부족한 점이 많습니다. 여러 번의 사용자 인터뷰를 통해 충분히 인지하고 있는 문제였죠. 슬슬 분리되어있는 Task들을 하나로 묶고, 협업 기능을 강화하여 하나의 완성품을 만드는 데 도움을 주는 방향으로 새로운 패키지를 추가할 만한 타이밍이라고 생각했습니다.
각 Task는 모듈 방식으로 조립할 수 있게 설계했었기 때문에, 이를 묶은 “Projects”의 개발은 오래 걸리지 않을 거라고 예상했지만 오산이었습니다. 새로 구현해야 할 기능도 많았고, UI와 UX도 더 낫게 만들고 싶었고, 그러는 동안에도 1.0에 2주 간격으로 최소 2개의 사용자향 기능 업데이트를 하겠다는 결심을 지켜야 했습니다. 쉽지 않은 여정이었지만 우여곡절 끝에 4월 중순 Projects를 내놓을 수 있어 기쁩니다.
Tasks와 Projects의 차이
우선 기존의 Tasks와 Projects가 어떻게 다른지 간단하게 정리해보겠습니다.
- Tasks는 속도에 집중합니다. Sync, Translate, Dub 중 원하는 작업을 골라서 실행하고, 편집/검수 과정을 거의 거치지 않은 채 결과물을 빠르게 확인하길 바라는 고객에게 적합합니다.
- Projects는 품질에 집중합니다. 미디어의 자막을 납품해야 하거나, 송출해야 하는 채널에 맞춰 검수가 완료된 고품질 자막을 여러 언어 기능자들과 협업하여 만들고자 하는 고객에게 적합합니다.
지금은 Projects가 단순히 Tasks를 묶어둔 것처럼 느껴지실 수 있겠지만, 양쪽 방향에서 특화된 가치를 제공하기 위해 Tasks에서는 벌크 자막 생성, UI 간소화 등 속도에 집중한 편의 기능을 계속 추가하는 한편 Projects에서는 품질관리 및 협업과 관련된 기능을 계속 강화해나갈 계획입니다. 특히 LSP의 PM들에게 Projects가 더욱 유용해질 수 있도록 준비하고 있습니다.
MediaCAT 2.0의 주요 기능들
이 글은 블로그지 매뉴얼이 아니기 때문에 상세한 설명은 생략하고 주요 기능 위주로만 소개합니다. 팀 워크스페이스 기능은 MediaCAT 1.0에서도 오래전부터 제공되었던 기능이지만, Tasks에서는 특별한 협업 지원 기능이 없었습니다. Projects에서부터는 팀 사용자들을 위한 협업 지원 기능들이 추가됩니다.
개인 사용자를 위한 기능 (Personal Workspace)
- 번역하길 원하는 원본 자막을 업로드하거나, 원본 자막이 없다면 미디어를 업로드하여 프로젝트를 생성합니다.
- 미디어로부터 프로젝트를 시작했다면 Sync를 돌려 원본 자막을 생성할 수 있습니다. Transcript, Glossary를 비롯한 기본적인 사용법은 Sync Task와 동일하나, Projects에서는 편집을 시작하기 전에 각종 옵션을 실시간으로 조정해볼 수 있습니다.
- 조정이 끝나 자막이 생성되면 자막을 편집하고, 번역하고, 비교할 수 있습니다. 자막 편집과 번역은 1.0에서의 기능과 기본적으로 동일합니다.
팀 사용자를 위한 협업 기능 (Team Workspace)
- 다른 동료나 프리랜서 번역가 등과 협업하고자 하는 분들은 팀 워크스페이스 생성을 요청하고, 그들을 본인의 팀으로 초대할 수 있습니다.
- 팀의 소유자와 관리자는, 팀 구성원 중 프로젝트의 특정 언어 자막을 함께 편집/검수해줄 사람을 할당할 수 있습니다.
- 작업을 할당받은 팀 구성원은
Assigned Projects
에서 해당 프로젝트를 확인하고, 할당받은 작업을 수행합니다.
MediaCAT 3.0: To be continued…
MediaCAT 2.0을 내놓았지만 ‘다국어화된 컨텐츠 제작의 A to Z를 모두 커버하겠다’는 당초 포부에 다가가려면 아직도 갈 길이 구만리입니다.
- 각 Task의 정확도와 완성도를 높여 초벌 결과물의 품질을 지속적으로 올려야 하는 건 너무나 자명합니다.
- 특히 첫 출시 후 아직까지도 베타 딱지를 달고 있는 Dub에서도 개선할 바가 많습니다. 그렇게 개선된 Dub을 Projects 안에도 집어넣어야 함은 물론입니다.
- ‘Tasks와 Projects의 차이’에서 언급했듯 Tasks는 더 빠르게 결과를 확인할 수 있게 해야 하고, Projects에서는 편집과 검수를 훨씬 더 적은 시간과 비용으로 할 수 있게 도와주어야 합니다. Projects의 협업 기능도 훨씬 더 강화해야 하고요.
- 이 모든 작업 과정과 결과, 그래서 MediaCAT을 통해 얼마나 시간과 비용을 아낄 수 있었는지를 대시보드 형태로 한눈에 알아볼 수 있는 것도 필요하다고 봅니다.
이번에는 어떠한 준비를 거쳐, 언제 3.0이 등장하게 될지는 모르겠습니다. 그 3.0이 우리의 궁극적 목표에 얼마나 가까울지도 예상되지는 않는군요. 하지만 2주에 2개씩 고객들이 알아볼 만한 편의 기능을 계속 추가하다 보면 어느샌가 몇걸음 다가가있을 거라는 확신은 듭니다.
그 중 하나는 조만간 공개될 Revise with AI
입니다. MediaCAT의 초벌 번역을 자막 편집기에서 번역가가 수정하면, 지금까지 수정된 내역을 바탕으로 AI가 다음 수정할 내용을 제안해주는 실험적인 기능입니다. 번역가의 취향에 맞게 번역된 자막을 손쉽게 만들 수 있어, 편집 및 검수 시간을 극적으로 낮춰주리라 기대하고 있습니다. 이러한 주요 업데이트는 모두 What’s New
를 통해 공개되니 우측 상단에 빨간 불이 켜지면 눌러보시길 권합니다.