이 글은 VFX 기자 Ian Failes가 작성하였으며 2021년 8월 befores & afters에 처음 게재되었습니다. Failes는 Blomkamp 감독과 함께 '시그널 X: 영혼의 구역(Demonic)'에 사용된 Unity 볼류메트릭 툴에 대해 이야기를 나눴습니다. 프로젝트 진행에 툴이 어떤 긍정적인 영향을 미쳤는지, 그리고 차기 프로젝트에 볼류메트릭 툴을 어떻게 활용할 수 있을지에 대한 감독의 생각을 들어보았습니다.
Neill Blomkamp 감독은 시각 효과 제작에 관한 경력이 있어, 디스트릭트 9, 엘리시움 등의 영화와 Oats Studios 단편들을 제작하면서 혁신적인 VFX 기법을 사용할 수 있었습니다.
시그널 X: 영혼의 구역에서 감독은 한발 더 나아가, 영화에 등장하는 '시뮬레이션' 혹은 꿈속 이야기를 보여주는 씬에 볼류메트릭 캡처를 사용했습니다. 이 영화는 8월 20일에 영화관과 주문형 비디오(VOD)를 통해 개봉했습니다. 영화 속 꿈 씬을 위해 다수의 카메라 배열로 배우들을 캡처했으며, 여기에서 얻은 볼류메트릭 포인트 클라우드 데이터를 사용하여 배우들의 모습을 렌더링했습니다. 이번 작품에는 지금까지 출시된 장편 영화 중에서 가장 긴 볼류메트릭 씬이 등장합니다.
캡처 서비스는 Volumetric Camera Systems에서 제공했으며, UPP의 Viktor Muller가 시그널 X: 영혼의 구역의 시각 효과 감독이자 영화의 제작 책임자를 맡았습니다. 영화 제작자들은 Unity로 작업하는 동안 Project Inplay(현재 코드명)라는 Unity의 최신 기술을 채택하여 볼류메트릭 포인트 클라우드 데이터를 Unity 엔진으로 가져와 실시간으로 렌더링할 수 있었습니다.
Neill Blomkamp: 제가 VFX 분야의 경력을 가지고 있어서인지 몰라도 컴퓨터 그래픽스과 관련된 기술에 관심이 많습니다. 사용자가 직접 들어가서 체험할 수 있는 3D 환경에 매우 관심이 많아요. 제가 게임을 좋아하는 이유도 이 때문일 겁니다.
게임 자체보다 3D 환경에서의 몰입이라는 개념에 더 흥미를 느낄 때가 많습니다. 해상도가 높아지고 물리의 현실성이 향상될수록 3D 환경도 더 흥미로워진다고 생각합니다. 시뮬레이션이라는 개념에는 정말로 매력적인 점이 있습니다.
볼류메트릭 캡처에 바로 그런 매력을 느꼈습니다. 배우를 3차원 캡처하여 RGB 데이터를 가진 움직이는 지오메트리 덩어리로 만든 뒤에, 수집한 텍스처를 하나씩 부착하는 작업은 매우 흥미롭고 즐거웠습니다. 최첨단 기술이라 많은 문제를 수반하는 것도 사실이지만, 점차 해결되리라 확신합니다.
무척 마음에 드는 기술이었기 때문에 어떤 식으로든 사용해 보고 싶었습니다. 그래서 약 2~3년 전에 로스앤젤레스에 있는 Metastage에 연락하여 해당 기술이 어떻게 작동하고, 영화에서 어떻게 사용될 수 있을지 논의하기 시작했습니다. 그리고 이 기술을 활용할 방안을 찾아 봐야겠다고 생각하게 되었지요.
Oats Studios는 새로운 시도를 해볼 만한 완벽한 플랫폼이었고, 단편 영화를 하나 만들어 볼 수 있었습니다. 아무도 설득할 필요없이 그냥 만들기만 하면 됐습니다. 팬데믹이 닥쳤을 때, 무엇이든 해야 한다는 생각으로 직접 자금을 조달하여 저예산 공포 영화를 계획했습니다. 전에 했던 생각을 정리하여 2시간 분량의 영화에서 볼륨 캡처 기술을 어떻게 활용할지, 또 어떤 방안이 있을지 확인해 봐야겠다고 결정을 내렸습니다.
Neill Blomkamp: 무엇보다도 가장 먼저 발생한 문제는 품질이었습니다. 최신 기술이었으니까요. 그래서 실제로 스토리에도 해당 기술이 프로토타입으로 등장한다면 이 문제를 완화할 수 있을 거라 생각했습니다. 그래서 이 기술을 극 중에서 프로토타입으로 설정한 후에, 이 설정을 토대로 각본을 써 내려갔습니다. 일반적인 VFX인 것처럼 연출했을 경우 관객이 난감해 할 수 있는 해상도나 낮은 품질이 나오더라도 문제가 되지 않도록 말입니다.
이 기술은 단일 오브젝트를 사진 측량한 후에, 컴퓨터를 사용하여 이를 3차원 오브젝트로 추출하는 것과 같습니다. 단순한 오브젝트가 아니라 모든 RGB 데이터와 그림자, 결함 등 모든 것이 함께 존재합니다. 해당 정보가 오브젝트와 함께 1초에 24번 표시됩니다. 즉, 모든 메시가 서로 아무 관련이 없습니다. 모든 메시는 한 번에 한 프레임씩 개별적인 계산 값을 가진 하나의 점토 조각처럼 각각 따로 존재합니다. 어떤 면에서는 초당 24프레임 주기로 다양한 오브젝트를 숨기거나 표시하는 구식 애니메이션과 비슷하며, 이 과정이 계속 반복됩니다.
한편으로는 이러한 오브젝트를 조정할 수 없다는 점이 이상하기도 합니다. 오브젝트는 있는 그대로 표시됩니다. 이미 베이크된 상태라서 달리 제어할 방법이 없습니다. 오브젝트의 손을 잡고 움직일 수 있는 역운동학(IK) 릭이 있을 것이라고 가정하면 안 됩니다. 그런 것이 전혀 존재하지 않는 오브젝트일 뿐입니다.
두 번째 문제는 표면에 구분이 없다는 것입니다. 수많은 복잡한 지오메트리가 하나의 맵에 표시되어서 하나의 이미지만 보면 괜찮아 보이지만 UV 파일을 보면 굉장히 산만하고 복잡해 보입니다. 오브젝트의 표면에도 역시 반사나 무광택 표면, 투명도나 피하 산란이 따로 분리되어 있지 않습니다. 모든 것이 하나로 표현됩니다.
따라서 일반적인 VFX처럼 본격적으로 사용하려면 개선이 필요합니다. 이번 영화에서는 볼류메트릭 캡처를 도입하여 Unity에서 3D 패키지로 실시간으로 작업하면서 카메라 각도와 조명, 기타 많은 기능을 활용했습니다. 이번 작업은 무척 즐거웠습니다. 이 영화가 가진 서사 덕분에 생각만 해왔던 기술을 실제로 사용해볼 수 있었습니다.
Neill Blomkamp: 운이 좋게도 밴쿠버에서 VCS(Volumetric Capture Systems)를 찾을 수 있었습니다. VCS에서 제작한 릭은 스테이지 위에 265대의 4K 카메라가 설치된 형태였습니다. 보통은 반구형이지만, 우리는 측면에 추가 공간이 필요했기에 실질적으로는 원통형을 사용했습니다. 상단에는 카메라 40-50대가 부착된 1m 너비의 이동식 반구형 장치를 추가하여 표정을 포착하기 위해 보다 가까이 접근할 수 있도록 했습니다.
사실 이러한 환경은 배우가 연기하기에는 최악의 환경입니다. 수중 촬영 다음으로 가장 열악한 환경이라고 할 수 있습니다. 반수중 촬영이라도 했다면 그야말로 최악이었겠지요. 이렇게 터무니 없는 환경에서 근사한 연기를 펼친 두 배우, Carly Pope와 Nathalie Boltt에게 경의를 표합니다.
도저히 이해할 수 없는 점이 또 하나 있었는데, 위트니스(witness) 카메라 외에는 연기를 지켜볼 수 있는 뾰족한 방법이 없다는 것이었습니다. 촬영 기사들이 위트니스 카메라를 가지고 배우들을 따라다니면, 저는 위트니스 카메라로부터 피드를 확보했습니다. 나머지 265대의 카메라는 전부 고정된 상태에서 매 순간 배우를 촬영하고 있습니다.
다시 말하면, 볼륨 캡처 릭에서는 어떤 피드백도 얻을 수 없으며, 가상 카메라도 없습니다. 아직 데이터가 계산되기 전이니까요. 기본적으로 무대 연극을 관람하듯이 가만히 기다려야 합니다.
모션 캡처(모캡) 세트장에서는 상황이 다릅니다. 모캡의 경우에는 배우가 있든 없든 상관없이 제가 가상 카메라를 들고 직접 촬영합니다. 몇 달 동안 데이터를 압축한 결과 Unity로 볼류메트릭 캡처를 로드할 수 있었습니다. 근사한 실시간 환경이 마련되자 가상 카메라를 가져와 결과를 확인할 수 있었습니다. 이는 일반적인 모션 캡처에서 크게 발전한 기술입니다. 이제는 화면에서 확인한 버전이 최종본이 됩니다. 모든 것이 완성된 상태입니다. 앞으로는 조명을 어디에 배치할 것인지 등에 대해서만 고민하면 됩니다.
아무것도 없었는데 별안간 최종 결과물이 생긴 것이죠. 캐릭터를 릭에 할당할 일도, 3D 메시를 릭에 할당할 일도 없습니다. 리타게팅도 없고, 모프 타겟도 없습니다. 최종 캐릭터가 완성된 상태로 생기니 정말 좋았습니다.
데이터 관리와 처리 작업은 정말 골치가 아팠습니다. 4K 카메라 265대로 30분 동안 촬영한 영상을 매일 밤 12~15테라바이트씩 다운로드해야 했기 때문이죠. 실제로 VCS의 컴퓨터를 보충해야 했고, 다음날 아침에 촬영을 개시할 수 있도록 각자 개인용 컴퓨터 24대를 세트장으로 가져와야 했습니다.
Neill Blomkamp: 저는 Unity를 사용한 실시간 기술에 아주 관심이 많습니다. 앞서 말씀드렸지만 저는 3D 환경을 매우 좋아합니다. 마음대로 골라서 씬에 넣을 수 있는 합성 잎을 제공하는 Quixel Megascans, 실시간 시뮬레이션, 실시간 라디오시티, 그리고 실시간 레이트레이싱과 반사 등을 활용하면 환경을 생생하게 빌드할 수 있습니다.
오디오까지 포함할 수 있게 된다면 사실 게임과 유사해지기 시작하죠. 하지만 관객이 실제로 몰입할 수 있는 경험이면 저는 말 그대로 푹 빠지고 맙니다.
사진 측량은 제가 개인적으로 선호하는 심미적, 예술적 선택과 밀접한 관련이 있습니다. 저는 사진 측량이 수반하는 모든 결함과 현실감을 좋아하는데요, 낡은 헛간을 사진 측량하면 실제와 같은 지저분하고 투박한 텍스처를 얻을 수 있습니다. 이때 아티스트의 역량은 상관없어요. 아트 작업으로는 절대 그 정도로 실감 나게 만들어내지 못하니까요.
따라서 방금 하신 질문에 대한 답은 '그렇다'입니다. 그리고 전통적인 3D 패키지보다는 Unity와 같은 소프트웨어를 배워야 할 것 같습니다. 실은 3D 기술에 대해 알고 싶어서, 최근에 Cinema 4D를 다뤄 보기 시작했습니다.
Neill Blomkamp: 솔직히 말씀드리면 애초에 수정이 가능한지 잘 모르겠습니다. 클린업할 게 아니라면, 어떻게 수정할 수 있는지 모르겠어요. 따라서 품질 불량 현상이 있음을 주지하고 작업에 착수해야 했습니다. 사진 측량과 정적 오브젝트를 생각하면, 분명히 매우 선명하고 깔끔한 오브젝트를 추출할 수 있습니다. 캐논 Mark III를 사용하여 낡은 경작용 트랙터를 모든 각도에서 촬영한 600장의 사진을 RealityCapture로 보낸 다음, 이를 통해 모델을 빌드하고 RGB 데이터를 얻으면 매우 뛰어난 결과물을 얻을 수 있습니다. 정말 생생하게 특징이 담길 겁니다.
이론적으로 말하면, 의자에 앉아 있는 사람의 얼굴에서 불과 몇 센티미터 떨어진 위치에 카메라들을 배치하고, 많은 카메라로 동영상을 촬영한다면, 초고해상도 화질의 결과물을 얻게 됩니다. 머리카락 한 올까지 확인할 수 있을 테죠.
하지만 피사체로부터 1cm, 10cm, 1m 멀어질수록 해상도는 기하급수적으로 떨어집니다. 프레임 내에서의 크기를 고려하면 터무니 없을 정도로 해상도가 떨어지죠. 따라서 배우 한 명이 겨우 움직일 수 있을 만큼의 공간인 지름 4m에 높이 4m인 원통형 공간이라면 해상도가 지수 곡선을 그리며 낮아집니다.
이미 예상한 바였습니다. 테스트 촬영을 했기에 해상도가 어느 정도일지 대충 짐작은 하고 있었죠. 화질에 문제가 있고 낮은 해상도로 보일 것으로 예상했습니다. 하지만 동시에 굉장히 근사해 보일 거라 생각했습니다. 개인적으로는 그런 스타일을 좋아하니까요. 게다가 영화의 스토리와 맞아떨어지니 굳이 눈속임을 하려 하지는 않았죠. 영화에서는 이를 혼수상태이거나 전신마비인 환자를 위해 막 개발된 초기 프로토타입 VR 기술로 설정하고 있습니다. 영화의 맥락에서는 이런 방식이 가능하다고 봅니다.
하지만 이런 설정을 하지 않는다면 다른 분야에서 사용하기는 어렵다고 봅니다. 광고판의 홀로그램을 제외한다면 말이죠. 하지만 앞으로는 달라질 것이라 기대합니다. 해상도가 점차 개선되면 더 많은 사람이 사용하게 될 겁니다.
Neill Blomkamp: 그건 단순히 컴퓨팅의 문제라고 봅니다. 무어의 법칙이 깨질 날도 머지 않았습니다. 몇 년이 지나야 양자 수준의 집적도를 가진 회로가 개발될지 잘 모르겠네요. 앞으로 처리 능력이 얼마나 더 발전할 수 있을지 모르겠습니다.
반도체 성능이 상당히 뛰어나도 작업을 완수하려면 엄청난 시간이 소요됩니다. 따라서 100배, 1000배 더 빨라진다고 해도 실시간 처리는 여전히 요원할 것으로 봅니다. 하지만 솔직히 말씀드리면, 그건 별로 중요한 문제가 아닙니다. Unity와 같은 엔진에서 촬영 후에 데이터를 가지고 여러 종류의 작업을 시도할 수 있게 되는 것이 더 중요하다고 생각합니다.
실시간 영화와 가상 영화의 핵심은 일반적인 제작 방식에서 오는 제약으로부터 자유로워지는 겁니다. 해가 지거나, 폭풍우가 다가오거나, 오후 5시에 단역 배우들이 퇴근하는 등 어떤 제약이더라도 말이죠. 가상 제작의 핵심은 차분하고 통제된 포스트 프로덕션 기능입니다. Unity와 같은 엔진에 3차원 작업물을 로드하여 가상 카메라를 추가하고, 원한다면 몇 주에 걸쳐 원하는 대로 정확하게 수정할 수 있습니다. 그런 의미에서 볼류메트릭 캡처 데이터를 수집하는 과정과 이를 실시간 환경에 투입하기 위해 3D로 압축하는 과정 사이에 지연이 생긴다는 점은 중요하다고 생각하지 않습니다.
정말 중요하고 심각한 문제는 매우 제약이 심하고 너무 복잡한 지금의 캡처 방식입니다. 앞으로 그러한 점이 개선되리라 봅니다.
Is this article helpful for you?
Thank you for your feedback!