Unity 검색

3D bounding boxes generated using Unity’s computer vision tools, header image
3D bounding boxes generated using Unity’s computer vision tools, header image

이번 Q&A에서는 오랜 Unity 사용자이자 Made with Unity: AI 시리즈의 로봇 디지털 트윈 프로젝트를 제작한 Gerard Espona의 시각으로 인공 지능과 컴퓨터 비전의 미래를 들여다봅니다. 인간 수준의 인식 능력을 로보틱스에 내장할 수 있는 핵심 기술을 보유한 Luxonis에서 시뮬레이션 리드로 일하고 있는 Espona는 업계에서의 오랜 경험을 바탕으로 컴퓨터 비전(CV)의 현재와 향후 전망을 제시했습니다.

컴퓨터 비전을 더 쉽게 사용할 수 있게 될까요?

최근 몇 년 동안 컴퓨터 비전과 인공 지능 기술은 시장 규모 및 업계 도입률 면에서 다른 분야에 비해 가장 빠르게 성장했습니다. 공간 분석을 위한 컴퓨터 비전과 최첨단 AI는 반복적인 작업과 복잡한 과정을 개선하고 자동화하는 데 사용되었습니다.

컴퓨터 비전과 인공 지능 기술의 대중화 덕분에 새로운 현실이 가능해졌습니다. 점점 더 저렴해지는 하드웨어를 비롯하여 깊이 인식(depth perception) 기능과 머신러닝 기술이 개선되어 최첨단 CV/AI 시스템에 실제 솔루션을 배포할 수 있게 되었습니다.

최첨단 AI를 사용하는 공간 CV를 사용하면 데이터 센터 서비스 없이도 뎁스 기반 애플리케이션을 배포할 수 있으며, 기기 자체에서 이미지를 처리하여 사용자의 개인정보를 보호할 수 있습니다.

접근성이 좋아진 하드웨어와 함께 소프트웨어, 머신러닝 워크플로 등 다양한 부분이 개선되고 있습니다. 여전히 매우 전문적인 분야에 기술적인 문제도 많지만, 접근성이 좋아지고 있으며 사용자가 직접 모델을 훈련시킬 수 있는 툴도 제공하고 있습니다.

컴퓨터 비전에서 가장 큰 도전 과제는 무엇인가요?

표준 ML 파이프라인/워크플로에서 대규모의 최첨단 컴퓨팅이나 배포는 문제가 될 수 있습니다. 일반적으로 겪는 가장 큰 문제는 실제 애플리케이션에서 머신러닝 모델을 제작하고 개선할 때 필요한 비용과 타임라인을 줄이는 것입니다. 다시 말해, 지속해서 모델을 개선할 수 있는 원활한 파이프라인을 만들기 위해 모든 기기를 어떻게 관리할 것인지가 중요합니다.

또한 컴퓨팅 처리 면에서는 내재적인 제한으로 인해 기기에 배포한 최종 모델에 앱 용량 축소, 성능 개선 등 별도의 작업이 필요합니다. 그렇지만 임베디드 기술은 정말 빠르게 발전하고 있으며, 반복 작업으로 인해 처리 기능이 비약적으로 좋아지고 있습니다.

공간 CV/AI 분야는 여전히 많은 전문 지식과 시스템이 필요한 분야입니다. 수많은 기술적 문제로 인해 워크플로가 복잡하고 번거로운 경우가 많기 때문에 가치를 더하는 작업이 아닌 워크플로를 원활히 개선하는 데 대부분의 시간을 쏟게 됩니다.

Image depicting a typical machine learning pipeline
일반적인 머신러닝 파이프라인

데이터 세트 생성(이미지와 동영상의 수집 및 필터링), 이미지 주석 처리, 전처리/증강 과정, 훈련, 배포, 지속적인 개선을 위한 피드백 처리 등은 매우 복잡한 과정입니다. 워크플로의 각 단계는 기술적으로 난이도가 높고 보통 시간과 비용이 많이 소요되며, 연결이 제한된 외딴 지역에서 작업하는 시스템의 경우 더 어렵고 비용이 많이 듭니다.

Luxonis는 고객이 복잡한 작업을 대규모로 진행하고 자동화할 수 있는 솔루션을 제작 및 배포하도록 지원하고 있기 때문에 이 모든 문제를 직접 마주하고 있습니다. Luxonis는 사명인 '손쉬운 로보틱스 비전'을 실현하기 위해 훌륭하고 합리적인 가격의 뎁스 지원 하드웨어를 제공하고 있을 뿐만 아니라 합성 데이터 세트 및 시뮬레이션을 포함하는 견고하고 원활한 ML 파이프라인을 제공하고 있습니다.

또 다른 중요한 과제는 모델의 해석 가능성과 데이터 세트 생성 과정에 윤리적인 측면과 개인정보 보호 및 편견의 관점을 고려해야 한다는 것입니다.

마지막으로 전 세계적인 칩 공급 문제로 인해 하드웨어를 공급하기가 어려워졌다는 점입니다.

Image showing Luxonis robotics products
Luxonis의 사명인 '손쉬운 로보틱스 비전'

데이터 중심 AI가 중요한 이유는 무엇인가요?

데이터 중심 AI는 작동 중인 모델의 성능이 낮을 때 유용합니다. 모델을 최적화하기 위해 많은 시간을 투자하지만 실제로 개선되는 부분은 거의 없는 경우가 많습니다. 하지만 데이터 중심 AI를 사용하면 데이터 세트 분석, 정리, 개선에 투자하게 됩니다.

일반적으로 모델의 성능이 낮을 때는 데이터 세트 자체에 문제가 있는 경우가 많습니다. 모델의 성능을 높일 수 있는 데이터가 충분하지 않기 때문입니다. 데이터가 충분하지 않은 이유로 다음 두 가지를 들 수 있습니다. 첫 번째는 현실에서 수집하기 어려운 방대한 양의 데이터가 모델에 필요한 경우이며, 두 번째는 현실에서는 발생하는 데 시간이 오래 걸리는 드문 사례에 대한 예시가 충분하지 않은 것일 수 있습니다.

두 가지 상황 모두 합성 데이터 세트를 사용하여 해결할 수 있습니다.

이 콘텐츠는 Targeting Cookies 카테고리를 수락해야만 동영상을 시청할 수 있도록 허용하는 타사 제공업체에서 호스팅합니다. 이러한 제공업체의 비디오를 보려면 쿠키 환경 설정에서 Targeting Cookies 카테고리를 수락하시기 바랍니다.

보잉 사의 프로젝트는 실제 데이터가 부족하고 데이터 수집에 비용이 많이 소요되어 모델의 성능이 낮았으나 합성 데이터로 데이터 부족 문제를 해결한 예입니다.

Unity의 컴퓨터 비전 툴 덕분에 사실적인 씬을 만들어서 머티리얼, 광원 조건, 오브젝트 배치 등의 요소를 무작위화하는 과정이 매우 쉬워졌습니다. 컴퓨터 비전 툴에는 2D 바운딩 박스, 3D 바운딩 박스, 의미론적/인스턴스 분할, 인체 관절 키포인트 등 흔히 사용되는 레이블이 포함되어 있습니다. 또한 커스텀 랜더마이저(custom randomizer)와 레이블러(labeler), 주석으로 쉽게 확장할 수 있습니다.

Image depicting 2D bounding boxes generated using Unity’s computer vision tools
Unity의 컴퓨터 비전 툴을 사용하여 생성한 2D 바운딩 박스
Image depicting 3D bounding boxes generated using Unity’s computer vision tools
Unity의 컴퓨터 비전 툴을 사용하여 생성한 3D 바운딩 박스

인간 중심 컴퓨터 비전이 필요한 이유는 무엇인가요?

최첨단 CV/AI를 사용하여 자동화하거나 개선하려는 대부분의 작업에는 명백한 안전 및 보안상의 이유로 사람을 감지해야 하는 작업이 포함됩니다. 자율 시스템이나 로봇이 작동할 때 사용자의 안전을 보장하는 것은 매우 중요하기 때문에 모델은 인간에 대한 데이터를 학습해야 합니다.

다시 말해서 사람의 자세나 외모와 같은 정보를 포함하여 전체 인구를 대표하는 수많은 양의 이미지를 캡처해야 합니다. 모델을 훈련하기 위해 실제 인간 데이터를 캡처하기 시작할 때부터 개인정보 보호, 윤리, 편견과 관련된 여러 우려 사항을 마주하게 됩니다.

다행히도 합성 데이터 세트를 사용하면 인간 3D 모델과 자세를 사용해 이러한 문제를 줄일 수 있습니다. 아주 좋은 예로 Unity 팀의 PeopleSansPeople 프로젝트가 있습니다.

Image showcasing the evolution of PeopleSansPeople human-centric 3D models

PeopleSansPeople은 3D 모델과 표준 애니메이션을 사용하여 인체의 자세를 무작위화하는 인간 중심 합성 데이터 세트 생성기입니다. 또한 Unity 프로젝트 템플릿을 사용하여 자체 3D 모델과 자세를 추가하여 인간 합성 데이터 세트를 생성할 수 있습니다.

Luxonis에서는 이 프로젝트를 기반으로 인간 합성 데이터 세트와 훈련 모델을 제작하고 있습니다. 보통 Unity 컴퓨터 비전 툴의 레이블러, 주석, 무작위화를 고도로 커스터마이즈하여 크고 복잡한 데이터 세트를 생성합니다. 이를 통해 Luxonis ML 팀은 실제 데이터 수집과 수동 주석 처리를 기다리지 않고도 고객과 더 빠르게 반복 작업을 진행할 수 있습니다.

컴퓨터 비전 도입을 촉진하는 기술 발전에는 어떤 것이 있나요?

트랜스포머 아키텍처가 도입된 이후 CV 작업을 더 쉽게 진행할 수 있습니다. DALL-E 2와 같은 생성 모델을 사용하여 합성 데이터 세트를 만들고 NeRF를 신경망 접근 방식으로 사용하여 이미 존재하는 오브젝트와 씬에 새로운 관점을 생성할 수 있습니다. 컴퓨터 비전 기술의 발전에 대한 대중의 관심도 높아지고 있습니다.

AI-created image using DALL-E 2 using text description as input
DALL-E 2에서 텍스트 설명을 입력으로 사용하여 AI가 생성한 이미지

뛰어난 주석 툴과 사전에 훈련되어 바로 사용할 수 있는 모델이 포함된 라이브러리를 사용할 수 있다는 점 역시 컴퓨터 비전 도입을 촉진하고 있습니다.

컴퓨터 비전 사용 증가에 기여하고 있는 한 가지 핵심 요소는 VPU(Vision Processing Units, 비전 처리 장치)의 빠른 발전입니다. 이를 통해 현재 사용자는 4TOPS 처리 능력(현 Intel Movidius Myriad X)으로 호스트 없이 기기에서 모델 추론을 수행할 수 있습니다. 차세대 VPU는 성능 면에서 비약적인 도약을 이루어 훨씬 더 복잡한 CV/AI를 엣지에 배포할 수 있을 것입니다.

놀라웠던 컴퓨터 비전 사용 사례가 있나요?

농업과 관련된 적용 사례는 언제나 놀랍습니다. 예를 들어 현재 드론을 사용하여 소를 추적하고 모니터링하는 CV/AI 애플리케이션이 있습니다.

Image of cow tracking work from team Roc4T during OpenCV Spatial AI Contest 2021
Roc4T 팀의 소 추적 작업(OpenCV Spatial AI Contest 2021)

의견을 공유해준 Gerard에게 감사의 인사를 전합니다. 다른 주제에 관한 Gerard의 의견이 궁금하시다면 LinkedInTwitter를 확인하세요. 또한 유니티가 Unity Computer Vision을 통해 컴퓨터 비전 모델 훈련을 개선하기 위한 합성 데이터를 생성하는 팀을 지원하는 방법을 자세히 알아보세요.

2022년 8월 24일 산업 분야 | 10 분 소요
관련 게시물