Create Opportunities

[논문 리뷰] One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer 본문

논문 리뷰

[논문 리뷰] One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer

kimjaeyoon 2023. 7. 15. 22:26

https://arxiv.org/abs/2303.16160

 

One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer

Whole-body mesh recovery aims to estimate the 3D human body, face, and hands parameters from a single image. It is challenging to perform this task with a single network due to resolution issues, i.e., the face and hands are usually located in extremely sm

arxiv.org

one-stage pipeline은 무엇이 다른가.

본 논문은 단일 이미지에서 3D 인간 몸체, 얼굴 및 손 파라미터를 추정하는 새로운 방법을 고민했다. 핵심이 되는 개념은 ‘단일 네트워크’를 사용하여 모든 부분의 mesh를 recovery했다는 것이다. 이를 위해 Component Aware Transformer를 도입하여 사용했다. 실험 결과는 훌륭하다고 말한다.

 

  • 기존 연구 : HeadNet, HandNet, BodyNet 따로따로 처리하여 Mesh 생성 → 자연스러운 Pipeline
  • One-Stage : 단일 Encoder-Decoder 구조 사용.

Introduction

최근 SMPL-X와 같은 Whole-body parametric models의 발전으로 Mesh Recovery는 더욱 주목받고 있다. 이러한 Task는 사람의 행동과 관련된 많은 것들을 모델 링하는 부분에 있어서 핵심적인 요소가 된다. 예를 들어, motion capture, HCI 등..

Whole-body mesh recovery는 3D로 사람의 포즈, 손동작, 얼굴 표정을 추정하는 것을 목표로 한다.

 

현재 존재하는 지도학습 기반의 Multi-stage pipelines를 사용하는 방법론으로는 해당 Task의 목표에 도달했다. 하지만, 얼굴과 손의 영역은 매우 작은 위치로 존재하기에 단일 네트워크를 사용하면 mesh recovery에 어려움이 따른다. 기존 연구는 손과 얼굴과 같은 작은 영역을 탐지 후 확대하여 특정 네트워크에서 Task를 수행하게 된다. 이는 각 개별적인 부분의 정확한 추정과 함께 자연스러운 연결성을 고려해야 하기 때문에 매우 어려운 Task이다.

 

본 논문에서는 별도의 네트워크 없이 One-stage pipeline을 제안하며, 구체적으로는 글로벌 바디 인코더와 지역적인 얼굴/손 디코더로 구성된 Component Aware Transformer(CAT)를 설계한다. 인코더는 body parameters를 예측하고, 고품질의 feature map을 디코더에 전달한다. 전체 파이프라인은 매우 간단하며 어떠한 전처리도 필요가 없다. 해당 방법론은 Vision Transformer에 영감을 받았다고 한다.

 

또한, 본 논문에서는 UBody 데이터셋 구축 과정에 대해서도 소개한다. (이 부분은 안봄.)

 

  1. body tokens를 인풋으로 받은 Encoder는 전체 상관관계 파악 / body parameters 예측 / 고품질의 featrure map을 Decoder에 전달한다.
  2. Decoder는 미분 가능한 upsample-crop scheme을 활용하여 부분별 고해상도 feature를 추출하고, 손과 얼굴의 파라미터를 정확하게 추정하기 위해 변형된 keypoint-guided attention을 채택한다.

 

제안된 파이프라인은 별도의 후처리가 필요 없어 매우 간단한데, 또 효과적이다. 이러한 방식은 처음으로 제안된 3D whole-body estimation을 위한 one-stage pipline이다.

 

제안 방법론을 입증하기 위해, 본 논문의 연구에서는 세 가지 데이터셋에 대한 비교 실험을 진행했다. OSX는 기존 SOTA 방법론보다 AGORA(7.8%), EHF(7.8%), 3DPW(body-only 13.4%) 향상을 보였다.

Related Work

1. Methods of Whole-body Mesh Recovery

이전 연구들은 앞서 말했다시피 개별적으로 손, 얼굴, 몸통 등의 부분을 복구하는 방식을 사용했다는 것을 강조하고 있다. 추가로, 최근에는 2D 이미지에서 3D 몸체 메시를 복구하는 방법이 제안되었는데, 이 방법은 이미지에서 검출된 2D 키포인트를 사용하여 3D 몸체 메시를 복구하는 방식이었다. 하지만, 이러한 방법은 속도가 느리고, 지역 최적해에 빠질 가능성이 있다고 한다. 이에 대한 대안으로 최근에는 단일 인코더-디코더를 사용하는 방법이 제안되었고, 이 역시 전체 몸체 메시를 복구하는 데에는 한계가 있습니다. 따라서 본 논문에서는 Component Aware Transformer를 사용하여 단일 인코더-디코더를 개선하고, 전체 몸체 메시를 더 자연스럽게 복구할 수 있는 방법을 제안한다. 이 방법은 기존의 방법보다 더 높은 정확도를 보이며, 다양한 응용 분야에서 유용하게 사용될 수 있다고 한다.

 

2. Benchmarks of Expressive Body

이전 연구에서 사용된 데이터셋들을 소개하고 있다. 관련 데이터셋들은 대부분 3D 몸체 모델을 사용하여 몸체의 형태와 움직임을 추정하는 데 사용되며, 다양한 크기와 다양한 씬에서 촬영된 데이터를 포함하고 있으다. 본 논문에서는 UBody라는 데이터셋도 함께 제안한다.

표현력 있는 상체 메시 복구를 위한 대규모 데이터셋으로, 다양한 응용 분야에서 유용하게 사용될 수 있다고 말하며, 이전 연구에서 사용된 데이터셋들과 비교해 보았을 때, 더 많고 다양한 상황에서 촬영된 데이터를 포함하고 있다고 한다.

Method (Component Aware Transformer)

1. Building Component Aware Transformer

CAT을 어떻게 구축할 수 있을까. 해당 방법은 단일 Encoder-Decoder 구조를 사용하여 전체 몸체 메시를 복구하는 방법을 개선하는 방법이라고 할 수 있다. 이는 Vision Transformer의 Encoder와 Decoder로 구성되어 있고, Global Body Encoder와 Local Face/Hand Decoder로 구성된다. Encoder는 몸체 매개 변수를 예측하고 디코더에게 고품질의 Feature Map을 제공합니다. Decoder는 Feature Leveld에서 업샘플링-크롭 방식을 통해 고해상도 부분별 특징을 추출하고, 키포인트 기반의 변형 가능한 Attention 매커니즘으로 손과 얼굴을 보다 정확하게 추정할 수 있다.

Encoder-Decoder의 훈련 목표는 복원된 매개 변수 ˆP와 실제 매개 변수 P 사이의 거리를 최소화하는 것이다. Encoder 부분에서는 전역 상관관계를 포착하고, 고품질의 muti-scale feature를 추출하며, Decoder 부분에서는 상위 해상도 Feature map을 얻기 위한 업샘플링 전략을 통해 손과 얼굴을 보다 세밀하게 예측하고자 한다.

 

2. Body Regression via Global Encoder

CAT의 구성 요소 중 하나인 Encoder가 어떻게 작동하는지에 대해 설명하고 있다.

- 우선적으로 인간 이미지(I ∈ RH×W ×3)에 대해 몸체, 손, 얼굴 매개 변수를 추정한다. 매개 변수는 Body Params, Shape, Cam으로 구성된다.

- 이들은 SMPL-X 레이어에 입력되어 최종 3D 전신 인간 Mesh를 얻을 수 있도록 한다.

 

3. High-Resolution Decoder for Hand and Face

손과 얼굴에 대한 고해상도를 위한 Decoder의 기능에 대해 설명한다. 인간 이미지의 손과 얼굴이 해당되는 부분은 작기 때문에, 이를 업샘플링해서 손과 얼굴을 자르고 고해상도로 변환하여 이미지를 얻는 방식으로 접근했다고 한다. 업샘플링&크롭 방식은 손과 얼굴 특징을 따로 추출하기 위한 추가적인 backbone이 필요하고, ViTDet에서 차별화된 Feature level의 업샘플링&크롭 방법을 가져와 사용했다고 한다. 이에 대한 설명도 해주고 있으나, 쉽지가 않다.. 전체적인 과정에 대한 수학적 설명과 표기가 나에게는 매우 난해하다.

Loss Function과 학습 방법에 대해서도 구체적으로 소개하고 있다.

 

해당 자세 추정 모델은 현재 SOTA임. 이러한 Task로부터 수행할 수 있는 downstream task로는 아래와 같은 것들이 있음.

gesture recognition, sign language recognition, person clustering, emotion analysis, speaker verification, micro-gesture understanding, audio-visual generation and separation, human action recognition and localization, human video segmentation

 

일단 Vision Transformer 부터 알아야 할 것 같다.