티스토리 뷰

728x90

논문 링크: https://arxiv.org/abs/2303.16456

 

현재는 Abstract와 Figure 위주의 굵직한 내용만 살펴보았습니다.

 

Abstract

사전 훈련된 2D-to-3D human pose lifting model을 보이지 않는 타겟 데이터셋에 적용할 때 일반적으로 도메인 이동 문제로 인해 성능에 있어 큰 degradation이 발생한다.

그 원인으로 두 가지 원인이 있다면

  1. 카메라 파라미터와 세팅에 따른 소스 데이터셋과 타겟 데이터셋 사이 포즈에 대한 global position 사이의 분포 차이
  2. 학습 데이터의 포즈 로컬 구조에 대한 다양성이 부족한 점

때문이다. 따라서 PoseDA에서는 global adaptation과 local generalization을 결합하여, 3D 인간 포즈 추정을 위해 감독되지 않은 도메인 적응에 대한 프레임워크를 설계한다.

  • global adaptation은 제안된 전역 위치 정렬 모듈을 사용해 소스 도메인에서 대상 도메인으로 포즈의 전역 위치를 정렬하는 것이 목표
  • 로컬 일반화는 LPA(Local Pose Augmentation) 모듈로 2D-3D 포즈 매핑의 다양성을 향상 시키도록 설계되었음
  • → 매개변수를 추가로 도입하지 않아도 성능 향상을 가져옴

미리 정의된 포즈 변형의 매개변수를 생성 → Augmentation Generator

현실성을 보장하는 Anchor Discriminator로 구성된 Adversarial Traning 방식에 따라 3D 포즈의 다양성을 향상시키기 위한 LPA를 제안함

 

Figure 1

PoseDA는 3D 인간 포즈 도메인에 대한 적응 문제를 global adatation과 local generalization을 통해 해결한다. 타겟 데이터셋의 2D 포즈들은 소스 데이터셋의 3D 자세의 변형을 가하는데 사용된다. 그리고 더 나은 일반화 능력 달성을 위해 local-root 관련 포즈도 확대한다.

 

Figure 2

PoseDA는 글로벌 적응 및 로컬 일반화를 통해 3D 인간 포즈 도메인 적응 문제를 해결합니다. 대상 데이터 세트의 2D 포즈는 소스 데이터 세트의 3D 포즈 변환을 안내하는 데 사용됩니다. 그리고 더 나은 일반화 능력을 달성하기 위해 로컬 루트 관련 포즈도 확대됩니다.

augmentation bone angle (BA), bone length (BL), and rotation (R)(뼈 각도(BA), 뼈 길이(BL) 및 회전(R))은 증강 생성기 $g$와 앵커 판별자 $D_{3D}$로 구성된 적대적 증강 프레임워크를 통해 소스 3D 포즈에 적용됩니다.

한편, 타겟 데이터 세트에서 2D 포즈를 샘플링하고 타겟 2D box와 투영된 소스 2D box 사이의 2D 화면에서 스케일, x 좌표 및 y 좌표를 정렬합니다. 따라서 이러한 기하학적 제약 조건으로 전역 3D 위치를 해결합니다.

마지막으로 글로벌 3D 위치 및 로컬 3D 키포인트와 결합된 증강 포즈 쌍이 리프팅 네트워크를 훈련하는 데 사용됩니다.

 

 

Global Position Alignment(GPA)

PoseDA의 전역 위치 정렬 (GPA) 모듈은 소스 도메인의 자세 전역 위치를 대상 도메인에 맞게 정렬하기 위해 다음과 같은 방법을 사용합니다.

  1. 타겟 데이터셋에서 2D 자세를 샘플링하고, 소스 데이터셋에서 해당 2D 자세를 투영하여 소스 2D 박스와 대상 2D 박스 간의 크기, x 좌표 및 y 좌표를 조정합니다.
  2. 이러한 기하학적 제약 조건을 사용하여 전역 3D 위치를 해결합니다.

 

Local Pose Augmentation(LPA)

지역 포즈 증강 (LPA) 모듈의 목적은 3D 자세의 다양성을 향상시키기 위한 것입니다. 이를 위해 PoseDA는 LPA 모듈을 사용하여 2D-3D 자세 매핑의 다양성을 향상시킵니다. LPA 모듈은 PoseAug [15]에서 영감을 받아 사전 정의된 자세 변환 매개 변수를 생성하는 증강 생성기(G)와 증강 데이터의 실제성과 품질을 보장하는 앵커 판별기(D)로 구성된 적대적 훈련 방식을 사용합니다. 이러한 증강된 자세 쌍은 전역 3D 위치와 지역 3D 키포인트를 결합하여 lifting network P를 훈련하는 데 사용됩니다.

 

성능 평가 방법

PoseDA의 성능은 MPJPE (Mean Per Joint Position Error) 및 PA-MPJPE (Procrustes Aligned MPJPE)와 같은 3D 자세 추정에서 일반적으로 사용되는 지표를 사용하여 측정됩니다. 이러한 지표는 3D 자세 추정 결과와 실제 3D 자세 간의 거리를 측정합니다. PoseDA는 또한 다른 최신 방법과 비교하여 성능을 평가합니다.

 

*MPJPE는 관절 위치 간의 오차를 측정하는 지표

*PA-MPJPE는 관절 별로 오차를 측정하고, 이를 평균하여 최종 오차를 계산

→ Procrustes 분석을 사용하여 예측된 관절 위치와 실제 관절 위치를 정렬합니다. Procrustes 분석은 예측된 관절 위치와 실제 관절 위치 간의 회전 및 크기 차이를 최소화하기 위해 변환을 적용하는 기술입니다. 이렇게 정렬된 관절 위치를 기반으로 MPJPE를 계산하면 더 정확한 평가 결과를 얻을 수 있습니다.

 

 

728x90
댓글