상세 컨텐츠

본문 제목

[논문 리뷰] Unpaired-HDR : Unpaired Learning for High Dynamic Range Image Tone Mapping

논문 리뷰

by jii 2025. 9. 20. 00:32

본문

[2111.00219] Unpaired Learning for High Dynamic Range Image Tone Mapping

 

Unpaired Learning for High Dynamic Range Image Tone Mapping

High dynamic range (HDR) photography is becoming increasingly popular and available by DSLR and mobile-phone cameras. While deep neural networks (DNN) have greatly impacted other domains of image manipulation, their use for HDR tone-mapping is limited due

arxiv.org

 

1. Intro

배경

  • HDR img는 DR이 넓음
  • DR : 한 장면에서 가장 어두운 부분(그림자)부터 가장 밝은 부분(햇빛, 조명 반사)까지 표현할 수 있는 밝기의 범위
  • 대부분의 모니터/스마트폰 디스플레이는 HDR을 직접 표시할 수 없어서 tone mapping 필요 (TMO)

출처 ㅣ HDR(high dynamic range) 이미지와 톤매핑(tone-mapping) by bskyvision.com

  • 여기서 노출이 다른 6개의 img는 각각 밝거나 어두운 한쪽 영역만 제대로 담고 다른 쪽은 손실
  • 이걸 합쳐서 HDR img를 만들면
  • 밝은 부분 + 어두운 부분 모두 디테일 보존 가능 (32bit)
  • 그리고 tone mapping을 거쳐 HDR의 넓은 밝기 범위를 LDR 범위 안에 압축해서 표시

문제점

  • HDR을 tone mapping한 결과에 대한 유일한 gt가 없음
  • 초창기에는 TRC 사용 
    • 픽셀 전체를 동일한 함수(curve)로 압축해서 표현 범위를 줄이는 방식
    • 그러나 디테일 측면에서 -
  • DNN에서는
    • 기존 TMO 여러 개 적용해서 후보 LDR 이미지 집합 만들고
    • Image Quality Index를 사용해서 가장 좋다고 평가된 결과를 gt로 간주
      • 그러나 이 평가 지표는 특정 규칙에 의존 : overfitting

제안

  • DNN-based TMO
  • 사람이 실제로 찍은 LDR img를 닮도록
  • Adversarial Training (GAN) : HDR-LDR pair 필요없음
    • generator는 LDR로 변환
    • discriminator는 generator 결과와 진짜 LDR 사진을 비교해서 판별
    • 결과적으로, 일반적인 LDR 사진 분포를 닮게 학습 가능

 

2. Related Work

 

Tone-Mapping Algorithms

 

1. Global Operators

  • 픽셀의 값(밝기)에만 의존해서 이미지 전체에 동일한 곡선 적용
  • ex.
    • Linear scaling 
    • Non-linear tone curve 
    • Logarithmic curve
    • S-shaped curves (인간 시각 시스템 HVS 반응 기반)
  • + : 계산 효율적이고, 과노출/저노출 픽셀을 줄일 수 있음
  • - : 이미지 전체를 동일하게 처리해서 local contrast 손실 발생하거나 디테일 손실

2. Local Operators

  • 픽셀 주변(local content)을 고려해서 밝기 조정
  • HVS의 local adaptation mechanism 모방하는 접근 다수
  • + : 디테일 보존
  • - : halo effect (경계 주변 빛 번짐) 발생 가능 → edge-aware filters 같은 해결책 등장했으나 

→ 여전히 high compression 상황에서는 -

 

DNN-based Tone-Mapping

 

기존 DNN 기반 tone mapping 방법

  • Hou et al.
    • HDR → 로그 변환한 luminance map을 입력으로 해서 원래 HDR 이미지를 복원하도록 학습 (tm은 LDR img가 output 아닌가..?)
    • 네트워크가 한 장의 HDR 이미지마다 따로 학습되어야 한다는 -
  • Gharbi et al.
    • Bilateral grid 기반 아키텍처
    • 실시간으로 img enhancement 빠르게 수행
    • HDR-LDR pair 필요 -
  • Conditional GAN
    • 강제로 paired data 생성 (LDR gt가 없으니)
      • Patel et al. / Rana et al. / Cao et al.: HDR 이미지에 여러 TMO를 적용 → 그중 TMQI 점수가 가장 높은 결과를 pseudo GT로
      • Panetta et al.: low-light images dataset으로 supervised 학습
      • Zhang et al.: 3명에게 tm tool을 주고, 그들이 만든 결과 중 TMQI 최고 점수를 pseudo gt로
      • Rico et al.: MIT-Adobe 5K dataset중 한 명의 결과만 gt로 사용

차별점 : paired data 필요 없고, 대신 native LDR 이미지 분포를 학습 목표로 설정

 

3. Method

 

Adaptive Curve-Based Compression

 

Eq 1

 

  • 각 HDR img의 밝기 범위가 달라서 
  • Y를 [0,1]로 압축하는 Curve-Based Compression 필요
  • λ 값이 작을수록 → 선형 변환에 가깝고 (압축 약함)
  • λ 값이 클수록 → 로그 변환에 가까움 (압축 강함)
  • 기존 TRC 기반 방법들(고정된 곡선)과 다르게 adaptive하게 img마다 λ값을 다르게 적용

 

Natural Appearance

 

  • 문제점 : 위의 TRC가 이미지 전체에 동일한 곡선을 적용해서 local contrast 살리지 못함
  • native LDR과 비슷해보이게 학습시키자! : adversarial training (GAN) 사용
    • Generator (N): TRC로 압축된 Y_c를 tm → N(Y_c)
    • Discriminator (D): 진짜 LDR img Y_L / 생성된 N(Y_c) 판별
    • N은 D를 속이려 하고, D는 진짜/가짜를 구분하기 때문에 결국 가 진짜 LDR처럼 보이게 됨
  • DCGAN처럼 깊은 구조 불필요 (bias 제거가 목적이므로)
  • 제안: shallow+ multi scale discriminator ensemble
    • 얕은 구조(2개의 conv layer만 있는 D)를 여러 해상도에서 병렬로 사용 : low-level에 집중 
    • 즉, D_k (k=0,1,2) 각각이 다른 스케일(원본, 1/2, 1/4 downsampling)에 대해 판별
    • 이걸 ensemble로 묶어서 학습

1. Discriminator Loss

2. Generator Loss

 

비교

Fig 3

  1. : HDR의 Y ch을 TRC로 압축한 결과 → local contrast 부족
  2. Deep DCGAN-style discriminator
    • 깊은 구조를 쓰면 high-level semantic까지 고려할 수 있지만 필요 이상으로 복잡해져서 학습이 불안정
    • 결과: 일부 영역이 비정상적으로 밝아지거나 어두워지는 artifact 발생
  3. Shallow Discriminator Ensemble
    • 얕은 conv 레이어로 구성된 판별기를 여러 해상도에서 앙상블
    • 결과: 안정적이고 일관된 tone-mapping

 

Structure Preservation

 

  • 문제점 : Eq3에서 단순히 출력이 LDR처럼 보이게 학습시키므로 입출력 사이 구조적 대응이 불필요해서
  • mode collapse(출력 다양성이 사라지고 평균적 패턴만 생성) 가능성 -
  • 제안 : 입력 Y_c와 출력 N(Y_c)의 밝기-정규화된 변화량이 비슷하도록
  • *SSIM도 patch 기반 유사도를 측정하지만, 밝기와 대비 변화에 민감해서 - 

 

원본, 1/2, 1/4 해상도에서 입출력 패치 간 Pearson correlation 계산

 

Color Reproduction

 

 

tm된 밝기 N(Y_c)로 RGB 다시 계산

 

3.1. Compression Level Estimation

 

Eq1에서 압축 정도 λ 를 결정하는 방법?

Eq 6, H는 hist

  • CE 최소화 → H(Y_c)와 H(LDR)의 분포가 가장 가까워지는 λ를 찾음
    • : DIV2K 데이터셋(고품질 900장)의 평균hist 미리 계산
    • H(Y_c): 입력 HDR을 λ에 따라 TRC로 압축했을 때의 hist
    • λ 값을 바꿔가면서 CE 계산 → 최소가 되는 λ 선택
    • 최적화 방법: Stochastic search 

3.2. Implementation Details

 

Tone-mapping Network Architecture

 

N의 내부 구조 : U-Net (4-level)

Fig 4

 

Skip connection 

  • 단순히 decoder로 연결하는게 아니라 해당 feature + feature의 제곱근을 concat
  • activation 공간이 확장되어 더 부드러운 luminance 매핑 가능
  • dim은 2배 늘어나지만, 이후 conv로 줄임
  • photo-realism 개선에 +

Dataset

  • HDR (Generator training input): HDR+ dataset [15]
    • 실내외 다양한 조명 조건 포함
    • 1000/1000
    • 각 img crop + resize해서 256*256 patch 2개씩 생성
  • LDR (Discriminator training): DIV2K dataset [1]
    • 고품질 LDR img 1000장
    • 500/500
    • 마찬가지로 crop+resize 해서 2개씩 생성

 

4. Results

  • 비교 : conventional TMO vs DNN tm vs 논문 방법 

4.1.  Quantitative Evaluation

  • metric : TMQI, BTMQI, FID, pixFID

Tone-Mapped Image Quality Indices

 

  자연스러운 LDR처럼 보이면서 구조를 잘 보존했는가?

 

Table 1

  • TMQI (Tone-Mapped Image Quality Index)
    • HDR 원본과 톤매핑 결과(LDR)를 비교해서 품질을 평가
    • 점수 범위: 0 ~ 1
    • 높을수록 +
  • BTMQI (Blind TMQI)
    • HDR 원본 없이 톤매핑 결과만으로 평가
    • 낮을수록 +

 

Fréchet Inception Distance

 

  tm 결과가 진짜 LDR img 분포와 얼마나 비슷한가?

 

Table 2

 

4.2.Visual Evaluation

 

Fig 5

 

5. Conclusion

  • Range-normalizing Pre-process (Adaptive TRC)
    • HDR마다 다른 dynamic range를 곡선 기반 압축으로 정규화
    • λ를 자동으로 추정하여 안정적 학습
  • Structure-preserving Loss
    • 밝기와 대비(local) 만 조정하도록
    • 구조는 유지 → mode collapse 방지
  • Concise Multi-scale Discriminator Ensemble
    • 깊은 DCGAN 대신 얕은 conv discriminator 여러 개
    • LDR의 low level 속성(local contrast, edge 품질)에 집중

 

관련글 더보기

댓글 영역