상세 컨텐츠

본문 제목

[논문 리뷰] Neural Preset for Color Style Transfer

논문 리뷰

by jii 2025. 9. 20. 18:24

본문

[2303.13511] Neural Preset for Color Style Transfer

 

Neural Preset for Color Style Transfer

In this paper, we present a Neural Preset technique to address the limitations of existing color style transfer methods, including visual artifacts, vast memory requirement, and slow style switching speed. Our method is based on two core designs. First, we

arxiv.org

 

1. Intro

문제점

deep learning 기반 방법들의 문제점 1,2,3

  • photo editing 기존 방법
    • filter/LUT : 고정 파라미터 -
    • style transfer method : high level 정보 무시
    • deep learning 기반 
      1. artifact 문제: CNN patch 기반 처리라 동일 색 픽셀도 출력 동일 x
      2. 해상도 제한: 4K,8K 고해상도는 메모리 부족
      3. 비효율성: 새로운 스타일 적용 시 전체 모델 실행 필요

제안

  • Deterministic Neural Color Mapping (DNCM) : CNN 기반 대신 픽셀 단위 곱셈 연산으로 매핑 (같은 입력 →  같은 색)
    1. nDNCM (normalization DNCM): content만 남김
    2. sDNCM (stylization DNCM): style 적용 (여기서 뽑은 파라미터 재사용 가능)

 

2. Related works

Color Style Transfer

  • conventional : low level 통계 정보 일치 - 
  • CNN 기반
    • Yoo et al. [77]: Wavelet pooling/unpooling
    • An et al. [1]: Neural Architecture Search 
    • Chiu et al. [7]: coarse-to-fine block-wise training
  • 위의 문제점 3가지를 다음과 같이 해결
    1. Artifact-free: CNN 대신 DNCM → 픽셀 단위 행렬 곱 기반
    2. 메모리 효율: CNN feature map 계산이 아니라 O(N) 픽셀 곱셈이므로 8K까지 처리 가능
    3. Fast Style Switching: 두 단계 pipeline (nDNCM + sDNCM) → 정규화 1번만, style preset 재사용 가능

Deterministic Color Mapping with CNNs

  • filter&LUT : deterministic color mapping 수행 (avoid artifact +)
  • 최근 : filters/LUT와 image-adaptive parameters를 예측하는 CNN을 합치자
    • Filter-based methods
      • 미리 정의된 유한 개의 필터 집합 안에서 CNN이 선택하거나 가중치 예측
      • 기본적인 색 보정만 가능 - 
    • LUT-based methods
      • 3D LUT를 CNN이 예측하거나, 여러 LUT를 선형 결합
      • LUT가 학습해야 할 파라미터가 너무 많음
    • Affine Bilateral Grid
      • 파라미터 수는 적지만
      • deterministic하지 않아 같은 색이라도 다르게 mapping
  • 반면 DNCM은
    1. 픽셀 단위 mapping 수행
    2. deterministic
    3. CNN이 “필터/LUT 파라미터”가 아니라 DNCM의 변환 행렬 파라미터를 학습 +

 

3. Method

 

3.1. Deterministic Neural Color Mapping (DNCM)

 

 

  • CNN : patch 단위 처리 때문에 같은 색 픽셀이 상황에 따라 다르게 변환됨 → artifact 발생
  • LUT : deterministic하지만 파라미터가 많음

 

장점

  • Artifact-free
    • 같은 색 픽셀은 같게 mapping → 불일치 없음
  • Memory-efficient
    • 각 픽셀 독립적 변환, feature map 쌓을 필요 없으니 8K까지 처리 가능
  • Few Parameters
    • CNN이 회귀해야 할 건 오직 k×k 행렬 T
    • 보통 수백 개 파라미터가 필요한 LUT 대비 최적화 +

 

3.2. Two-Stage Color Style Transfer Pipeline

 

Fig 3

 

  • 한번만 정규화 하고 재사용 가능
  • nDNCM과 sDNCM은 projection matrix P,Q가 각각 서로 다름

 

3.3. Self-Supervised Training Strategy

 

  • gt가 없으니 I에 perturbation(random filter, LUT 등)을 적용해서 I_i, I_j의 2가지 버전을 만들어서 학습 데이터로 사용

1. Normalization Consistency Loss

  • 두 img를 각각  nDNCM에 통과시켜서 normalized 결과 Zi,Zj를 얻음
  • 목표: content만 남았으니 Zi,Zj는 같아야 함
  • 즉, 정규화된 공간에서 content consistency를 강제하는 것

 

2. Stylization Reconstruction Loss

  • 두 img의 style param을 swap해서 적용
  • 는 원래의 Ii와 비슷하게
  • 즉, 스타일 복원(reconstruction) 성능 학습하도록

 

3. 최종 Loss

 

4. Experiments

Settings

    • Dataset
      • Training
        • MS COCO 
        • 5000개의 LUT 파일 + random image filter adjustment strategy → perturbation에 사용
      • Validation 
        • 다양한 색감을 가진 50개 이미지를 수집
        • 각 이미지 쌍을 조합해서 2500 validation samples 생성
    • Metrics
      • 기존
        • Style similarity: VGG feature 기반 Gram metric → VGG는 semantic feature 중심이라 색감 판단에 부적합 
        • Content similarity: HED 기반 SSIM → HED는 대략적인 edge만 추출 - 
      • 제안
        • Style similarity
          • 전문가가 라벨링한 700+ color style 카테고리 (각 카테고리당 6-10개) dataset 사용
          • 이 데이터로 discriminator를 학습시켜서 두 이미지가 같은 color style인지 [0,1] 점수로 평가하도록
        • Content similarity
          • 더 정확한 edge 추출 가능한 HDC로 SSIM 계산

4.1. Comparisons

 

  • vs deep learning based
    • PhotoWCT [50]
    • WCT2 [77]
    • PhotoNAS [1]
    • PhotoWCT2 [7]
    • Deep Preset [28]
  • vs conventional
    • CT [63] 

Qualitative Results

 

Fig 5

 

  • (a) natural stylized images (색감이 과도하지 않음)
  • (b) preserve fine textures
  • (c) maintaining inherent object colors
  • (d) consistent color properties with style images 

Quantitative Results

Fig 6

 

User study

 

  • 참가자: 58명
    • 검증 set에서 20개 img set 랜덤 선택
    • 각 set = input img + ref style img + 7개 방법의 변환 결과 
    • 참가자는 각 set에서 7개 결과를 순위 매김
    • 평가 기준: style/content similarity, photorealism, 색감의 시각적 만족도
  • 총 응답: 58 × 20 = 1160개 
  • 결과 : 2위는 WCT2였지만, FHD 해상도까지만 처리 가능 - 

 

 

 

Comparing Neural Preset with Filters and Luts

 

  • 사람이 Lightroom 같은 툴에서 수동으로 보정하고 그 결과 파라미터를 export해서 filter/LUT preset으로 저장

 

6. Conclusion

 

  • JPEG with high compression ratio
    • 입력이 고압축 JPEG일 경우, 원래 존재하던 JPEG artifact(블록 노이즈, 링잉 등)가 출력에서 더 심해질 수 있음
  • verydifferent inherent colors
    • input/style img의 inherent color가 크게 다르면 style transfer 실패 
  • cannot perform local-adaptive color mapping
    • 동일한 색을 영역별로 다르게 변환해야 하는 경우
    • ex. 같은 파란색 → 바다=남색, 하늘=청색

 

 

관련글 더보기

댓글 영역