[논문 리뷰] DiffusionDPO : Diffusion Model Alignment Using Direct Preference Optimization

논문 리뷰

by jii 2025. 9. 28. 00:09

[2311.12908] Diffusion Model Alignment Using Direct Preference Optimization

Diffusion Model Alignment Using Direct Preference Optimization

Large language models (LLMs) are fine-tuned using human comparison data with Reinforcement Learning from Human Feedback (RLHF) methods to make them better aligned with users' preferences. In contrast to LLMs, human preference learning has not been widely e

arxiv.org

1. Intro

문제점

LLM : 2 stage trianing

Pretraining (large web scale data로)
Alignment (SFT + RLHF → pref 반영)

Text-to-Image Diffusion Models : Alignment 단계 없음

web scale text-img 쌍으로 1 stage training

제안 : Diffusion DPO

Diffusion 모델을 pref에 맞게 안정적으로 alignment 하는 방법 필요
human pref data로 implicit하게 reward 학습

2. Related Work

LLM에서의 정렬

RLHF

Reward Function 학습
- 모델이 특정 prompt에 대해 답변을 하면 사람이 그 중 더 좋은 것을 선택
- 이 comparison data로 reward model 학습
Policy model 정렬을 위해 RL 사용
- Reward Model이 준 점수를 최대화하는 방향으로 policy model(=생성 모델)을 RL

but

비용이 크고
hyperparam 조정 필요
reward hacking 문제

대안

Reward model based sampling + SFT
- Base model(정렬 전인 사전 학습된 모델)이 여러 답변 생성하면
- Reward model로 점수를 매기고
- 높은 점수 답변만 골라 STF
  - but 여전히 reward model 의존 (reward model 학습하고 그걸 기반으로 또 RL하는 것은 비효율적)
Direct Feedback based Fine-Tuning
- human pref data를 모델 학습에 직접 사용하자! (reward model 필요 없게)
  1. Ranking Loss
    - A 답변을 B 답변보다 선호했다면 모델이 A의 log-likelihood를 B보다 더 높게 하도록 학습
  2. DPO
    - Ranking Loss와 비슷, but 사전학습된 ref model 분포에서 너무 멀어지지 않도록 제약 추가
    - * Diffusion-DPO는 이 DPO를 diffusion에 일반화한 것!

Diffusion에서의 정렬 시도

Aesthetics based ft
- Aesthetics classifier가 보기 좋은 img로 평가한 것 선택해서 ft
- but text fidelity 같은 다른 기준은 반영 불가
고품질 데이터셋 기반
- pretrained model을 소규모 고품질 사진 + 수작업 캡션 data로 ft
- but dataset 제한적
Data recaptioning
- 웹에서 긁어온 기존 img data caption 정밀하게 다시 작성
- text fidelity 개선
- but pref 반영 불가
Human pref scoring
- human pref data로 학습한 preference scoring model 사용
- but 생성 공간 전체의 안정적 정렬은 불가능
Inference time alignment
- DOODL [51]
- 한 번 생성된 이미지를 inference 단계에서 iterative하게 개선
- but 추가 연산 → inference 시간 증가
Reward based training
- DRAFT [7], AlignProp [31]
- 학습 중 reward gradient 사용
- but 안정성 부족
RL based
- DPOK [6], DDPO [11]
- RL로 reward 최대화
- but open vocabulary 일때 성능 -

비교

2. additional inference time / 3. ref model에서 벗어나지 않게

3. Background

3.2. Direct Preference Optimization

Reward Modeling (reward model 학습!)

목표 :
comparison data 형태는:

BT model : human pref를 확률적으로 모델링
+의 reward가 -보다 높을수록 선호 확률 커짐

학습 목표는 :

RLHF

첫번째 항: reward model이 +로 평가한 sample 자주 만들도록
두 번째 항: ref 분포에서 벗어나지 않도록 KL penalty
β: 두 항의 균형을 조절하는 hyperparam

DPO Objective

reward model 학습 필요x, policy vs ref의 likelihood 비율만 필요

+의 상대적 확률이 -의 상대적 확률보다 크도록
단, ref 분포 대비 얼마나 개선되는지도 고려

정리

RLHF
1. Reward model 학습 (human pref data로)
2. RL(PPO)로 policy 최적화
DPO
- Reward model 학습 생략
- RL 단계 생략
- human pref data 직접 likelihood 학습

4. DPO for Diffusion Models

문제점

tractable
왜? : 모든 경로를 marginalize하는 것은 불가능
즉, 모든 가능한 노이즈 경로를 고려해야 하는데 계산 불가

해결 : ELBO

Latent variable x_1:T(noise step) 도입
보상 r(c,x0)를 경로 기반 기대값으로 정의:

KL 항도 직접 계산 어렵기 때문에, joint 분포 KL upper bound 사용:

결국, 경로 전체를 대상으로 DPO optimization eq를 다시 세움

최종:

'논문 리뷰' 카테고리의 다른 글

[논문 리뷰] ISPDiffuser : Learning RAW-to-sRGB Mappings with Texture-Aware DiffusionModels and Histogram-Guided Color Consistency (0)	2026.01.11
[논문 리뷰] PPD : Personalized Preference Fine-tuning of Diffusion Models (0)	2025.09.28
[논문 리뷰] PIEMSM : Personalized Image Enhancement Featuring Masked Style Modeling (0)	2025.09.26
[논문 리뷰] DiffRetouch: Using Diffusion to Retouch on the Shoulder of Experts (0)	2025.09.26
[논문 리뷰] HDR-Net : Deep Bilateral Learning for Real-Time Image Enhancement (0)	2025.09.21

spolov

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

1. Intro

2. Related Work

3. Background

4. DPO for Diffusion Models

'논문 리뷰' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바