내가 진행하고 있는 연구의 주제는 다음과 같다.
본격적인 연구를 시작하기에 앞서 관련 논문을 리딩하고 데이터셋 조사를 먼저 진행했다.

지도교수님이 추천해주신 핵심 논문은 아래와 같이 총 세 가지이며, 이 논문들에서 사용된 기술들을 이번 연구의 주요 기술 요소로 삼았다. 그중에서도 scMODAL에 대해 먼저 정리하고자 한다.



바이오 관련 논문은 처음인데 방법론이나 구조가 깔끔해서 읽는데 큰 어려움은 없었지만 결과 부분은 해석하기 쉽지 않았다.

1. 논문의 간단한 IDEA 정리
-문제점 : single cell이 갖고 있는 서로 다른 modality (RNA, ATAC, Protein 등..) 데이터를 통합하기 어렵다.
-제안
1) 두 개의 modality 데이터셋 준비 (여기서 Linked features 도 추출해둠)
2) Encoder 통과 (비선형 신경망이므로 batch effect 같은 복잡한 변형도 처리 가능)
3) GAN을 통한 Distribution alignment → RNA embedding과 ATAC embedding이 같은 latent 분포로 정렬되게!
4) Prior anchors (MNN pairs) 적용 → Linked features 기반
5) Topology preservation
6) 최종적으로 aligned latent space Z 생성
-활용
1) Integration: RNA, ATAC, Protein 모두 같은 공간에서 비교 가능.
2) Cell type matching: 서로 다른 모달리티에서도 같은 세포 상태 매칭.
3) Feature imputation
RNA embedding → Protein decoder (G2) → 단백질 abundance 예측.
Protein embedding → RNA decoder (G1) → 유전자 발현 예측.
4) Relationship inference: cross-modality feature correlation 네트워크 추론 가능
2. 그렇다면 이 논문 IDEA와 우리 연구의 관련성은..
-범용성 강화 측면
1) scMODAL은 linked features가 적어도 robust하게 통합 가능하다는 장점이 있으니
2) 의료 현실에서는 모든 환자가 모든 modality 데이터를 다 갖고 있지 않음 (예: MRI만 있고 유전자 데이터 없음)
→ scMODAL식 접근은 결측 modality를 보완할 수 있어, 불완전한 데이터 환경에서도 작동하는 범용 의료 AI 개발에 적합하지 않을까 싶다.
-설명 가능성 측면
1) scMODAL은 linked features(RNA ↔ ATAC, RNA ↔ Protein 같은 생물학적 대응)를 anchor로 사용한다.
2) 의료 분야에서 이를 임상 지식 기반 link로 확장 가능하지 않을까 싶다.
3) 이 anchor 기반 정렬은 “왜 이 진단이 나왔는지”를 설명할 수 있는 근거가 된다.
4) 단순히 “AI가 암이라고 함”이 아니라 → 영상 병변 ↔ 분자 검사 ↔ 임상 feature가 어떻게 연결되는지 설명 가능하다.
다운로드는 아래 링크에서 가능하다.
Genomics Data Commons (GDC) → https://portal.gdc.cancer.gov/
https://portal.gdc.cancer.gov/
portal.gdc.cancer.gov

형식은 다음과 같다:
-‘TCGA-프로젝트명’ 형식
-ex. TCGA-LAML (급성 골수성 백혈병) → 200명의 백혈병 환자에 대해 multi-omics data 수집

데이터 다운로드 절차는 다음과 같다. 예를 들어 TCGA-BRCA를 다운 받기 위해서는
1. 왼쪽 filter에서 원하는 값을 선택한다.

예를 들어 H&E img는
-Cases 탭 -> Project -> Project ID -> TCGA-BRCA
-Files 탭 -> Data Category -> Biospecimen
-Files 탭 -> Data Type -> Slide Image
-Files 탭 -> Experimental Strategy -> Diagnostic Slide
-Files 탭 -> Data Format -> SVS
2. add to cart → manifest 파일을 다운로드한다.

3. 미리 설치한 gdc-client를 통해 터미널에 명령어를 입력한다.
gdc-client download -m <manifest 파일 경로> -d <저장할 디렉토리 경로>

4. 파일 저장 완료!
데이터 확인은 다음 절차를 따르면 된다.
(1,2는 모두 다운 받으면 용량 이슈 발생으로 일단 id 2개만 남기고 다운 받았다.)
1. 병리 이미지 (H&E Tissue Image)
-이미지 확인 → qupath 다운로드 - https://qupath.github.io/ (이 프로그램 다운이 안되어서 일단 보류)
-SVS 파일 저장됨 - 파일명 앞 부분이 환자 ID병리 이미지 (H&E Tissue Image)

2. 유전자 발현 데이터 (Gene Expression Matrix)
-TSV 파일 저장된다. 여기에는 환자 ID가 없으니

-메타 데이터를 따로 다운 받는다. (manifest 파일 말고 metadata 다운받으면 json 생성됨)
→ 즉, 'RNA-Seq 파일명'과 '환자 ID'를 연결해주는 파일이 되는 것이다.

3. 임상 정보 (Clinical Data)
-용량이 크지 않아서 모두 다운 받았다.
-nationwidechildrens.org_clinical_patient_brca.txt → 이 파일 찾기
→ bcr_patient_barcode 정보가 있을 것이다!

4. Master Table 만들기
-metadata file, nationwidechildrens.org_clinical_patient_brca.txt 같은 경로에 두고 test.py를 실행한다.
-결과는 다음과 같다.

⇒ “어떤 환자가 어떤 유전자 데이터를 가졌는지" 알려주는 환자-RNA-Seq mapping table 완성된 것이다.
-SVS 이미지까지 연결하려면 일단 svs_test 폴더에 svs 파일을 옮긴다
-즉, (환자 ID, RNA-Seq 파일명, SVS 파일 경로)가 모두 연결되어야 한다.

-그리고 test2.py를 실행한다.
-결과는 다음과 같다. (용량 이슈로 일단 1명만)

-"환자 TCGA-3C-AALI의"
-"병리 이미지는 svs_test\\TCGA-3C-AALI...svs 파일에 있고,"
-"유전자 발현 데이터는 1be6a56c...tsv 파일에 있다."
-참고로 tsv 파일 내용은 다음과 같다.

5. Label 추가
- add_label.py → .svs 경로에서 label (tumor/normal) 자동 생성
6. Openslide 설치
https://openslide.org/download/
Downloading OpenSlide
Downloading OpenSlide OpenSlide and its official language bindings are available under the terms of the GNU Lesser General Public License, version 2.1. Source OpenSlide (stable API) 4.0.0 2023-10-11 tar.xz 3.4.1 2015-04-20 tar.gz tar.xz 3.4.0 2014-01-25 ta
openslide.org
그러나 문제점은 ST 데이터가 없다. 대신, 병리 슬라이드 이미지 (WHSI) 데이터는 있다. → https://cancer.digitalslidearchive.org/#!/CDSA/acc/TCGA-PK-A5H9
Digital Slide Archive (DSA)
cancer.digitalslidearchive.org
각 암종 폴더 안에 환자별 H&E 병리 이미지가 있는 형태이다.

| [Multimodal Fusion 전략 비교 실험 — MOSAIC-ST에서 어떤 Fusion이 효과적인가] (0) | 2026.05.08 |
|---|---|
| 방향성 및 데이터셋 고민 (0) | 2025.09.27 |
댓글 영역