멀티오믹스 해석 및 통합

Illumina Connected Multiomics는 5-base 메틸화 및 유전체 멀티오믹스 분석을 간소화할 수 있는 강력한 데이터 과학 플랫폼을 제공합니다. 이 플랫폼을 사용해 팀은 실시간으로 설계하고 실험하며 원활하게 협업하고 기존에 복잡한 워크플로우와 상호 작용할 수 있습니다. Connected Multiomics는 미가공 데이터를 실행 가능한 생물학적 인사이트로 탈바꿈시킵니다. 이는 DRAGEN 출력을 코호트 수준 분석을 용이하게 하는 통합된 다중 샘플 데이터 구조로 정리합니다. 이 아키텍처는 데이터 품질 필터링, 비지도 클러스터링 및 차등 메틸화 분석과 같은 일반적인 작업을 간소화합니다. 또한 이는 유익한 메틸화 기능과 유전체 변이의 멀티오믹 통합을 가능하게 합니다. 여기에서는 급성 골수성 백혈병(AML) 샘플 코호트를 사용하여 Connected Multiomics의 기능을 보여주는 대표적인 분석 워크플로우를 보여줍니다.

데이터 품질 관리 

플랫폼은 먼저 DRAGEN의 출력을 수집하고 다중 샘플 코호트 수준에서 데이터 세트를 요약합니다. 그림 1은 코호트 전반에 걸쳐 공통 전장 유전체 시퀀싱 품질 관리 메트릭스의 분포를 시각화하는 자동 생성 대시보드를 보여줍니다. 샘플당 메틸화 백분율은 샘플 유전체의 모든 CpG 위치에 걸친 평균 메틸화 수준으로 정의됩니다. 비메틸화 대조군 백분율과 메틸화 대조군 백분율은 스파이크인 대조군 유전체의 모든 CpG 위치에서 평균 메틸화를 나타내며 메틸화 전환 효율을 평가하는 데 사용됩니다. 메틸화 대조군의 메틸화 수준이 높고 비메틸화 대조군의 메틸화 수준이 낮을수록 전환 품질이 향상되었음을 나타냅니다.

그림 1: 관련 메틸화 변환 및 시퀀싱 품질 지표를 보여주는 품질 관리 대시보드

그림 2는 관심 대상 QC 지에 대한 히스토그램을 시각화하고 맞춤형 필터를 설정하는 방법을 보여줍니다. 이러한 필터는 샘플을 제외하여 다운스트림 데이터 분석 품질을 잠재적으로 개선할 수 있습니다. 

그림 2: 품질 관리 지표가 불량한 샘플을 제외하기 위한 코호트 필터링 인터페이스

지도 및 비지도 클러스터링 

샘플 코호트가 정의된 후 클러스터링과 같은 탐색적 분석을 수행하여 데이터 세트 내의 전반적 구조 및 이질성을 시각화할 수 있습니다. Connected Multiomics는 단일 CpG 해상도와 집계된 유전체 특징(예: 프로모터 영역) 모두에서 클러스터링을 지원하며, 여기에서 CpG 메틸화는 각 특성에 걸쳐 평균화됩니다. 또한, 연구 맥락에 맞게 맞춤화된 사용자 지정 기능 세트를 정의하여 클러스터링 성능을 더욱 향상시킬 수 있습니다.

그림 3은 일반 프로모터 영역 또는 AML 특이적 후성유전체 특성의 맞춤형 영역 세트를 사용하여 주성분 분석(PCA) 클러스터링 성능을 평가하는 방법을 보여줍니다. 특히, KMT2Ar 및 IDH 돌연변이 사례를 포함한 특정 AML 아형은 AML 특이적 기능을 사용하여 클러스터링을 수행할 때 분리가 개선됨을 보여줍니다. 클러스터링 성능을 더욱 향상시키기 위해 UMAP 및 t-SNE와 같은 비선형 차원 축소 방법도 지원됩니다. 그러나 이러한 방법은 종종 파라미터 최적화가 필요합니다.

그림 3: 서로 다른 유전체 특성에 기반한 두 가지 PCA 시각화

균일 매니폴드 근사 및 투영(UMAP)의 경우, 주성분 수 및 가장 가까운 이웃 수와 같은 파라미터를 주의 깊게 조정해야 합니다. 그림 4는 여러 UMAP 최적화를 설정하고 결과를 함께 시각화하는 방법을 보여줍니다. 이 UMAP 파라미터 화면에서 UMAP 파라미터 세트 3은 모든 AML 아형을 뚜렷하게 분리합니다. 

그림 4 UMAP 클러스터링에 대한 일반적인 파라미터 스크리닝

클러스터링 결과를 검증하기 위해, 그림 5는 다양한 클러스터 수 범위에서 k-평균 클러스터링을 적용한 결과를 보여주며, 이 데이터세트에 대한 최적의 수가 5임을 식별하였습니다. 클러스터 수 파라미터를 5로 설정한 k-평균 클러스터 라벨로 UMAP에 주석을 달 수 있습니다. 이 정량적 일치는 시각적으로 관찰된 클러스터의 생물학적 관련성을 확인시켜줍니다.

그림 5: UMAP 파라미터 세트 3의 K-평균 클러스터 파라미터 스크리닝 및 클러스터 확인

차등 메틸화 영역 호출 

Connected Multiomics는 시퀀싱 데이터에 분산 축소를 사용하는 널리 사용되는 DMR 콜러(DSS)를 대화식 환경에 직접 통합하여 차등 메틸화 영역(DMR)의 식별을 간소화합니다. 샘플 그룹화는 메타데이터 또는 PCA/UMAP 작업의 클러스터 라벨로부터 정의할 수 있습니다. DSS는 CpG 위치 메틸화를 베타 이항 분포로 모델링하고, 샘플군 간에 통계적으로 유의한 차등 메틸화 위치를 함께 스티칭하여 DMR을 생성합니다. 그림 6은 다운스트림 분석을 위해 DMR을 쉽게 시각화하고 필터링할 수 있는 방법을 보여줍니다. 문헌과 일치하게, IDH 돌연변이를 보유한 AML 환자들은 일반적으로 광범위하게 과메틸화된 표현형을 가지고 있으며, 이로 인해 저메틸화된 DMR에 비해 과메틸화된 DMR의 수가 더 많게 됩니다. diff.Methy 지표는 특정 유전체 영역에 대한 두 샘플 그룹 간의 평균 메틸화 차이를 나타내며, 길이는 DMR의 염기쌍 길이입니다. areaStat 지표는 DMR 내 모든 CpG 위치의 통계적 유의성과 통합되며, 이 DMR 길이와 가장 밀접한 상관관계가 있습니다. 메틸화 차이가 큰 DMR이 클수록 areaStat 절대값이 커집니다. 유의성 라벨은 DMR을 한눈에 해석하는 데 도움이 되는 가이드로 제공됩니다. 그러나, 생물학적 맥락과 연구별 사전 정보가 DMR 해석을 안내해야 합니다.

그림 6: 일반적으로 유용한 DMR 메트릭스를 기반으로 한 DSS DMR 콜 결과 화산 플롯

경로 분석

DMR 호출 후 Connected Multiomics는 DMR을 보다 기능적인 추론으로 해석하는 것을 용이하게 합니다. 그림 7은 관심 대상 DMR을 높은 메틸화 차이(예: 메틸화 차이 0.2 초과)로 필터링하고 전사 시작/종결 부위의 5 kb 이내에 있는 유전자 이름으로 주석을 다는 방법을 보여줍니다. 연구의 생물학적 맥락과 관련된 DMR-유전자 연관성의 해석을 조정하기 위해 최대 유전체 거리를 맞춤화할 수 있습니다.

DNA 메틸화는 일반적으로 프로모터에서 유전자 발현을 조절하므로 유전자와 관련된 대부분의 DMR은 전사 시작 부위(TSS) 영역에 국소화됩니다. 적용된 필터링 기준에 따라, 식별된 유전자는 IDH 돌연변이 환자군에 비해 저메틸화 또는 과메틸화를 나타낼 수 있습니다. 이러한 유전자 수준 결과는 Connected Multiomics 통합 유전자 세트 인리치먼트 분석을 사용하여 경로 수준에서 더 구체적으로 맥락화할 수 있습니다. 이 기능을 사용하면 기저 생물학적 과정에 대한 해석을 더 폭넓게 할 수 있습니다.

그림 7: 가장 가까운 유전자를 사용한 관심 대상 DMR 주석 작성 및 유전자 세트 인리치먼트를 통해 관심 대상 유전자 경로 식별

멀티오믹스 분석

변이 분석 모듈 

Connected Multiomics는 메틸화 및 유전체 변이 분석을 통합하기 위한 통합 환경을 제공하여 Illumina 5-base assay의 멀티오믹스 잠재력을 이끌어냅니다. 이 섹션에 설명된 대표적인 워크플로우는 단일 뉴클레오티드 다형성(SNP) 및 소규모 삽입/결실(indels)을 포함한 소규모 유전체 변이가 포함된 유전자와 DMR을 오버레이합니다. 그림 8은 깊이(DP)와 같은 표준 변이 검출 형식(VCF) 필드를 사용하여 변이를 필터링하는 방법을 보여줍니다. 또한 Connected Multiomics는 Illumina 전용 및 널리 사용되는 공개 데이터베이스를 사용하여 관심 대상 변이를 더욱 정교화합니다. 예를 들어, gnomAD, DRAGEN Haplotype Database 및 Primate AI를 사용하여 체세포 변이 검출 결과에서 생식세포 변이를 제거할 수 있습니다. Promoter AI는 유전자 활성을 예측하는 데 사용할 수 있습니다. 그림 9는 코호트 내에서 공유 변이를 관찰하기 위해 코호트 수준에서 변이도 볼 수 있는 방법을 보여줍니다.

메틸화 및 변이 통합 모듈 

Connected Multiomics는 유전자 수준에서 메틸화 및 변이 정보를 통합하며, 이에 따라 그림 7과 10에 각각 나와 있는 것처럼 DMR과 변이 모두에 먼저 유전자 주석을 달아야 합니다. 이 유전자 중심 통합은 기능적으로 관련된 유전체 영역을 우선순위로 두며, 향후 릴리스에서는 추가 조절 유전자좌로 확장할 계획입니다. 그림 11은 DMR과 변이가 교차된 후의 출력 표를 보여줍니다. 이 출력물은 맥락을 제공하기 위해 영역 메틸화 보기와 Connected Multiomics 외부에서 생성된 추가 그래픽으로 꾸며졌습니다. 이 예시 유전자좌에서는 HOXA9 유전자의 저메틸화와 상관관계가 있는 KMT2Ar 변이 환자의 HOXA9 유전자에 변이 클러스터가 있습니다. 이러한 상관관계는 유전자 발현과 관련된 저메틸화된 유전자로서 이러한 HOXA9 변이가 기능적 결과를 가질 수 있음을 의미할 수 있습니다. 따라서, DMR은 유의성이 알려지지 않은 변이를 해석하기 위한 기능적 추론을 제공할 수 있습니다.

그림 8: 유익한 유전체 변이를 강화하는 변이 필터링 기능
그림 9: 변이의 코호트 수준 요약
그림 10: 유전자와의 근접성에 따른 변이 주석.
그림 11: 추가 그래픽으로 꾸며진 DMR 및 변이 검출의 멀티오믹스 교차 출력

워크플로우 시각화

제시된 AML 사례 연구를 통해 그림 12의 데이터 품질 관리부터 시작하는 엔드투엔드 분석을 보여줍니다. Connected Multiomics는 Illumina 5-base 데이터 유형의 멀티오믹스 특성을 이용하기 위한 메틸화 및 변이 분석 도구를 제공합니다. 엄격한 클러스터링 검증, 메타데이터 및 클러스터 라벨을 기반으로 한 DMR 호출, 유전자 및 경로 정보를 이용한 DMR 맥락화를 수행할 수 있습니다. 동시에 유전체 변이에 주석을 달고 필터링하며 코호트 수준에서 변이를 시각화할 수 있습니다. 변이는 DMR로 추가 주석을 달아 질병 기저의 조절 및 유전적 동인에 대해 보다 완전한 해석을 제공할 수 있습니다. 그림 12는 또한 팀이 실시간으로 진행 상황을 추적하고 분석을 분기할 수 있기 때문에 협업 분석의 투명성을 강조합니다. 요약하면, 이러한 기능은 Connected Multiomics가 멀티오믹스 데이터, 분석 및 해석을 하나의 투명하고 협업적인 환경으로 통합하여 Illumina 5-base 데이터 세트로부터 생물학적 인사이트를 가속화하는 방법을 보여줍니다.

그림 12: 제시된 AML 코호트 분석을 위한 대표적인 워크플로우. 분홍색 직사각형은 이 블로그에 소개된 분석 모듈을 나타냅니다.