유전체 데이터 압축

무손실 유전체 데이터 압축

Enancio의 기술로 유전체 데이터 스토리지 및 전송 비용 절감 

DNA 나선

유전체 데이터 압축의 이점

Illumina는 혁신적인 시퀀싱 기술을 제공하고, 고객이 증가하는 차세대 시퀀싱(NGS) 데이터 출력을 관리할 수 있도록 지원하기 위해 최선을 다하고 있습니다. 이전에 Lena로 알려졌고 현재는 원본 리드 아카이브(ORA) 압축으로 알려져 있는 Enancio의 무손실 유전체 데이터 압축 기술은 최적의 속도와 효율성을 제공합니다.

유전체 데이터 압축은 다음을 가능하게 합니다.

  • 데이터 스토리지 비용 절감
  • 고속 데이터 파일 전송
  • 내부 네트워크 트래픽 감소

유전체 데이터 무손실 압축 기술

무손실 유전체 데이터 압축 기술은 Illumina 시퀀싱 시스템의 출력을 압축하여 데이터 스토리지 공간을 최대 5배까지 줄입니다. ORA 압축 기술은 참조 기반 압축 방법을 사용합니다. 아이디어는 초고속 매핑 기법을 사용하여 리드를 참조 유전체(reference genome)에 매핑한 다음, 해당 리드를 재생성하는 데 필요한 데이터(위치 및 차이점 목록)만 저장하는 것입니다.

다른 데이터 압축 기술은 일반적으로 속도가 느린 문제가 있습니다. ORA 압축 기술은 높은 압축 비율에 최적화되어 있으며, 신속한 압축 및 압축 해제와 동시에 데이터 무결성을 보존합니다. 품질 점수는 다양한 유형의 품질 체계에 맞게 조정된 범위 인코더 및 컨텍스트 모델을 사용하여 무손실 방식으로 인코딩됩니다.

DRAGEN ORA 압축 해제 소프트웨어 액세스

ORA 압축 기술로 압축된 모든 파일은 압축 해제 소프트웨어를 사용하여 쉽게 압축을 해제할 수 있습니다. 압축 해제 소프트웨어는 무료로 다운로드하여 사용할 수 있습니다.

압축 해제 소프트웨어 다운로드

압축 해제 소프트웨어를 설치하면, 간단한 명령을 사용하여 즉시 압축 해제 출력을 BWA, STAR 및 Bowtie와 같이 널리 사용되는 광범위한 매핑 도구로 직접 보낼 수 있습니다. 압축 및 압축 해제 기술은 시퀀싱 데이터에 대한 정확하고 매우 빠른 분석을 제공하는 DRAGEN 2차 분석 소프트웨어에도 통합되어 있습니다.

DRAGEN secondary analysis 보기

DRAGEN ORA 및 NextSeq 1000-2000
기기 내 무손실 유전체 압축 가능

DRAGEN ORA 무손실 유전체 데이터 압축은 이제 NextSeq 1000 및 NextSeq 2000 시스템 및 NovaSeq X 시리즈를 사용하는 기기와 v3.8부터 시작하는 DRAGEN 2차 분석 서버에서 사용할 수 있습니다. 다음 사항에 대해 더 알아보세요.

NextSeq 1000/2000 System
NovaSeq X 시리즈
DRAGEN secondary analysis

Enancio는 유전체학 데이터를 위해 특별히 설계된 독점 무손실 데이터 압축 기술로 Illumina가 최근에 인수한 회사입니다. 프랑스 Cesson-Sévigné에 본사를 둔 이 소프트웨어 회사는 유전체학 데이터 처리, 저장 및 전송을 보다 효율적이고 사용자 친화적으로 만들기 위한 목적으로 탁월한 바이오인포매틱스 제품군에 합류합니다.

기사 읽기: Enancio가 Illumina 제품군 합류
DRAGEN ORA의 작동 방식

DRAGEN ORA 무손실 압축은 유전체학 데이터를 위해 특별히 설계되었습니다. DNA 시퀀스는 참조 기반 방법을 통해 압축되며, 압축을 위해 고안된 초고속 매핑 체계를 사용하여 참조 유전체에 리드가 매핑됩니다. 콤팩트한 이진 형식은 리드를 위치 및 차이점 목록으로 인코딩하고, 그 다음에 엔트로피 코더로 인코딩하는 데 사용됩니다. 품질 점수는 다양한 유형의 품질 체계에 맞게 조정된 범위 인코더 및 컨텍스트 모델을 사용하여 무손실 방식으로 인코딩됩니다.

압축 기술의 이점 알아보기

DRAGEN ORA compression 기술은 FASTQ 파일의 데이터 공간을 gzip에 비해 51배까지 줄입니다. 이는 직접적인 스토리지 비용 절감과 보다 빠른 파일 전송 속도로 이어집니다.

ORA 압축 기술은 Illumina 포트폴리오 전반에 걸쳐 단계적으로 통합되고 있으며 사용자에게 fastq.gz1보다 최대 5배 작은 압축 FASTQ 파일을 생성할 수 있는 옵션을 제공할 것입니다. 압축은 NextSeq 1000 및 NextSeq 2000 시스템 및 NovaSeq X 시리즈에서 이미 사용할 수 있습니다. v3.8 릴리스부터 압축된 FASTQ 파일을 DRAGEN 매퍼에 직접 불러오는 방식으로 DRAGEN 서버에서도 압축 기능이 지원됩니다.

NGS 워크플로우 중에 압축을 활성화하여 압축된 fastq.ora 파일을 생성할 수 있습니다. DRAGEN v3.8 릴리스를 사용하면 DRAGEN 매퍼에서 fastq.ora 파일을 직접 불러와서 원활한 통합을 구현할 수 있습니다. 또한 fastq.ora 파일은 다른 매핑 및 다운스트림 분석을 위해 즉시 압축을 풀 수 있습니다. DRAGEN BCL 변환 내에서 압축을 통합하면 아래 그림과 같이 워크플로우가 간소화됩니다.

DRAGEN의 ORA 압축 기술
DRAGEN 2차 분석에서 사용되는 ORA 압축 기술
기존 프로세스에서는 압축이 별도의 단계였습니다
Enancio 인수 전: 독립 실행형 소프트웨어로 압축. 압축은 추가 단계입니다.

ORA 압축 기술의 출력은 압축된 FASTQ 바이너리 파일 형식인 fastq.ora입니다. 이 파일 형식은 저장 및 공유가 가능하여 스토리지 비용을 크게 절감하고 파일 전송 시간을 단축할 수 있습니다. 모든 압축 파일은 자유롭게 사용 가능한 압축 해제 소프트웨어로 압축을 해제할 수 있습니다.

Fastq.ora 파일은 매핑 및 다운스트림 분석을 위해 즉시 압축을 풀거나 DRAGEN에서 직접 불러올 수 있습니다.

235GB 원시 FASTQ 파일은 gzip을 통해 55GB로 압축할 수 있습니다. DRAGEN ORA compression 기술을 통해 데이터 공간을 11GB로 더욱 줄일 수 있습니다2.

FASTQ 파일과 BAM 또는 CRAM 파일은 일반적으로 다른 목적으로 저장됩니다. 그러나 fastq.ora 파일을 사용하면 해당 CRAM 파일보다 보존된 MD5 합계와 더 작은 설치 공간으로 raw data의 압축 사본을 저장할 수 있습니다.

DRAGEN은 이제 FASTQ 및 BAM을 각각 fastq.ora 및 CRAM으로 압축할 수 있습니다.

압축 기능을 활용하는 것은 전적으로 선택 사항입니다. DRAGEN 사용자는 원하는 스토리지 전략을 자유롭게 채택할 수 있습니다. 즉, Illumina FASTQ 압축 파일 형식으로의 변환을 활성화하고 이러한 파일을 저장하고 DRAGEN ORA 압축 파일 형식 fastq.ora로의 변환을 비활성화하고 fastq.gz를 저장하거나 BAM 또는 CRAM 파일을 저장할 수 있습니다.

DRAGEN 3.8 릴리스에서는 데이터 압축이 원활하고 압축된 fastq.ora 파일이 DRAGEN 매퍼에 직접 입력됩니다.

또한 무료 압축 해제 소프트웨어를 설치하면, 간단한 명령을 사용하여 즉시 압축 해제 출력을 BWA3, STAR4 및 Bowtie5와 같이 널리 사용되는 광범위한 매핑 도구로 직접 보낼 수 있습니다.

DRAGEN ORA FASTQ 압축 파일을 공유할 수 있습니다. 압축 해제 소프트웨어는 자유롭게 사용할 수 있습니다. 무료 압축 해제 소프트웨어를 설치하면, 간단한 명령을 사용하여 즉시 압축 해제 출력을 BWA3, STAR4 및 Bowtie5와 같이 널리 사용되는 광범위한 매핑 도구로 직접 보낼 수 있습니다.

관련 솔루션

유전체 데이터 보관 및 보안

빠른 속도로 작동하도록 설계되었으며 규모에 따라 유연하게 조정이 가능한 클라우드로 대규모 유전체 및 NGS 데이터 세트를 안전하게 보관, 처리 및 공유하세요.

시퀀싱 데이터 분석

Illumina 시퀀싱 데이터 분석 소프트웨어는 귀하가 연구에 더 많은 시간을 사용하고, 분석 워크플로우를 구성하고 실행하는 시간을 줄이는 데 도움을 줍니다.

Illumina 인포매틱스 제품 포트폴리오

유전체 데이터 분석 및 관리를 간소화할 수 있는 광범위한 인포매틱스 제품을 살펴보세요.

압축 기술에 대한 질문이 있으십니까?

자세한 내용은 당사에 문의하십시오.

참고 문헌(References)
  1. NextSeq 1000 및 NextSeq 2000 시스템과 NovaSeq 6000 시스템에서 생성된 파일입니다.
  2. 이 결과는 NovaSeq 6000 시스템에서 30x 커버리지로 시퀀싱된 DNA 샘플 NA12878에서 얻은 것입니다. 데이터는 이 BaseSpace 프로젝트에서 접근할 수 있습니다: basespace.illumina.com/s/3ExEZMlH8Lkq.
  3. Li H. and Durbin R. Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics. 2009 Jul 15; 25(14): 1754–1760.
  4. Dobin A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013 Jan; 29(1): 15–21.
  5. Langmead B. et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology 2009 10:R25