Enancio 및 Illumina의 무손실 | 유전체 데이터 압축 기술

유전체 데이터 압축의 이점

Illumina는 혁신적인 시퀀싱 기술을 제공하고, 고객이 증가하는 차세대 시퀀싱(NGS) 데이터 출력을 관리할 수 있도록 지원하기 위해 최선을 다하고 있습니다. 이전에 Lena로 알려졌고 현재는 원본 리드 아카이브(ORA) 압축으로 알려져 있는 Enancio의 무손실 유전체 데이터 압축 기술은 최적의 속도와 효율성을 제공합니다.

유전체 데이터 압축은 다음을 가능하게 합니다.

데이터 스토리지 비용 절감
고속 데이터 파일 전송
내부 네트워크 트래픽 감소

유전체 데이터 무손실 압축 기술

무손실 유전체 데이터 압축 기술은 Illumina 시퀀싱 시스템의 출력을 압축하여 데이터 스토리지 공간을 최대 5배까지 줄입니다. ORA 압축 기술은 참조 기반 압축 방법을 사용합니다. 아이디어는 초고속 매핑 기법을 사용하여 리드를 참조 유전체(reference genome)에 매핑한 다음, 해당 리드를 재생성하는 데 필요한 데이터(위치 및 차이점 목록)만 저장하는 것입니다.

다른 데이터 압축 기술은 일반적으로 속도가 느린 문제가 있습니다. ORA 압축 기술은 높은 압축 비율에 최적화되어 있으며, 신속한 압축 및 압축 해제와 동시에 데이터 무결성을 보존합니다. 품질 점수는 다양한 유형의 품질 체계에 맞게 조정된 범위 인코더 및 컨텍스트 모델을 사용하여 무손실 방식으로 인코딩됩니다.

DRAGEN ORA 압축 해제 소프트웨어 액세스

ORA 압축 기술로 압축된 모든 파일은 압축 해제 소프트웨어를 사용하여 쉽게 압축을 해제할 수 있습니다. 압축 해제 소프트웨어는 무료로 다운로드하여 사용할 수 있습니다.

압축 해제 소프트웨어 다운로드

압축 해제 소프트웨어를 설치하면, 간단한 명령을 사용하여 즉시 압축 해제 출력을 BWA, STAR 및 Bowtie와 같이 널리 사용되는 광범위한 매핑 도구로 직접 보낼 수 있습니다. 압축 및 압축 해제 기술은 시퀀싱 데이터에 대한 정확하고 매우 빠른 분석을 제공하는 DRAGEN 2차 분석 소프트웨어에도 통합되어 있습니다.

DRAGEN secondary analysis 보기

Enancio란?

Enancio는 유전체학 데이터를 위해 특별히 설계된 독점 무손실 데이터 압축 기술로 Illumina가 최근에 인수한 회사입니다. 프랑스 Cesson-Sévigné에 본사를 둔 이 소프트웨어 회사는 유전체학 데이터 처리, 저장 및 전송을 보다 효율적이고 사용자 친화적으로 만들기 위한 목적으로 탁월한 바이오인포매틱스 제품군에 합류합니다.

기사 읽기: Enancio가 Illumina 제품군 합류

DRAGEN ORA 압축 기술은 어떻게 작동합니까?

DRAGEN ORA 무손실 압축은 유전체학 데이터를 위해 특별히 설계되었습니다. DNA 시퀀스는 참조 기반 방법을 통해 압축되며, 압축을 위해 고안된 초고속 매핑 체계를 사용하여 참조 유전체에 리드가 매핑됩니다. 콤팩트한 이진 형식은 리드를 위치 및 차이점 목록으로 인코딩하고, 그 다음에 엔트로피 코더로 인코딩하는 데 사용됩니다. 품질 점수는 다양한 유형의 품질 체계에 맞게 조정된 범위 인코더 및 컨텍스트 모델을 사용하여 무손실 방식으로 인코딩됩니다.

ORA 압축 기술을 사용하면 어떤 이점이 있습니까?

DRAGEN ORA compression 기술은 FASTQ 파일의 데이터 공간을 gzip에 비해 5¹배까지 줄입니다. 이는 직접적인 스토리지 비용 절감과 보다 빠른 파일 전송 속도로 이어집니다.

ORA 압축 기술에 액세스하려면 어떻게 해야 합니까?

ORA 압축 기술은 Illumina 포트폴리오 전반에 걸쳐 단계적으로 통합되고 있으며 사용자에게 fastq.gz¹보다 최대 5배 작은 압축 FASTQ 파일을 생성할 수 있는 옵션을 제공할 것입니다. 압축은 NextSeq 1000 및 NextSeq 2000 시스템 및 NovaSeq X 시리즈에서 이미 사용할 수 있습니다. v3.8 릴리스부터 압축된 FASTQ 파일을 DRAGEN 매퍼에 직접 불러오는 방식으로 DRAGEN 서버에서도 압축 기능이 지원됩니다.

DRAGEN ORA 압축은 NGS 워크플로우의 어느 지점에서 발생합니까?

NGS 워크플로우 중에 압축을 활성화하여 압축된 fastq.ora 파일을 생성할 수 있습니다. DRAGEN v3.8 릴리스를 사용하면 DRAGEN 매퍼에서 fastq.ora 파일을 직접 불러와서 원활한 통합을 구현할 수 있습니다. 또한 fastq.ora 파일은 다른 매핑 및 다운스트림 분석을 위해 즉시 압축을 풀 수 있습니다. DRAGEN BCL 변환 내에서 압축을 통합하면 아래 그림과 같이 워크플로우가 간소화됩니다.

DRAGEN의 ORA 압축 기술 — DRAGEN 2차 분석에서 사용되는 ORA 압축 기술

기존 프로세스에서는 압축이 별도의 단계였습니다 — Enancio 인수 전: 독립 실행형 소프트웨어로 압축. 압축은 추가 단계입니다.

DRAGEN ORA 유전체 압축 기술의 출력은 무엇입니까?

ORA 압축 기술의 출력은 압축된 FASTQ 바이너리 파일 형식인 fastq.ora입니다. 이 파일 형식은 저장 및 공유가 가능하여 스토리지 비용을 크게 절감하고 파일 전송 시간을 단축할 수 있습니다. 모든 압축 파일은 자유롭게 사용 가능한 압축 해제 소프트웨어로 압축을 해제할 수 있습니다.

Fastq.ora 파일은 매핑 및 다운스트림 분석을 위해 즉시 압축을 풀거나 DRAGEN에서 직접 불러올 수 있습니다.

30X 전장 인간 유전체의 압축 파일 크기는 얼마입니까?

235GB 원시 FASTQ 파일은 gzip을 통해 55GB로 압축할 수 있습니다. DRAGEN ORA compression 기술을 통해 데이터 공간을 11GB로 더욱 줄일 수 있습니다².

일반적으로 BAM 또는 CRAM 파일을 저장합니다. DRAGEN ORA compression FASTQ 파일을 이러한 파일 형식에 저장하면 이점이 있습니까?

FASTQ 파일과 BAM 또는 CRAM 파일은 일반적으로 다른 목적으로 저장됩니다. 그러나 fastq.ora 파일을 사용하면 해당 CRAM 파일보다 보존된 MD5 합계와 더 작은 설치 공간으로 raw data의 압축 사본을 저장할 수 있습니다.

DRAGEN은 이제 FASTQ 및 BAM을 각각 fastq.ora 및 CRAM으로 압축할 수 있습니다.

DRAGEN 2차 분석을 사용하는 경우 BCL을 압축된 FASTQ 파일 형식으로 변환해야 합니까?

압축 기능을 활용하는 것은 전적으로 선택 사항입니다. DRAGEN 사용자는 원하는 스토리지 전략을 자유롭게 채택할 수 있습니다. 즉, Illumina FASTQ 압축 파일 형식으로의 변환을 활성화하고 이러한 파일을 저장하고 DRAGEN ORA 압축 파일 형식 fastq.ora로의 변환을 비활성화하고 fastq.gz를 저장하거나 BAM 또는 CRAM 파일을 저장할 수 있습니다.

ORA 압축 기술은 현재 NGS 워크플로우에 어떤 영향을 미치나요?

DRAGEN 3.8 릴리스에서는 데이터 압축이 원활하고 압축된 fastq.ora 파일이 DRAGEN 매퍼에 직접 입력됩니다.

또한 무료 압축 해제 소프트웨어를 설치하면, 간단한 명령을 사용하여 즉시 압축 해제 출력을 BWA³, STAR⁴ 및 Bowtie⁵와 같이 널리 사용되는 광범위한 매핑 도구로 직접 보낼 수 있습니다.

DRAGEN ORA FASTQ 압축 파일을 공유할 수 있으며, 압축 해제 소프트웨어에 대한 비용이 청구됩니까?

DRAGEN ORA FASTQ 압축 파일을 공유할 수 있습니다. 압축 해제 소프트웨어는 자유롭게 사용할 수 있습니다. 무료 압축 해제 소프트웨어를 설치하면, 간단한 명령을 사용하여 즉시 압축 해제 출력을 BWA³, STAR⁴ 및 Bowtie⁵와 같이 널리 사용되는 광범위한 매핑 도구로 직접 보낼 수 있습니다.

압축 기술에 대한 질문이 있으십니까?

자세한 내용은 당사에 문의하십시오.

참고 문헌(References)

NextSeq 1000 및 NextSeq 2000 시스템과 NovaSeq 6000 시스템에서 생성된 파일입니다.
이 결과는 NovaSeq 6000 시스템에서 30x 커버리지로 시퀀싱된 DNA 샘플 NA12878에서 얻은 것입니다. 데이터는 이 BaseSpace 프로젝트에서 접근할 수 있습니다: basespace.illumina.com/s/3ExEZMlH8Lkq.
Li H. and Durbin R. Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics. 2009 Jul 15; 25(14): 1754–1760.
Dobin A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013 Jan; 29(1): 15–21.
Langmead B. et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology 2009 10:R25

유전체 데이터 압축

무손실 유전체 데이터 압축

Enancio의 기술로 유전체 데이터 스토리지 및 전송 비용 절감

유전체 데이터 압축의 이점

유전체 데이터 무손실 압축 기술

DRAGEN ORA 압축 해제 소프트웨어 액세스

압축 기술 FAQ

Enancio란?

DRAGEN ORA 압축 기술은 어떻게 작동합니까?

ORA 압축 기술을 사용하면 어떤 이점이 있습니까?

ORA 압축 기술에 액세스하려면 어떻게 해야 합니까?

DRAGEN ORA 압축은 NGS 워크플로우의 어느 지점에서 발생합니까?

DRAGEN ORA 유전체 압축 기술의 출력은 무엇입니까?

30X 전장 인간 유전체의 압축 파일 크기는 얼마입니까?

일반적으로 BAM 또는 CRAM 파일을 저장합니다. DRAGEN ORA compression FASTQ 파일을 이러한 파일 형식에 저장하면 이점이 있습니까?

DRAGEN 2차 분석을 사용하는 경우 BCL을 압축된 FASTQ 파일 형식으로 변환해야 합니까?

ORA 압축 기술은 현재 NGS 워크플로우에 어떤 영향을 미치나요?

DRAGEN ORA FASTQ 압축 파일을 공유할 수 있으며, 압축 해제 소프트웨어에 대한 비용이 청구됩니까?

관련 솔루션

유전체 데이터 보관 및 보안

시퀀싱 데이터 분석

Illumina 인포매틱스 제품 포트폴리오

압축 기술에 대한 질문이 있으십니까?

참고 문헌(References)

NovaSeq X 혁신 로드맵

Illumina Single Cell 3' RNA Prep

NGS Workflow Finder

DRAGEN 2차 분석 v4.4 현재 이용 가능

시퀀싱 서비스

Do more, faster than ever

Next-generation sequencing for beginners

Next-generation sequencing for beginners

Next-generation sequencing for beginners

Next-generation sequencing for beginners

Next-generation sequencing for beginners

Next-generation sequencing for beginners

Next-generation sequencing for beginners

Illumina and SomaLogic unite

Illumina and SomaLogic unite

Illumina and SomaLogic unite

Illumina and SomaLogic unite

Illumina and SomaLogic unite

Illumina and SomaLogic unite

Illumina and SomaLogic unite

For every lab, everywhere

For every lab, everywhere

For every lab, everywhere

For every lab, everywhere

For every lab, everywhere

For every lab, everywhere

TruSight Oncology 500 HRD

TruSight Oncology 500 HRD

TruSight Oncology 500 HRD

TruSight Oncology 500 HRD

TruSight Oncology 500 HRD

Analysis of microbiomes of an Amazonian community

Analysis of microbiomes of an Amazonian community

Analysis of microbiomes of an Amazonian community

Analysis of microbiomes of an Amazonian community

Analysis of microbiomes of an Amazonian community

Solutions for applied animal and plant genomics

Solutions for applied animal and plant genomics

Solutions for applied animal and plant genomics

Solutions for applied animal and plant genomics

Solutions for applied animal and plant genomics

Analysis of microbiomes of an Amazonian community

Analysis of microbiomes of an Amazonian community

Analysis of microbiomes of an Amazonian community

Analysis of microbiomes of an Amazonian community

Analysis of microbiomes of an Amazonian community

The future of clinical genomics is here

The future of clinical genomics is here

The future of clinical genomics is here

The future of clinical genomics is here

The future of clinical genomics is here

The future of clinical genomics is here

The future of clinical genomics is here

The future of clinical genomics is here

Greenwood Genetic Center: Answering the unanswered

Greenwood Genetic Center: Answering the unanswered

Greenwood Genetic Center: Answering the unanswered

Greenwood Genetic Center: Answering the unanswered

Greenwood Genetic Center: Answering the unanswered

The future of clinical genomics is here

The future of clinical genomics is here

The future of clinical genomics is here

The future of clinical genomics is here

모든 검사실, 모든 곳에서

유전체 데이터 압축

무손실 유전체 데이터 압축

Enancio의 기술로 유전체 데이터 스토리지 및 전송 비용 절감

유전체 데이터 압축의 이점

유전체 데이터 무손실 압축 기술

DRAGEN ORA 압축 해제 소프트웨어 액세스

기기 내 무손실 유전체 압축 가능

압축 기술 FAQ

Enancio란?

DRAGEN ORA 압축 기술은 어떻게 작동합니까?

ORA 압축 기술을 사용하면 어떤 이점이 있습니까?

ORA 압축 기술에 액세스하려면 어떻게 해야 합니까?

DRAGEN ORA 압축은 NGS 워크플로우의 어느 지점에서 발생합니까?

DRAGEN ORA 유전체 압축 기술의 출력은 무엇입니까?

30X 전장 인간 유전체의 압축 파일 크기는 얼마입니까?

일반적으로 BAM 또는 CRAM 파일을 저장합니다. DRAGEN ORA compression FASTQ 파일을 이러한 파일 형식에 저장하면 이점이 있습니까?