정제되지 않은 암 샘플에서 체세포 변이를 검출하는 MuTect

체세포 변이(point mutation)의 발견은 암 게놈을 확인하는 데 매우 중요하다. 체세포 변이는 암 유전자의 활동성을 결정하는데, 게놈 전체에서 낮은 빈도수(10Mb 당 0.1~100개)로 나타나고, 정상 세포의 오염, 즉 암 게놈의 copy number 변화와 특정 세포 유형에 국한된 경우 등의 이유로 DNA의 일부분에서만 발견될 가능성이 높다. 그러나 기존에 존재하는 분석 방법들은 종양 형질의 다양성이나 샘플 수집 단계에서의 오염 등의 이유 때문에, 대부분이 변이를 정확하게 발견해 내지 못한다.

MuTect 이점

MuTect는 베이지안 분류법(Bayesian classifier)을 기반으로 한 낮은 빈도의 체세포 변이를 발견하기에 유용한 방법인데, 적은 수의 supporting read를 사용하고, 특이성을 보존시키기 위한 필터들을 사용한다. MuTect는 다른 분석방법들과 비슷한 특이성을 유지하면서도, allelic fraction이 0.1이하인 변이에 대해 월등히 높은 민감도를 가지고 있기 때문에, 암 subclone과 암 진화를 분석하는데 특히 유용하다.

암의 subclonal event에 관한 최근 발표들은 한 환자에서 발현된 전의세포의 일부분에서만 발견되는 변이에 관한 분석, ultra-deep 시퀀싱을 이용한 subclonal 변이의 발견 등의 정형화 되지 않은 실험 방법으로 진행된 것들이 많았다. 그러나 Cancer Genome Atlas 나 International Cancer Genome consortium 같이 엑솜은 100~150배수, 게놈은 30~60배수로 진행되는 암 게놈 프로젝트를 진행 할 때는 높은 민감도와 특이성을 가진 분석방법이 절대적으로 필요하다. 체세포 변이를 발견할 분석방법의 민감도와 특이성은 종양의 염기서열 분석 배수, 환자특이적 정상 세포, 그리고 시퀀싱 오류도 등에 의해 변화되는데 MuTect의 6가지 필터조건은 이 같은 변수 들을 고려하여 변이 발견의 민감도와 특이성을 유지시킨다.

MuTect방법의 분석 순서

MuTect는 read 복제, 기본 품질 분석 그리고 부분적 realignment 등을 포함하는 표준 과정을 거친 이후의 종양 DNA와 정상세포 DNA를 입력한다. 분석은 locus 별로 4가지의 분석 과정을 거치게 되는데, 첫째, 낮은 품질의 시퀀스 데이터 삭제, 둘째, 베이지안 분류법을 이용한 종양 세포의 이형 검색, 셋째, false-positive 필터링, 마지막으로 발견된 이형의 확인 순으로 진행된다.

이형의 발견

종양 데이터의 이형은 각 위치당 두 개의 모델을 사용하여 분석되는데, 이형이 하나도 없다고 가정된 참조 모델과 특정 allele fraction(f)이 true variant allele(m)을 포함하고 있다고 가정된 변이모델이 사용된다. f값은 m에 해당하는 종양 샘플에 의해서 추산된다. f 모델링은, Heterozygous나 배수체로 가정되는 기존의 다른 방법들보다 MuTect의 민감성을 월등히 높여준다.

false-positive 필터링

잘못된 read 부착과 시퀀싱 오류 등의 이유로 생기는 추가적인 false-positive을 제거 하기 위해 MuTect는 6개의 필터를 사용한다. 정상 샘플을 대조군으로 이용하여, 생식세포 특이적 결과와 false-positive 결과를 필터링한다.

이 필터들의 조합은 3가지의 분석방법을 제공하는데, 필터를 전혀 거치지 않기 때문에 모든 이형들이 발견되는 STD(standard), 6개의 필터가 모두 사용된 HC(High-Confidence), 그리고 HC와 정상 샘플(PON; panel of normal sample)의 조합인 HC+PON이 그것이다.

이형의 분류

종양 샘플에서 발견된 이형들은 다음과 같은 방법으로 분류된다. 만약 이형이 정상샘플에서 발견이 되지 않았다면 체세포 변이(somatic), 정상샘플에서 발견되면 생식세포 변이(germ-line), 종양샘플에 나타나지만 데이터의 부족 등의 이유로 정상 샘플에서의 확인이 모호한 경우에는 이형 (variant)으로 분류된다. MuTect는 생식세포 변이를 분류하기 위해, 공개된 생식세포 변이 데이터베이스를 사용하는데, 만약 생식세포 변이의 분류 정도가 95%보다 낮은 경우에 한에서는 분류하기에 데이터가 부족하다고 판단한다.

다른 분석 방법들과의 비교

체세포 변이를 찾아내는데 통상적으로 사용되는 분석 도구로는 SomaticSniper, JointSNVMix, Sterlka 등이 있는데, MuTect와의 비교를 위해서 각각의 STD와 HC 방법이 사용되었다. 민감도 비교 분석에서는 가상 종양(virtual tumor)과 down-sampling으로부터의 allele fraction과 시퀀싱 배수에 따른 분석이 진행되었다.

시퀀싱(30X)과 allele fraction(0.4)의 STD 분석 방법에서는 모든 분석 도구들이 99.3%이상의 민감도를 나타냈다. 그러나 HC로 분석 방법을 바꾸었을 경우 MuTect는 98.8%, JointSNVMix는 96.6%, Sterlka는 98.5%로 민감성을 유지하였으나, SomaticSniper의 민감도는 91.5%로 떨어졌다. allele fraction(0.1)의 경우에는 MuTect의 HC가 과반수 이상(53.2%)의 변이를 찾아낸 것에 비해, Sterlka의 HC는 29.7%, JointSNVMix의 HC는 16.8%, SomaticSniper의 HC는 7.4%로 MuTect와 현저한 차이를 나타냈다.

일반적으로 민감성이 높아질수록 특이성(specificity)가 떨어지게 되는데,MuTect는 민감성 증가 대비 특이성 감소가 다른 분석 방법에 비해 월등히 우월한 것으로 나타났다.

맺음말

다양한 유형의 암에서 발견되는 체세포 변이를 분석하는 것은 암 게놈을 분류하고 나아가 암을 정복하는데 매우 중요한 일이다. 그러나 기존의 분석 방법들 만으로는 순도가 떨어지는 종양샘플이나 다양한 형질의 종양샘플에서 체세포 변이를 찾아 내기에 어려움이 많았다. 낮은 allelic-fraction에서의 민감도는 subclonal 변이을 분류하는데 중요하게 작용하는데, 위 결과에서 보여지듯이 MuTect를 효과적으로 이용하고 더 나아가 Indel 이나 rearrangement 변이에도 적용하여, 보다 확실하게 암 게놈을 분석하는 시대가 열리길 기대해본다.

참고문헌

Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples.

http://www.readcube.com/articles/10.1038/nbt.2514

Sequence analysis of mutations and translocations across breast cancer subtypes.

http://www.nature.com/nature/journal/v486/n7403/full/nature11154.html

Comprehensive molecular characterization of human colon and rectal cancer.

http://www.readcube.com/articles/10.1038/nature11252

역저자

글 : Son.BongJun

편집 : Park.HyeonJi, Kim.JongSoo

키워드 : MuTect, SomaticSniper, JointSNVMix, Sterlka, point mutation, Bayesian classifier, subclone, allele fraction, false-positive 등

From PGI

Contents

정제되지 않은 암 샘플에서 체세포 변이를 검출하는 MuTect

MuTect 이점

MuTect방법의 분석 순서

다른 분석 방법들과의 비교

맺음말

참고문헌

역저자