ENCODE 프로젝트; 유전자 암호화 영역에서 조절 네트워크를 발견하다!

ENCODE 프로젝트의 결과 논문들이 연일 화제가 되고 있다. 인간 유전체의 모든 기능을 가진 요소들을 동정하는 것을 목표로 한 이번 프로젝트는 국립 인간 게놈 연구소에서 단백질과 RNA 수준의 모든 요소들을 포함하여 인간 게놈의 종합적인 백과사전을 만들었다.

총 24편의 논문들 중 이번 리뷰에서는 전사인자의 조절로 서로 다른 세포에서 유전자 발현 패턴의 다양성을 구성하는 것에 관한 논문이다. 지난 10년간 전사 인자 결합 패턴의 분석은 대장균과 효모와 같은 단세포 생물 모델에서 수행되었으나, 이번 연구에서는 인간의 다형성 데이터와 여러 포유류 유전체 서열의 네트워크를 레퍼런스로 제공되어 메타 네트워크 분석을 실시하여 다음과 같은 결론을 얻었다. 서로 다른 목적을 가진 전사 요소들의 결합은 다른 형태로 이루어지며, 전사 인자의 계층 네트워크는 서로 다른 속성을 나타낸다. 단백질-단백질 상호작용과 miRNA 조절 연관성은 전사 인자 네트워크에 풍부하며 대립 유전자는 특정 활동에 연관되어 있다.

전사 인자는 유전자의 온오프(On-Off) 형태를 지정하는 결합 방식으로 조절된다. 이에 관해 450가지 실험에서 119개의 전사 관련 요인의 유전자 결합 정보를 확인하여, 전사 인자의 결합 조합이 유전자의 위치에 따라 특정 부위가 지정된다는 사실을 발견하였다. 또한 네트워크로 많이 연결되는 전사 요소들은 대립 유전자에 강한 연관성을 가졌고, 조절 네트워크 정보들은 개인 유전체 서열을 해석하여 인간 생물학 및 질병의 기본 원칙을 이해하는 데에 다양하게 이용될 것이다.

데이터 공동 조절 전사인자

5가지 세포(GM12878, K562, K562b, H1-hESC, HeLa-S3)를 염색질 면역침강법¹⁾과 ChIP-Seq을 하여 서로 다른 전사 인자 119개를 발견하였다. ENCODE 프로젝트의 파이프라인에 맞춰 데이터를 분석한 결과, RNA-Seq을 수행하고, siRNA의 74~84%는 DNA에 관련된 서열이고, 13~16%는 POL2 단백질 및 일반적인 전사체에 관련된 서열이며, 13~15%는 염색질 수정 리모델링에 관련된 서열로 밝혀졌다.

또한, 특정 전사 인자에 의해 조절되는 특정 게놈 영역에 초점을 맞춘 구조를 개발하는 공동 조절 부위를 연구하였다. 모든 전사 인자의 중복 조절 신호를 추출하여 350bp의 공동 조절 지도를 생성하였다. [Figure 2]은 전사 인자의 공동 연관성을 측정한 결과이다. [Figure 2의 a]는 562 세포에서 GATA1 에 대한 2,785개 공동 연관성의 결합 유전자 지도로 8가지 주요 클러스터의 결합을 보여준다. [Figure 2의 d]에서는 K562 세포의 모든 전사 인자들과 관련된 요소들의 연관성을 측정한 결과로, 9가지 기능이 다른 클러스터들이 유전자에서 발견되어 그룹화 시켜놓은 것이다.

연구 결과, GATA1과 관련된 TAL1, GATA2, POL2, MAX 유전자는 공동 조절에 연관성이 있다. 다음의 유전자들은 NRSF, HDAC2 단백질들의 저해 및 활성화에 연관되어 있어 중요하다. 예를 들어, GATA1 유전자가 넉다운²⁾(siRNA서열이 특정 유전자에 대한 신호를 차단하여 유전자가 단백질이나 또 다른 유전자 산물을 만드는 기능을 수행하는 것을 저해)하면 감소되는 반응의 유전자가 54개, 증가되는 반응의 유전자가 94개로 나타났다.

또한 특정 생물학적 기능이 풍부한 유전자의 특정 유형을 조절하는 전사인자의 조합을 확인하였다. “E2F6-SP1-SP2-FOS-IRF1” 조합의 경우는 DNA 손상에 관여하고, “E2F6-GATA1-GATA2-TAL1” 조합의 경우는 골수량에 관여한다.

각 전사 인자의 연관성에서 공동 조절 구조를 구축하기 위해 RIM과 PPM을 분석하였다. RIM은 중심 요소를 결합하는 것에 전체 유사성을 반영하는 것으로 전사 인자에 대한 중요한 연관성을 점수를 매겨 확인하는 분석 방법이다.PPM은 특정 요소를 서로 공동 결합하는 경향이 있어 다른 맥락에서 모든 초점의 공동 조절을 결합하는 네트워크를 분석하는 방법이다. 또한 유전자 근처에 결합되는 두 가지 다른 경향을 확인 할 수 있었다. 공동 전사 인자(CTCF-RAD21-SMC3) 뿐만 아니라 새로운 CHD2에서 ZBTB33, EGR1–ZBTB7A, CTCF-ZNF143-SIX5로 공동 연관성을 보였다. 연구 결과, 세포 유형은 GM12878과 K562는 전사 인자의 80% 이상이 차이가 없는 유사성을 보였으며, 유전자 거리로 결합 인자의 선택에 강력한 조절이 가능해 지면서 전사 인자의 변화된 결합 인자를 관찰하는 다양성 지도를 확인 할 수 있었다.

전사 인자의 상호작용

유전자 간 연관성의 공동 분석은 DNA 결합의 여러 관계를 조절하여 지정할 수 있다. 초기 네트워크는 4,809개의 전사 인자와 결합 요소 사이의 50만 가지 발현과의 상호 작용으로 구성하였고, siRNA 연구로 필터링을 거쳤다. 또한 비 암호화된 RNA(ncRNA)와 단백질 상호 작용의 계층은 필터링 된 전사 인자의 계층 구조로 강하게 발현하는 특징을 보였다. 19,258개 유전자의 가장자리 모델에서 전사인자와 ncRNA 사이의 상호작용 조절을 확인하였고, 네트워크에 추가하였다. 물리적 단백질-단백질 상호 작용뿐 아니라 인산화를 예측할 수 있었고, 생물학적 추가 분석에서 서로 다른 상호 작용에 대한 네트워크의 밀도를 높여주었다.

계층간 네트워크 협력

본 연구에서는 게놈 및 프로테옴³⁾의 속성을 각 전사 인자의 계층 위치와의 상관 관계로 확인하였다. 즉, 전사 인자 계층 구조에서 위쪽에 많이 나타나는 원위 유전자의 가장자리와의 상관관계의 경우 근위 유전자의 반대로 일부는 잘 알려진 상태 및 조직별 조절 연관성을 나타낸다(예; IRF4, GATA1). 단백질의 상호작용과 인산화 단백질의 경우는 다른 수준의 전사 인자가 촉매제에 의해 조절이 되는지 확인하여, 촉매에 따라 차이는 없었으나 인산화 단백질의 전사 인자 네트워크 구성에서는 조절되는 결과가 나타났다. ncRNA의 경우는 높거나 중간 수준의 전사 단백질의 암호화 결과와 일치하는 ncRNA를 발견하였고, 전사 인자의 조절 일부를 나타내는 BDP1, BRF2를 식별할 수 있었다.

또한 특정 전사 인자의 서열은 중간 층에 풍부하였고, 염색질에 관련된 서열은 상단에 풍부하게 나타났다. 이를 조절하면 더 정교하게 자신의 발현을 조절할 수 있으며, miRNA와 염색질을 조절하여 전사 할 수 있을 것이다. 전사 인자는 주로 K562와 GM12878 세포를 다른 세포의 결합 패턴으로 변경시키는 네트워크를 형성하였다. 유전자 발현은 영향력이 높을수록 상단에 위치하고, 반대로 결합력이 낮아 영향력이 낮으면 하단에 위치한다. 또한 발현 및 유전자 가장자리의 조절 지역에 결합하는 전사 인자 쌍을 확인하여 계층 구조에서 각각의 위치를 파악하고 비대칭을 발견했다.

대립 유전자의 선택성

네트워크를 형성하기 이전에, 기본적인 기능을 수행하는 작은 연관성의 패턴으로부터 인접한 네트워크에서 가능한 모든 전사 모티프로 시작하였다. 초기 형성 네트워크에서 FFL 단백질의 풍부한 모티프를 확인하고 상단에 조절을 포함하는 전사를 추가로 발견하였다. 공동 조절 전사 인자는 물리적으로 가장 자리를 조절하는 데 관련 있는 발현 조절과의 관계와 단백질-단백질 상호작용할 가능성이 있다. 발현이 증가하는 전사 인자는 DNA 반복으로 결합이 복잡하다. 그러나 miRNA는 오히려 하나의 구성 요소보다 전체의 기능을 종료하는 경향이 있다. 다중 다양성을 전사하는 네트워크 119가지 중 28개의 전사 인자를 확인하였고, 자동 조절에 대한 네트워크를 규명하였다.

특정 대립 유전자의 결합 및 발현을 조사하는 과정에서 어머니나 아버지의 대립유전자 4,798개의 전사 57%를 조절하는 부위를 찾아냈다. 전사 인자의 세 쌍둥이는 65%의 조합을 조절하여 발현과 대립유전자 사이의 강력한 연관성이 존재하였다. 모든 SNP의 전사되는 대립 유전자의 특정 결합이 이루어지지 않고 네트워크를 이용한 전사 결합에 많은 변이들이 발생하였다. 높은 대립 유전성의 전사 인자가 타겟 유전자를 더 많이 가짐으로써, 작은 indel이 있는 SNP보다 불균형인 대립유전자가 더 많이 발생하였다.

선택적 네트워크는 1000 Genomes 데이터에서 nonsynonymous SNP 밀도를 사용하여 분석하였으며, 기능 손실 돌연변이가 다른 유전자보다 감소 선택성이 낮았다. 대립유전자의 특정 결합을 추구하고 유전자의 결합된 전사 요소의 봉우리를 추출한 결과, 컨트롤에 비해 상대적으로 높은 SNP를 가졌으며 희귀한 SNP에 대한 DAF(derived allele frequency)⁴⁾ 스펙트럼을 왜곡하여 indel 및 구조 변형, 대립유전자의 선택 조절을 제한하였다.

맺음말

연관성과 조절 요인의 계층이 많은 게놈 속성에 반영된 전사 인자의 네트워크는 상단의 전사 인자가 영향력이 더 컸다. 중단 층은 병목 현상이 일어나 강력한 조절 회로를 통해 정보의 흐름에 영향을 미칠 가능성이 예측되었다. 이러한 조절 네트워크는 작은 모델들이 반복적으로 만들어진 것으로 유전자 내 거리에 따른 조절 차이는 인간의 조절 고유기능으로 인간에서 훨씬 큰 유전자 사이 공간을 반영하는 결과였다. 대립 유전자의 효과로 높은 연관성의 전사 인자는 대립 유전자의 특정 결합을 전사할 가능성이 높을 것이다.

염색질 면역침강법 : ChIP-Seq. chromatin(염색질 : DNA+ histone protein)을 물리적 힘으로 small fragment로 분리 특정 transcription factor를 인지하는 antibody를 이용하여 immunoprecipitation시킨다. 이후 DNA 조각을 분리한 다음 PCR로 증폭시킨 후 서열 분석. reference 서열과 비교함으로써 특정 transcription factor가 결합하는 gene region을 찾을 수 있다. 이러한 ChIP 방법을 이용하여 전체 유전자에서 특정 oncogenenic transcription factor를 통해 induction되거나 repression되는 gene을 확인할 수 있다.
유전자 넉다운 : 유전자 침묵. 유전자가 단백질이나 또 다른 유전자 산물을 만드는 기능을 수행하는 것을 저해한다. 우리 몸은 RNAi를 이용하여 적대적인 바이러스의 활동에 대해 방어하기도 한다.
프로테옴 : 특정한 세포에서 발현하고 있는 모든 단백질. 단백질과 유전체의 합성어로1992년에 호주 멕칼리 대학의 윌킨스가 주장하였다. 유전정보를 기초로 하여 단백질이 합성되지만 단백질의 기능은 유전자의 염기배열만으로는 추정하지 못하는 경우가 많다. 그 이유는 많은 단백질은 번역 후에 인산화나 당쇄의 부가 등, 여러 가지 수식을 받는다든가 분자 샤페론 단백질의 보조로 정확히 접어 쌓여져서야 비로소 기능을 갖기 때문이다. 포로테옴의 연구에서는 2차원 전기영동법으로세포의 전 단백질을 동시에 분리, 정제하고 질량분석계로 개개의 단백질을 동정하는 연구수단을 사용하고 있다. 프로테옴에 관여하는 학문분야를 프로테오믹스라고 한다.
DAF(derived allele frequency) : 대립유전자 빈도

참고자료

Architecture of the human regulatory network derived from ENCODE data

http://www.nature.com/nature/journal/v489/n7414/full/nature11245.html

Classification of human genomic regions based on experimentally determined binding sites of more than 100 transcription-related factors

http://genomebiology.com/2012/13/9/R48

Understanding transcriptional regulation by integrative analysis of transcription factor binding data.

http://www.ncbi.nlm.nih.gov/pubmed/22955978

저자

글 : hjpark

편집 : Thkim

키워드 : ENCODE project, DNase I, DHS, H3K4me3, chromatin, Southern hybridization, KARB 단백질,KAP1, SETDB1, ZNF274, GATA1, c-jun, NRF1, ChIP-seq, CpG methylation, Bisulfhite-Seq 등

From PGI

Contents