Share

유전정보, DNA를 이용한 개개인의 식별

　
우리의 조상은 누구인지, 당신은 어떤 사람인지 자신의 조상을 알고자 하는 것은 인간의 최대 관심사 중 하나이다. '나'란 존재가 어디에서부터, 어떻게 생겨났으며, 인류 진화 역사 속에 어디쯤 위치하고 있는지 등 자신의 뿌리에 대한 질문은 꼬리에 꼬리를 문다.

최근 생명과학의 발달로, 이런 질문에 대한 해결의 실마리를 찾을 수 있게 되었다. 차세대 서열 해독 기술과 염기서열을 분석하는 다양한 소프트웨어 기술의 발달로, 염기서열 데이터를 이용하여 인종과 민족 등의 정보뿐 아니라 개개인의 식별도 가능하게 된 것이다.

메사추세츠에 있는 Whitehead 연구소의 Yaniv Erlich는 연구 자원 참여자의 성별, 나이 등의 기본 정보만으로도 거대한 DNA 데이터베이스 내에서 참가자 개인을 식별할 수 있는 것을 알아냈으며, 그 결과를 Science에 발표하였다.

Yaniv Erlich는 1000 Genome Project에서 DNA 서열, 나이, 거주지역 등을 인터넷에서 수집하고, 익명의 미국인 백인 남성의 Y 염색체 DNA에서 유전적 짧은 반복 구간을 비교하였다. 또한 본 연구에는 2개의 공개된 유전적 가계도 데이터베이스 검색엔진인 Ysearch와 SMGF를 이용하여 익명화된 대상의 surname을 추론한다.

135,000개 기록들 중 39,000개의 독특한 surname을 가진 사람들의 유전적 가계도로, Y-STR(Y염색체의 short tandem repeat) 대립유전자와 유전적 유사 정도를 확인하였다. 데이터베이스의 기록들은 대상들의 거주지와 출생연도, 잠재적 변이 등의 주요 정보를 포함하고 있었으며, 이름 별 기록물의 수는 미국에 존재하는 이름의 빈도와 연관성이 있었다.

surname을 추론하기 위해, surname을 알고 있는 백인 911명의 Y 염색체 haplotype 34개 마커를 포함한 코하트 조사를 하였으며, 미국 도심인구에서 고립된 521명의 이름과 비교하였다. 최근 공개된 공통 조상의 정보와 비교하는 알고리즘을 개발하여, 이름 일치 정도를 신뢰점수로 계산하였다. 그러나 유전체 분석 서비스를 제공받은 사람이라면 이름이 검색되겠지만, 그 외에는 “unknown”으로 나타난다. 대부분 사회환경적으로 미국의 중상층과 상류층 백인들이 유전체 분석에 높은 참여를 하고 있어, 데이터베이스 기록에서부터 차이가 있다. 추가적인 다양한 계층과 인종들의 참여가 필요하다.

결과는 미국 인구 내에서 이름의 빈도를 반영한 층화 표본검출방법을 이용하여 정리되었고, 백인 남성의 이름을 전체의 12%정도 확인할 수 있었다. 5%정도의 사람이 잘못된 이름이 매칭된 것과 이름이 알려지지 않은 83%의 인구를 포함하는 결과인 것을 반영하면, 알고리즘의 정확도는 뛰어난 것이다.

Yaniv Erlich 연구팀에서 발견한 알고리즘(Y-STR haplotype 분석)

이번 연구에서 발견한 알고리즘은 미국인 남성 4만 명에서 4,000대 1의 빈도의 매우 희귀한 surname을 발견하는 분석 방법이다. United States Health Insurance Portability and Accountability Act (HIPAA)에 의해 보호되지 않은 2명의 이름을 알기 위해, 출생연도와 독립된 거주지를 포함한 다양한 유전 데이터를 이용하였다. 출생연도와 거주지는 PeopleFinders.com나 USApeople-search.com와 같은 공공 검색 엔진에서 수집할 수 있었다. 그러나 광범위한 인구조사를 기반으로 하면, 출생연도와 거주지 만으로는 확인하기 어렵기 때문에, 비교 인구를 확대하여 최소 미국인 남성 6만 명 이상의 데이터를 검색하면 일치하는 결과를 발견할 수 있을 것이라고 예측했다.

연구팀은 일루미나 시퀀싱을 통해 10배수의 정확한 Y 염색체 haplotype을 확인하여 surname을 추정할 수 있을 것이라는 가설을 세웠다. 10명의 남성 유전체에서 lobSTR를 이용한 STR 수집을 위한 알고리즘을 만들기 위해, 가계도에서 발견한 79개 마커 중 이용 가능한 53개 lobSTR에서 Y 염색체 haplotype을 조사했다.

익명의 미국인 남성의 surname을 추론하기 위해 13배수로 일루미나 시퀀싱을 하였고, 앞서 진행된 10명의 남성 유전체와 비교하여 Y 염색체 haplotype을 프로파일링하였다. Ysearch와 SMGF에 기록된 정보에서 적은 유전체서열로 추론된 이름 정보를 검색하였다. 23~28세대 전의 John West, Michael Snyder 조상 기록과의 낮은 매치율을 확인하였으나, Craig Venter에서 8세대 이하의 최근 공통조상과 33개 비교 마커들이 동일하였다. [그림 3]은 3명의 조상기록과 매치되는 상위 기록들을 표현한 것으로, 크레이그 벤터의 8세대 후손일 것으로 예측된다. 통계학적 프로파일링에서 surname을 추론하였더니, “surname : 벤터; 출생연도 : 1946; 거주지 : 캘리포니아”로 남성 2명의 기록이 검색되었다.

이로서 본 논문에서는 lobSTR과 Y-STR을 이용하여 개인 식별이 가능함을 밝혀냈다. 더불어 de-identified public 정보의 공개 위험 수위를 증명하려 인터넷 공개 정보를 이용하여 논문에 사용한 동일한 방법으로 식별 가능한 10개 sample로 식별작업을 했다. 결과 10명중 8명의 surname 찾기 DB와 맞춰보니 Mormon ancestry였다. 같은 surname을 갖은 5명의 경우 각종 인터넷 정보로 1사람당 3시간에서 7시간 만에 개인의 구분을 할 수 있었다. 과학발전으로 Y-STR의 coverage가 높아져 개인 식별이 더 쉬워졌다는 결론이다. 이러한 개인 식별은 Y-STR뿐만 아니라 Y-SNPs도 가능함도 알렸다.

끝으로, Surname 찾기의 유전정보 노출을 중재의 중요성을 강조하였다. 개인정보에 대한 적절한 대응법이 필요하다는 의견과 함께, 이러한 대응법은 시료의 기부 중단이나 정보 공유 금지 등의 실질적 과학적 발전에 저해를 줄 수 있는 방향이 아니라 유전자 연구의 혜택과 위험에 대한 참가자 교육, 정보 공유에 명확한 정책 수립 등 유전정보사용의 적절한 법률 제정의 필요성이며, 이런 점이 바로 게놈연구지원에 중요한 포인트가 될 것이라 하고 있다.

맺음말

해독 기술의 발달로 3세대 시퀀싱 플랫폼이 출현하여, haplotype과의 연관성을 확인할 수 있게 되었다. 기술의 발달이 이루어지고 있는 지금, 유전정보를 제한한다는 것은 비현실적이며, 이미 유전 데이터의 일부가 웹사이트와 메일링 리스트에 흩어져있다. 데이터 사용의 접근 권한과 유전정보의 무차별 유출을 중재하기 위해 유전자의 개인정보 보호 문제에 대한 적절한 대응책이 필요할 것이다. 유전 연구를 통한 실질적 과학발전에 저해를 주지 않는 내에서 유전자 연구의 혜택과 위험에 대한 양면성에 맞는 현실적이고 명확한 대응책이 필요할 것이다.

1) lobSTR : 짧은 반복서열(short tandem repeat, STRs)을 동시에 프로파일링 할 수 있는 알고리즘

2) STR : short tandem repeat

3) SNP : Single nucleotide polymorphism

4) Surname : 성과 이름 중 성에 해당하는 것으로, 개인의 특징이나 업적을 이름과 함께 부르는 것이다. 칭호나 별명에 가까우며, 예를 들어 “골목대장 빌보”, “ 대장장이 탐” 등으로 나타낼 수 있다.

참고문헌

Identifying Personal Genomes by Surname Inference

http://www.sciencemag.org/content/339/6117/321.abstract

Presidential Commission for the Study of Bioethical Issues, Privacy and Progress in Whole Genome Sequencing. Privacy and Progress in Whole Genome Sequencing

http://bioethics.gov/cms/node/764 http://nxseq.bitesizebio.com/articles/i-know-who-you-are-using-private-dna-sequences-to-identify-people/

저자

글 : Park.HyeonJi

편집 : Lee.Hyungki

키워드 : Y 염색체, haplotype, genotyping, Michael Snyder, John West, Craig Venter 등

From PGI

Contents

유전정보, DNA를 이용한 개개인의 식별

Yaniv Erlich 연구팀에서 발견한 알고리즘(Y-STR haplotype 분석)

맺음말

참고문헌

저자