A multimedia mosaic of moments at GIST
암 연관 유전자 발굴하는 빅데이터 알고리즘 개발
- 차세대 염기서열 데이터 활용…이현주 교수팀 Scientific Reports에 논문 게재
[그림 1] 기존의 방법들과의 비교. TCGA의 47개의 난소암(Ovarian carcinoma)에서 잘 알려진 난소암 유전자를 발굴하는 데 소요되는 비용을 비교한 그림. x축은 각각의 방법에서 찾을 수 있는 암 유전자의 개수이고 y축은 그 유전자를 찾기까지 비용을 조사해야할 유전체의 길이를 log 스케일로 표현한 것이다. 보라색 선들은 마이크로어레이 플랫폼에서 얻은 개별 난소암 샘플들을 일일이 조사하였을 때의 비용을 타나낸다. 빨간색 선들은 차세대 염기서열 데이터에서 얻은 개별 난소암 샘플들을 조사했을 때의 비용을 나타낸다. 초록색 선들은 마이크로어레이 플랫폼에 기반한 GISTIC2.0이라는 널리 사용되는 알고리즘을 사용했을 때의 찾을 수 있는 유전자의 개수와 비용을 의미한다. 파란색 선들은 전장유전체염기서열(Whole genome sequencing) 데이터에 본 연구의 알고리즘을 적용했을 때의 비용을 의미한다. 그림에서 보이는 것처럼 본 연구에서 개발된 알고리즘은 암과 연관된 유전자들을 상대적으로 적은 유전체 영역을 조사함으로써 발굴할 수 있음을 보였다.
□ GIST(광주과학기술원) 연구진이 암과 연관성이 높은 유전자를 발굴 할 수 있는 빅 데이터 분석알고리즘을 개발했다.
○ GIST 전기전자컴퓨터공학부 이현주 교수팀은 최근 암 연구에 있어서 활용이 급증하고 있는 차세대 염기서열 데이터*를 활용해 암과 연관성이 높은 유전변이 영역을 발굴하는 알고리즘을 개발하였다.
* 차세대 염기서열 데이터: 유전체를 무수히 많은 짧은 길이의 DNA조각들로 나눈 뒤 병렬적인 서열분석을 통해 얻은 정보
□ 연구팀은 웨이블릿 변환기법*을 활용해 차세대 염기서열 빅 데이터로부터 암과 연관성이 높은 유전자들을 선별했다.
* 웨이블릿 변환기법: 수학적인 변환기법의 일종. 웨이블릿(wavelet)으로 부르는 특정 패턴의 신호 파형을 축소‧확대, 평행이동 해 원래의 신호를 특수한 형태의 신호로 변환하는 것. 웨이블릿 변환은 신호 내 잡음 제거 등 다양한 목적으로 사용된다.
○ 연구팀은 먼저 개별 암 세포들로부터 획득한 차세대 염기서열 데이터를 웨이블릿 변환이라는 수학적인 기법을 활용해 데이터에 내재해 있는 노이즈를 제거하고, 체세포 유전자의 유전자 개수가 변한 영역을 검출했다.
○ 이렇게 얻은 변이 정보들로부터 암과 가장 연관성이 높을 것으로 보이는 유전체 상의 영역들을 선별한 결과, 유전자 마이크로어레이 플랫폼을 입력으로 사용하는 기존의 알고리즘과 비교했을 때 암과 연관된 유전자를 더 많이 발굴할 수 있었다.
○ 47개의 난소암 샘플에 본 연구에서 제안한 알고리즘을 적용하였을 경우, 기존의 방법론보다 두 배 가까운 수의 암 연관 유전자를 찾아냈다.
□ 이현주 교수는 “이 알고리즘은 바이오 빅 데이터로부터 암과 연관된 유전변이 영역을 찾는 데 널리 활용될 수 있을 것으로 기대된다”고 말했다.
□ 이번 연구는 마이크로소프트 연구소(Microsoft Research)*가 2011년도부터 현재까지 정보통신기술진흥센터와 함께 지원하고 있는 ICT/SW창의 연구과정과, 한국연구재단 일반연구자지원사업의 지원을 받아 수행됐으며 논문은 네이처 자매지인 사이언티픽 리포츠(Scientific Reports) 5월 9일자에 게재되었다.
○ 마이크로소프트 연구소는 컴퓨팅 기법을 활용하는 융합 연구의 활성화를 위해 GIST 등 한국의 주요 대학들의 연구진에 장기간 연구비를 지원하고 있다. <끝>
대외협력팀