미래창조과학부는 카이스트(KAIST) 전산학과 박종철 교수 연구팀이 지스트(GIST) 이현주 교수와 공동으로 암 관련 유전자를 보다 빠르고 정확하게 찾을 수 있는 특화된 검색엔진을 개발했다고 22일 밝혔다.
검색엔진은 생물학 및 의학 연구문헌을 저장하는 데이터베이스인 메드라인에 탑재된 300만건에 육박하는 암 관련 유전자에 대한 연구문헌에서 암-유전자 관련성에 대한 정보를 빨리 검색할 수 있어 암 연구를 위한 새로운 도구가 될 것으로 기대된다.
이번 연구는 언어학, 컴퓨터공학, 생물학 및 의학을 포괄적으로 연계하는 융합연구로 미래부가 추진하는 중견연구자지원사업의 지원으로 수행돼 연구결과는 생물학 분야 학술지 핵산연구 온라인판 9일자에 게재됐다.
수많은 유전자 변화의 암 관련성에 관한 연구결과들을 바로 파악하고 수집해 종합적으로 분석, 판단하는 것이 요구된다.
연구팀은 의학 및 생물학 연구문헌에서 유전자의 발현량 변화와 유전자 변화에 따른 암 상태 변화를 기술하는 문장을 찾아내는 검색엔진 온코서치(OncoSearch, http://oncosearch.biopathway.org)를 개발했다.
온코서치는 첨단 텍스트마이닝 기술인 사건 정보 추출 시스템과 최대 엔트로피 분류기를 사용해 문장의 구조를 심도 있게 분석해 유전자 발현량의 증감 및 암의 진행상태 파악을 용이하도록 했다.
각 유전자가 암 진행에 기여하는 정도를 문장 구조 분석 및 추론을 통해 파악해 기존의 암 관련 유전자 정보 수집 기법들과는 달리 암 관련 유전자 역할에 대한 명시적인 표현이 없어도 관련된 정보를 파악할 수 있다.
검색엔진 개발로 메드라인에 등재된 모든 논문에서 1700종 이상의 악성종양과 7500개 이상의 유전자에 관한 문헌정보를 빠르고 정확하게 검색하고 대량의 정보를 쉽게 수집할 수 있게 돼 암 연구의 질적향상에 기여할 것으로 기대된다.
박 교수는 “온코서치가 첨단 텍스트마이닝 기술을 사용해 연구문헌에서 자동으로 수집한 암 관련 유전자에 대한 대량의 정보는 향후 자동 추론기술 등을 활용해 암 연구를 위한 새로운 도구로 활용될 수 있다”고 밝혔다.