[AI업계 12월 동향] ① 딥마인드, 반 세기 난제 '단백질 접힘' 푸는 AI 공개
2020-12-14 08:00
AI 활용해 2억여개의 단백질 구조 분석 나서... 알츠하이머, 파킨슨, 당뇨 등 난치병 해결 기대
14일 생물학계에 따르면, 생명체의 기본 구성요소인 단백질은 선형 아미노산(Amino-acid) 복합체의 염기서열에 따라 각각 고유한 접힘(folding) 구조로 되어 있다. 현재 알려진 단백질만 약 2억개에 달하며, 기술의 발전으로 매년 3000만개의 단백질이 새로 발견되고 있다.
인체의 모든 세포, 조직, 기관은 아미노산이 가진 20가지 형태의 독특한 순서와 조합으로 만들어진 10만개 이상의 단백질로 구성되어 특정 기능을 수행한다.
생물학자들은 지난 50년간 단백질의 3차원 구조를 예측하고자 했으나, 가능한 배열의 수가 천문학적이라 효과적인 예측이 어려웠다.
딥마인드에 따르면, 알파폴드는 딥 뉴럴 네트워크(DNN) 기술을 활용해 방대한 게놈(Genome) 데이터를 학습했다. 이를 통해 아미노산 서열에 기반해 단백질의 3차원 구조를 예측할 수 있다.
약 17만개의 아미노산 서열과 단백질 모양을 학습했으며, 아미노산 쌍 사이의 거리와 아미노산을 연결하는 화학결합 각도를 기반으로 단백질 구조를 예측한다.
딥마인드 연구진은 알파고로 유명세를 떨친 지난 2016년부터 단백질 접힘 예측을 위한 연구개발을 추진했으며, 세계 단백질 구조 예측 대회(CASP)에서 우승하며 알파폴드의 성능을 입증하는 데 성공했다.
CASP는 지난 1994년부터 격년으로 개최되는 연구 대회로 미지의 단백질 100개에 대한 아미노산 서열을 주고 이를 활용해 구조를 예측하는 행사다. 알파폴드는 지난 2018년에 이어 올해도 92.4점으로 우승하는 성과를 냈다.
알파폴드의 등장으로 생명과학 분야에서 AI를 활용해 새 질병을 예측하고, 난치병 치료법을 개발하는 등 의료와 제약 산업에 매우 큰 파급효과를 가져올 수 있을 것으로 기대된다.
예를 들어 단백질의 접힘을 결정짓는 원리를 이해하면, 아미노산 서열로부터 특정 단백질의 고유 구조를 예측할 수 있게 되고, 단백질의 역할 및 생명체의 작동 원리를 파악할 수 있게 된다.
인체 내의 잘못 접힌 단백질 구조는 알츠하이머, 파킨슨, 당뇨 등 난치병을 유발한다. 단백질을 분석함으로써 감염병 치료방법과 변종을 예측할 수 있게 된다.
실제로 딥마인드는 알파폴드를 이용해 신규 코로나19 변종 바이러스를 6개 발견하기도 했다.
다만 생물학계에선 알파폴드가 기존에 알려진 단백질 구조만 분석할 수 있고, 알파고와 달리 AI 모델을 오픈소스로 공개하지 않아 그 정확성을 임상에서 확인하는 것이 어렵다며, 실제 생물학자들이 알파폴드를 활용해 단백질 구조를 분석할 수 있는 환경을 만드는 데 많은 시간이 필요할 것으로 내다봤다.