메뉴바로가기본문바로가기

동아사이언스

구글 딥마인드AI, 인간 단백질 2만개 구조 모두 예측했다

통합검색

구글 딥마인드AI, 인간 단백질 2만개 구조 모두 예측했다

2021.07.23 18:32
단백질 예측 AI '알파폴드' 결과 공개
구글 딥마인드의 인공지능(AI) ′알파폴드2′가 예측한 단백질 구조의 모습이다. 딥마인드 제공
구글 딥마인드의 인공지능(AI) '알파폴드2'가 예측한 단백질 구조의 모습이다. 딥마인드 제공

구글 딥마인드가 단백질 구조 예측 인공지능(AI) ‘알파폴드2’로 36만 5000개 이상 단백질의 3차원 구조를 정확히 예측하는 데 성공하고 이를 공개했다. 인간 게놈에 기록된 단백질 2만여 개 중 98.5%를 포함해 쥐, 초파리, 대장균 등 생물학 연구에 주로 쓰이는 20종 생물의 단백질이 포함됐다. 연구팀은 올해 내로 지금까지 알려진 단백질의 절반 이상인 1억 3000만 개의 단백질로 목록을 확장할 계획이라고 밝혔다.

 

데마스 허사비스 딥마인드 최고경영자(CEO) 연구팀은 이같은 연구결과를 22일 국제학술지 ‘네이처’에 발표했다. 앞서 딥마인드는 15일 알파폴드2의 세부 내용과 코드를 네이처에 발표한 데 이어 이날은 알파폴드2의 첫 성과를 누구나 쓸 수 있도록 공개한 것이다. 딥마인드는 유럽 분자생물학연구소(EMBL)와 협력해 알파폴드의 단백질 구조 예측 결과를 데이터베이스화해 공개한다는 협약도 이날 발표했다.

 

단백질은 모든 생명 현상에 관여한다. 단백질은 유전자 정보에 따라 20종류의 아미노산이 긴 사슬로 수백 개 이상 이어져 만들어진다. 이 아미노산들이 분자들 간 힘에 따라 상호작용하면서 고유의 3차원 단백질 구조를 만든다. 이를 단백질 접힘이라고 한다. 단백질 구조는 단백질의 기능과 직결되기 때문에 구조를 알아내면 약물의 영향을 평가하거나 효소의 특성을 파악하는 등 단백질의 특징을 예측할 수 있다.

 

단백질 접힘은 워낙 변수가 많아 아미노산만으로 입체 구조를 예측하기 어려웠다. 과학자들은 X선 결정학 등을 이용해 단백질 구조를 직접 분석해 10만 여 종의 구조를 해독했다. 그러나 한 번 분석에 오랜 시간이 걸리는 어려움이 있어 그 수가 크게 늘지는 못했다. 때문에 과학자들은 실험 대신 컴퓨터 계산으로 단백질의 구조를 예측해 오는 연구를 수행해 왔다. 단백질들끼리의 상호작용을 일일이 계산해 단백질의 최종 구조를 찾아내는 방식이다.

 

그러던 중 딥마인드가 AI로 판세를 바꿨다. AI는 이미 알려진 단백질 구조와 아미노산 배열을 학습하기만 하면 새로운 아미노산 배열에서 구조를 예측해낼 수 있게 된다. 알파폴드 2는 지난해 12월 단백질 구조 예측 학술대회(CASP)에서 92.4점을 받아 최고점을 기록했다. 과학자들이 예측한 기존 단백질 구조와 90% 이상 일치했다. 2년 전 CASP 최고점이 60점이었던 것과 비교하면 엄청난 성과라는 평가를 받았다.

 

딥마인드 제공
CASP 대회에서 최고점을 받은 단백질 구조 예측의 점수를 나열했다. 알파폴드가 등장한 2018년부터 구조예측 점수가 급격히 상승하기 시작한다. 딥마인드 제공

알파폴드2는 CASP에서는 길게는 수일 정도에 단백질 하나의 구조를 예측할 수 있었다. 이후 그 구조가 정확히 확인된 1만 7000여 개의 정보를 학습하고 효율을 높이면서 개선된 이번 버전에서는 수 분에서 수 시간이면 단백질 구조 예측이 가능해졌다. 이를 통해 딥마인드는 인간 게놈의 모든 단백질 구조와 20개 유기체의 단백질 구조를 예측하기 시작했다.

 

알파폴드2는 인간 단백질의 98.5%를 예측하면서도 개별 아미노산의 위치 예측도가 최소 58%에 달할 만큼 충분히 우수한 것으로 나타났다. 단백질의 구조는 본질적으로 불완전한 영역이 많아 이 정도 정확도로도 충분히 약물 설계 등에 활용할 만하다는 설명이다. 존 점퍼 알파폴드 수석연구원은 “많은 단백질은 용액 속에서 고정된 구조를 갖고 있지 않다”고 말했다.

 

알파폴드2가 예측한 단백질은 이미 다양한 연구에 쓰이고 있다. 마르셀로 소사 미국 콜로라도대 생화학과 교수 연구팀은 알파폴드2를 이용해 박테리아가 콜리스틴이라는 항생제를 피하기 위해 사용하는 단백질의 모델을 만들어 항생제 내성을 연구하고 있다고 밝혔다. 아담 프로스트 미국 샌프란시스코 캘리포니아대 생화학 및 생물리학부 교수팀은 알파폴드2와 극저온전자현미경의 결과를 결합해 신종 코로나바이러스 감염증(COVID-19·코로나19) 바이러스가 인체에 침입할 때 이용하는 Nsp2 단백질 구조를 밝혀낸 연구결과를 5월 논문 사전공개사이트 ‘메드아카이브’에 발표했다.

 

연구팀은 올해 말까지 지금까지 알려진 단백질의 개수인 2억 여개의 절반 이상인 1억 3000만 개로 늘릴 것이라고 밝혔다. 단백질 구조가 확인되고 예측이 맞다고 판단되면 데이터베이스에 업데이트 한다는 계획이다. 에디트 허드 EMBL 사무총장은 "알파폴드는 과학계에서 구축한 공개 데이터를 사용해 훈련됐으므로 예측 또한 공개되는게 합리적"이라며 "알파폴드 데이터베이스는 개방형 과학 선순환의 완벽한 예"라고 말했다.

 

딥마인드의 알파폴드 공개 이후 다양한 단백질 구조 예측 AI 프로그램이 개발되면서 단백질 구조 분석을 이용한 생물학 연구는 새 전기를 맞고 있다. 단백질 구조 예측 권위자인 데이비드 베이커 미국 워싱턴대 교수와 백민경 박사후연구원 연구팀은 15일 국제학술지 ‘사이언스’에 단백질 간의 결합 형태까지 예측할 수 있는 AI 프로그램 ‘로제타폴드’를 공개했다. 단백질은 다른 단백질들과 결합하며 생체의 기능을 만들어내기 때문에 결합 형태도 중요한 요소 중 하나다.

 

미국 워싱턴대의 AI 가 밝힌 단백질 구조. 면역 신호물질인 인터루킨-12(파란색)이 수용체(보라색)에 결합한 모습이다. 워싱턴대 단백질설계연구소 제공
미국 워싱턴대의 AI 가 밝힌 단백질 구조. 면역 신호물질인 인터루킨-12(파란색)이 수용체(보라색)에 결합한 모습이다. 워싱턴대 단백질설계연구소 제공

로제타폴드는 미지의 단백질이 주어지면 단백질 데이터베이스에서 비슷한 아미노산 서열을 찾는 방식이다. 동시에 다른 AI가 단백질 내부에서 아미노산들이 연결되는 형태를 예측하고, 또 다른 AI가 입체 구조를 제시한다. 이 과정을 반복해 AI가 내놓은 결과를 더욱 정확하게 가다듬는다. 알파폴드2보다 정확성은 떨어지지만 결합 형태 예측에서는 더 낫다는 평가를 받는다.

 

베이커 교수는 15일 로제타폴드를 발표하기 전 6월에 로제타폴드 연구결과를 논문 사전출판 사이트에 공개하면서 소스코드도 코드 공유 플랫폼 ‘깃허브’에 공개했다. 이후 전 세계 140여 연구 그룹이 로제타폴드를 내려받아 활용했다. 알파폴드2는 딥마인드 측에서 소스코드를 공개하지 않아 검증이 불가능하다는 지적을 받아 왔다.

 

그러다 15일 로제타폴드의 공개 날에 맞춰 알파폴드2도 코드를 공개했다. 네이처는 사이언스 논문과 발표 시간을 맞추기 위해 딥마인드 논문 발표를 서둘러 진행한 것으로 알려졌다. 백 박사후연구원은 “우리 연구가 딥마인드의 성과에 기반을 둬 우리보다 뒤에 논문이 나오지 않은 것은 적절하다”고 평가했다.

 

전문가들은 AI의 단백질 예측이 생물학 연구에 새 전기를 불러올 것으로 기대하고 있다. 단백질 합성 공장인 리보솜 구조를 분석한 연구로 2009년 노벨 화학상을 받은 벤카트라만 라마크리시난 영국 MRC분자생물연구소 박사는 "이 계산 작업은 생물학에서 50년 묵은 위대한 도전인 단백질 접힘 문제에 대한 놀라운 발전을 나타낸다"고 평가했다.

 

허사비스 CEO는 딥마인드 블로그를 통해 “우리는 이것이 AI가 현재까지 과학 지식을 발전시키는 데 행한 가장 중요한 기여이자 AI가 인류에게 가져올 수 있는 이점의 훌륭한 예라고 믿는다”며 “이러한 통찰력은 생물학과 의학에 대한 우리의 이해에서 많은 흥미진진한 미래 발전을 뒷받침할 것”이라고 말했다.

관련 태그 뉴스

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

14 + 10 = 새로고침
###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기