'적어준대로' 그린다…카카오브레인, 새 초거대 AI모델 오픈소스 공개
2022-04-19 09:37
RQ-Transformer, 문자 읽고 이미지 생성
연말 공개 '민달리' 3배 크기, 2배 학습량
생성 계산량 줄여 고품질·속도 모두 잡아
컴퓨터비전학회 CVPR 2022에 논문 발표
"인간-컴퓨터 간 자유로운 대화 첫 걸음"
연말 공개 '민달리' 3배 크기, 2배 학습량
생성 계산량 줄여 고품질·속도 모두 잡아
컴퓨터비전학회 CVPR 2022에 논문 발표
"인간-컴퓨터 간 자유로운 대화 첫 걸음"
카카오브레인이 입력된 영어 텍스트를 이해하고 대응되는 이미지를 만들어내는 새 초거대 인공지능(AI) 모델 'RQ-Transformer'를 오픈소스 소프트웨어로 공개했다. RQ-Transformer를 만든 연구자들이 쓴 논문이 오는 6월 열리는 글로벌 컴퓨터비전 학회 CVPR 2022에서 발표된다.
카카오브레인은 지난 2021년 12월 공개한 초거대 멀티모달 '민달리(minDALL-E)'의 업그레이드 버전인 이미지 생성 모델로 RQ-Transformer를 깃허브(GitHub)에 공개했다고 19일 밝혔다. 깃허브는 7300만여명의 개발자와 2억개의 소스코드 저장소를 보유한 오픈소스 커뮤니티 겸 소프트웨어 개발용 웹호스팅 서비스다.
RQ-Transformer는 텍스트를 입력받아 이미지를 출력한다. 텍스트·이미지 3000만쌍을 학습했다. 카카오브레인이 독자적으로 개발한 기술에 기반해 39억개의 매개변수를 다루는 AI 모델로 만들어졌다. 공개된 이미지 생성 모델 가운데 국내 최대 규모다. RQ-Transformer의 크기는 기존 카카오브레인 초거대 AI인 민달리의 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 수준이다.
카카오브레인은 이 기술의 우수성을 인정받아 오는 6월 컴퓨터비전 분야의 세계 3대 학술대회 중 하나로 꼽히는 '국제 컴퓨터 비전 및 패턴인식 학술대회(CVPR)'에서 해당 논문을 발표한다. 이미지 생성 모델 연구개발을 맡고 있는 카카오브레인 생성모델(GM) 팀은 더 정교한 이미지를 생성하고 생성 속도를 높이기 위한 연구에 매진하기로 했다.
김일두 카카오브레인 대표는 "인간의 명령에 따라 이미지를 만들어내는 컴퓨터는 그 명령 뒤에 내재된 의도를 파악하고 이해하는 기술을 보여준다"며 "이번에 우리가 공개한 획기적인 'text-to-image AI' 모델이 인간과 컴퓨터가 자유롭게 대화하는 미래를 향한 여정의 첫 시작이 될 것"이라고 말했다.