[2024 초거대AI포럼] 임재균 "SKT, 통신특화 이미지 생성·이해기술 개발…멀티모달 AI 강화"
2024-06-17 16:00
임재균 멀티모달 모델팀장 '에이닷엑스' 발표
통신 특화 sLLM으로 AI 경쟁력 강화
통신 특화 sLLM으로 AI 경쟁력 강화
SK텔레콤이 통신 영역에 특화한 멀티모달(다중모드) 인공지능(AI) 서비스를 출시한다. 일반적인 글이나 문서를 입력하면 텔코(통신)에 적합한 답변을 내놓거나 이미지까지 생성해 주는 서비스를 개발 중이다.
임재균 SKT 멀티모달 모델팀 팀장은 17일 서울 중구 더플라자호텔에서 아주경제신문이 주최한 '2024 초거대 인공지능 포럼'에서 이같이 말했다.
최근 오픈AI·구글 등이 멀티모달 초거대언어모델(LLM) 기반으로 이미지·동영상을 만들어내는 멀티모달 AI를 강화하고 있는 가운데 SKT도 자체 개발한 모델 '에이닷엑스'를 토대로 텔코에 특화한 이미지 생성과 이해 모델을 준비 중이다. △텍스트나 이미지를 입력하면 이미지나 비디오를 생성하는 '에이닷엑스 디퓨전 모델' △텍스트와 이미지를 입력하면 관련 설명이나 질의응답을 하는 '에이닷엑스 멀티모달 모델' 등이다.
임재균 팀장은 "최근 구글 등 빅테크 기업들이 멀티모달 영역을 확장하고 있다"면서 "AI 기반 동영상 생성 기술 개발에 집중하고 있는 추세"라고 말했다. 이어 "SKT가 보유한 고유 자산(애셋)을 기반으로 사내외 이미지 문서 이해에 특화한 최적화 모델을 개발하고 있다"고 설명했다.
텔코 전용 이미지 생성 서비스를 활용하면 SKT의 대표 브랜드인 T우주 이미지를 유지하면서 원하는 콘셉트에 맞게 이미지를 생성할 수 있다. 가령 '밸런타인 데이'를 입력하면 어도비 파이어플라이 등 기존 제품은 일반적인 하트 모양을 생성하는 반면 에이닷엑스의 이미지 생성 서비스는 T우주에 하트 모양을 합성한 이미지를 만든다. 통신사 마케팅에 최적화한 모델로 브랜드 디자인 콘셉트를 유지할 수 있어 관련 비용을 최소화할 수 있다는 설명이다. 현재 개발 중이며 9월 중 서비스할 예정이다.
또 SKT는 현재 에이닷에서 AI 프로필 생성 서비스를 제공 중이다. 오는 7월 파리올림픽 시기에 맞춰 '멀티 아이디(ID) AI 프로필' 모델을 제공할 예정이다. 이는 SKT 얼굴인식모델을 활용한 기술로, 2~4명 사진을 입력하면 별도 트레이닝 없이 여러 명이 함께한 사진을 생성한다. 임 팀장은 "여러 명 얼굴을 AI 프로필로 만들어 안정적으로 제공하는 기술은 세계 최고 수준"이라며 "관련 논문은 얼굴인식 성능에서 세계최고성능(SOTA)을 달성했다"고 강조했다.
여러 고객의 문서를 통해 가장 적합한 답변을 내놓는 '텔코 고객문서 이해 특화 모델'도 개발 중이다. 텔코 특화 데이터로 학습을 최적화한 멀티모달 LLM으로 특정 분야에선 빅테크 기업의 멀티모달 LLM보다 우수한 성능을 확보하겠다는 것이다. 일례로 고객의 자동차 운전면허증에서 '이 문서의 발급 신청일'을 물었는데 GPT·제미나이 등은 운전면허증 발급일을 내놨지만 에이닷엑스는 운전면허증 발급 신청일을 정확하게 답변했다.
임 팀장은 "통신 특화 경량언어모델(sLLM)을 활용하면 기존 광학문자인식(OCR) 기술보다 더 정확하고 빠른 대응이 가능하다"면서 "통신 영역 특성상 고객 정보 보호를 위해 자체 모델 수요가 높기 때문에 사내 고유 자산 등을 활용해 통신 특화 AI 모델을 만드는 것이 SKT의 경쟁력"이라고 강조했다.
임재균 SKT 멀티모달 모델팀 팀장은 17일 서울 중구 더플라자호텔에서 아주경제신문이 주최한 '2024 초거대 인공지능 포럼'에서 이같이 말했다.
최근 오픈AI·구글 등이 멀티모달 초거대언어모델(LLM) 기반으로 이미지·동영상을 만들어내는 멀티모달 AI를 강화하고 있는 가운데 SKT도 자체 개발한 모델 '에이닷엑스'를 토대로 텔코에 특화한 이미지 생성과 이해 모델을 준비 중이다. △텍스트나 이미지를 입력하면 이미지나 비디오를 생성하는 '에이닷엑스 디퓨전 모델' △텍스트와 이미지를 입력하면 관련 설명이나 질의응답을 하는 '에이닷엑스 멀티모달 모델' 등이다.
임재균 팀장은 "최근 구글 등 빅테크 기업들이 멀티모달 영역을 확장하고 있다"면서 "AI 기반 동영상 생성 기술 개발에 집중하고 있는 추세"라고 말했다. 이어 "SKT가 보유한 고유 자산(애셋)을 기반으로 사내외 이미지 문서 이해에 특화한 최적화 모델을 개발하고 있다"고 설명했다.
텔코 전용 이미지 생성 서비스를 활용하면 SKT의 대표 브랜드인 T우주 이미지를 유지하면서 원하는 콘셉트에 맞게 이미지를 생성할 수 있다. 가령 '밸런타인 데이'를 입력하면 어도비 파이어플라이 등 기존 제품은 일반적인 하트 모양을 생성하는 반면 에이닷엑스의 이미지 생성 서비스는 T우주에 하트 모양을 합성한 이미지를 만든다. 통신사 마케팅에 최적화한 모델로 브랜드 디자인 콘셉트를 유지할 수 있어 관련 비용을 최소화할 수 있다는 설명이다. 현재 개발 중이며 9월 중 서비스할 예정이다.
또 SKT는 현재 에이닷에서 AI 프로필 생성 서비스를 제공 중이다. 오는 7월 파리올림픽 시기에 맞춰 '멀티 아이디(ID) AI 프로필' 모델을 제공할 예정이다. 이는 SKT 얼굴인식모델을 활용한 기술로, 2~4명 사진을 입력하면 별도 트레이닝 없이 여러 명이 함께한 사진을 생성한다. 임 팀장은 "여러 명 얼굴을 AI 프로필로 만들어 안정적으로 제공하는 기술은 세계 최고 수준"이라며 "관련 논문은 얼굴인식 성능에서 세계최고성능(SOTA)을 달성했다"고 강조했다.
여러 고객의 문서를 통해 가장 적합한 답변을 내놓는 '텔코 고객문서 이해 특화 모델'도 개발 중이다. 텔코 특화 데이터로 학습을 최적화한 멀티모달 LLM으로 특정 분야에선 빅테크 기업의 멀티모달 LLM보다 우수한 성능을 확보하겠다는 것이다. 일례로 고객의 자동차 운전면허증에서 '이 문서의 발급 신청일'을 물었는데 GPT·제미나이 등은 운전면허증 발급일을 내놨지만 에이닷엑스는 운전면허증 발급 신청일을 정확하게 답변했다.
임 팀장은 "통신 특화 경량언어모델(sLLM)을 활용하면 기존 광학문자인식(OCR) 기술보다 더 정확하고 빠른 대응이 가능하다"면서 "통신 영역 특성상 고객 정보 보호를 위해 자체 모델 수요가 높기 때문에 사내 고유 자산 등을 활용해 통신 특화 AI 모델을 만드는 것이 SKT의 경쟁력"이라고 강조했다.