스켈터랩스는 지난 6월 한국정보화진흥원이 인공지능 학습용으로 공개한 250만건 데이터 중 소상공인 및 공공민원 분야에 대한 총 10만 건의 한국어 대화 데이터를 활용하여 테스트를 진행했다. 본 테스트는 총 600개의 인텐트(intent, 질문의 의도)를 대상으로 스켈터랩스의 대화엔진을 글로벌 기업 A, B사의 엔진과 비교했다. 그 결과, 스켈터랩스는 72%, 글로벌 A사와 B사는 모두 65%의 F1 스코어(F1 Score)를 기록했다. F1 스코어는 정밀도(precision)[1]와 재현율(recall)을 모두 고려한 종합값으로 인공지능 기술의 분류 평가 수치 중 하나이며, F1 스코어가 높다는 뜻은 그만큼 질문의 의도를 정확히 파악한다는 의미이다.
스켈터랩스의 대화엔진은 규칙 기반(Rule-based) 의도 분류와 머신러닝 기반(Machine learning-based)의 의도 분류를 복합적으로 활용해, 높은 정밀도와 재현율을 모두 구현할 수 있게 했다. 규칙 기반 의도 분류는 소량의 샘플 문장만으로도 의도 규칙을 자동으로 생성하며, 머신러닝 기반 의도 분류는 규칙만으로 처리하기 난해한 문장 변이 패턴 모델링을 가능하게 한다. 따라서 대화형 에이전트[3] 설계자가 예측한 샘플 문장의 수준을 넘어서, 사람들의 자연스럽고 변칙적인 대화에 대해서도 그 의도를 최대한 정확하게 파악해 낼 수 있게 된다. 스켈터랩스는 이와 같은 하이브리드 모델을 바탕으로 타사 엔진 대비 높은 정확도를 기록할 수 있었다.
스켈터랩스는 국내 대기업 및 스타트업들과의 파트너십으로 대화형 에이전트 구축 프로젝트를 진행하고 있으며, 향후 대화엔진 제품에 대한 브랜딩 구축 및 세일즈 강화로 한국은 물론 해외 시장을 적극적으로 공략할 예정이다.