RAG란 생성 AI의 환각(할루시네이션) 현상을 최소화할 수 있는 대안으로 주목받는 기술이다. 사전 학습한 데이터만을 활용하지 않고 기업 내부 데이터 등 이미 존재하는 데이터에서 답을 찾아낸다. 이들 답변 중 질문과 검색어의 맥락을 고려한 후 가장 적절한 대답을 제공한다.
올거나이즈의 RAG 리더보드는 RAG 기술의 성능을 측정해 순위를 매겨, 기업 AI 실무자들이 가장 적절한 솔루션을 비교 도입할 수 있도록 돕는다. 금융, 공공, 의료, 법률, 커머스의 5개 분야에 대한 한국어 RAG 성능을 평가한다.
회사 측에 따르면 답변 유사도와 정확도를 판단하는 5개의 평가 툴로 RAG 성능을 평가해 신뢰도를 높이고 오차를 줄였다. 우선 각 분야별로 2~300페이지의 문서를 업로드한 후, 분야마다 사용자가 할 법한 질문 60개를 생성했다. 질문별로 RAG가 답변을 생성하면, 5개의 평가 툴 중 3개 이상에서 오류가 없을 경우 '이상 없음'으로 판명한다. 해외 RAG 리더보드의 경우 일반적으로 1~2개의 평가 툴만을 활용하고 있다.
기업들이 RAG을 도입하고자 할 때, 어떤 RAG가 적합한지 성능평가를 제대로 하기 어렵다는 점을 고려해 테스트 데이터셋을 모두 공개했다. 실제 업무 문서에 표, 이미지 등이 복잡하게 얽혀 있다는 점을 감안해서 표와 이미지 데이터도 테스트 데이터셋에 포함시켰다. 리더보드는 허깅페이스를 통해 확인할 수 있으며, 리더보드에 들어간 RAG 솔루션들도 링크로 공개돼 있다.
이창수 올거나이즈 대표는 "AI 생태계에 기여하기 위해 테스트 데이터셋을 모두 공개했으며, 이를 활용해 한국어로 된 다양한 RAG 솔루션의 성능이 향상됐으면 하는 바람이 있다"며 "대학과 개인 연구자들은 AI 연구에 도움을 받을 수 있을 것이고, 기업들 역시 성능 좋은 RAG를 도입함으로써 업무 생산성 증대를 경험할 수 있을 것"이라고 말했다.