현대 AI 주춧돌 '오픈소스' 기술·문화… 미래 AI 품질·윤리 다진다

2023-09-29 12:00
오픈소스, 메타 '라마', '깃허브', '허깅페이스' 기반 형성 핵심
현대 자연어처리 AI 모델 경쟁·발전 가속화
한국 AI 업체 업스테이지 한국어 LLM 리더보드 개설… 국내 AI 발전 기대

[사진=게티이미지뱅크]

인공지능(AI) 적용 분야가 의료, 교육, 금융, 산업, 국방 분야로 확대되며 인류 삶의 질을 높이고 문제 해결을 돕고 있다. AI 기술의 투명성, 책임성, 안전성 등을 포함하는 ‘AI 윤리’ 문제가 대두되고 기술을 넘어 사회, 윤리, 법률, 정치적 측면까지 고려한 AI 개발과 활용이 이뤄져야 한다는 인식이 형성되고 있다. 수많은 오픈소스 프로젝트를 호스팅하고 여러 개발자의 코드 리뷰와 버그 수정 등 협업을 지원하는 ‘깃허브(GitHub)’, 메타가 오픈소스로 공개해 거대언어모델(LLM) 발전을 선도하는 ‘라마(Llama)’ 등이 오픈소스 장점을 활용한 혁신 사례로 꼽힌다. LLM은 텍스트 데이터를 학습해 다양한 텍스트 데이터 요약, 가공, 변환, 생성 작업을 수행하는 AI 모델을 뜻한다.

29일 업계에 따르면 현대적인 AI 기술의 탄생에는 오픈소스 소프트웨어 기술과 이를 실현하게 한 오픈소스 개발 문화의 역할이 컸다. 앞으로 더 뛰어난 성능을 갖춘 AI를 개발하고 활용하는 과정에 안전, 윤리, 책임 문제를 고려하고 관련 문제를 최소화하려면 오픈소스 문화 역할이 더 중요해 질 전망이다. 오픈소스 소프트웨어는 최초 개발한 사람이 자신의 소스코드를 외부에 공개하고 일정 조건에 따라 그 코드를 수정, 가공, 재사용, 재배포할 수 있게 허용한 소프트웨어를 의미한다. AI 분야에서 딥러닝 모델 개발 프레임워크와 라이브러리인 파이토치, 텐서플로, 케라스, 엔엘티케이(NLTK), 코엔엘파이(KoNLPy) 등이 AI 개발자에게 널리 쓰인다.

자연어처리 분야 오픈소스 플랫폼 ‘허깅페이스’를 운영하는 동명의 프랑스 AI 스타트업(Hugging Face)은 오픈소스 소프트웨어 기술과 문화를 기반으로 전 세계 AI 연구자와 협력하고 있다. 허깅페이스는 ‘AI 민주화’를 모토로 AI 기술의 접근성과 투명성을 높이고, 다양한 응용 분야와 도메인에서 AI를 활용할 수 있게 한다는 비전을 추구한다. 지난 8월 2억3500만달러(약 3100억원) 투자를 유치하며 45억 달러(약 6조원) 기업가치를 인정받았다. 구글, 엔비디아, 아마존, 퀄컴, 세일즈포스, 인텔, AMD, IBM 등 빅테크 기업이 허깅페이스 투자자 명단에 이름을 올리고 있다.

허깅페이스의 플랫폼은 자연어처리 딥러닝 모델·알고리즘을 구현한 라이브러리 ‘트랜스포머’, 자연어처리용 고품질 데이터세트, 고속 텍스트 토큰화 프로그램(토크나이저), 산업용 자연어처리 라이브러리 스페이시(spaCy) 등을 활용해 오픈소스 AI 모델 개발과 실행 과정을 쉽게 만든다. 이러한 오픈소스 소프트웨어는 개발자가 AI 기술과 알고리즘을 빠르게 접할 수 있게 하고, 새로운 아이디어와 창의성을 발휘할 수 있게 한다. 또한 오픈소스 소프트웨어는 개발자들이 서로 협력하고, 지식과 경험을 공유하며, 문제를 해결할 수 있는 커뮤니티를 제공한다.

클렘 델란지 허깅페이스 최고경영자는 지난 6월 미국 하원 공청회에 참석해 오픈소스 AI가 미국 가치관과 국익에 합치한다고 증언하기도 했다. 그는 AI의 발전은 오픈소스 및 오픈 사이언스에 의해 이뤄지고 있으며, 파이토치, 텐서플로, 케라스 등의 오픈소스 소프트웨어가 없었다면 미국은 주요 AI 개발국이 될 수 없었을 것이라고 주장하기도 했다.

전 세계 AI 연구자는 LLM의 성능을 평가하고 비교하기 위해 허깅페이스 ‘오픈LLM 리더보드’도 활용한다. 해외에 허깅페이스가 있다면 국내 오픈LLM 플랫폼으로는 한국 AI 스타트업 업스테이지가 최근 개설한 Open Ko-LLM 리더보드가 있다. Open Ko-LLM 리더보드는 업스테이지가 KT클라우드에서 지원하는 인프라를 통해 구축하고 한국지능정보사회진흥원과 함께 개설했다고 지난 27일 발표한 곳이다. 누구나 이곳에 자신이 개발한 한국어 LLM 모델을 등록해 성능을 평가하고 다른 모델과 비교해 경쟁할 수 있는 공개 플랫폼이다. Open Ko-LLM 리더보드는 한국어의 특성과 문화를 반영한 고품질의 데이터와 상식 생성 기준을 추가해 한국어 특화 리더보드 역할을 수행한다.

업스테이지는 2020년에 설립된 AI 전문 스타트업으로 허깅페이스 오픈LLM 리더보드에서 오픈LLM 사상 최초로 GPT-3.5의 벤치마크 점수를 넘는 ‘솔라’ 모델을 개발해 업계 관심을 모으기도 했다. 업스테이지는 솔라를 활용, 다양한 산업군과 도메인에 맞는 프라이빗 AI 서비스를 제공하고 있다. 업스테이지는 한국에서 데이터 공유와 오픈소스 AI 생태계 확장을 위해 ‘1T클럽’도 출범했다. 1T클럽은 여러 데이터 제공자의 참여를 통해 1조개 토큰의 한국어 데이터를 확보하고, 이를 바탕으로 세계 최고 수준의 한국어 LLM을 개발해 다양한 산업에서 활용하고 데이터 제공자들에게 그 이익을 돌려주는 선순환 구조를 만드는 협력 프로젝트다. 이는 한국어 데이터 부족 문제를 해결하고 콘텐츠 제공자들의 권익을 보호하면서도 고성능 한국어 LLM을 구축하기 위해 고안됐다.

업스테이지는 Open Ko-LLM 리더보드를 통해 한국어 LLM 연구의 수준과 경쟁력을 높이고, 한국어 데이터의 양과 질을 개선하며, 한국어 LLM의 국제적 인지도를 높이겠다는 포부를 갖고 있다. 다양한 기업이 참여하고 많은 개발자가 발전시킬 수 있는 오픈소스로 저렴하면서도 윤리적이고 안전한 고품질 AI 기술을 실현할 수 있을 것이라고 기대하고 있다.

업스테이지에 따르면 △품질 △비용 △윤리 △안전 관점에서 AI 발전에 기여하는 오픈소스의 장점이 있다. 오픈소스 소프트웨어는 수많은 개발자가 검증하고 개선할 수 있어 버그가 적고 안정적이다. 라이선스를 준수하면 저소득국가 기업이나 개발자가 AI 개발에 오픈소스를 활용할 수 있어 비용 부담을 덜 수 있다. 공개된 소스코드를 활용하는 오픈소스 소프트웨어 특성 상 AI 모델의 작동 방식과 결과에 대한 설명 가능성과 투명성, 공정성과 책임성 등 윤리성 확보 측면에서 유리하다. 잠재적 위험을 파악해 예방할 수 있다는 점에서 AI 모델이 해킹과 조작에 노출되고 사회적 문제를 야기하는 안전 문제가 상대적으로 적다.