한국어 특화 AI 모델 쏟아진다
페이지 정보
작성자 관리자 작성일25-01-02 08:10관련링크
본문
국내 게임사 엔씨소프트가 개발한 멀티모달 인공지능(AI) 모델 ‘바르코 비전’에 한옥의 겨울 풍경 이미지를 입력했다. 그러자 ‘한옥의 처마와 기와지붕이 특징적’이라며 이미지를 묘사했다. 그냥 집이 아니라, 기와를 올린 한옥이라는 것을 정확히 인식하고, 그 특징도 설명한 것이다. 바르코 비전은 텍스트와 이미지를 함께 인식할 수 있는 한국어 특화 언어 모델로, 비슷한 성능의 외국 모델들보다 한국어와 문화 등을 더 잘 이해할 수 있다. 국내 AI 인프라 스타트업 ‘모레’가 최근 선보인 거대 언어 모델(LLM) ‘모티프’도 한국어와 문화에 특화된 성능을 보여준다. 온라인에서 수집한 글뿐 아니라 전문 서적 등을 학습해 글로벌 빅테크 AI 중 최고 수준으로 평가받는 오픈AI의 GPT-4보다 한국어를 더 자연스럽게 구사한다. AI 스타트업 업스테이지는 로톡을 운영하는 로앤컴퍼니와 함께 한국 법률에 특화된 LLM ‘솔라 리걸’ 개발에 나서는 등 국내 기업들의 ‘한국어 특화 LLM’ 개발 속도는 갈수록 빨라지고 있다.
◇모두에게 공개되는 한국어 LLM
LLM은 AI가 인간의 언어를 이해하고 자연스럽게 답변할 수 있도록 하는 초석(礎石)이다. 문제는 현재 오픈 소스로 공개된 LLM들이 주로 영어와 중국어 기반이라는 점이다. 업계 관계자는 “글로벌 AI 기술이 영어와 중국어 중심이 되면서 해당 언어권의 AI의 발전 속도가 갈수록 빨라지는 경향을 보이고 있다”면서 “한국어 기반 AI와 격차가 벌어지면 이는 국가 경쟁력은 물론 언어 종속 문제로 확대될 수 있다”고 했다.
엔씨소프트와 업스테이지 등 국내 기업들이 최근 한국어 특화 LLM을 연달아 공개하는 이유도 여기에 있다. 한국어 특화 LLM 이용자가 많아져야 관련 데이터가 쌓여 모델 고도화에도 나설 수 있기 때문이다. 업계에서는 한국어 특화 AI가 한정된 국내 시장을 두고 서로 다투기보다 글로벌 AI와의 경쟁에서 살아남는 게 먼저라고 평가한다. 일부 기업은 자사 LLM을 무료로 공개해 더 많은 이용자를 끌어모아 생태계를 키우는 ‘오픈 소스 전략’을 선택하고 있다.
국내 기업들은 오픈AI 등 빅테크와의 차별화를 위해 양질의 한국어 데이터 확보에 사활을 걸고 있다. 이렇게 학습한 데이터의 질적인 차이는 특히 법률과 금융 등 특정 분야의 AI 서비스에서 확인할 수 있다. AI가 전문가의 질문을 문맥에 맞게 이해하거나 관련 문서와 이미지 등을 해석해 자연스럽게 대답을 이어가기 위해서는 한국어로 된 법률 서적 등을 학습해야 하기 때문이다. 관건은 양질의 데이터를 확보하는 일이다. 글로벌 AI 연구 기관 ‘에포크AI’는 AI 성능에 중요한 영향을 미치는 뉴스·논문 같은 고품질 언어 데이터가 올해 1월 이미 바닥난 것으로 분석했다. 이 때문에 일부 국내 기업은 데이터 확보를 위해 연합 전선을 구축하고 있다. 업스테이지는 지난해 한국어 데이터 부족 문제를 해결하기 위해 ‘1T(1조 토큰) 클럽’을 발족시켰다. 1T 클럽은 책, 기사, 보고서, 논문 형태로 1억 단어 이상의 한국어 데이터를 제공할 수 있는 기업과 기관들의 모임이다.
◇”한국어가 곧 AI 경쟁력 될 것”
한국어 특화 LLM은 국내 기업들의 AI 서비스 경쟁력 확보에도 중요한 영향을 미친다. 어떤 AI가 한국어를 가장 잘 이해하느냐에 따라 해당 AI에 기반한 서비스의 품질도 높아지기 때문이다. 또 한국어 등 개별 언어에 특화된 AI 성능이 높아질수록 글로벌 빅테크와의 경쟁에서 생존할 가능성도 높다. 다만 글로벌 빅테크들이 영어와 스페인어 등 언어를 섭렵한 뒤 한국어나 일본어 등 특정 국가의 언어를 AI에 학습시키기 시작하면서 한국어를 둘러싼 LLM 경쟁은 더욱 치열해질 것으로 보인다. 국내 AI 연구 기업 ‘마커AI’에 따르면, GPT-o1 프리뷰가 대학수학능력시험에서 국어 영역 1등급 수준에 오른 것으로 나타났다. 기존 4등급 수준이던 AI의 한국어 능력이 크게 향상된 것이다. 오픈AI는 최근 한국산업은행과 한국어 맥락을 이해하는 AI 모델 개발 등을 위해 협력하기로 하는 등 한국어 데이터 확보에 속도를 올리고 있다. IT 업계 관계자는 “국내 기업들은 양질의 한국어 데이터 확보와 차별화된 서비스 개발이 갈수록 절실해지고 있다”고 했다(조선일보, 2024. 12. 09).
☞거대 언어 모델(LLM)
방대한 텍스트 데이터를 학습한 언어 모델이다. 인공지능(AI)에 거대 언어 모델을 접목하면 AI가 인간의 언어를 이해하며 활용하는 것을 넘어 문장 내 단어 간의 관계까지 파악해 문법과 문맥에 맞는 대화가 가능해진다. 언어마다 문법과 문화적 의미가 달라, 개별 언어를 이해할 수 있게 특화된 LLM의 중요성이 갈수록 커지고 있다.
댓글목록
등록된 댓글이 없습니다.