The Korea Herald

소아쌤

[헬로 한글] 격화되는 AI 기술 전쟁, 한국어가 주목 받는 이유

By Jie Ye-eun

Published : June 30, 2023 - 17:40

    • Link copied

(게티이미지뱅크) (게티이미지뱅크)

K-팝, K-드라마, K-예능 등 한국 콘텐츠의 인기는 한국어의 위상을 바꿔놓았다. 총성 없는 전쟁터, 인공지능(AI) 개발 현장에서도 예외는 아니다.

초거대언어모델 AI를 개발하는 글로벌 빅테크 기업이 한반도에서만 주로 사용되는 한국어 서비스에 공을 들이는 이유는, 한국 문화가 언어의 장벽을 넘어섰을 때 가질 잠재력을 인식하기 때문이라는 것이 전문가들의 평가다.

한국인공지능협회 김세현 센터장은 “K-콘텐츠는 한국의 문화와 가치를 전 세계에 알리는 역할을 하고 있으며, 전 세계 AI 개발자들 사이에서도 한국어에 대한 새로운 관심을 불러 일으켰다”고 말했다.

서울대 국어국문학과 박진호 교수도 한국어 AI 서비스에 대한 장밋빛 전망을 제시했다.

박 교수는 “한국뿐 아니라 한국어를 알고 싶어 하는 전 세계의 K-컬쳐 팬들에게도 (한글 AI가) 널리 사용될 가능성이 있다”고 말했다.

전문가들은 특히 한국어 AI가 지리적으로 가깝고, 한국 문화와 친숙한 동남아시아, 중국, 일본 등에서 널리 사용될 것으로 예측했다. 반면 AI 기술 발전의 상당 부분이 세계 최대 시장인 미국에서 일어나는 만큼, 국내 AI 개발자들에게는 글로벌 빅테크와 치열한 경쟁을 준비해야한다고 말했다.

 

치열해지는 경쟁

 

한글 기반 AI 서비스에 대한 수요가 급증하면서, 한국어 데이터 학습 투자에 나서는 글로벌 빅테크 기업이 늘어나고 있다.

구글은 지난달 AI 챗봇 서비스 ‘바드(Bard)’를 전 세계 180여 개국에 선보이면서 한국어를 영어, 일본어와 함께 첫 지원 대상 언어로 깜짝 선정했다. 한국은 구글이 검색 엔진 분야에서 지배적인 위치를 차지하지 못하고 있는 몇 안 되는 시장 중 하나라는 점을 고려하면 뜻밖의 발표였다. 구글의 국내 검색 점유율은 약 30% 수준이다.

지난 11일 (현지시간) 순다르 피차이 구글 최고경영자(CEO)는 “영어 구사자로서 한국어와 일본어는 상당히 어렵다”면서 바드 프로그램 개발에 가장 적합한 언어라고 설명했다.

독일의 AI 번역기 딥엘도 지난 1월에 한국어 번역 서비스를 추가했다. 지원 언어로서는 한국어가 31번째이며, 아시아 국가 언어 중에는 중국어, 일본어, 인도네시아어를 이은 네 번째 언어다. 딥엘은 한국어의 잠재력에 초점을 맞췄다.

딥엘의 창업자이자 최고경영자인 야렉 쿠틸로브스키는 지난달 방한 기념 기자간담회에서 “그동안 한국어 서비스 지원에 대한 요청이 많았지만, 출시된 후 예상했던 것보다 훨씬 뜨거운 관심에 놀랐다”고 밝혔다.

업계 관계자들은 글로벌 빅테크가 최근 ‘K-컬쳐’ 붐을 틈타 한국에서 사업 확장을 모색하는 것은 매우 자연스러운 현상이라고 보고 있다. 하지만 국내 시장에서의 상업적 성공에 대해서는 회의적인 입장이다.

익명의 한 관계자는 “한국은 AI 서비스를 제공하는 수많은 시장 중 하나일 뿐”이라면서 “(외국 기업으로서) 한국어를 위한 AI 모델을 더욱 구체적으로 개발하는 데에는 어려움이 있을 것”이라고 말했다.

 

홈 어드밴티지 확보

 

한국어 능력에서는 ChatGPT를 능가하는 AI 모델 개발에 열을 올리고 있는 국내 기업은 네이버와 카카오이다.

네이버는 올 여름 기존 AI 모델인 하이퍼클로바를 고도화한 초거대 AI ‘하이퍼클로바X’를 출시 계획이다. 한국 기업이 미국, 중국에 이어 전세계 세번째로 초거대 AI를 선보이는 것이다.

하이퍼클로바X는 한국어와 영어 모두 학습했다. 네이버의 거대 데이터베이스 기반으로 언어적 우위는 한국의 사회적, 문화적 맥락을 더 잘 이해할 수 있다는 강점이 있다고, 네이버 관계자는 설명했다.

그는 “한글 기반 서비스 수요가 높은 일본, 동남아시아, 중동과 같은 지역에서 AI 통합 서비스 생태계를 구축할 예정”이라며 “한류 열풍을 고려하면 (하이퍼클로바X의) 성장 가능성은 충분히 높아 보인다”고 말했다.

 

카카오도 3분기 이내에 한국어 특화 AI 챗봇 ‘코GPT’를 업그레이드한 가칭 ‘코GPT 2.0’를 공개 예정이다. 카카오의 AI 연구전문 자회사 카카오브레인이 한창 서비스 준비에 박차를 가하고 있다. 카카오는 코GPT 2.0가 한국어로 보다 효율적이고 정확하게 의사 소통하는데 경쟁력이 있다고 보고 있다.

 

학습이 어려운 한글

 

전문가들은 한글이 AI 연구에 있어서 가장 보편적인 영어과 달리 복잡한 문법 구조로 AI 모델을 학습시키기 어려운 언어라고 입을 모으고 있다.

글로벌 빅테크가 개발한 AI 모델 기반 서비스의 한국어 능력은 최근 몇 년간 번역, 요약, 간단한 질의 응답에 있어서 크게 향상됐다. 하지만 여전히 영어 기반 서비스보다는 뒤처져 있는 수준이다. 김 센터장은 “한국어는 문법적으로 다른 언어들과 차이가 있고, 문장 구조와 표현은 더 복잡한 것으로 간주한다”고 말했다.

현재 영어권 국가에서 사용하는 대부분의 생성형 AI는 텍스트 조각을 단어, 문자, 또는 하위 단어를 포함하여 더 작은 단위로 나누는 토큰화 기술을 사용하고 있다. 이는 영어에 적합한 AI 학습법일 수 있지만, 한국어에 완전히 적용되는 것은 아니라는 것이 그의 설명이다.

이러한 언어적 한계를 극복하기 위해 네이버와 카카오는 한국어 형태소에 적합한 그들만의 데이터 토큰을 개발하기로 했다.

박 교수는 “새로운 AI 모델을 개발하기 위해서는 불규칙적 용언이 많은 한국어 등 언어의 특성은 완전히 이해하는 것이 중요하다”고 말했다. 그는 “국내 기업들이 한국어 특화된 AI 모델로 성공을 거둬서 다른 언어권 기업들과도 비법을 공유할 수 있길 바란다”고 덧붙였다. 

코리아헤럴드 지예은 기자 (yeeun@heraldcorp.com)

원문 

[Hello Hangeul] Race heats up for Hangeul AI

Amid the immense popularity of Korean-made content from music to TV shows, an increasing number of people around the world are eager to learn Hangeul, the Korean alphabet. And the world’s most sophisticated artificial intelligence models are no exception.

Korea itself may not be a sizable market, but the potential of Hangeul and related AI services seems almost unlimited, according to experts here.

“Korean content has played a crucial role in promoting the value of Korean culture and language to the world, prompting renewed interest in Hangeul among AI developers around the world,” said Kim Se-hyun, a technical director of the Korea Artificial Intelligence Association.

Park Jin-ho, a Korean language and literature professor at Seoul National University, also offered a rosy outlook for Korean-language AI services.

“In line with the Korean culture boom, their fans around the world would turn to the services to better understand Hangeul,” Park said.

Experts predicted Korea-made AI models will be widely used in Southeast Asia, China and Japan as the countries are geographically closer to Korea and their people are more into the Korean culture. But they agreed much of the technological progress could happen in the US, the world’s largest AI market, which means fierce competition among AI developers at home and abroad.

Fiercer competition


An increasing number of big tech companies are investing in learning Hangeul, as the demand for Korean-language-based AI services grows larger and faster.

Last month, US tech giant Google chose Korean and Japanese as the first foreign languages for its AI-based chatbot Bard in a bid to renew its competition with ChatGPT, backed by its archrival Microsoft. It was an unexpected announcement considering Korea is one of the few markets where Google is not a dominant search engine. In a country with 51 million people, Google’s market share stands at about 30 percent.

During the developers’ day event, Google CEO Sundar Pichai explained that Korean was the most appropriate language for its program development, saying “From the point of view of an English speaker, Korean and Japanese are quite difficult.”

German AI firm DeepL also launched the Korean translation service in January, choosing Korean as the company's 31st language and the fourth Asian language after Chinese, Japanese and Indonesian. The company also focused on the potential of the Korean language.

“We've been getting a lot of requests for Korean language support … We were surprised to see more-than-expected interest from users,” DeepL founder and CEO Jarek Kutylowski said during a press conference in Seoul last month.

Industry watchers say it is very natural for global companies to seek business expansion in Korea by taking advantage of the recent K-culture boom. But they remained skeptical about their commercial success here.

“Korea is one of the numerous markets where they offer services. It will be challenging for them to develop AI models more specifically designed for the Korean language,” an industry official said on condition of anonymity.


Boosting home advantage


Korean tech giants Naver and Kakao are also going all-out to secure a competitive edge against their global rivals by developing more advanced AI models that outpace ChatGPT when it comes to Korean language capabilities.

Naver, the operator of the nation’s No. 1 web portal, plans to launch its hyperscale AI model, called HyperClova X, this summer. It will be the third of its kind after those in the US and China and the largest one specialized in Hangeul, the company said.

HyperClova X has been trained in both Korean and English, but its biggest strength is its ability to better understand the social and cultural context, as well as its linguistic supremacy thanks to its sizable Naver-compiled database, the nation’s dominant portal site.

“We pin hopes on building our AI-integrated service ecosystem in regions such as Japan, Southeast Asia and the Middle East, where our Hangeul-based services are already in high demand,” a Naver official said. “The growth potential seems adequately high considering the Hallyu craze.”

Kakao, the operator of South Korea’s No. 1 messenger app KakaoTalk, also plans to unveil the upgraded version of its Korean-language AI model, KoGPT, in the third quarter. The company’s AI model, developed by its AI unit, Kakao Brain, has been primarily trained on Korean texts. The company said it boasts competitiveness in communicating in the Korean language more efficiently and accurately.

Tricky language to learn

Experts agree that Hangeul is a tricky language even for AI models to learn due to a complicated grammar structure that is totally different from English -- the most common language in AI study.

The Korean language capabilities of global AI models have drastically improved in recent years, especially for popular services like translation, summarization and answering simple questions. But they still lag behind their English-based services.

“The Korean language is grammatically different from other languages. Sentence structures and expressions are considered more complicated. Learning the language is also linked to the understanding of Korea’s unique culture and characteristics,” said Kim of the AI institute.

Currently, most generative AIs, mainly used in English-speaking countries, use a technique of tokenization -- a way of breaking a piece of text into smaller units called tokens, including words, characters or subwords. While it may be a suitable system for English, is not completely applicable to the Korean language, he added.

That’s why Naver and Kakao have decided to develop their own token-sharing methods suitable for Korean morphemes to overcome these limitations, according to Park, the SNU professor.

“It is crucial to fully understand the characteristics of a language to develop a new AI model, not to mention the Korean language, which has many irregular predicate elements,” the professor said. “I hope that local firms can come up with a successful Korean-language AI model, so it can be shared with other non-Korean speaking firms.