독자 AI 경쟁 과열…연이은 논란에 '진흙탕 싸움'(종합)

큐웬과 유사한 숫자 처리 방식 논란…기술 해석 엇갈려

네이버 "문자 토큰화는 자체 방식, 숫자만 최적화"

(서울=연합뉴스) 오지은 기자 = 정부의 독자 인공지능(AI) 파운데이션 모델 사업 선정을 놓고 경쟁이 과열되면서 연이은 논란으로 진흙탕 싸움이 벌어지고 있다.

이번에는 독자 AI 정예팀 중 한 곳인 네이버가 중국 알리바바 큐웬(Qwen) 모델과 동일한 숫자 처리 접근 방법을 적용했다는 주장이 일각에서 제기되면서 의견이 엇갈리고 있기 때문이다.

네이버 테크리포트 상 토크나이저 설명
[테크리포트 캡처. 재판매 및 DB 금지]

12일 네이버의 독자 AI 파운데이션 모델인 하이퍼클로바 X 32B 싱크 모델의 테크 리포트에 따르면 네이버는 토큰화 과정에서 메타의 라마(LLaMA)와 알리바바의 큐웬(Qwen)의 숫자 처리 접근방법을 동일하게 적용한 것으로 알려졌다.

먼저 토큰은 AI 모델이 텍스트를 이해할 수 있는 가장 작은 단위로, 토크나이저는 문장이나 단어를 토큰으로 쪼개는 도구를 의미한다.

네이버클라우드는 "라마나 큐웬의 토크나이저를 가져다 쓴 것은 아니다"라고 일축했다.

네이버클라우드는 "테크 리포트에 언급된 내용은 숫자를 한 자리씩 토큰화하는 방식을 의미한다"라며 "라마와 큐웬 방식을 적용한 이유는 코드와 수학 문제에서 숫자와 연산 기능이 향상되기 때문이다"라고 전했다.

아울러 "문자의 토큰화는 모델 성능의 최적화를 위해 자체적인 방식을 채택해 사용했다"라고 덧붙였다.

예컨대 숫자 '12345'를 처리할 때 1, 2, 3, 4, 5로 각 숫자를 개별 토큰으로 처리하는 게 라마와 큐웬 방식이라면 네이버클라우드가 이를 동일하게 적용했다는 의미로 볼 수도 있다.

네이버클라우드에 따르면 숫자를 토큰화하는 방식에는 한자리씩 토큰화하는 싱글디짓과 묶어서 토큰화하는 멀티디짓 두가지 방식이 있는데 네이버클라우드의 경우 전자를 사용한 것이다.

다만 이 경우 후자를 사용한 경우보다 언어적 맥락을 반영하는 데 덜 직관적일 수 있다는 지적이 제기될 수 있다.

예를 들어 '20260112'라는 숫자가 있다면 싱글디짓은 2,0,2,6,0,1,1,2로 숫자를 쪼개 2026,01,12로 쪼개는 멀티 디짓 방식보다 날짜라는 언어적 맥락을 캐치하는 데 더 많은 추론 노력이 들어간다.

AI 업계 관계자는 "수학이나 과학 영역에서는 자릿수 단위로 자르는 게 (추론에) 유리하기 때문에 이러한 토큰화 방식을 적용하는 경우가 있다"고 설명했다.

정부는 독자 AI 사업 정예팀 5곳의 AI 모델 평가를 마친 뒤 오는 15일 1차 탈락 컨소시엄을 발표할 예정이다.

built@yna.co.kr

조회 304 스크랩 0 공유 1