네이버의 하이퍼클로바X 학습, 비밀스러운 논란
![]() |
네이버 하이퍼클로바x 저작권 논란 |
"AI 토큰과 데이터 다루는 비결"
"하이퍼클로바의 한국어 데이터 세트 크기"
"네이버와 오픈AI, AI 학습과 라이선스 대비"
네이버가 최신 AI 거대언어모델 '하이퍼클로바X'의 학습 기준을 비밀스럽게 감싸고 있는 가운데, 그 이전 버전인 '하이퍼클로바'의 학습 데이터에 대한 흥미로운 사실이 밝혀졌습니다. 2021년 EMNLP에서 발표된 연구 논문에 따르면, 하이퍼클로바는 총 5,618억 개의 토큰으로 사전 학습되었습니다. 특히, 이 학습 데이터 중에서 가장 큰 비중을 차지한 것은 블로그 데이터로, 총 2,736억 개의 토큰이 블로그로부터 나왔습니다.
데이터의 품질과 다양성은 AI 모델의 성능에 중요한 영향을 미칩니다. 그래서 이미 구성된 '모두의 말뭉치'와 같은 한국어 데이터 세트가 하이퍼클로바의 학습 데이터에 포함되었습니다. 이 한국어 데이터 세트는 놀랍게도 1.96테라바이트로, 한국어 위키피디아의 2,900배에 해당하며, 한국어 뉴스 50년치에 해당합니다.
네이버는 하이퍼클로바X가 계속해서 업데이트된 데이터를 학습하며 고도화되고 있다고 설명하며, 미국의 뉴스 통신사 AP통신과 라이선스 계약을 체결하는 등 AI 학습과 관련한 논란을 해결하려는 모습을 보이고 있습니다.
하지만 AI 학습과 관련한 라이선스 문제는 국내외에서 논란이 되고 있는 중입니다. 이에 대한 해결책은 아직 모호한 상태이며, AI 기술의 발전과 함께 더 많은 논의가 필요한 시기로 보입니다.
Comments
Post a Comment