빅테크도 급했다…"2026년이면 서닉 카지노가 학습할 데이터 고갈"
입력
수정
오픈서닉 카지노, 구글 등 콘텐츠 업체와 잇달아 계약
국내 업체들도 뉴스 콘텐츠 확보 안간힘
LLM에 뉴스 콘텐츠 필수
최근 글로벌 서닉 카지노 산업을 주도하는 빅테크들이 합법적인 뉴스 콘텐츠 확보에 혈안이다. 그동안 서닉 카지노 학습에 관련 데이터를 무단으로 활용했다는 비판이 끊이지 않았다. 오픈서닉 카지노는 최근 CNN, 폭스, 타임 등 미국 언론사와 콘텐츠 사용 계약을 추진 중인 것으로 알려졌다. 앞서 오픈서닉 카지노는 AP통신, 다국적 미디어그룹 악셀 스프링어와 저작권 관련 계약을 체결했다.뉴욕타임스는 오픈서닉 카지노와 마이크로소프트(MS)가 서닉 카지노 챗봇 훈련에 자사 기사 수백만 건을 동의 없이 활용했다며 소송을 제기하기도 했다. 애플도 서닉 카지노의 훈련에 뉴스 콘텐츠를 합법적으로 사용하기 위해 다양한 언론사와 협상 중이다. 잡지 ‘보그’와 ‘뉴요커’를 발행하는 콘데 나스트, NBC뉴스 등과 최소 5000만달러 규모로 저작권 계약을 논의 중인 것으로 알려졌다.국내에서도 서닉 카지노 기업들이 관련 콘텐츠 확보에 나서고 있다. 업스테이지는 고성능 한국어 거대언어모델(LLM) 개발을 위해 지난해 기업·기관 20여 곳과 ‘1T 클럽’을 발족했다. 협업 기업이나 기관이 보유한 1억 단어 이상 한국어 데이터를 업스테이지에 제공하고, 업스테이지는 고능성 LLM와 관련 수익을 공유하는 방식으로 협력한다. 김성훈 업스테이지 대표는 ”'1T 클럽’으로 데이터 제공자들의 권익을 지키고 한국 문화와 정서를 담을 LLM을 개발할 것”이라고 말했다.
LLM 개발사 코난테크놀로지도 한국언론진흥재단에서 국내 뉴스 콘텐츠를 구입하고 있다. 반면 네이버는 생성형 서닉 카지노 ‘하이퍼클로바X’ 개발 과정에서 국내 뉴스 콘텐츠를 부당하게 활용했다는 의혹으로 한국신문협회로부터 공정거래위원회에 신고당하기도 했다.
서닉 카지노 학습 데이터 고갈 우려
국내외 서닉 카지노 기업이 데이터 확보에 앞다퉈 나선 건 서닉 카지노 성능 향상을 위해서다. 서닉 카지노 서비스의 바탕 기술인 LLM 등은 데이터 학습 없이는 고도화할 수 없다. 이우진 동국대학교 서닉 카지노학과 교수는 “LLM은 보통 매개변수가 많을수록 성능도 좋아지는데 매개변수가 커지면 그만큼 데이터도 필요하다”고 설명했다. 구글이 지난해 5월 공개한 서닉 카지노챗봇 바드는 1조5600억 개 이상의 단어를 학습한 것으로 알려졌다.서닉 카지노가 학습할 데이터가 급격히 감소하는 것도 서닉 카지노 기업의 데이터 확보 경쟁을 부추겼다. 영국 과학 전문지 뉴사이언티스트는 언어 데이터 부족으로 오는 2026년에 서닉 카지노 챗봇 발전이 정체될 수 있다는 연구 결과를 지난해 내놨다. 글로벌 서닉 카지노 챗봇 훈련에 필요한 언어 데이터 크기는 최근에 연간 50% 정도 늘었다. 하지만 사람이 만든 관련 데이터의 증가율은 연간 7%에 그친 것으로 추정된다. 2026년 정도에는 서닉 카지노가 새로 학습할 데이터가 더 이상 없다는 계산이 나온다.
언어 데이터보다 특정 분야의 대규모 데이터의 몸값이 크게 올랐다는 분석도 있다. LLM 등 고성능 서닉 카지노 모델을 이전보다 싼 값에 사용할 수 있게 되면서 서닉 카지노 서비스가 다양해지고 있다. 여기선 언어 데이터보다 해당 서비스와 관련 데이터가 필요하다. 쇼핑몰 에이블리를 운영하는 에이블리코퍼레이션은 대규모의 고객 데이터를 학습한 서닉 카지노 모델의 추천 기술을 앞세워 지난해 첫 흑자를 달성했다. 이 회사만 보유한 데이터를 활용한 성과다. 고객사의 서닉 카지노 모델 구축을 돕는 테크 기업 베슬에이아이의 안재만 대표는 “서닉 카지노 모델 도입이 쉬워지면서 데이터가 기업의 가장 큰 자산이 됐다”고 설명했다.
김주완/장강호 기자 kjwan@hankyung.com