인공지능 학습 데이터가 2026년에 소진된다네요. : 클리앙

고객지원

모두의공원

인공지능 학습 데이터가 2026년에 소진된다네요. 20

2025-11-25 11:58:16 수정일 : 2025-11-25 12:02:41 1.♡.233.238

dsl

학습데이터 부족이 심각하다네요.

그렇다고, 저작권이 있는 학습데이터를 무단으로 사용하면 그건 그것대로 문제가 되구요.

이대로 가면 인공지능이 만든 데이터를 자가발전하는 단계가 오고, 그렇게 되면 인공지능 답변의 대부분이 쓸모없어질 수도 있을 거 같네요. 왜냐하면 다 거짓이 일부 포함된 걸 포장하는 수준이 될테니까요.

어쩌면 이게 생성형 인공지능 버블이 다가오고 있는 중요한 이유가 아닌가 싶네요.

출처 : https://www.youtube.com/watch?v=m7AOMyHwA0g

dsl 님의

댓글 • [20]

학습 데이터가 어떤걸까요... 인터넷에 있는 정보로만 해도 이미 각 분야의 전문가를 만들 수 있는 수준 아닌가 싶은데 말입니다.

dsl

@님

인공지능 훈련에 사용되는 데이터라네요.

조지아

이 시점에서 중국이 앞서나가는거죠. ㅎㅎ 저작권, 개인정보, 사생활 따위 개무시하고 학습중이라 ㅎㅎ

Kieth

음.. 영어 기반의 학습데이터가 끝나고 있다는 건 아닌지 싶네요.

아직 수많은 언어로 만들어진 장서, 인터넷 자료가 있을 것 같은데.. 모든 언어를 학습했으려나요?

잿빛여우

많은 사람들이 ai에 대한 의존도가 이미 많이 높아졌죠. 그런 상태에서 시간이 지나면 지날수록 ai 정확도가 떨어지게 될 수 있다니, 앞으로 혼란이 올 수도 있겠네요.

SNiffeR

신세틱 데이터로 학습시켜보면 압니다.
정확도는 안드로메다 건너 저멀리 사라져 버립니다.
그래도 방법을 찾겠지요.

쥐먹는냥이

지적재산권이 없는 데이터는 이미 거의 학습이 끝났다는 말이군요.
근데 지금부터는 AI와 경쟁하면서 IP를 쌓아야 한다는건데.... 참 인간이 초라해지네요. IP를 쌓아둔 일부 몇몇을 제외하면 AI와 경쟁이 의미가 없는데...

프비사랑

이건 좀 문제가 심각한게...
AI로 생성된 데이터로 교육할시 오류 확률이 점점더 올라가서 질적 하락이 심해질테니깐요.

새로운 전환점이 오고 있는 느낌이군요.

ap1128

이거 자칫하면 중국50억인구의 사고와 데이터가
전세계 ai에 미치는 영향이 커질수도 있을까요.
이러다 ai가 종교로까지 변질되는 시점에는
시진핑이 진짜 지구별의 황제가 될수도~^^

qorqus

그래서 저는 베이스모델을 라이센스(또는 오픈소스) 해서 각 기업들이 자기들의 내부 데이터를 기반으로 파인튜닝하는 형태로 AI 수익모델이 날거라고 생각합니다. 개인적으로 제 분야에서 파인튜닝을 하기 위한 대비도 하고 있구요

macman

이미 쓸만한 데이터 소진된지 오래고
자체 생성데이터로 학습중이죠ㅎ

dsl

@macman님

네, 거의 60%이상 합성데이터로 훈련 중이라네요. 그래도 일부는 원데이터를 사용하나 봅니다. 그 조금 남은 원데이터도 내년에 소진 될 거란 말 같네요.

macman

@dsl님
이미 합성데이터로 훈련을 많이해서 나오고 있는게
지금의 llm들이죠. 성공하고 있다는 얘기입니다

알파고제로처럼요

근데 천재 자폐처럼 말투나 사회성이 떨어지는 단점들이 생겼던게 그것때문이라는 얘기가 있습니다ㅎㅎ

그리고 데이터부족은 최근 전이학습같은걸로 성능향상이 가능한쪽으로 방향이 바뀌는 걸로 알고있어서 별 이슈는 아닌듯하네요.
전이학습이란
2d데이터가 부족해도 3d와 물리와 영상을 학습시키면 2d성능이 대폭 향상하는것 같은겁니다.
나노바나나가 그 결과이죠

고멍

챗지피티도 5.0부터 이상하게 기존보다 안좋아졌다고 느꼈어요. 재미나이도 딱히 좋지 않구요.

절대수훈

그래서, 개인민감정보가 포함되지 않은 정보를 얻는게 가장 중요합니다.
그러기 위해서는 국가 정부급이 나서는게 맞기도 하구요. 물론 선결 과제들이 산적하긴 합니다.
전자정부, 전산화, 입력등등
그런 부분에서는 우리나라가 세계상위권이라는건 부인할수 없는 사실이기도 하구요.
아! 물론 민감정보에 대한 우려를 불식시키지 않는 나라는 예외입니다. ㅋ

유스튜

사실 이 떡밥이 작년말부터 돌고 있긴 한건데..
LLM 개발은 강화학습 RL (Reinforcement Learning)으로 넘어가고 있죠.
그래서 데이터 고갈을 걱정할 단계는 아니라는게 지배적의 의견이죠.

회색하늘빛

그래서 현재 AI Agent의 시선은 굉장히 백인 남성 중심적이란 소리도 있더군요.
세상의 흩뿌려진 많은 공공 데이터는 선진국 위주의 백인 남성의 글이 많아서..라고..

국회의사당

컴맹이지만, 여기까진 돈과 인프라 있으면 가능한 지점이었고,
이제 부터 개발 플랫폼들의 진검 승부가 펼쳐 진다고 들었습니다.
여기서 도태되면.......인공지능 시장에서 사라진다고 했어요.

engineer

번 돈으로 좋은 학습 데이터를 구매해야죠. 개인들의 정보나 글도 학습 데이터로 간주하고 데이터세를 걷어서 일반인들에게 나누어 주어야 한다고 생각합니다.

푸풍푸

자기가 만듯 헛소리를 인터넷에 올리고 다시 그걸 학습하는데 인터넷의 정보량이 월등히 많아서 소수자료는 무시당할 확률이 높죠. 결국 99% 찍고 하락할꺼라 봅니다.

이후 의도적으로 98%까지만 할 수 있게 해놓고 보조하는 개념으로 사용하겠죠.

물론 98%만 되어도 인간의 작업 대부분은 할 수 있을꺼라 봅니다.

그런데 로봇이 일자리를 뺏으면 인간은 일자리 공급이 줄어드니 임금이 낮아질텐데 그러면

로봇이 인간의 가성비를 이기기 힘들지 않을까 싶습니다.

그 전에 에볼루션이 올지 매트릭스가 올지는 아무도 모르죠..

목록으로

글쓰기

이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고

개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책

보안 강화를 위한 이메일 인증

안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
개인정보에서도 이메일 인증을 할 수 있습니다.

지금 이메일 인증하기

등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.