학습데이터 부족이 심각하다네요.
그렇다고, 저작권이 있는 학습데이터를 무단으로 사용하면 그건 그것대로 문제가 되구요.
이대로 가면 인공지능이 만든 데이터를 자가발전하는 단계가 오고, 그렇게 되면 인공지능 답변의 대부분이 쓸모없어질 수도 있을 거 같네요. 왜냐하면 다 거짓이 일부 포함된 걸 포장하는 수준이 될테니까요.
어쩌면 이게 생성형 인공지능 버블이 다가오고 있는 중요한 이유가 아닌가 싶네요.
학습데이터 부족이 심각하다네요.
그렇다고, 저작권이 있는 학습데이터를 무단으로 사용하면 그건 그것대로 문제가 되구요.
이대로 가면 인공지능이 만든 데이터를 자가발전하는 단계가 오고, 그렇게 되면 인공지능 답변의 대부분이 쓸모없어질 수도 있을 거 같네요. 왜냐하면 다 거짓이 일부 포함된 걸 포장하는 수준이 될테니까요.
어쩌면 이게 생성형 인공지능 버블이 다가오고 있는 중요한 이유가 아닌가 싶네요.
인공지능 훈련에 사용되는 데이터라네요.
아직 수많은 언어로 만들어진 장서, 인터넷 자료가 있을 것 같은데.. 모든 언어를 학습했으려나요?
정확도는 안드로메다 건너 저멀리 사라져 버립니다.
그래도 방법을 찾겠지요.
근데 지금부터는 AI와 경쟁하면서 IP를 쌓아야 한다는건데.... 참 인간이 초라해지네요. IP를 쌓아둔 일부 몇몇을 제외하면 AI와 경쟁이 의미가 없는데...
AI로 생성된 데이터로 교육할시 오류 확률이 점점더 올라가서 질적 하락이 심해질테니깐요.
새로운 전환점이 오고 있는 느낌이군요.
전세계 ai에 미치는 영향이 커질수도 있을까요.
이러다 ai가 종교로까지 변질되는 시점에는
시진핑이 진짜 지구별의 황제가 될수도~^^
자체 생성데이터로 학습중이죠ㅎ
네, 거의 60%이상 합성데이터로 훈련 중이라네요. 그래도 일부는 원데이터를 사용하나 봅니다. 그 조금 남은 원데이터도 내년에 소진 될 거란 말 같네요.
이미 합성데이터로 훈련을 많이해서 나오고 있는게
지금의 llm들이죠. 성공하고 있다는 얘기입니다
알파고제로처럼요
근데 천재 자폐처럼 말투나 사회성이 떨어지는 단점들이 생겼던게 그것때문이라는 얘기가 있습니다ㅎㅎ
그리고 데이터부족은 최근 전이학습같은걸로 성능향상이 가능한쪽으로 방향이 바뀌는 걸로 알고있어서 별 이슈는 아닌듯하네요.
전이학습이란
2d데이터가 부족해도 3d와 물리와 영상을 학습시키면 2d성능이 대폭 향상하는것 같은겁니다.
나노바나나가 그 결과이죠
그러기 위해서는 국가 정부급이 나서는게 맞기도 하구요. 물론 선결 과제들이 산적하긴 합니다.
전자정부, 전산화, 입력등등
그런 부분에서는 우리나라가 세계상위권이라는건 부인할수 없는 사실이기도 하구요.
아! 물론 민감정보에 대한 우려를 불식시키지 않는 나라는 예외입니다. ㅋ
LLM 개발은 강화학습 RL (Reinforcement Learning)으로 넘어가고 있죠.
그래서 데이터 고갈을 걱정할 단계는 아니라는게 지배적의 의견이죠.
세상의 흩뿌려진 많은 공공 데이터는 선진국 위주의 백인 남성의 글이 많아서..라고..
이제 부터 개발 플랫폼들의 진검 승부가 펼쳐 진다고 들었습니다.
여기서 도태되면.......인공지능 시장에서 사라진다고 했어요.
이후 의도적으로 98%까지만 할 수 있게 해놓고 보조하는 개념으로 사용하겠죠.
물론 98%만 되어도 인간의 작업 대부분은 할 수 있을꺼라 봅니다.
그런데 로봇이 일자리를 뺏으면 인간은 일자리 공급이 줄어드니 임금이 낮아질텐데 그러면
로봇이 인간의 가성비를 이기기 힘들지 않을까 싶습니다.
그 전에 에볼루션이 올지 매트릭스가 올지는 아무도 모르죠..