제 2의 러다이트 운동은 데이터 오염 시도가 되지 않을까요 : 클리앙

인터넷이든 출판물이든 어디에 올리는 어떤 컨텐츠(영상, 소리, 텍스트)든 AI 학습의 먹이가 되고 있습니다.

뭐 robot.txt로 AI 학습을 막는다고는 하지만 AI 업체들이 실제로 어떤 방법을 쓸지, 간접적으로 긁어갈지 모르죠.

특히 과학기술이나 예술 쪽은 내가 수십 시간, 수 개월에 걸쳐서 열심히 작업한 결과물을 인터넷에 노출하는 순간 AI 업체에서 그걸 낼름 학습해서 좋은 부분만 피킹해갈 겁니다.

지금은 다들 이걸 제대로 인지하지 못해서 아직까진 열심히 인터넷에 컨텐츠를 게시하지만 대부분 몇 년 안에는 깨달으리라 봅니다. AI가 학습 대상으로 사용하는 소스조차 AI가 만들어낸 거라면 무한 자가 증류 현상에 빠져서 학습 품질이 낮아집니다. 그러니 AI한테 가장 가치 있는 먹잇감은 사람이 손수 열심히 만든 컨텐츠가 되겠죠.

이를 막기 위해 사람들은 AI가 학습하기 어려운 형태로, 혹은 데이터를 오염시키기 위해 인터넷에 컨텐츠를 노출할 겁니다.

예를 들어 이런 식으로 "한글을 E훼하긔 어렾게 씌는" 거죠.

일부러 잘못된 정보를 올려서 AI의 학습을 방해하려는 사람들도 많이 생길 거고요.

결국 AI가 가중치를 높게 두고 학습하는 소스조차 AI 사용에 물들어버리면 품질 좋은 학습은 더이상 이루어질 수 없을테니까요.

앞으로 검증 가능한 깨끗한 수작업 컨텐츠는 점점 폐쇄적 공간으로 이동하거나 유료화될 겁니다. 그게 돈이 되는 시대가 올 거니까요. 그렇게 되면 개방이 주 원동력이 되던 인터넷 세계도 지금과는 달라지겠죠.

모두의공원

제 2의 러다이트 운동은 데이터 오염 시도가 되지 않을까요 4