인간은 왜 적은 데이터로도 잘 배우나
AI 얘기할 때 항상 나오는 말이 있습니다.
> “인간은 예시 몇 개만 봐도 금방 배우는데,
AI는 왜 이렇게 데이터를 많이 처먹어야 하냐?”
이 차이를 설명할 때 자주 쓰는 개념이 전이학습(transfer learning)**입니다.
우리는 살아오면서 이미
“세상은 대충 이렇게 돌아간다”라는 상식·직관·패턴을 잔뜩 쌓아두고 있고
새로운 문제를 만나면 그걸 다른 데서 배운 패턴을 가져와서 푸는 식으로 대응합니다.
예를 들어:
운전은 처음이지만, 사람 걸어다니는 거 보고
“저 사람은 치면 안 된다”는 걸 이미 알고 있고
수학은 처음인데, 규칙 찾고 패턴 읽는 연습은
음악·게임·퍼즐 하면서 이미 해왔던 사람은
남들보다 훨씬 빨리 적응하죠.
이게 바로 “다른 데서 배운 걸 가져와서 쓰는” 전이학습입니다.
AI도 “데이터 폭탄”만으로는 한계에 가까워지는 중
지금까지 AI 발전은 거의 이렇게 밀어붙였습니다.
더 큰 모델
더 많은 데이터
더 많은 전기와 더 비싼 GPU
이 방식은 여전히 효과가 있긴 한데,
이제는 데이터 수집 비용도, 훈련 비용도 너무 커졌습니다.
그래서 요즘 연구 흐름이 조금 바뀌고 있습니다.
> “새 데이터를 무한정 긁어오는 것보다,
이미 가진 데이터를 더 똑똑하게 쓰는 방법이 없을까?”
여기서 나오는 키워드가:
전이학습
LLM(대형 언어모델)
월드모델(world model), 즉 세계 시뮬레이션
입니다.
---
LLM + 자율주행: 왜 붙이면 좋아지나?
자율주행을 아주 단순하게 나누면:
1. 눈 역할 – 카메라·라이다로 주변을 보고
2. 손·발 역할 – 핸들·브레이크·가속을 조작하고
3. 머리 역할 – 이 상황에서 뭘 해야 하는지 결정
입니다.
기존 자율주행 모델은 눈+손은 잘하는데,
머리(상식, 추론, 규칙 이해) 쪽은 생각보다 빈 구석이 많았습니다.
여기에 요즘 LLM(챗GPT류)를 섞는 연구가 쏟아지고 있습니다.
교통 법규, 도로 상황, 사회적 상식 같은 걸
언어로 표현하고 이해하는 쪽을 LLM이 도와주고
“이럴 때 사람 운전자는 어떻게 할까?” 같은 판단을
언어·규칙·상식 기반으로 보정해 주는 식입니다.
실험용 환경(시뮬레이터, 특정 데이터셋 기준)이긴 하지만,
신호·표지판·우선순위 준수
돌발 상황 대처
위험한 행동을 피하는 빈도
같은 지표에서, 기존 모델보다 눈에 띄게 좋아지는 결과들이 꽤 나왔습니다.
“현실 도로에서 완벽하게 사람과 동급이다”라고 말하기엔 아직 무리지만,
“머리를 하나 더 붙였더니 확실히 똑똑해졌다” 정도는 이미 확인되고 있는 셈입니다.
음악 잘하는 사람이 수학도 잘하는 느낌
이걸 사람 비유로 보면 더 쉽습니다.
음악·수학·언어는 겉으론 전혀 다른 분야인데
패턴 읽고 구조를 이해하는 능력이 좋은 사람은 여러 분야에서 동시에 잘 나오는 경우가 많습니다.
AI에서도 비슷한 현상이 나옵니다.
자율주행용 “눈+손” 모델은
주행 데이터만 보고 배운 모델이고
LLM은 인터넷 텍스트로 세상 상식과 언어를 배운 모델인데
둘을 잘 엮으면,
각각 따로 돌릴 때보다 훨씬 적은 데이터로 더 좋은 주행 성능을 내기도 합니다.
---
월드모델: “게임 연습 모드”를 뇌 속에 넣는 느낌
여기서 한 단계 더 나간 게 월드모델(world model)입니다.
이걸 어려운 말 다 빼고 요약하면:
->현실 세계를 신경망으로 만든 게임 연습 모드처럼 뇌(or 모델) 안에 만들어 놓는 것
입니다.
현실 도로에서 데이터를 조금 모아오고
그걸로 “가상 도로 시뮬레이터”를 신경망으로 만들고
이후에는 이 가상 도로에서
수만 번, 수십만 번 사고 내도 상관없으니까
마음껏 실험하고, 실패해 보고, 다시 학습합니다.
이러면 장점이 뻔합니다.
현실에서 위험하고 비싼 시행착오를
내부 시뮬레이션 안에서 값싸게 대량으로 해볼 수 있습니다.
그리고 여기에 LLM을 더하면:
월드모델: “이 상황에서 물리적으로 무슨 일이 일어날지” 시뮬레이션
LLM: “이 중에 법규·상식·안전 측면에서 어떤 선택이 맞는지” 판단
이 조합이 가능해집니다.
---
“데이터 vs 시뮬레이션”이 아니라 “새로운 스케일링 축”
가끔 이렇게 말하는 경우가 있습니다.
> “이제는 데이터보다 시뮬레이션이 더 중요하다”
정확하게 말하면 이렇게 바꾸는 게 맞습니다.
> 앞으로는
무한정 새로운 데이터를 긁어 모으는 것보다,
이미 모은 데이터를 잘 압축해서 월드모델을 만들고,
그 안에서 가상 경험을 엄청나게 늘리고,
그 경험을 LLM 같은 상식·언어 모델과 연결하는 쪽이
또 하나의 성장 방향(스케일링 축)이 되고 있다.
즉,
“데이터냐 시뮬레이션이냐”의 싸움이 아니라
“좋은 데이터 + 잘 만든 월드모델 + 시뮬레이션 + LLM”
이 한 세트로 돌아가는 그림에 가까워지고 있다는 얘기입니다.
---
한 줄로 요약하면
> 인간이 적은 데이터로도 잘 배우는 이유는
이미 머릿속에 “세계에 대한 대충 맞는 시뮬레이터(월드모델)”를 갖고 있고,
거기에 전이학습을 걸어 쓰기 때문이고,
요즘 AI도 같은 방향 —
월드모델 + 시뮬레이션 + LLM — 으로 따라가고 있다. 입니다.
/Vollago
승리할 확률이 올라가는거죠
동등한 입장이면 데이터 많이 가진 쪽이 유리하다는 말 자체는 통계적으로 맞는 말이긴 한데
현실에선 그 동등한 입장이라는 가정이 거의 안 성립하죠.
실제로는
연산 비용(몇 번이나 크게 학습 돌릴 수 있는지)
지연시간와 속도(온디바이스 실시간 서비스 제약)
데이터 품질 도메인 적합성
이런 것들이 다 같이 엮여서 승부가 나옵니다.
같은 성능이라면 더 적은 데이터로, 더 작은 모델로, 더 빠르게 돌릴 수 있는 쪽이 제품과 서비스에서는 훨씬 유리하고,
그래서 요즘 연구도 데이터 더 퍼붓기보다 전이학습, 월드모델, 시뮬레이션 기반으로 샘플 효율을 올리는 방향이 많이 나오고 있습니다.
그러니까 데이터 많이 가진 쪽이 항상 이긴다라기보다는,
이제는 데이터 효율 + 속도를 잘 뽑는 쪽이 이길 확률이 점점 올라가는 쪽으로 가는 중이라고 보는 게 더 맞습니다. 이쪽이 재귀개선에서도 유리합니다. 적은 데이터의 모델로 수억명을 토론시키는게 더 낫다는 말입니다
데이터 많은 쪽이 최적화에서 불리하다고 한 적은 없고요
데이터 많이 가진 쪽이 최적화에서도 자동으로 유리하다는 전제가 성립 안 한다는 얘기를 한 겁니다.
실제로 딥시크는
빅테크만큼 데이터 gpu가 없으니까
어쩔 수 없이 효율 아키텍처 전략에 몰빵해서
비용 성능비에서 오히려 앞질러 버렸고요. 그래서 빅테크들 주가가 급락을 좀 했었죠
이걸 보면
데이터 많음이 최적화에서도 항상 유리
이 식의 단순한 등식은 현실에서 이미 깨진 거라고 봐야죠.
현실적으로 데이터가 늘어날수록 라벨링이나 기타 정제비용 프라이버시 비용등 난이도가 기하급수적으로 증가합니다. 발목 잡을 수도 있는거죠
데이터가 많은쪽이 유리한건 사실이지만 그 데이터가 할루시네이션도 만드는거라,
결국 정답을 찾는 과정에 어떤 방법으로 접근하냐가 승부의 관건이라고 생각합니다.
더군다나 양사의 바라보는 관점이 다른것(튜닝 방식)도 종국에가서는 큰 차이가 날꺼라 생각합니다.
완전자율주행에대해 회의적인 의견을 내는 사람이 많았는데
곧 특이점이 온다는 말씀이신가요?
암튼 빨리 완전 자율주행되서 부산까지 영화보며 가고싶네요..