ai에서 데이터가 많다고 승리하지는 않습니다. : 클리앙

인간은 왜 적은 데이터로도 잘 배우나

AI 얘기할 때 항상 나오는 말이 있습니다.

> “인간은 예시 몇 개만 봐도 금방 배우는데,

AI는 왜 이렇게 데이터를 많이 처먹어야 하냐?”

이 차이를 설명할 때 자주 쓰는 개념이 전이학습(transfer learning)**입니다.

우리는 살아오면서 이미

“세상은 대충 이렇게 돌아간다”라는 상식·직관·패턴을 잔뜩 쌓아두고 있고

새로운 문제를 만나면 그걸 다른 데서 배운 패턴을 가져와서 푸는 식으로 대응합니다.

예를 들어:

운전은 처음이지만, 사람 걸어다니는 거 보고

“저 사람은 치면 안 된다”는 걸 이미 알고 있고

수학은 처음인데, 규칙 찾고 패턴 읽는 연습은

음악·게임·퍼즐 하면서 이미 해왔던 사람은

남들보다 훨씬 빨리 적응하죠.

이게 바로 “다른 데서 배운 걸 가져와서 쓰는” 전이학습입니다.

AI도 “데이터 폭탄”만으로는 한계에 가까워지는 중

지금까지 AI 발전은 거의 이렇게 밀어붙였습니다.

더 큰 모델

더 많은 데이터

더 많은 전기와 더 비싼 GPU

이 방식은 여전히 효과가 있긴 한데,

이제는 데이터 수집 비용도, 훈련 비용도 너무 커졌습니다.

그래서 요즘 연구 흐름이 조금 바뀌고 있습니다.

> “새 데이터를 무한정 긁어오는 것보다,

이미 가진 데이터를 더 똑똑하게 쓰는 방법이 없을까?”

여기서 나오는 키워드가:

전이학습

LLM(대형 언어모델)

월드모델(world model), 즉 세계 시뮬레이션

입니다.

---

LLM + 자율주행: 왜 붙이면 좋아지나?

자율주행을 아주 단순하게 나누면:

1. 눈 역할 – 카메라·라이다로 주변을 보고

2. 손·발 역할 – 핸들·브레이크·가속을 조작하고

3. 머리 역할 – 이 상황에서 뭘 해야 하는지 결정

입니다.

기존 자율주행 모델은 눈+손은 잘하는데,

머리(상식, 추론, 규칙 이해) 쪽은 생각보다 빈 구석이 많았습니다.

여기에 요즘 LLM(챗GPT류)를 섞는 연구가 쏟아지고 있습니다.

교통 법규, 도로 상황, 사회적 상식 같은 걸

언어로 표현하고 이해하는 쪽을 LLM이 도와주고

“이럴 때 사람 운전자는 어떻게 할까?” 같은 판단을

언어·규칙·상식 기반으로 보정해 주는 식입니다.

실험용 환경(시뮬레이터, 특정 데이터셋 기준)이긴 하지만,

신호·표지판·우선순위 준수

돌발 상황 대처

위험한 행동을 피하는 빈도

같은 지표에서, 기존 모델보다 눈에 띄게 좋아지는 결과들이 꽤 나왔습니다.

“현실 도로에서 완벽하게 사람과 동급이다”라고 말하기엔 아직 무리지만,

“머리를 하나 더 붙였더니 확실히 똑똑해졌다” 정도는 이미 확인되고 있는 셈입니다.

음악 잘하는 사람이 수학도 잘하는 느낌

이걸 사람 비유로 보면 더 쉽습니다.

음악·수학·언어는 겉으론 전혀 다른 분야인데

패턴 읽고 구조를 이해하는 능력이 좋은 사람은 여러 분야에서 동시에 잘 나오는 경우가 많습니다.

AI에서도 비슷한 현상이 나옵니다.

자율주행용 “눈+손” 모델은

주행 데이터만 보고 배운 모델이고

LLM은 인터넷 텍스트로 세상 상식과 언어를 배운 모델인데

둘을 잘 엮으면,

각각 따로 돌릴 때보다 훨씬 적은 데이터로 더 좋은 주행 성능을 내기도 합니다.

---

월드모델: “게임 연습 모드”를 뇌 속에 넣는 느낌

여기서 한 단계 더 나간 게 월드모델(world model)입니다.

이걸 어려운 말 다 빼고 요약하면:

->현실 세계를 신경망으로 만든 게임 연습 모드처럼 뇌(or 모델) 안에 만들어 놓는 것

입니다.

현실 도로에서 데이터를 조금 모아오고

그걸로 “가상 도로 시뮬레이터”를 신경망으로 만들고

이후에는 이 가상 도로에서

수만 번, 수십만 번 사고 내도 상관없으니까

마음껏 실험하고, 실패해 보고, 다시 학습합니다.

이러면 장점이 뻔합니다.

현실에서 위험하고 비싼 시행착오를

내부 시뮬레이션 안에서 값싸게 대량으로 해볼 수 있습니다.

그리고 여기에 LLM을 더하면:

월드모델: “이 상황에서 물리적으로 무슨 일이 일어날지” 시뮬레이션

LLM: “이 중에 법규·상식·안전 측면에서 어떤 선택이 맞는지” 판단

이 조합이 가능해집니다.

---

“데이터 vs 시뮬레이션”이 아니라 “새로운 스케일링 축”

가끔 이렇게 말하는 경우가 있습니다.

> “이제는 데이터보다 시뮬레이션이 더 중요하다”

정확하게 말하면 이렇게 바꾸는 게 맞습니다.

> 앞으로는

무한정 새로운 데이터를 긁어 모으는 것보다,

이미 모은 데이터를 잘 압축해서 월드모델을 만들고,

그 안에서 가상 경험을 엄청나게 늘리고,

그 경험을 LLM 같은 상식·언어 모델과 연결하는 쪽이

또 하나의 성장 방향(스케일링 축)이 되고 있다.

즉,

“데이터냐 시뮬레이션이냐”의 싸움이 아니라

“좋은 데이터 + 잘 만든 월드모델 + 시뮬레이션 + LLM”

이 한 세트로 돌아가는 그림에 가까워지고 있다는 얘기입니다.

---

한 줄로 요약하면

> 인간이 적은 데이터로도 잘 배우는 이유는

이미 머릿속에 “세계에 대한 대충 맞는 시뮬레이터(월드모델)”를 갖고 있고,

거기에 전이학습을 걸어 쓰기 때문이고,

요즘 AI도 같은 방향 —

월드모델 + 시뮬레이션 + LLM — 으로 따라가고 있다. 입니다.

모두의공원

ai에서 데이터가 많다고 승리하지는 않습니다. 8