CLIEN

본문 바로가기 메뉴 바로가기 보기설정 테마설정
톺아보기 공감글
커뮤니티 커뮤니티전체 C 모두의광장 F 모두의공원 I 사진게시판 Q 아무거나질문 D 정보와자료 N 새로운소식 T 유용한사이트 P 자료실 E 강좌/사용기 L 팁과강좌 U 사용기 · 체험단사용기 W 사고팔고 J 알뜰구매 S 회원중고장터 B 직접홍보 · 보험상담실 H 클리앙홈
소모임 소모임전체 ·굴러간당 ·주식한당 ·아이포니앙 ·MaClien ·방탄소년당 ·일본산당 ·자전거당 ·개발한당 ·이륜차당 ·소시당 ·나스당 ·안드로메당 ·AI당 ·걸그룹당 ·영화본당 ·골프당 ·클다방 ·사과시계당 ·디아블로당 ·패스오브엑자일당 ·가상화폐당 ·노키앙 ·IoT당 ·축구당 ·젬워한당 ·노젓는당 ·창업한당 ·윈폰이당 ·리눅서당 ·육아당 ·소셜게임한당 ·여행을떠난당 ·바다건너당 ·물고기당 ·라즈베리파이당 ·캠핑간당 ·3D메이킹 ·X세대당 ·ADHD당 ·AI그림당 ·날아간당 ·배드민턴당 ·야구당 ·농구당 ·블랙베리당 ·곰돌이당 ·비어있당 ·FM당구당 ·블록체인당 ·보드게임당 ·활자중독당 ·볼링친당 ·냐옹이당 ·문명하셨당 ·클래시앙 ·콘솔한당 ·요리한당 ·쿠키런당 ·대구당 ·DANGER당 ·뚝딱뚝당 ·개판이당 ·동숲한당 ·날아올랑 ·전기자전거당 ·e북본당 ·갖고다닌당 ·이브한당 ·패셔니앙 ·도시어부당 ·FM한당 ·맛있겠당 ·포뮬러당 ·안경쓴당 ·차턴당 ·총쏜당 ·땀흘린당 ·하스스톤한당 ·히어로즈한당 ·인스타한당 ·KARA당 ·키보드당 ·꼬들한당 ·덕질한당 ·어학당 ·가죽당 ·레고당 ·LOLien ·Mabinogien ·임시소모임 ·미드당 ·밀리터리당 ·땅판당 ·헌팅한당 ·오른당 ·MTG한당 ·소리당 ·적는당 ·방송한당 ·PC튜닝한당 ·찰칵찍당 ·그림그린당 ·소풍간당 ·심는당 ·품앱이당 ·리듬탄당 ·달린당 ·Sea마당 ·SimSim하당 ·심야식당 ·윈태블릿당 ·미끄러진당 ·나혼자산당 ·스타한당 ·스팀한당 ·파도탄당 ·퐁당퐁당 ·테니스친당 ·테스트당 ·빨콩이당 ·공대시계당 ·터치패드당 ·트윗당 ·VR당 ·시계찬당 ·WebOs당 ·위스키당 ·와인마신당 ·WOW당
임시소모임
고객지원
  • 게시물 삭제 요청
  • 불법촬영물등 신고
  • 쪽지 신고
  • 닉네임 신고
  • 제보 및 기타 제안
© CLIEN.NET
공지[점검] 잠시후 서비스 점검을 위해 약 30분간 접속이 차단됩니다. (금일 18:15 ~ 18:45)

모두의공원

ai에서 데이터가 많다고 승리하지는 않습니다. 8

2
2025-11-15 10:01:42 114.♡.154.99
macman

인간은 왜 적은 데이터로도 잘 배우나


AI 얘기할 때 항상 나오는 말이 있습니다.


> “인간은 예시 몇 개만 봐도 금방 배우는데,

AI는 왜 이렇게 데이터를 많이 처먹어야 하냐?”




이 차이를 설명할 때 자주 쓰는 개념이 전이학습(transfer learning)**입니다.


우리는 살아오면서 이미

“세상은 대충 이렇게 돌아간다”라는 상식·직관·패턴을 잔뜩 쌓아두고 있고


새로운 문제를 만나면 그걸 다른 데서 배운 패턴을 가져와서 푸는 식으로 대응합니다.



예를 들어:


운전은 처음이지만, 사람 걸어다니는 거 보고

“저 사람은 치면 안 된다”는 걸 이미 알고 있고


수학은 처음인데, 규칙 찾고 패턴 읽는 연습은

음악·게임·퍼즐 하면서 이미 해왔던 사람은

남들보다 훨씬 빨리 적응하죠.



이게 바로 “다른 데서 배운 걸 가져와서 쓰는” 전이학습입니다.




AI도 “데이터 폭탄”만으로는 한계에 가까워지는 중


지금까지 AI 발전은 거의 이렇게 밀어붙였습니다.


더 큰 모델


더 많은 데이터


더 많은 전기와 더 비싼 GPU



이 방식은 여전히 효과가 있긴 한데,

이제는 데이터 수집 비용도, 훈련 비용도 너무 커졌습니다.


그래서 요즘 연구 흐름이 조금 바뀌고 있습니다.


> “새 데이터를 무한정 긁어오는 것보다,

이미 가진 데이터를 더 똑똑하게 쓰는 방법이 없을까?”




여기서 나오는 키워드가:


전이학습


LLM(대형 언어모델)


월드모델(world model), 즉 세계 시뮬레이션



입니다.



---


LLM + 자율주행: 왜 붙이면 좋아지나?


자율주행을 아주 단순하게 나누면:


1. 눈 역할 – 카메라·라이다로 주변을 보고



2. 손·발 역할 – 핸들·브레이크·가속을 조작하고



3. 머리 역할 – 이 상황에서 뭘 해야 하는지 결정




입니다.


기존 자율주행 모델은 눈+손은 잘하는데,

머리(상식, 추론, 규칙 이해) 쪽은 생각보다 빈 구석이 많았습니다.


여기에 요즘 LLM(챗GPT류)를 섞는 연구가 쏟아지고 있습니다.


교통 법규, 도로 상황, 사회적 상식 같은 걸

언어로 표현하고 이해하는 쪽을 LLM이 도와주고


“이럴 때 사람 운전자는 어떻게 할까?” 같은 판단을

언어·규칙·상식 기반으로 보정해 주는 식입니다.



실험용 환경(시뮬레이터, 특정 데이터셋 기준)이긴 하지만,


신호·표지판·우선순위 준수


돌발 상황 대처


위험한 행동을 피하는 빈도



같은 지표에서, 기존 모델보다 눈에 띄게 좋아지는 결과들이 꽤 나왔습니다.

“현실 도로에서 완벽하게 사람과 동급이다”라고 말하기엔 아직 무리지만,

“머리를 하나 더 붙였더니 확실히 똑똑해졌다” 정도는 이미 확인되고 있는 셈입니다.



음악 잘하는 사람이 수학도 잘하는 느낌


이걸 사람 비유로 보면 더 쉽습니다.


음악·수학·언어는 겉으론 전혀 다른 분야인데


패턴 읽고 구조를 이해하는 능력이 좋은 사람은 여러 분야에서 동시에 잘 나오는 경우가 많습니다.



AI에서도 비슷한 현상이 나옵니다.


자율주행용 “눈+손” 모델은

주행 데이터만 보고 배운 모델이고


LLM은 인터넷 텍스트로 세상 상식과 언어를 배운 모델인데



둘을 잘 엮으면,

각각 따로 돌릴 때보다 훨씬 적은 데이터로 더 좋은 주행 성능을 내기도 합니다.



---


월드모델: “게임 연습 모드”를 뇌 속에 넣는 느낌


여기서 한 단계 더 나간 게 월드모델(world model)입니다.


이걸 어려운 말 다 빼고 요약하면:


->현실 세계를 신경망으로 만든 게임 연습 모드처럼 뇌(or 모델) 안에 만들어 놓는 것




입니다.


현실 도로에서 데이터를 조금 모아오고


그걸로 “가상 도로 시뮬레이터”를 신경망으로 만들고


이후에는 이 가상 도로에서


수만 번, 수십만 번 사고 내도 상관없으니까


마음껏 실험하고, 실패해 보고, 다시 학습합니다.




이러면 장점이 뻔합니다.


현실에서 위험하고 비싼 시행착오를


내부 시뮬레이션 안에서 값싸게 대량으로 해볼 수 있습니다.



그리고 여기에 LLM을 더하면:


월드모델: “이 상황에서 물리적으로 무슨 일이 일어날지” 시뮬레이션


LLM: “이 중에 법규·상식·안전 측면에서 어떤 선택이 맞는지” 판단



이 조합이 가능해집니다.



---


“데이터 vs 시뮬레이션”이 아니라 “새로운 스케일링 축”


가끔 이렇게 말하는 경우가 있습니다.


> “이제는 데이터보다 시뮬레이션이 더 중요하다”




정확하게 말하면 이렇게 바꾸는 게 맞습니다.


> 앞으로는


무한정 새로운 데이터를 긁어 모으는 것보다,


이미 모은 데이터를 잘 압축해서 월드모델을 만들고,


그 안에서 가상 경험을 엄청나게 늘리고,


그 경험을 LLM 같은 상식·언어 모델과 연결하는 쪽이

또 하나의 성장 방향(스케일링 축)이 되고 있다.





즉,


“데이터냐 시뮬레이션이냐”의 싸움이 아니라


“좋은 데이터 + 잘 만든 월드모델 + 시뮬레이션 + LLM”

이 한 세트로 돌아가는 그림에 가까워지고 있다는 얘기입니다.




---


한 줄로 요약하면


> 인간이 적은 데이터로도 잘 배우는 이유는

이미 머릿속에 “세계에 대한 대충 맞는 시뮬레이터(월드모델)”를 갖고 있고,

거기에 전이학습을 걸어 쓰기 때문이고,

요즘 AI도 같은 방향 —

월드모델 + 시뮬레이션 + LLM — 으로 따라가고 있다. 입니다.


macman 님의 게시글 댓글
  • 주소복사
  • Facebook
  • X(Twitter)
댓글 • [8]
kissing
IP 121.♡.79.213
11-15 2025-11-15 10:16:47
·
하지만 사람은 아무리 똑똑해도 죽으면 끝이지만 ai는 저장공간과 전기만 있으면 영원하죠. 장기적인 관점에서 보면 사람은 ai를 이기지 못하지 않을까 합니다. 인간의 유한한 수명이 제일 큰 약점이니까요.
Kieth
IP 125.♡.124.15
11-15 2025-11-15 11:14:52
·
kissing님// 우리에게도 글이 있죠. ㅋㅋ
/Vollago
해요해요
IP 115.♡.254.12
11-15 2025-11-15 10:17:56
·
데이터가 많다고 무조건 승리하진 않지만 ... 결국 동등한 입장이면 많이 데이터를 가지고 있는쪽이 유리합니다....
승리할 확률이 올라가는거죠
macman
IP 114.♡.154.99
11-15 2025-11-15 10:26:24 / 수정일: 2025-11-15 10:27:16
·
@해요해요님

동등한 입장이면 데이터 많이 가진 쪽이 유리하다는 말 자체는 통계적으로 맞는 말이긴 한데
현실에선 그 동등한 입장이라는 가정이 거의 안 성립하죠.

실제로는
연산 비용(몇 번이나 크게 학습 돌릴 수 있는지)
지연시간와 속도(온디바이스 실시간 서비스 제약)
데이터 품질 도메인 적합성
이런 것들이 다 같이 엮여서 승부가 나옵니다.

같은 성능이라면 더 적은 데이터로, 더 작은 모델로, 더 빠르게 돌릴 수 있는 쪽이 제품과 서비스에서는 훨씬 유리하고,
그래서 요즘 연구도 데이터 더 퍼붓기보다 전이학습, 월드모델, 시뮬레이션 기반으로 샘플 효율을 올리는 방향이 많이 나오고 있습니다.
그러니까 데이터 많이 가진 쪽이 항상 이긴다라기보다는,
이제는 데이터 효율 + 속도를 잘 뽑는 쪽이 이길 확률이 점점 올라가는 쪽으로 가는 중이라고 보는 게 더 맞습니다. 이쪽이 재귀개선에서도 유리합니다. 적은 데이터의 모델로 수억명을 토론시키는게 더 낫다는 말입니다
해요해요
IP 115.♡.254.12
11-15 2025-11-15 10:33:50 / 수정일: 2025-11-15 10:36:57
·
@macman님 많은 데이터를 가지고 있는 기업이 적은 데이터를 가지고 있는 기업보다 최적화가 불리하다고 생각하지 않습니다... 애초에 많은 데이터를 가지고 있는쪽이 적은 데이터 모델로 개발 못할 이유도 없습니다
macman
IP 114.♡.154.99
11-15 2025-11-15 10:41:32 / 수정일: 2025-11-15 10:44:51
·
@해요해요님

데이터 많은 쪽이 최적화에서 불리하다고 한 적은 없고요
데이터 많이 가진 쪽이 최적화에서도 자동으로 유리하다는 전제가 성립 안 한다는 얘기를 한 겁니다.
실제로 딥시크는
빅테크만큼 데이터 gpu가 없으니까
어쩔 수 없이 효율 아키텍처 전략에 몰빵해서
비용 성능비에서 오히려 앞질러 버렸고요. 그래서 빅테크들 주가가 급락을 좀 했었죠
이걸 보면
데이터 많음이 최적화에서도 항상 유리
이 식의 단순한 등식은 현실에서 이미 깨진 거라고 봐야죠.

현실적으로 데이터가 늘어날수록 라벨링이나 기타 정제비용 프라이버시 비용등 난이도가 기하급수적으로 증가합니다. 발목 잡을 수도 있는거죠
웃남이
IP 183.♡.172.186
11-15 2025-11-15 10:45:06
·
저도 아래 댓글단 글과 비슷한 주제라 말씀하신거에 동의하는데,
데이터가 많은쪽이 유리한건 사실이지만 그 데이터가 할루시네이션도 만드는거라,

결국 정답을 찾는 과정에 어떤 방법으로 접근하냐가 승부의 관건이라고 생각합니다.
더군다나 양사의 바라보는 관점이 다른것(튜닝 방식)도 종국에가서는 큰 차이가 날꺼라 생각합니다.
카이저칩스
IP 121.♡.205.185
11-15 2025-11-15 16:32:45
·
다들 자율주행의 발전이 느리다고
완전자율주행에대해 회의적인 의견을 내는 사람이 많았는데

곧 특이점이 온다는 말씀이신가요?

암튼 빨리 완전 자율주행되서 부산까지 영화보며 가고싶네요..
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp
지나치게 큰 이미지의 크기는 조정될 수 있습니다.
목록으로
글쓰기
글쓰기
목록으로 댓글보기 이전글 다음글
아이디  ·  비밀번호 찾기 회원가입
이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고
개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책
©   •  CLIEN.NET
보안 강화를 위한 이메일 인증
안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

  • 이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
  • 이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
  • 2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
  • 개인정보에서도 이메일 인증을 할 수 있습니다.
지금 이메일 인증하기
등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.