By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance. While this capability has been demonstrated in other fields such as computer vision, natural language processing or speech recognition, it remains to be shown in robotics, where the generalization capabilities of the models are particularly critical due to the difficulty of collecting real-world robotic data. We argue that one of the keys to the success of such general robotic models lies with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the diverse, robotic data. In this paper, we present a model class, dubbed Robotics Transformer, that exhibits promising scalable model properties. We verify our conclusions in a study of different model classes and their ability to generalize as a function of the data size, model size, and data diversity based on a large-scale data collection on real robots performing real-world tasks.
논문 초록에도 있듯 VLA는 트렌스포머 모델이 핵심입니다.
제가 롤베이스라고 이야기 한건 기존에 프로그래밍 되는 롤이 VLA로 대체 하려는거라는 겁니다 단순 경로나 표지판 인식 같은 npl 모델이 아니라요 e2e만으로는 아메바 수준의 행동을 하니 고성능화된 vla가 e2e 모델을 감독하는 형태로 요즘 나오고 있죠
자율차 모델중에 1~100까지 모든 업체는 기본적으로 NPL을 쓰는데 e2e는 예초에 자율주행 모델을 만드는 기본중에 기본일뿐이죠
@memberst님 vla는 비전랭귀지 멀티모델이고... 그 vla가 e2e에 들어가는 주행궤적 그려주는 엔진인거구요. e2e는 카메라 입력 부터 프로세싱 거쳐서 최종 출력까지를 말합니다.vla가 카메라에서 들어온 영상을 보고 궤적을 그리는겁니다. 그래서 e2e안에 vla가 핵심엔진으로 있는거죠.아마도요..
그래서 e2e에 vla가 들어가 있는거죠ㅎㅎ
그리고 그 e2e를 보조해주는 클래식스택(라이다나 레이더 기타등등, 스크립트 기타등등) 이 병렬로 돌아가는 거랍니다.
@프린스오마르님 몇몇 회사는 자체적으로 하지만 하드웨어는 현재로서는 엔비디아 제품말고는 없습니다 요즘은 자체칩 개발해서 쓴다고는 하지만 아직 힘들죠 대표회사인 byd도 엔비디아 오린을 사용중이고 혹시나 해서 플랜 b로 계속 자체칩 개발중입니다 모든 회사가 그렇지만 기술종속을 우려해서 대부분 회사는 차제 칩이나 자체 소프트웨어 영역을 구축하죠
블피
IP 210.♡.73.33
01-26
2026-01-26 16:44:02
·
@memberst님 엔비디아가 파도파도 어마어마한 기업이군요.... 괜히 주가1등 하는 게 아니네요;;;
알파마요 가져다 써도 어차피 자기 색을 입혀서 구현하는게 중요하고..
그러기 위해선 아트리아는 유지하고 이걸 보이게 하겠죠. 마치 삼성이 OneUI를 내세우듯이요.
사실 조금 시간이 지나면 각 모듈별로 더 나은 회사가 생길거고.. 그럼 여러가지 가져다 쓸 것 같네요.
지금 코딩쪽 AI래퍼들만 봐도, UX는 제미니, 분석은 클로드. 코딩자체는 그록.. 이런식으로 쓰는게 정말 결과가 좋으니까요. 뭐 하나만 쓰는게 아니라요.
갑자기 E2E 하겠다고 발표한건지...
포티투닷 규모대비 너무 많은걸 하려고 한거 아닐까 싶은데...
요즘 그냥 유행하듯 다들 e2e 그러러는데. 그냥 마케팅 용어에 가깝습니다
알파 마요도 마찬가지로 e2e 기반이 아닙니다
롤기반의 완성형으로 가는게 알파마요 같은 감독 학습시스템이죠
음.. 제가 말하려던건
포티투닷은 sdv 전반적인 구조와 거기에 들어가는 제어장치 설계, 차량os, 개발환경, 등등까지 했는데
자율주행까지 한다고 한게 과부하 온게 아닐까 싶은..
오토에버가 있어요 ㅎㅎ
e2e는 마케팅 용어 라기 보다 해당 기술의 원조가 된 논문이름에서 따온겁니다.
그 논문 기반으로 테슬라의 FSD가 나왔고 알파마요도 그 논문의 변조이죠.
알파마요는 VLA 입니다
VLA는 E2E에 사유를 집어넣은 모델입니다;; E2E가 어디서 쓴 논문인지, 어떤 개념인진 알고 그런말을 하시나요?
VLA는 E2E 다음스텝모델이고 룰베이스모델과는 정 반대로 접근하는 개념인데 뭔소릴하세요?
구글이 Rt-1이 그 시조격이고요
https://robotics-transformer1.github.io/assets/rt1.pdf
E2E에서의 단점을 더 개선한거지 E2E개념을 버린건가요?
님이 룰베이스라고 말씀하시지 않았나요?
VLA의 한부분에 e2e가 있는거지 e2e가 VLA의 핵심 기술이 아닙니다.
By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance. While this capability has been demonstrated in other fields such as computer vision, natural language processing or speech recognition, it remains to be shown in robotics, where the generalization capabilities of the models are particularly critical due to the difficulty of collecting real-world robotic data. We argue that one of the keys to the success of such general robotic models lies with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the diverse, robotic data. In this paper, we present a model class, dubbed Robotics Transformer, that exhibits promising scalable model properties. We verify our conclusions in a study of different model classes and their ability to generalize as a function of the data size, model size, and data diversity based on a large-scale data collection on real robots performing real-world tasks.
논문 초록에도 있듯 VLA는 트렌스포머 모델이 핵심입니다.
제가 롤베이스라고 이야기 한건 기존에 프로그래밍 되는 롤이 VLA로 대체 하려는거라는 겁니다
단순 경로나 표지판 인식 같은 npl 모델이 아니라요
e2e만으로는 아메바 수준의 행동을 하니
고성능화된 vla가 e2e 모델을 감독하는 형태로 요즘 나오고 있죠
자율차 모델중에 1~100까지 모든 업체는 기본적으로 NPL을 쓰는데 e2e는 예초에
자율주행 모델을 만드는 기본중에 기본일뿐이죠
vla는 e2e고 룰이 감시역할로 감시합니다.
엔비디아 오린칩이 두개가 들어가는데 하나는 e2e담당이고 하나는 룰베이스 감독 모델입니다
제가 알기로는 그렇습니다ㅎ
쉽게보면 이렇다네요ㅎㅎ 하드웨어라기보다 소프트웨어적으로 e2e랑 룰베이스가 병렬로 돌아서 검증하네요
e2e가 지랄나도 룰이 잡아주는 형태이지 않나 싶습니다.
https://blogs.nvidia.co.kr/blog/alpamayo-autonomous-vehicle-development/
알파마요는 VLA 모델입니다 엔비디아 설명이 아주 간단하죠
설마 차에서 돌아가는 모델 구조를 저거라고 이해한건 아니겠죠?
누구는 개발 프레임워크 이야기 하고 누군 차에서 돌리는 모델 구조 이야기 하고 있으니...
E2E + LLM 여기에 룰을 감독하게 또 붙은 방식이라
VLA방식이라고 말하는게 맞죠.
그래서 e2e에 vla가 들어가 있는거죠ㅎㅎ
그리고 그 e2e를 보조해주는 클래식스택(라이다나 레이더 기타등등, 스크립트 기타등등) 이 병렬로 돌아가는 거랍니다.
내부 정리가 안되나 보군요
해당 비즈니스를 리딩할 리더가 없는게 제일 큰 문제 같습니다.
사실인지 모르지만 얼마전에 그만둔 그분이 중국산 라이센스 했다는 이야기 듣고 왜 산으로 가고 있었는지 알겠더군요.
내가 다 만들어서 할까?
중에 생각 해 보면 답이 나오는것 같네요.
10년전 테슬라도 엔비디아 선택하고 3년 노하우 쌓아서 자체 칩개발을 해서 지금에 도달 했는데, 현대는 어떤 선택을 할까요?🤔
중국은 화웨이 등 회사들이 자체적으로 한다고 생각했는데 의외네요?
그것도 미국 껄?;;
요즘은 자체칩 개발해서 쓴다고는 하지만 아직 힘들죠
대표회사인 byd도 엔비디아 오린을 사용중이고 혹시나 해서 플랜 b로 계속 자체칩 개발중입니다
모든 회사가 그렇지만 기술종속을 우려해서 대부분 회사는 차제 칩이나
자체 소프트웨어 영역을 구축하죠
이러면 송사장이 딱히 틀린 건 아니었던 거네요 ㅋㅋ
엔비디아는 알파마요 출시와 함께 세계 3위 양산차 판로를 먹게 되었구요.
젠슨황 영업력이 대단하다고 해야하나.. 깐부회동 효과 확실했네요 ㅋㅋ
요약: "90점 수준"은 대체로 어떤 의미?
Perception → Vehicle mAPH 90%+ = 거의 불가능에 가까운 초월급 성능 (85~88%만 해도 탑클래스)
Motion/Sim → 리더보드 상위 13위권, 또는 80~85%+ realism 같은 매우 경쟁력 있는 결과
전체적으로 Waymo 데이터셋은 매우 어렵기 때문에 80점 후반~90점 초반만 돼도 세계 최고 수준 연구로 인정받아요.