송창현 포티투닷 대표 주도 카메라 전환··· 라이다보다 큰 비용 감수해야
...
13일 업계에 따르면 현대차는 지난해 말부터 자율주행 사업부 내 라이다(LiDAR) 기반 프로젝트를 사실상 중단했다. 대신 카메라 기반 자율주행 개발에 역량을 집중하고 있는 것으로 확인됐다. 송창현 현대차 사장겸 포티투닷 대표가 이 프로젝트를 진두지휘하고 있다.
송 사장은 차세대 차량 플랫폼을 총괄하는 AVP 본부장을 겸직하고 있다. 송 사장은 "자율주행 기술의 핵심은 내재화"라며 "외산 모듈 의존도가 높은 라이다보다 엔드투엔드 설계가 가능한 카메라가 적합하다"고 강조한 것으로 알려졌다.
카메라 자율주행 시스템 개발은 송 사장이 대표로 있는 포티투닷이 전담한다. 서비스형 자율주행 운송(TaaS) 전문에 카메라 자율주행을 기반기술로 둔 포티투닷은 2019년 설립, 2022년 현대차에 인수합병됐다. 현대차와 기아가 각각 지분을 약 57%와 38% 보유하고 있다.
최근 현대차는 개발자 컨퍼런스에서 포티투닷 주도 하에 레벨2+ 카메라 자율주행 시스템 '아트리아 AI'를 공개했다. 조직 내부에만 알려져 있던 카메라 자율주행 전략을 공공연하게 드러낸 것이다. 카메라 8대와 레이더 1개로 구성된 아트리아 AI는 내년 소프트웨어정의차량(SDV)의 시범 차량에 접목하고 2027년 말 양산 차량에 적용한다.
◇ "카메라가 더 싸다"는 옛말... 오히려 더 값비싼 선택일지도
라이다는 3차원 공간을 정밀하게 인식하는 센서 모듈이다. 평면(x·y축)과 깊이(z축)를 함께 측정할 수 있어 객체 식별과 거리 판단에서 신뢰도가 높다. 유럽 최대 자동차 부품업체 발레오가 현대차의 주요 라이다 공급업체다. '스칼라'라는 라이다 모듈을 공급한다.
한 때 라이다는 고가의 부품으로 여겨졌다. 단가가 2000달러를 훌쩍 넘는 경우가 많았다. 그러나 최근 발레오를 비롯한 글로벌 공급사들이 라이다 가격을 1000달러 이하로 절반 가까이 인하해 상황이 달라졌다. 발레오는 라이다에 필요한 광학·전자 소자와 소프트웨어를 직접 설계하고 불필요한 기구적 요소를 제거해 단가를 낮췄다. 작년 출시한 스칼라 3의 가격이 500에서 800달러 사이다.
반면 카메라는 2차원(x·y축) 이미지만 처리하기 때문에 정확도가 다소 떨어진다. 깊이(z축)는 인공지능(AI) 알고리즘으로 추정해야 한다. 이를 위해 고도화된 신경망 모델과 방대한 학습 데이터, 그리고 대규모 고성능 컴퓨팅 인프라가 뒷받침돼야 한다.
테슬라는 완전자율주행(FSD) 서비스에 슈퍼컴퓨터 도조(Dojo)를 활용한다. 도조는 테슬라가 직접 설계한 D1·D2 칩과 수만 개의 엔비디아 고성능 그래픽처리장치(GPU)를 바탕으로 가동된다. 카메라 기반 자율주행이 하드웨어 단가 측면에서 유리하더라도 전체 시스템 측면에서 오히려 비용이 더 많이 든다.
현대차 역시 SDV 전용 'h클라우드'를 운영하고 있다. h클라우드는 주로 OTA(무선 업데이트)와 커넥티드, 인포테인먼트 서비스의 허브 역할을 한다. 현대차가 카메라 기반 자율주행차를 양산한다면 h클라우드 또는 포티투닷의 자체 AI 인프라에 대한 대규모 투자가 불가피하다.
◇ 포티투닷 '몸집 불리기' 목적일까
...
업계에 따르면 이번 웨이모 프로젝트는 송 사장이 아닌 장재훈 대표가 직접 추진한 것으로 확인됐다. 송 사장은 로보택시 사업에 관여하지 않고 현대차 자체 차량용 카메라 자율주행 시스템 개발에만 집중한다.
이를 통해 포티투닷은 현대차의 납품을 확장할 방침이다. 일각에서는 "포티투닷의 기업가치 부풀리기를 염두에 둔 전략 아니냐"라는 평가도 나온다.
실제로 현대차 자율주행 사업부 인력이 포티투닷에 파견가는 등 운영비용을 확장하지 않는 선에서 전방위적인 지원이 이뤄지고 있다. 향후 카메라 자율주행에 필요한 AI 컴퓨팅 인프라를 확장한다면 유형자산이 증가해 기업가치를 올리기 유리하다.
그럼에도 포티투닷의 실적은 부진하다.
...
송창현 사장 입장에서 현대차와 기아한테 1조원 이상 투자를 유치한 만큼 빠른 시일 내 수익화를 입증해야 한다. 최근 공개한 아트리아 AI와 모빌리티 운영체제(OS) '플레오스'가 포티투닷의 생존을 건 마지막 승부수가 될 수 있는 셈이다.
출처 : 전자부품 전문 미디어 디일렉(http://www.thelec.kr)
너무 테슬라 따라하네요. 플레오스도 UI 완전 카피캣 수준이던데…
각자의 장단점이 명확 하기 때문에요
중국 업체도 2억 넘는 고가 차량에는 라이다 3개씩 넣고 카메라도 넣고 그럽니다.
그냥 돈이 문제일 뿐이지 센서는 많을수록 안전하겠죠.
차가 군용 전차급으로 무거워지면 교통사고 나도 안 죽는데 그렇게 만들지 않는 이유가 있죠.
자율주행도 현존하는 기술 수준에서 상용화 가능한 선에서 자원의 제약을 받기 때문에 그 안에서 최적점을 찾아야 합니다.
라이다를 '붙인다'고 무조건 좋아지는 것은 아닙니다.
3년전 영상입니다
최근 아이오닉6에 프로토타입으로 적용
Gleo AI (음성명령)
15분~18분
Atria AI (자율주행)
1시간 15분 40초~1시간 18분 10초
https://www.youtube.com/live/8aVWt2qIx2o?si=YqA4MPFlEZNLR7PE
https://www.clien.net/service/board/park/18271082CLIEN
라이다 온리로 자율주행은 불가능하기 때문에 결국 선택지는 위 두개죠.
승자는 결국 역사가 말해줄겁니다.
그럴일은 없을겁니다. 애초에 그럴꺼면 처음부터 그랬어야 합니다. 이미 수년전부터 준비하던거라 아주 늦은 기업 외에는 자율주행은 스스로 하게 될겁니다. 국내에서는 데이터 모으기 굉장히 쉽습니다. 수년전부터 실전 로드테스트 및 국내 도로환경 데이터를 모아왔고 국내는 국산차 수요가 많고 쏘카 등 공유차량 앱도 차량 자체에 설치될꺼라 여기저기서 방대한 데이터 모으기에 좋죠. 다만 데이터 모아서 컨트롤센터에서 처리하는 속도를 더 높여야 하는게 숙제죠. 그리고 테슬라도 데이터 다 소모하고도 FSD가 완성 안된지라 다른 방법도 다 모색해야 하는게 모든 자율주행차량의 숙제 입니다
초기에 나올 자율주행칩이 200TOPS인데 레벨2+ 하기에 차고 넘치는 성능입니다. 400TOPS와 최대 800TOPS까지 나올 예정이고 테슬라 HW3.0이 144TOPS 입니다. HW4.0이 500TOPS 입니다. 중국이 160TOPS~500TOPS대까지 있고 엔비디아칩은 1000TOPS 까지 있죠.
그리고 자율주행칩은 일정 성능 이상에서는 SW 알고리즘과 효율이 중요합니다. 아무리 프로세서 성능이 높아도 더 성능이 떨어지는 프로세서 보다 판단이 느리고 멍 때리는 차량도 있습니다. 그리고 차량 자체의 프로세서가 일정 수준 이상이면 그걸 처리하고 컨트롤 하는 쪽, 서버쪽에 프로세서가 더 중요합니다
아무리 라이다가 싸졌어도 힘듭니다
LiDAR도 Vision도 완벽하지는 않지만, 성능 좋은 LiDAR를 달면 다 되는 것처럼 홍보했는데, 막상 까보니 별로인 게 다 드러났죠
센서는 많을 수록 좋습니다.
비용 문제겠지만 결국 둘다 쓰일거라고 봅니다.
센서퓨전하려면 3~5배의 컴퓨팅파워가 필요하고 각종오류를 잡기가 훨씬 어려워집니다.
그정도의 추가 컴퓨팅파워를 확보한다면 그걸 카메라온리에 집중하면 또 격차가 더 벌어집니다.
완전자율주행기능이 아무리 개선된다해도 사고상황 등 특이사항대처를 위해서 원격주행지원을 의무 탑제할것이라는 점을 감안하면 카메라온리로 가는것이 합리적이고 경제적으로 승자가 될 가능성이 높죠
코드 기반에서는 차이가 얼마 안 나지만, E2E 플래너에서는 엄청난 차이가 납니다.
추가 센서로 인한 전력 증가
라이다와 추가 센서를 추가할 때 전력 소모 증가를 분석하면, 테슬라(카메라+레이더)와 웨이모(라이다+카메라+레이더) 간 차이를 비교할 수 있습니다:
센서 자체 증가: 약 54W(웨이모의 80W - 테슬라의 26W), 이는 주로 라이다(24W)와 추가 레이더(30W)로 인한 것으로 보입니다.
컴퓨팅 파워 증가: 약 1,111W(웨이모의 1,290W - 테슬라의 179W), 이는 라이다 데이터 처리와 센서 퓨전의 복잡성으로 인한 것으로 보입니다.
총 증가: 약 1,165W, 이는 연구의 대형 시스템 모델(20% 증가)과 일치합니다.
비약적으로 증가하네요
AI 요약을 항상 검토해야 하는 이유는 정확한 내용이 아니기 때문이죠
https://www.wired.com/story/self-driving-cars-power-consumption-nvidia-chip/
LLM의 답변을 경계해야 하는건 맞지만 2018년 기사 역시 배제해야 할 데이터 같네요. 기술 흐름이 얼마나 많이 달라졌는데요.
추론 컴퓨팅 파워도 제한이 걸리지만, 이건 더 비싸고 전력 많이 먹는거 어떻게든 박아 넣으면 된다지만
시뮬레이터에서 쓸 "카메라와 라이다가 서로 다른 측정치를 내 놓는 증강 데이터"는 어떻게 만들거죠? 이게 안되면 생짜로 현실 데이터 밖에 못 쓰는 상황이 될텐데요. 그러면 강화학습을 통한 E2E 모델 생성이 불가능해집니다.
코드 기반의 한계에 갇히는거죠.
코드 기반의 한계에 갇힌다는...시뮬레이터는 코드 이상의 도구입니다. 예를 들어 carla나 apollo 같은 오픈소스 자율주행 시뮬레이터는 이미 카메라와 라이다 센서를 모방하는 기능을 제공하며 커스터마이징을 통해 원하는 증강 데이터를 생성할 수 있습니다.현실 데이터만 고집한다면 오히려 데이터 부족으로 모델이 과적합될 가능성이 커지고 엣지 케이스에 대응하지 못할 수 있습니다.
A production car you can buy today, with just cameras and radar, generates something like 6 gigabytes of data every 30 seconds. It's even more for a self-driver, with additional sensors like lidar. All the data needs to be combined, sorted, and turned into a robot-friendly picture of the world, with instructions on how to move through it. That takes huge computing power, which means huge electricity demands. Prototypes use around 2,500 watts, enough to light 40 incandescent light bulbs.
직접적으로 내용에서 센서 늘어나면 추합할 정보가 더 늘어난다고 나와있네요
최근 BYD에서 발표한 신의눈 A 레벨 자율주행 시스템에는 12개 카메라 ,레이더 5개 , 12 초음파센서 , 라이다 3개가 들어갑니다
여기에 들어가는 컴퓨터는 엔비디아 제품으로 600테라프롭 정도 연산이라고 하는데 이정도면
오리온 기반으로 2개 묘듈로 개산하면 120W의 컴퓨팅 파워가 필요합니다
올해 엔비디아는 2000테라 프롭의 토르를 공개할 예정인데 이녀석도 아무리 높게 잡아봐야 1000W 미만일겁니다
샌서 노이즈니 뭐니 카메라가뭐니 하는데 카메라 기반의 단점은 오히려 데이터 양이 너무 커서 문제입니다
시각 이미지 데이터의 양은 라이다의 몇배에 달하는 매우 큰 데이터입니다.. 오히려 연산에 부담을 주는 데이터가 이미지 데이터죠
카메라의 단점을 해결하려면 해상도를 늘려야 하고 광학계도 문제가 되고 그러면 또 처리해야할 데이터는 많고
그런데 또 거기서 필요없는거 잘라내는것도 문제고 그래서 요즘은 Event-based로 선행연구들어간곳들이 많습니다 이건 1000~2000FPS로 매우 빠르고 가볍게 이미지의 움직임을 모사할수 있기 때문에 고속 이동물체 제어에 쓰기 아주 좋죠
카메라를 계속 맹신할수 없는게 지금 4K도 버거운데 나중에 8K 달아야한다 하면 그때부터는 답없습니다.
요즘 시뮬레이터는 센서를 모방해서 시뮬레이션 해줍니다. 정확도는 매우 높고요.
이런식으로 가상환경에서 센서 데이터를 제공해서 학습 시키는건 이미 1티어 회사들은 거의 7~8년전부터 하고 있는 일입니다.
있는걸 몰라서 한 이야기가 아닌데요.
인위적으로 생성된 데이터로 LLM 학습 시켰을 때 어떤 결과가 나왔는지 정도는 아실텐데, 시뮬레이터에서 생성한 포인트 클라우드의 패턴이 현실 데이터의 노이즈, 카메라로 보는 사물의 형태를 그대로 재현해 낼 수 있을거라 믿는건가요? 리얼 데이터 대비 증강 데이터비중이 지나치게 높으면 시뮬레이터에 과적합 되어 현실에서 제대로 된 성능이 나오지 못합니다.
그게 가능하면 엔비디아는 왜 자신들이 완성된 솔루션을 팔지 못하고, 하드웨어만 공급하고 소프트웨어는 각 자동차 회사들에게 알아서 하라는걸까요? 시뮬레이터 기술, AI 설계능력, GPU 자원 어느 하나 빠짐 없이 탑티어인 회사인데요.
엔비디아는 소프트웨어까지 공급합니다 제조사들이 그 옵션을 선택하지 않죠
이번에 공개된 엔비디아 코스모스가 대표적이고 이미 밴츠 하고 작업중인 옵니버스의 업데이트 버전이죠
이건 기존 옵니버스 영상
현실에서는 노이즈 낀 데이터가 얻어지고,
시뮬레이터에서는 물리엔진이 만든 깨끗한 데이터. 또는 여기에 가상의 노이즈를 만들어 주입한 데이터가 만들어집니다.
현실 데이터로 학습한 AI는 시뮬레이터에서 주행이 가능하지만, 시뮬레이터에서 학습한 AI는 현실에서 동일 성능을 기대하기 어렵죠. 이건 LLM에만 국한된 것이 아닌 일반 원칙입니다.
엔비디아가 충분히 좋은 솔루션을 제공하면 왜 안 사다 쓸까요? 비싸서? 테슬라는 죽어도 못한다면서 왜 현실에는 풀리지도 않은 무언가는 그렇게 신뢰하실까요?
1. 시뮬 현실 오차 심하면 그 시뮬레이터는 못팔거나 안삽니다.
2. 엔비디아에겐 그편이 장기적 기대수익에 더 이득이기에 그렇습니다. 자기 물건 사주는 사람과 경쟁하지 않는 회사는 많습니다.
3.대부분의 자동차 제조사는 기술 종속을 원하지 않습니다. 하청업체가 되는길이니까요
엔비디아가 직접 자동차 사업에 뛰어든 것도 아닌데 잘 차려 놓은 밥상 안 받고, 조리도구만 사서 요리부터 공부한다? 기존 자동차 회사들이 하던 행태와 완전히 거꾸로 가는 패턴입니다.
필요한 부분만 쓰죠 쓰는 경우는 그편이 자신이 만들어서 비용이 더 들어가거나 사서 쓰는게 현재로서는 이득일때 사용하거나 하는겁니다
비용이 더 들어가더라도 전략적으로 기술 종속이 우려되면 안쓰는거고요
LLM 하고 비교는 맞지 않습니다
현실의 시뮬레이션은 초당 5만번의 주석 방울이 떨어지는 타이밍을 맞추어 빛을 연달아 두번이나
피코초 간격으로 쏘는 걸 연산하고 현실로 구현하는 시대입니다.. (전 아직도 마법같지만 말이죠)
겨우 광자 여러번 쏘는거 시뮬못하면 그게더 문제죠
사람들이 라이다 데이터가 많다고 착각하는 사람들도 있는데... 라이다 데이터는 생각만큼 많지 않습니다.
(참고로 4MP 정도의 카메라 센서는 30FPS 기준 초당 240~280MB 정도의 데이터가 필요하고 라이다 센서는 초당 70MB의 데이터가 필요합니다 만약 8MP로 카메라 해상도가 올라가면 처리해야할 이미지 데이터는 훨씬 올라가고 12MP 카메라를 처리한다면 용량은 더 감당하기 힘들어지죠 )
이걸 시뮬 못하면 진짜 문제있는 시뮬레이터고...
라이다의 문제는 만드는게 문제지 기능을 시뮬로 재현하는건 오히려 그보다 간단합니다.
1.님 말대로 다 사다쓰면 되는데 왜 자체기술을 개발하려하나요? 스스로 반문해보시면 되실것 같습니다.
2.거의 모든 로봇회사가 엔비디아가 만든 시뮬레이터를 사용합니다. 최근 로봇움직임의 급격한 발전은 시뮬레이터 덕분입니다.
시뮬레이션이 제한된 실제 데이터를 기반으로 다양한 변형을 통해 부족한 플릿의 규모와 데이터를 커버하는 데 효과적일 수 있겠습니다만 (테슬라도 물론 하고 있을테고요..) 현실 세계에서 일어날 수 있는 무한한 상황을 스스로 상정하는 데 한계가 있습니다.
아니요
시뮬레이터를 더 많이 씁니다
대부분의 자율주행차 제조사는 개발 및 테스트 과정에서 현실 주행보다 **시뮬레이터를 더 많이 활용**하고 있습니다. 이는 비용 효율성, 안전성, 테스트 범위 확장 등 다양한 장점 때문입니다. 아래는 주요 근거와 세부 내용입니다:
---
### 1. **시뮬레이션의 핵심 역할**
- **시간 및 비용 절감**: 실제 도로 테스트는 수백만 km 주행이 필요하지만, 시뮬레이터는 단시간에 다양한 조건(악천후, 돌발 상황)을 재현해 효율적으로 검증합니다. 예를 들어, 엔비디아는 5시간 만에 48만km를 시뮬레이션으로 테스트했습니다.
- **위험 회피**: 자율주행 시스템의 결함으로 인한 사고 위험을 제어된 환경에서 방지할 수 있습니다. BMW, GM, 테슬라 등은 시뮬레이터를 통해 충돌 회피 시스템을 사전에 검증합니다.
### 2. **기술 개발의 필수 도구**
- **AI 모델 훈련**: 자율주행 AI는 방대한 데이터 학습이 필요합니다. 웨이모는 374만 km, 크루즈는 141만 km의 시뮬레이션 데이터를 활용해 시스템을 개선했습니다. 테슬라도 3D 라벨링과 신경망 훈련을 위해 시뮬레이터를 적극 사용합니다.
- **복잡한 시나리오 재현**: 눈폭풍, 보행자 돌발, 교통 체증 등 현실에서 구현하기 어려운 조건을 가상 환경에서 반복 테스트할 수 있습니다.
### 3. **산업 동향 및 사례**
- **주요 기업의 투자**: 볼보는 NVIDIA와 협력해 시뮬레이션 기반 AI 플랫폼을 개발 중이며, BMW는 뮌헨에 대규모 시뮬레이션 시설을 구축했습니다. 중국에서는 BYD, BMW 등이 L3 이상 자율주행 검증을 위해 시뮬레이터를 집중 활용합니다.
- **오픈소스 플랫폼 확산**: AWS 딥레이서, 엔비디아 젯레이서 등 오픈소스 모형차 플랫폼이 교육과 테스트에 활용되며, MIT의 비스타 2.0과 칼라(CARLA)는 연구용 시뮬레이터로 널리 사용됩니다.
### 4. **시장 성장 추세**
- **글로벌 시장 규모**: 자동차 시뮬레이션 시장은 2022년부터 2030년까지 연평균 13.4% 성장할 전망이며, 운전 시뮬레이터 시장도 2025년 7억 달러에서 2030년 9억 달러로 확대될 예정입니다.
- **법규 대응**: 미국과 유럽은 자율주행차 상용화를 위해 시뮬레이션 테스트를 의무화하는 규제를 도입 중입니다. 예를 들어, NHTSA는 완전 자율주행차의 실제 도로 주행 전 시뮬레이션 검증을 강조합니다.
다양한 환경을 테스트하는데 현실보다 시뮬레이터가 훨씬 낫습니다.
이미 과적합된 현실데이터는 넘치고 제조사들은 시뮬로 넘어간지 오래입니다
심지어 nhtsa는 출시전 시뮬테스트를 의무화 하려하고 있습니다
가상 세계의 물체들을 포인트클라우드로 만드는건 당연히 쉽죠. 정확히 계산한 그대로 재현하면 되니까요.
그런데 그런 깨끗한 데이터로 학습한 신경망이, 노이즈 낀 데이터를 보고 어떻게 추론을 잘 하느냐가 문제입니다. 시뮬레이터는 아무리 잘 만들어도 현실의 열화판입니다.
시뮬레이터 안에서 만들 수 있는 객체들이 사람의 상상력에 종속되는 것도 문제입니다.
물리법칙은 재현할 수 있죠. 그런데 차, 사람, 자전거, 동물, 바람에 날리는 쓰레기, 다양한 도로공사 패턴 등에서 복합적으로 상호작용 하는 객체들을 시뮬레이터가 모든 경우의 수를 스스로 만들어 학습할 수 있을까요? 사람의 심리는 물리엔진을 재현하는 시뮬레이터의 영역이 아니고, 만들어낼 수 있는 패턴에 한계가 있습니다. 현실에서 사람들은 '심즈' 수준의 알고리즘에 따라 행동하지 않습니다.
퍼셉션 레이어의 학습이나, 완성된 모델 성능을 검증할 때는 시뮬레이터 를 활용하기 좋습니다만, E2E 플래너를 만들기 위한 강화학습 Environment를 시뮬레이터로 구현하려면 충분한 현실 데이터를 확보한 뒤에야 증강시켜 쓸 수 있는 것이지, 창조된 가상현실 속에서 주행하는 것 만으로는 한계가 생길 수 밖에 없습니다.
학습은 1회성 으로 끝나지 않고 그걸 수만번 반복해서 하는거고 그러한 학습은 다 가상에서 합니다.
현실에서는 못합니다. 현실에서 하는건 그러한 케이스가 있다라고 파악하는거지 1회성 데이터로는 학습이 되는게 아니라.
학습의 기본 데이터를 확보하는거죠
요즘 자율주행 데이터의 대부분은 정크 데이터고 그중에서 쓸만한건 2~3%정도죠 사실 2%도 요즘에는 높은 수치라고 하는 사람들도 있을겁니다.
(1티어 회사들은 실제로 1%이하의 데이터만 사용합니다)
https://cloud.google.com/blog/products/containers-kubernetes/how-cruise-tests-its-avs-on-a-google-cloud-platform?hl=en
예외 상황을 무작정 다양하게 변형해서 많이 다룬다고 자율주행이 되는 것이 아닙니다. 상황이라는 것은 발생하게 된 패턴과 맥락이 있고 인간은 현실 세계라는 최상의 시뮬레이션 환경에서 그것을 학습해 왔습니다. 플릿의 규모라는 것은 그러한 경험의 총합입니다. 시뮬레이션으로 절대 대체할 수 없는..
세상에 날로 먹는 것은 없습니다.
Agent를 강화학습시키기 위해 Environment를 직접 코딩 한번 해 보시면 무슨 의미인지 이해하실텐데, 사람의 상상력에 종속된다는 의미를 이해하지 못하신 것 같네요.
수집이 제한적인 그 edge case가 있어야 그걸 기반으로 데이터를 뻥튀기(증강)해서 학습 시킵니다.
그걸 현실에서 수집하지 못하면 사람의 상상력으로는 시뮬레이터에 구현하지 못합니다. 차의 움직임은 무작위적으로 만들면 되지만 사람의 행동은 재현이 제한될 수 밖에 없습니다.
도로에 휴먼 드라이버가 없는 자율주행을 만드는 것이라면 100% 시뮬레이터만 써도 만들 수 있겠죠.
nhtsa이나 다른곳에서도 사고조사 보고서를 받는 이유이기도 하죠
사건을 구성하는건 오히려 이제는 가상환경이 훨씬 수월합니다.
요즘에는 차량의 하드웨어까지 구현해서 브레이킹 하면 0.X초 만에 어떻게 차량이 움직임이 거동되는지도 파악가능하고 더 재미있는건 이게 현실과 크게 다르지 않게 계산이 된다는거죠.. 요즘 기술의 놀라운 점입니다.
아이고. 이제 문서화 되어 있는 데이터로부터 시뮬레이션을 생성하시겠다구요?
그 보고서로부터 time frame을 재구성할 수 있습니까?
운전자가 수 ms마다 조향각을 어떻게 했고 차량 속도는 어떻게 변했으며, 보행자는 몇분 몇초에 정확히 어느 위치에 있었는지 등을 '문서'-> 시뮬레이터 속의 3D 동적 객체로 복원한다는 아이디어이신거죠?
그게 중요한 단계는 이미 넘어갔다는 이야기입니다.
말씀하시는게 10년전이라면 나름 중요한 데이터이긴 할겁니다.
말씀하시는게...
믿음이신건가요 아니면 근거가 있으신 건가요ㅎㅎ
현실은 대부분의 제조사가 이미 시뮬레이터로 엣지케이스생성을 하고 있습니다.
검색을 좀 해보심이 어떠실까요
캘리포니아만 하더라도 사고나면 차량들이 사고 대응을 하는 프로토콜까지 지정되어 있으며 자율차량들은 사고시 대응까지 요구합니다
실제로 크루즈가 그러한 내용의 부담으로 인해서 사업을 접었고요
분명 자신들은 6단계 대응 시나리오까지 적용하고 있지만 그 뺑소니 사고 1건으로 수억달러를 날렸죠
왜냐면 현재 기술로는 대처가 불가능한 수준의 시나리오를 규제당국은 요구하고 있습니다.
이런 경우를 줄이려면 자율차들은 좀더 거북이 운행을 해야하고 센서도 더 달아아죠..
(크루즈 안전 담당의 증언으로는 분명 하단에 신체가 들어갈 확률은 이미 시뮬레이션으로 계산되었지만.
비용등의 문제로 내부에서 반려된 내용이라고 언급도 했죠 당시 안전부서에서는 하단에 이물질이나 신체가 들어갈 경우를 대비해서 차량 하부에도 카메라를 달자고 주장 )
현재 자율차들은 사고능력이 없는 바보같은 수준이기 때문에 그런 사고에서 바닥에 사람이 있다라는 생각을 아예 할수가 없습니다
센서에 감지되지 않으면 없는거고 그렇기에 이런건 현재 자율운전 차량의 기술로는 해결가능한 시나리오가 아니죠
결국 바닥에도 카메라를 달아야한다는 결론이 나옵니다.
그러니까 테슬라처럼 실세계에서 대응하는 시스템 주도 기동 수준을 시뮬레이터를 통한 엣지 케이스 생성으로 도달하기에는 현실에서 벌어지는 일이 너무 복잡 미묘하다는 이야기입니다.
현실에서 벌어지는 복잡미묘한 일은 초극도로 희귀해서 시뮬레이터로 구현해야 됩니다..ㅎㅎㅎ
현실에서 stop싸인이 박힌 간판을 들고 있는 사람이나 티셔츠를 입은 남자가 길거리에 서있을 확률이 얼마나 될까요ㅎㅎㅎ
그리고 요즘은 시뮬레이터에 llm추론까지 포함이 됩니다ㅎㅎ
LLM으로 추리더군요 나름 가야할 방향이라고 봅니다
요즘에는 데이터 수집이 문제가 아니라 데이터를 삭제하는게 더 어려운 문제입니다
요샌 학습이.아니라 추론으로 일반화해 넘어가려는 추세를 보입니다ㅎㅎ
상식을 통해 학습하지 않은 상황도 운전이 가능해진다는 얘기죠
서버사이드에서는 가능한일이지만 로컬에서는 강아지 수준도 힘든게 현실입니다
특히 LLM이 무겁다는걸 감안하면 더문제죠 반응성 부분에서 문제가 있습니다.
https://www.clien.net/service/board/news/18686896CLIEN
https://www.clien.net/service/board/news/18951083?c=true#149586987CLIEN
이야기가 돌고 도는데요.. 그런 초극도로 희귀한 상황을 시뮬레이션으로 구현하려면 기반이 되는 현실 데이터가 있어야합니다. 그 데이터 없이는 인간의 상상력 만으로 상정하기 어렵고, 실세계 데이터를 기반으로 시나리오를 만들지 않으면 "현실에서 일어날 법한" 복잡성과 미묘함을 놓치게 됩니다.
정적이고 느린 주행에서는 현재로서도 쓸수 있겠지만 반응성을 요하는 대처에서는 현재 기술로는 사용하기 힘들겁니다.
위에 올린 Ghost Autonomy도 결국 리얼타임으로 주행하면서 처리하는 데모 한번 공개 못하고.. 사업접었죠..
영상도 리얼타임이 아니라.. 사전 주행된 영상을 분석한것에 불과 합니다.
제가 아는 LLM 활용은 최근에 데이터 라벨러들을 줄이고 관리자가 LLM으로 해당 장면을 찾는 정도로 사용할수는 있다고는 알고 있습니다
https://arxiv.org/html/2407.08735v1
논문을 보시죠
됩니다ㅎㅎ 빠른 탐색후 적절한 속도의 추론으로 대응가능
논문은 2024년 10월 최근꺼라서 예전 반응 문제는 극복했을수 있습니다.
물론 LLM도 한계가 있는 기술이지만 지금 강화학습에 비하면 아메바에서 그나마 강아지 수준으로 도약하는거라 기대가 큽니다..
솔직히 강아지 수준의 지능을 가진 자동차라면 이제 레벨5에 근접할수 있게 되겠죠 다만 LLM이 정말 사고라는것을 하는가의 대한 고민은 계속 될겁니다 결국 추론 모델이 좀더 강화 될것이고 자율주행도 여기에 해결점이 보이겠죠
그럼 진작에 보험사 실세계 데이터가 대규모 플릿의 실세계 데이터를 대체 가능하다고 하시지 그러셨어요 .. ㅎㅎ
그 보험사 데이터라는 것이 전후 맥락이 담긴 현실 비디오를 모두 가지고 있는지는 모르겠지만..
(실상황에서 인간의 선택과 시스템 선택의 차이를 비교하는 쉐도우모드는 논외로 하죠..)
보험사 데이터만을 시뮬레이션 하는게 아니라 그이상의 시나리오를 생성한다는 이야기 입니다.
유사하거나 다른 다양한 상황을 섞은 베리에이션이 무한정 생성이 가능하다는 이야기에요.
그건 현실에서는 불가능하고요ㅎㅎ
논문방식을 간단하게 요약해 드리면
빠르게 기존경험과 다르다는걸 알려주고
안전하게 행동하려면 뭘해야되지같은 행동명령을 내립니다
기반이 gpt3.5터보cot추론 기반이라 거의 핸드폰 프로세스 수준에서 빠른 대응이 가능하다는게 장점 같네요
아마도 기존 학습된건 본능대로 하고 학습되지 않은 상황만 선별해서 작은모델로 추론해서 행동하는것 같습니다
사람이랑 같죠ㅎㅎ
ㅎㅎ 일단 그래도 로봇분야에서도 LLM이 폭넓게 적용되고 엄청나게 발전하고 있기 때문에 기대는 큽니다
https://www.clien.net/service/board/park/18835312CLIEN
중요한건
학습되지 않은 상황에서 대응이 가능해진다는게 가장 큰 장점 같습니다.
판단할때 거의 임베딩 숫자벡터 계산만으로 빠르게 하고 추론만 gpt3.5 cot로 돌리는거라 연산량도 거의 없는거 같네요
논문보니 드론으로 로컬 테스트도 했네요
알아서 대처하기 때문에 이제 강화 학습이라는것 자체가 의미가 없어지는 모델이죠
다만 그 알아서의 범위가 천차 만별이며 그 생각을 하는 시간을 제어하는게 또 문제입니다
로봇에 이런 LLM을 처음 공개한 구글 RT-2가 첫 공개될 때만 하더라도 명령을 이해하고 처리하는데 몇분씩 걸렸죠
https://www.clien.net/service/board/park/18213595CLIEN
요즘은 몇초 정도 걸립니다. 다만 자율주행차량같은 몇초차이가 큰 제품에 적용하려면 더 신중해야 할겁니다
강화학습이 필요하긴 하죠 아니면 대부분 운전을 느릿 초보처럼 할텐데요ㅎㅎㅎ
학습되지 않은 예외상황에서만 초보운전처럼 운전해줄수 있다가 맞을것 같습니다
극도로 희박한 예외상황에서 빠르게 처리하는건 사람도 못하니 별 문제는 없어보이고..현재수준으로도 자율주행을 완성할 잠재력있는 기술이라고도 볼 수 있겠습니다. 지금도 주행정도 반응속도에는 문제는 없다지만 훨씬 더 빠르게 처리되는것도 오래걸릴것 같진 않습니다.
실질적으로 레벨5에 도달하기 위해서는 수많은 데스벨리가 나올것 같습니다.
논문에 의하면
정확히는 이상 예외 상황 판단에 0.053초가 걸리고 추론후 행동에 1.5초가 걸립니다.
인간이 위험상황 인식하고 반응하는 시간과 같습니다.
인간이 위험상황인지하고 브레이크 밟는시간이 그정도 되거든요
물론 어느정도 시각에서는 그만하면 되지 않냐 라는 시각도 있겠지만 자율차의 사고 책임 소재등을 생각하면 인간 이상의 능력은 필요합니다
사람이 인지하고 브레이크를 거는 시간까지의 인지반응시간의 경우 한국은 120KM에서 2.5초로 잡고 있습니다.
사실 이부분을 이야기 하자면 자율운전은 결국 C2C로 가서 도로의 모든것을 실시간으로 판단하고 정보를 받아야 가능하긴 하죠 오히려 느린 부분은 차량간의 C2C 통신으로 보안가능할지도 모르겠네요
데이터 수집 및 처리할 수 있는 도조 같은 수퍼컴퓨터도 없는데 단시간에 가능할까요.
이미 준비되어 있습니다.
카메라 우선, 라이다 보조. 이렇게요.
그렇다면 위 댓글들 중에 뎁스 추정, 센서 퓨전 등의 용어는 다 무의미해집니다. 사람이 생각하는 그런 명시적인 변환이 없어요.
테슬라가 루미나의 가장 큰 고객 중 하나입니다. 카메라 단독으로 쓸 때와 라이다를 함께 쓸 때 어떻게 달라지는지를 가장 잘 아는 기업이죠.
센서 Input이 많을수록 좋다?
연산능력이 무한하다면 그럴 수도 있지만, 제한된 연산 자원 안에서는 독이 될 수 있습니다.
오히려 카메라 only 방식이 퓨전 방식보다 연산량이 더 많을 수도 있어요. 테슬라는 occupancy network 기반으로 모델이 동작하는데 확실히 input이 하나니까 시스템 자체는 효율적이지 신경망 구조는 더 복잡합니다. 반면 카메라+라이다 방식은 시스템 구조 자체가 중간에 동기화 작업이며 voxel 변환이며 있어서 복잡한 반면, 알고리줌 자체는 좀 더 단순합니다. 중국업체들이 데이터도 그렇게 많은데 엔드투엔드 방식 고집안하는것도 각각 이러한 장단이 있기 때문입니다.
그리고 결국 거리 측정도 확률적 “추론”일 뿐입니다.
왜 댓글에서 그렇게 카메라 온리 방식을 고집하는지 모르겠습니다.. 머스크가 쓴다고해서 그게 유일한 정답은 아닙니다. 좋은 정답 중 하나일뿐입니다. 기술적 구현에 있어서는 각자 장단이 있는겁니다.
테슬라가 E2E 신경망으로 전환한 V12 이후에는 Occupancy Network로 만든 복셀맵 형태의 벡터스페이스를 더 이상 중간단계로 사용하지 않는 것으로 알려져 있어요.
초기에는 Mind of car 때문에라도 퍼셉션과 플래너가 분리되어 있을거라는 추측이 있었으나, 이후 몇차례 정보가 살짝 흐르면서 하나로 통합된 신경망의 전역 최적화 학습을 한다는 것이 정설처럼 받아들여지고 있습니다. (물론 테슬라가 정확하게 공개하지는 않아 정확한 구조는 알 수 없습니다)
퍼셉션 레이어가 구분되어 있다면 라이다 추가가 효율적이겠지만, 테슬라는 이미 그렇게 할 수 없는 구조가 되어 버렸고, 퍼셉션+플래너를 통합시킴으로서 성능의 벽을 돌파해버렸으니 되돌아 가지도 않을겁니다.
지금 와서 라이다 데이터를 쓰려면 라이다 데이터도 포함한 Input으로 통합 신경망을 학습 시켜야 하는데(불필요한 정보는 신경망 내부에서 알아서 가지치기가 되겠지요.. 하지만 노드 개수가 줄어들 수는 없을겁니다), 제가 지적하는 부분이 그런 접근 방식에 쓸 수 있는 리얼월드 라이다 데이터가 없다는 측면이에요. 시뮬레이터에서 만들어낸 라이다 데이터는 AI 학습용으로 적절하지 않다는 생각이구요.
카메라의 렌즈의 면적이 전면유리창에 비해서 훨씬 작다보니 적은 이물질만 묻어도 시야를 크게 방해받을 수 있다는 점과
악천후에서는 기능하기 어려워 인간을 뛰어넘는데 한계가 있다는 점이 우려스럽습니다.
주행보조 및 자율주행기술이 악천후 상황에서 보조해준다면 든든할 것 같은데, 인간이랑 같은 처지가 돼버려서야....
저는 중복 투자 줄이려는 선택으로 보입니다.
멀티모달의 로우데이터는 노이즈가 너무 복잡합니다. 이로인한 학습효율에 있어서 테슬라가 어느정도 증명한게 아닌가 싶어요 ... 라이다 카메라 둘다 필요하다 센서는 다다익선이라고 하기엔 효율과 집중에 있어 카메라쪽으로 기울어진게 아닌가 싶습니다.
비전센서 입력부가 눈, 비, 안개, 터널 입출입 등 가혹 조건일 때 오염되는 케이스를 보완할 멀티모달이 답이라고 생각합니다. 노이즈 얘기도 나오지만 DNN이 노이즈에 강건한 인식 기술인 점은 이미 잘 알려져 있죠.
스테레오 카메라로 거리 인식되기 때문에 라이다가 불필요하다고 보는 분들도 있던데, 하나만 아는 거죠...
사람도 시각 정보만으로 운전을 하는지 의문이고요.
단안 카메라도 정지 해 있지 않고 이동하면 거리를 비교적 정확하게 추론할 수 있습니다.
사실 라이다도 눈, 비에 취약합니다. 전방카메라는 윈드실드 안에 있어 와이퍼로 닦기라도 하지 라이다는 닦기가 더 어렵죠.
그래서 얼마 전 마크 로버의 라이다 실험에서는 타겟인 마네킹에만 비를 뿌리고 라이다는 비를 안 맞게 하는 꼼수를 쓰기도 했습니다.
역광이나 안개 상황에서는 라이다가 유리한 부분이 있지만, 카메라도 라이다도 인식 성능이 떨어지면 속도를 낮추는 대응으로 극복할 수 있습니다. 그게 도로교통법을 더 잘 준수하는 것이기도 하구요. 사람의 행동을 더 잘 모방하는 것입니다. (레벨2는 사람의 책임에 있으니 그렇게 하지 않으니 위험해 보이는 측면이 있습니다)
라이다는 카메라가 본 오브젝트의 거리를 측정하기 유리했기 때문에 플래너를 코드로 만들어 내던 시절에는 아주 유용한 도구였습니다. 그러나 신경망 플래너에서는 유용하다는 증명을 아직 해내지 못하고 있습니다. 라이다를 신경망 플래너에 통합 시켰다 주장하는 업체들이 있지만 진위를 의심 받고 있죠. 어느 업체든 라이다를 사용한 E2E 모델로 테슬라보다 더 매끄럽고 안전한 주행을 해낸다면 라이다의 필요성을 어필할 수 있겠지만, 지금 시점에서는 라이다의 필요성을 주장하는 분들의 사고방식은 퍼셉션과 플래너가 구분되어 있는 구조에서 멈춰 있는 것 같습니다.
단순히만봐도 멀티모달은 동기화하는과정과 방대한 용량은 학습효율에 큰 애로점입니다.
라이다 안 쓴다는 이야기는 테슬라 꺼 사다 쓴다는 이야기인가요?
개인적으로 라이다가 필요없다고 생각은 안 하는데 애플이 하면 업체 전체가 따라가는 것처럼 업계 1위인 테슬라가 하면 그 실제의 장단점은 제쳐두고 따라갈 거라고 생각합니다.
라이다 쓰는 차량의 대부분은 카메라도 있을 겁니다.
기억과 판단 능력 향상으로 극복되는 문제라는게 테슬라 occupancy network 추가한 뒤 성능 향상을 보면 납득이 되고요.
결국 사람이 운전하는 차들과 함께 다녀야 하는데 비오고 어두울 때 쌩쌩 달릴 수 없어요.
눈 비 와서 잘 안보이면 천천히 가도록 학습되어야죠.
라이다라고 가능할런지도 모르겠지만 된다 한들 눈비 뚫고 평소처럼 달리는게 자율주행에 핵심 요소는 아니라고 생각합니다.
동의합니다. Supervised 모델을 보고 Unsupervised 주행을 어떻게 하느냐 말하는건 참 웃긴 일입니다. 당연히 훨씬 보수적으로 동작하게 만들겠지요.
귀도 있고 엉덩이센서도 있고 자동차 충격도 감지하고
이상한거 밟으면 감지하고
구급차도 감지하고 엉덩이로 바닥 도로상태도 감지하죠ㅎㅎ
센서는 많을수록 안전합니다
그것의 처리문제는 제조사가 고민할 일이지 사용자가 고민할 일은 아닙니다ㅎㅎ
테슬라조차 라이다가 충분히 저렴해지면 도입할 가능성도 있습니다.
실제로 데이터 수집시엔 라이다를 이용하고 있지요.
요는 라이다에 의존하지 않고 비전만으로도 인간 수준의 인지능력을 먼저 갖추는게 더 중요하다는 보는게 테슬라, 현대의 입장이 아닌가 싶습니다.
센서퓨전은 통합 정도에 따라 난이도가 달라질 것이고 최소한의 백업 수준이라면 카메라 비전기반 시스템을 충분히 발전시키고 나중에 언제라도 추가할 수 있겠죠.