요즘 뜨는 피지컬 AI 로보틱스 스타트업과 로봇공학 미래에 대한 내용으로
MassRobotics에 작년 11월 5일 올라온 얼마 안된 컨퍼런스 영상입니다.
행사 취지(스타트업)와 조회수 307회로 감안해 봤을 때,
많이 퍼지진 않은 것 같네요.
ChatGPT가 언어 세계에서의 두뇌라고 할 때,
LBMs란 물리 세계에서의 행동하는 두뇌로 이해하시면 됩니다.
앞 부분은 딸기 관리 및 따는 로봇 스타트업 대표,
다음으로 로보틱스 스타트업 패널 세분과의 질의응답입니다.
그 보다는 마지막의 키노트/대담하는 부분을 보시면
현재와 근 미래 로봇산업에 대한 이해도가 한층 더 올라가실 것 같네요.
주요 내용 정리 및 소개(영상에 없는 소개는 검색을 통해 추가)
● 발표자 러스 테드릭(Russ Tedrake) 소개
→ 현재 로봇공학 분야에 가장 영향력 있는 인물 중 한 명(진행자 말에 따르면... 진행자도 같은 회사 동료임 ㅋ)
→ 현재 MIT와 도요타 연구소 두 곳에서 직책을 가지고 있음. 이 두 곳에서의 모든 업적을 TRI에 쏟고 있다고 함
→ TRI는 도요타 자동차의 자회사로 2016년 설립
→ 러스 테드릭: 로보틱스 부분 수석 부사장(SVP)
→ 보스턴 다이나믹스와 파트너십(아틀라스 협업)
● TRI에서 2022년 부터 최근 업그레이드 된 피지컬 AI 분야에서의 인공지능 모델 개발 중
● 최근 홍보되는 로봇은 과장된 측면이 있다고 함
→ 피지컬 AI가 해결 되더라도 인공지능 로봇이 실제 세상에 나오기 위해서는 해결 할 과제가 많음
● 러스가 이야기 하고자 하는 주제는 로봇의 손 재주
● 기존 모델은 객체 인식, 객체 탐지, 자세 추정에 따른 지각 부족 → 러스는 여기에서 상태 추정의 중요함 인식 했다고 함
→ 사람이 배경지식을 이용하듯, 로봇에게 상식을 부여하기 위해 모방 학습을 통한 대규모 구현이 필요함
→ 여기에 햅틱 피드백이 상당한 도움이 됨
→ 이에 따라 옵티머스, 원 엑스 등 여러 회사에서 원격 조정이 주요 테마로 자리 잡음
→ 로봇이 모방을 통해 상식을 얻는 과정
● 힘을 감지하는 센서를 추가하는 것이 도움이 되긴 하지만, 그보다 카메라를 추가하는 것이 성능을 올린다.(공간감)
● GPT의 LLM(거대 언어 모델) 모델처럼 높은 성능을 피지컬 AI로 가져오기 위한 LBM(거대 행동 모델) 소개
→ 더 정확한 비전 인식과 맥락에 따른 행동 추론
● LBMs 아이디어: 비전 생성 모델과 확산 정책(Diffusion Policy)에 기반한 특정 유형의 액션 디코더의 통합
→ 피지컬 AI에는 아직 LLM처럼 인터넷 규모의 데이터가 없음
→ 몇 백개의 GPU 만으로 원격으로 디퓨전 폴리시를 통해 학습 시킨 후, 몇 시간의 시연 만에 로봇이 학습됨
→ 새로운 기술을 가르킬 필요도 없고 머신러닝 코드를 작성할 줄 몰라도, 그저 로봇만 조종(Telewriter)할 수 있으면 학습 가능
→ 최근 로봇 스타트업들이 갑자기 많이 생긴 중요한 이유. 저가형도 우후죽순...
→ 시연 영상(예: 사과 자르기)에서 보듯, 실수를 하더라도 시각적 운동 피드백을 이용해 정교한 조작이 가능함
→ 실수로 도마 가장자리로 나간 사과 한 쪽을 칼 날을 이용해 끌어와 정리한 후 나머지 사과 자르기 이어서 진행
● 2025년 초에 LBM 1.0 결과 발표
→ 매우 신중하게 연구된 신경망이 650개 정도의 작업을 수행할 수 있게 됨
● 9점 만점은 아니나, 개념 증명으로 충분했음 → 러스는 GPT처럼 작동하는 방법을 알아내고 '와우 이펙트' 발견
● 한 가지 과제만 디퓨전 폴리시로 200번 연습해서 나온 안정성보다, 여러 과제를 학습한 LBMs 모델로 200번 학습한 것이 더 안정성 높음. 중요하면 300번까지 학습
→ 멀티테스크 스케일링 법칙(멀티 테스킹의 중요성)
→ 동일하게 사과자르기를 시키더라도, T-셔츠 접기부터 시작해 다양한 행동을 학습한 것이 단일작업 정책에 비해 사과자르기도 더 잘한다
→ 예) T-셔츠 접다 곤란한 상황에 처했을 때, 더 큰 도구 벨트(T-셔츠 접기, 사과즙 붓기, 배선 하네스 설치 등)에서 무언가를 꺼내 문제 해결
→ 스페셜하게 한 가지만 파는 것보다, 여러 경험을 하는 제너럴이 더 중요
● 오픈 소스 모델들도 좋지만, VLM(비전랭귀지모델)만큼 좋지는 않다.
● 그러나, 아직 완벽하지 않다. 하지만, 이것 만으로도 경제적 가치는 크다
→ 10번 중 7번 성공하는 등... 그리고 평가 과정을 위한 평가 도구도 부실함
→ 논문 발표 직전에 누군가 정책 코드에서 버그를 발견해(언 놈이냐???), 해당 정책을 모두 폐기하고 처음부터 다시 시작했음(한 달 반동안 실험한 하드웨어 기반 자료 전량 폐기)
→ 팀원들이 한동안 자신을 미워했지만, 다시 만든 데이터를 러스는 신뢰하고 자랑스러워 함(자기 자신은 속이지 마라 - 리처드 파인만)
→ 이후에도 TRI에서 계속 성능을 더 끌어 올리기 위해 연구중
※ 내용이 길어져 다루지 못한 내용이 있으니, 그 외 세부 내용은 영상에서 확인 하세요.
텔레라이터가 텔레오퍼레이팅 하는 장면
갑자기 로봇이 터진게 이런 알고리즘 기반들이 나와서 돈이 보이기 시작하나 봐요.
아직도 제한적이지만, 이전에 비해 상당한 점프를 한 것 같군요.
저는 작년 ces보고 아차 살짝 늦었나 하고 포트폴리오 전반을 로봇위주로 재구성 했었거든요