'라마 3.1 8B'를 하드와이어링한 탈라스 HC1 (사진=탈라스)
AI 모델을 전용 실리콘 칩으로 구현하는 플랫폼이 등장했다. 대형언어모델(LLM)과 같은 컴퓨팅 집약적인 애플리케이션의 처리 속도를 높이기 위해 최적화한 그로크의 추론 엔진 ‘언어 처리 장치(LPU)’와 유사하다.
스타트업 탈라스는 최근 새로운 모델을 전달받으면 약 두달 만에 이를 맞춤형 반도체(ASIC)로 구현할 수 있는 플랫폼을 개발했다. 이렇게 탄생한 결과물은 ‘하드코어 모델(Hardcore Models)’로 불린다.
탈라스의 핵심 전략은 ‘완전한 특화(Total Specialization)’다. 범용 GPU 위에서 다양한 모델을 실행하는 대신, 특정 AI 모델 하나에 최적화된 전용 실리콘을 제작한다.
이렇게 제작된 하드코어 모델은 소프트웨어 기반 구현 대비 10배 빠르고, 10배 낮은 전력 소비, 10배 낮은 비용을 달성한다는 주장이다.
.
.
.
탈라스는 첫 제품으로 메타의 오픈소스 모델을 기반으로 한 ‘하드와이어드 라마 3.1 8B’를 공개했다. 챗봇 데모와 추론 API 서비스 형태로 제공된다.
하드와이어드 라마 3.1 8B 성능 비교 (사진=탈라스)
이 ‘실리콘 라마’는 사용자당 초당 1만7000토큰을 처리할 수 있어, 기존 최첨단 칩 대비 약 10배 빠르다. 구축 비용은 20분의 1, 전력 소비는 10분의 1 수준이라는 설명이다.
특히 공개된 테스트 결과에 따르면, 엔비디아 'H200'은 초당 230개의 토큰을 생성했다. 하지만 탈라스의 칩은 1만6960 토큰을 생성했다. 이는 무려 73배에 달하는 속도다.
.
.
.
자율주행이나 빠르게 뭔가를 지속적으로 인식해야 하는 시스템 (출입 통제를 위한 안면인식, 특정 문자열 인식 등)에서 효과 좋겠네요.
최신 컴퓨터가 1년만에 구형 컴퓨터가 되어버렸던 90년대 시절처럼 되겠군요.
이런빙식이면 HBM, TOPS문제가 있지만 다시 fpga가 효과적일수도 있겠군요
비트코인이 2009년인가 10년인가 처음 공개됐고, 2018년쯤부터 주목받기 시작했고, 그즈음에 비디오카드 1차 파동이 왔잖아요..
덕분에 식견을 넓혔습니다
장점... 근데 조금 지난게 될지언정 준수한 모델하나 굴릴 수 있고 오지게 빠름...
으음...
옛날에 회사 다닐적에... 옆팀이 네트워크 분석 프로그램을 만들어서 대박이 났는데... (3G초기) 처음엔 노트북한대랑 세트로 납품하다가 전용하드웨어 디자인해서 확장 카드화해거 서버하나에 다량탑재하게해서 왕창 통신회사에 납품하더라구요
팀장님의 원형탈모 3개가 지금도 기억납니다.
맨날 의자에서 팔짱끼고 자고 일어나서 바로코딩하고... 쓰러지니까 사장님이 문병가셔서 꽃이랑 노트북 주면서 또 일시키고...
제가 폴짝 뛰어 업혔더니 허리 나가서 또 병원가시고... 그러셨더랬죠. 정말 그 업계에서 성품 너무 좋고 머리도 좋은 분이셨어요...