탈라스, 칩에다 모델 새겨 넣어 추론 속도 10배 향상한 기술 공개 : 클리앙

고객지원

© CLIEN.NET

새로운소식

탈라스, 칩에다 모델 새겨 넣어 추론 속도 10배 향상한 기술 공개 34

2026-02-24 23:45:47 211.♡.200.4

nest

'라마 3.1 8B'를 하드와이어링한 탈라스 HC1 (사진=탈라스)

AI 모델을 전용 실리콘 칩으로 구현하는 플랫폼이 등장했다. 대형언어모델(LLM)과 같은 컴퓨팅 집약적인 애플리케이션의 처리 속도를 높이기 위해 최적화한 그로크의 추론 엔진 ‘언어 처리 장치(LPU)’와 유사하다.

스타트업 탈라스는 최근 새로운 모델을 전달받으면 약 두달 만에 이를 맞춤형 반도체(ASIC)로 구현할 수 있는 플랫폼을 개발했다. 이렇게 탄생한 결과물은 ‘하드코어 모델(Hardcore Models)’로 불린다.

탈라스의 핵심 전략은 ‘완전한 특화(Total Specialization)’다. 범용 GPU 위에서 다양한 모델을 실행하는 대신, 특정 AI 모델 하나에 최적화된 전용 실리콘을 제작한다.

이렇게 제작된 하드코어 모델은 소프트웨어 기반 구현 대비 10배 빠르고, 10배 낮은 전력 소비, 10배 낮은 비용을 달성한다는 주장이다.

.

.

.

탈라스는 첫 제품으로 메타의 오픈소스 모델을 기반으로 한 ‘하드와이어드 라마 3.1 8B’를 공개했다. 챗봇 데모와 추론 API 서비스 형태로 제공된다.

하드와이어드 라마 3.1 8B 성능 비교 (사진=탈라스)

이 ‘실리콘 라마’는 사용자당 초당 1만7000토큰을 처리할 수 있어, 기존 최첨단 칩 대비 약 10배 빠르다. 구축 비용은 20분의 1, 전력 소비는 10분의 1 수준이라는 설명이다.

특히 공개된 테스트 결과에 따르면, 엔비디아 'H200'은 초당 230개의 토큰을 생성했다. 하지만 탈라스의 칩은 1만6960 토큰을 생성했다. 이는 무려 73배에 달하는 속도다.

.

.

.

출처 : https://www.aitimes.com/news/articleView.html?idxno=207148

nest 님의

댓글 • [34]

nest

·

미래에는 NPU에 내장 모델 하나씩 임베딩되서 출시될지도요.ㄷㄷ

memberst

·

@Bigtory님 저도 그렇게 되리라 봅니다 몇년후면 이제 GPU 처럼 NPU가 별도로 나오겠죠

nest

·

@memberst님 속도가 어마어마 하네요.ㄷㄷ

Juzis

·

항상 똑같은 기어만 맞물려 굴리지 않고 기어 자체에 변형을 줘서 실행되게 해주면 거기서부터 소프트웨어 부담이 덜어지니 좋긴하죠. 하지만 하드웨어적 업데이트 비용이 만만찮을겁니다. 완벽하기 전까진요

nest

·

@Juzis님 어떻게든 규모의 경제 달성과 중상급 티어 모델의 발전의 정체기 같은게 기폭제가 될 수 있을 것 같습니다.

없다고요우

·

오오 사운드카드나 글픽카드처럼 ai카드가 나오겠군염. 개인이 집에서도 로컬 llm굴릴날이 머지 않았네요. 개인적으로는 2족 보행로봇에 달고 수행비서처럼 데리고 다니고 싶네욤

nest

·

@없다고요우님 오홋, AI카드 네이밍이 좋네요.

훔훔

·

저것도 나중에 점점 커지다가 지금 그래픽 카드처럼 카드에 메인보드 달린듯이 되려나요..

nest

·

@훔훔님 그럴 것 같아요!

__ei

·

Groq 은 어떻게 그렇게 빠른가 했더니 이런 방식이었군요. ㅎㅎ
자율주행이나 빠르게 뭔가를 지속적으로 인식해야 하는 시스템 (출입 통제를 위한 안면인식, 특정 문자열 인식 등)에서 효과 좋겠네요.

nest

·

@__ei님 그록보다도 더 극단적으로 특정 모델 자체를 칩으로 구워버린 것 같네요.ㄷㄷ 업뎃불가네요ㅋㅋㅋ

더미코코

·

그러면... 컨텍스트는 어디에 저장되죠? 계속 임베딩을 반복적으로 넣어야하는데... 컨텍스는 메인 램에 저장하나? 자체적으로 큰 램이 없다면.. 큰 의미가 적지 않을까요? 뭐 그런건 전문가분들이 잘 해결하시겠지만.. 그냥 그렇다고요

nest

·

@더미코코님 램을 연산유닛이랑 하나로 통합했다고 나오긴 하는데, 용량은 모르겠네요.

콜라군

·

신형 모델 출시 주기가 엄청 빠른데 하드웨어에 하드와이어되어있다면...
최신 컴퓨터가 1년만에 구형 컴퓨터가 되어버렸던 90년대 시절처럼 되겠군요.

nest

·

@님 그렇겠네요..모델들의 발전이 너무 빠르죠.

에몽군

·

@님 언젠가는 새로운 AI모델 발전도 한계에 다다르지 않을까요?

GTI

·

아쉽게도 응원 중인 퓨리오사 새소식은 별로 없네요. 메타 인수 제안을 수락했어야 하는 건지...

nest

·

@GTI님 좋은 소식 기다리고 있습니다!!!

그럴수도있구나

·

8B면 추론모델 자체가 좀 아쉬울듯합니자

nest

·

@그럴수도있구나님 그렇죠.

원근법

·

GPU > TPU > NPU > LPU ...
이런빙식이면 HBM, TOPS문제가 있지만 다시 fpga가 효과적일수도 있겠군요

nest

·

@원근법님 가격이 문제 겠네요.

OLIVER

·

비트코인도 상용 gpu로 채굴하는줄 알고있는 사람들이 많던데, 사실 나온지 얼마 안되서 전용 asic 채굴장비로 다 바꼈었죠..

nest

·

@OLIVER님 이정도면 1년은 쓸만한 모델이 나오면...저런 칩도 나쁘진 않겠네요.

가브리엘

·

@OLIVER님 비트코인이 주목받은 시점부터 전용 asic을 썼죠..
비트코인이 2009년인가 10년인가 처음 공개됐고, 2018년쯤부터 주목받기 시작했고, 그즈음에 비디오카드 1차 파동이 왔잖아요..

OLIVER

·

@가브리엘님 네, 비트코인이 처음 대중적으로 주목을 받기 시작한게 2013년쯤인데 그때 난이도가 이미 많이 올라가서 asic으로 캐기 시작했습니다.

가브리엘

·

@OLIVER님 와우 그렇군요
덕분에 식견을 넓혔습니다

케이엠8

·

범용화될일은 적어보이고 아주 니치한 영역에서만 사용될 것 같습니다.

nest

·

@케이엠8님 범용화 되기에는 넘어야 하는 허들이 너무 많긴하죠.

에일리언

·

단점... 맨날 새로운 AI가 나오는데...
장점... 근데 조금 지난게 될지언정 준수한 모델하나 굴릴 수 있고 오지게 빠름...
으음...
옛날에 회사 다닐적에... 옆팀이 네트워크 분석 프로그램을 만들어서 대박이 났는데... (3G초기) 처음엔 노트북한대랑 세트로 납품하다가 전용하드웨어 디자인해서 확장 카드화해거 서버하나에 다량탑재하게해서 왕창 통신회사에 납품하더라구요

nest

·

@에일리언님 오...오......전용 하드웨어 제작이요. 살짝 동경하는 분야입니다.

에일리언

·

@Bigtory님
팀장님의 원형탈모 3개가 지금도 기억납니다.
맨날 의자에서 팔짱끼고 자고 일어나서 바로코딩하고... 쓰러지니까 사장님이 문병가셔서 꽃이랑 노트북 주면서 또 일시키고...
제가 폴짝 뛰어 업혔더니 허리 나가서 또 병원가시고... 그러셨더랬죠. 정말 그 업계에서 성품 너무 좋고 머리도 좋은 분이셨어요...

닠님

·

이건 확장성 때문에 사장되지 않을까 싶습니다. 아무리봐도 이렇게 해서는 요즘 AI발전 속도를 감안하면, 빈번하게 HW를 바꿔야 할거 같아서요;;;

nest

·

@닠님님 그렇죠 모델들이 뭐 장난 아니게 업데이트 되니 말이죠...ㄷㄷ

이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고

개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책

© • CLIEN.NET

보안 강화를 위한 이메일 인증

안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
개인정보에서도 이메일 인증을 할 수 있습니다.

지금 이메일 인증하기

등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.