이러한 변화 속에서 기존의 평가 방식은 한계를 드러내고 있다. 기업들은 여전히 GPU 시간당 비용이나 달러당 FLOPS 같은 입력 지표에 집중하는 경향이 있지만, 이는 실제 비즈니스 성과를 제대로 반영하지 못한다. 입력이 아닌 출력 중심으로 접근해야 한다는 지적이다.
특히 토큰당 비용을 낮추기 위해서는 단순히 GPU 가격을 낮추는 것이 아니라 ‘초당 토큰 처리량’을 극대화하는 것이 중요하다. 동일한 인프라에서도 더 많은 토큰을 생산할수록 단위 비용은 낮아지고, 이는 곧 서비스 수익성 개선으로 이어진다.
이 같은 개념은 ‘추론 빙산’이라는 비유로 설명된다. GPU 가격이나 FLOPS는 수면 위에 보이는 요소인 반면, 실제 성능을 좌우하는 소프트웨어 최적화, 네트워크 구조, 메모리 효율 등은 수면 아래에 숨어 있다는 것이다.
실제 사례에서도 이러한 차이는 뚜렷하게 나타난다. 엔비디아의 최신 AI 플랫폼인 블랙웰은 이전 세대 호퍼 대비 GPU 비용은 약 2배 높지만, 초당 토큰 처리량은 최대 65배 증가한 것으로 분석됐다. 그 결과 백만 토큰당 비용은 약 35배 낮아지는 효과를 보였다.
이는 단순한 연산 성능 향상이 아닌, 전체 시스템 최적화를 통한 ‘출력 중심 혁신’이라는 평가다. 특히 전력당 토큰 생산량에서도 큰 차이를 보여, 동일한 에너지로 훨씬 많은 AI 서비스를 제공할 수 있는 것으로 나타났다.