TPU v7의 강점이 있으니 논의 하려는 것이겠죠.
이 글에서 말하는 것은 성능 및 기술 구현 부분에 추정이 있으니 양해 바랍니다.
일단 TPU는 세대를 거치며 기존의 단점을 해소해 왔습니다.
이 중 주목해 볼 부분은 TPU pod이고, TPU v7 9,216개로 구성됩니다.
초대형 클러스터를 구축하는 방식은 엔비디아와는 조금 다른 방식을 취합니다.
하나의 팟 단위에서 최고의 효율을 갖도록 설계 되어 있지만,
이제는 그간 부족했던 여러 팟을 연결하는 기술을 보다 강화하면서,
전력 효율을 극대화 하고, 나아가 비용까지 절감하게 됩니다.
그렇다면 우리는 메타 및 그 전의 엔트로픽이 구글 TPU를
구매 또는 임대하려는 것을 보면서
언론에서 잘 언급하지 않는 도입 비용 및 운용 비용의 총합에서 유리한 면이 있음을 유추해 볼 수 있습니다.
즉, 100원을 들여 100의 성능을 낼 경우 운용 비용이 적게 들어가는 선택으로 생각해 볼 수 있습니다.
도입 비용이 적다는 것의 내용을 들여다 보면,
비싼 스위치 없이 칩 자체에 내장된 ICI를 통해 직접 이웃한 칩6개와 3D로 연결 되게 하거나 광회로 스위치 등으로
더 저렴한 구축이 가능하고, 3D Torus 구조로 대규모 연산에 최적화를 꾀한다고 합니다.
결론적으로 도입 비용과 운용 비용에서 모두 뛰어난 것으로 추정해 볼 수 있고,
엔비디아 대안으로서는 충분한 것 같습니다.
특히 대규모 서비스를 해야 하는 입장에서는 전력 소모 및 구축 비용에서
엔비디아 제품은 규모가 커질 수록 비용이 크게 증가하는 것 대비
완만한 증가로 상대적으로 더 저렴한 비용에서의 강점이 있고,
나아가 엔비디아 칩은 구매 하는 것 자체가 쉽지 않으므로,
주는 될 수 없을지언정 대규모 서비스를 하는 곳이라면,
메타만이 아니라 다른 규모 있는 곳들도 TPU를 찾게 될 가능성을 생각해 볼 수 있습니다.
정리하면,
칩 자체의 목적 특화 + 칩들을 묶는 방식의 효율 및 연결 방식의 저렴함. + 전력 효율이
상대적 이점으로 보입니다.
아무래도 데이터센타를 새로 도입하는 곳은... 엔비디아 제품으로 해야겠지만,
기존에 데이터센터가 있고, 서비스를 확대 진행해 나가야 하는 메타, 엔트로픽 같은 곳들의
선택이 이어질 수 있어 보입니다.