논리 비약이 심할 수 있으니 참고만 하세요.
구글에서 트랜스포머를 내놓고, 꽤 오랜 시간이 지났습니다.
오늘날 거의 대부분의 AI는 이 기반 하에 이루어지고 있는데요.
최근 구글에서 이것을 대체하거나 보완할 논문을 내놓고 있습니다.
다른 여러 목적이 있을 것 같으나 잘은 모르겠고,
그저 더 적은 자원으로 더 많은 일을 할 수 있게 하기 위한 방법들이 눈에 띄었는데요.
낮은 수준의 기술적인 내용은 제가 좀 많이 본 관계로 이해하기 좋으나
조금만 깊이 들어가도 제대로 이해할 수 없어 명확하게 설명 할 수 없는 점 양해 바라고요.
요점은 트랜스포머의 한계점이 여러가지가 있어서,
여태 수많은 사람들이 아이디어를 구체화 하여, 많은 부분 보완되고 발전 되는데 기여했지만,
아예 트랜스포머가 모델이 커질 수록 기하급수적으로 늘어나는 하드웨어 스펙이 문제였으니,
이를 줄일 수 있는 방법으로 알고 있습니다.
메타에서도 마찬가지인데요.
제대로 잘 모르는 기술에 대해 이야기 하려니 벅차네요.
메타에서도 트랜스포머를 보완할 수 있는 논문을 내놓았다고 합니다.
그런데, 양측의 공통점은....
기존에 모델의 크기가 커질 수록 선형적이지 않은...
비선형으로 급격한 하드웨어 요구치가 높아지고,
이를 획기적으로 줄일 수 있는 방향인 듯 합니다.
혹여 이것이 실제 적용된다면....
이것을 알아 본 기관 몇 곳이 대거 이익 실현 한 것이지 않을까 하는
뇌피셜 중의 뇌피셜 한 번 써봤습니다.
그래서 무슨 주식인가요?
시간 지나면 다시 올라요
어디가 바닥인지 몰라서 그렇죠
산업이나 기업의 문제는 아닌거 같아요
음...제가 늘 진지하게 글 써서 그런지,
제목에 재미로 보시라고 적어놔도...
다들 진지하시네요...ㄷㄷㄷㄷ;
뇌피셜이라고 적은 이유는
밑도 끝도 없는 그냥 떠오른 생각이었기에...;;;
H100 좋으면 뭐합니까? 그걸 운용할 자원이 유한하다는게 문제인 듯 합니다.
실제로 며칠전 공개된 메타의 라마3가 훨씬 적은 하드웨어로 비슷한 벤치를 보여주고 있습니다
일단 그 부분은 훨씬 더 데이터셋을 잘 만들어서 그리 된거라고는 하는데요.
그 외에 여러 새로운 방법을 동원한 것들이 있는 것 같더군요.