
너무 재밌어서 밥이 꼴딱꼴딱 잘 넘어가네요. 로제소스 발라진 닭가슴살과 불린 누룽지 소량입니다.
맛저하세요🙇🏾♂️
파헤치면 파헤칠수록 뭔가 나올듯 말듯한 모순이 보이거덩요..
쿼리 날려서 KV캐시 가중치 매기면서 임베딩 과정 반복 중에
입력 또는 맥락에 따라 적합한 다음 글자일 확률을 매겨가면서 이걸 이해하는 상황이란건 알겠는데..
단백질 구조를 발견할때는 다른 공식이 쓰였을것 같단 말이죠?
뻔한 다음 예측조합 말고, 이걸 제외한 나머지 중 전혀 아닌것부터 거꾸로 덴스하게 랜덤한 세트든 순차적 배열이든 조합 또 조합시켜보면서 결과가 타당한지 계속 굴려가지고 그나마 유효한 조합들을 찾아낸것들이 새로운 단백질 구조라는거였을텐데.. 어떤 공식을 썼었는지 논문을 다시 살펴봐야겠네여
봤던건데 까먹고 또 까먹고.. 헷갈리고 ㅠㅠ 영상의 내용은 비슷한 주제로 많이 봤더니 이해는 잘 되고있네영
36:00~
MLP = FFN = Expert

1:06:00~1:06:40
레이턴시 그래프 설명끝
B
batch갯수 작을땐 메모리에 의해 결정, 높을땐 레이턴시 로워 바운드 부터 컴퓨트에 의해 결정
1:07:00~
토큰당 비용
HBM에 탑재된 램의 kv캐시로 담아두는 부분은 토큰으로? 계산되지 않으니 컴퓨트 되는 비용만 드므로 감소되고 있다는 설명같네유
디스크 조각모음해서 빈 공간 없애고 쌓인거 빨리 불러오도록 하겠다는거랑 비슷할거같은요🤔
하지만 아직 정확하진 않으니..
서빙하는 입장에선 단시간에 많은 유저와 배치를 땡기고 쓰도록 하면 오히려 절약이 된다고 합뉘더.
매번 제로부터 불러와 캐시만들며 트랜스포밍 반복시켜 컴퓨팅하느니, 동시 다발적으로 여러 데이터가 되도록 비슷한 경우가 많으면 많을수록 비슥한 처리된 부분을 캐시에서 불러오게 하고,새로 불려오는 맥스치만 가지고 컴퓨팅 시켜 비용을 절감하자는 취지죠

머리털 빠질것 같아서 여기까지만 봐야겠네여 ㅋㅋㅋ
아 참, SSD사용은 기본전제로 하고 영상속 시간계산엔 포함 안했다고 했네영