LLM구조 공부) 재밌는거 같이 보실래요 : 클리앙

너무 재밌어서 밥이 꼴딱꼴딱 잘 넘어가네요. 로제소스 발라진 닭가슴살과 불린 누룽지 소량입니다.

맛저하세요🙇🏾‍♂️

파헤치면 파헤칠수록 뭔가 나올듯 말듯한 모순이 보이거덩요..

쿼리 날려서 KV캐시 가중치 매기면서 임베딩 과정 반복 중에

입력 또는 맥락에 따라 적합한 다음 글자일 확률을 매겨가면서 이걸 이해하는 상황이란건 알겠는데..

단백질 구조를 발견할때는 다른 공식이 쓰였을것 같단 말이죠?

뻔한 다음 예측조합 말고, 이걸 제외한 나머지 중 전혀 아닌것부터 거꾸로 덴스하게 랜덤한 세트든 순차적 배열이든 조합 또 조합시켜보면서 결과가 타당한지 계속 굴려가지고 그나마 유효한 조합들을 찾아낸것들이 새로운 단백질 구조라는거였을텐데.. 어떤 공식을 썼었는지 논문을 다시 살펴봐야겠네여

봤던건데 까먹고 또 까먹고.. 헷갈리고 ㅠㅠ 영상의 내용은 비슷한 주제로 많이 봤더니 이해는 잘 되고있네영

36:00~

MLP = FFN = Expert

1:06:00~1:06:40

레이턴시 그래프 설명끝

batch갯수 작을땐 메모리에 의해 결정, 높을땐 레이턴시 로워 바운드 부터 컴퓨트에 의해 결정

1:07:00~

토큰당 비용

HBM에 탑재된 램의 kv캐시로 담아두는 부분은 토큰으로? 계산되지 않으니 컴퓨트 되는 비용만 드므로 감소되고 있다는 설명같네유

디스크 조각모음해서 빈 공간 없애고 쌓인거 빨리 불러오도록 하겠다는거랑 비슷할거같은요🤔

하지만 아직 정확하진 않으니..

서빙하는 입장에선 단시간에 많은 유저와 배치를 땡기고 쓰도록 하면 오히려 절약이 된다고 합뉘더.

매번 제로부터 불러와 캐시만들며 트랜스포밍 반복시켜 컴퓨팅하느니, 동시 다발적으로 여러 데이터가 되도록 비슷한 경우가 많으면 많을수록 비슥한 처리된 부분을 캐시에서 불러오게 하고,새로 불려오는 맥스치만 가지고 컴퓨팅 시켜 비용을 절감하자는 취지죠

머리털 빠질것 같아서 여기까지만 봐야겠네여 ㅋㅋㅋ

아 참, SSD사용은 기본전제로 하고 영상속 시간계산엔 포함 안했다고 했네영

이해하면 나도 할 수 있다. 결과보다 과정을 중요시하는 사람 어설픈 추측은 놉. 방구석 제갈량 그만yo 힌트 흘리고 다니는 사람이 생각보다 잘 없음. LR네임: 모두에게 떳떳한 사람으로 남아야 한다. 나만의 후라이드: 술, 담배 안 하기 노래방 안 다님 첫 직장을 목적 없이 아무 직종이나 대충 지원하지 않기 나와 상대의 보안 철저 내가 아는 선에서 최선의 선한 길부터 생각함 남의 거 응용 최소화(얻어걸치기 싫어함) 말과 글은 같게 되는 방향부터 먼저 생각한다 없는 말, 거짓말 안 하기(매우 싫어함) 패 다 까고 시작하기 취미는 최대한 전공과 동떨어진 것으로(전공과 접목 시 폭넓게 활용하기 위함) 대출 없이 내가 벌어서 살아보기 삐치지 않기 지극히 당연한 것은 빼고 말하기/생각해보기 기존에 없던것을 생각하라 모르면 확실하게 질문하기 B형 INTP 가장 싫어하는 대답: 경우에 따라 달라요 << 이런식 질문에 되묻기 뻔한 대답 등 클리앙에서 느낀점: 댓글이 필요없을 정도면, 게시물이 이 서명 내용처럼 주절주절 너덜너덜 해져야된다

모두의공원

LLM구조 공부) 재밌는거 같이 보실래요