심심해서 이게 정말 되나 ollama로 돌려보는데
집 글카가 16G 컴터 ram 32기가 거든요.
27b 인가 18기가 짜리는 글카에 살짝 넘쳐서. 삐져나온거 메인 메모리로 올라가니 느려지네요. 이게 왔다갔다가 문제인가봐요.
걍 18기가를 컴터 메모리에 다 올린거보다 느렸습니다.
9b는 한글로 넌 누구니 하고 물어보면 다른나라말하고 해서 쓰기에 안좋았어요.
글카에 쏙 들어가서 움직임만 빨랐어요.
근데 빨라도 요상한 말만하니 무쓸모네요.
그래서... 남는 글카를 하나 더 꽂아서
총 24기가 메모리를 써서 돌려볼려 생각중입니다.
주 메모리에 올라갔을 때 보다 빠르고 병목 생각해도 32기가 맥미니 보다 빠를거로 예상합니다...
사람들이 이래서 맥미니에 램 왕창꽂아 많이 샀나봐요.
얼마전까진 애플은 AI 대응에 늦다 뭐라했는데 통합메모리로 대충 돌리기에 장점이 있네요.
글카 두장 우겨넣은 따로국밥 메모리 상황이 나은지...
맥미니 .M4 32기가가 좋은지 확인해 봐야겠네요.
젬민이는 전자가 빠를거래요.레알인지 봐야죠
레알입니꽈...?
9b들려보고 헛소리만 해서 얜 27b 이하는 바본가봐 그래서 그 근처에도 안가서 안돌려봤습니다.
4b한종류.. 똑똑한애 소개받고 싶습니다. 몇종류 없나요...?
헛소리 한다는 기준이 무엇인지가 중요하겠죠.
4b, 2b 면 활성매개가 4억, 2억인데 여기에서 모든 최신내용이 다 들어가 있다 생각하고 질문하면 당연히 헛소리만 하겠죠. 해당 모델과 RAG 등을 이용해서 어느정도 답변을 내느냐 또는 수학적, 산술적 문제에서 어느정도 답변을 내느냐로 봐야죠.
모바일에 내장해서 local llm 으로 , 그리고 데이터는 RAG 를 기반으로 전달해주면 꽤 만족할 만한 대답을 준다는 의미 입니다.
안녕? 하고 한글로 자기소개 부탁했더니 다른나라말로... 전혀상관없는 다른 분야 말을 막 쏟아 내더라구요. 물어보지도 않은 얘길요.
이상하내요, 한국어, 영어, 일본어 등 잘 대답해주던데요. 뭔가 모델로드가 정상적이지 않았던거 같은데요?
그런가요?
27b인가 18G 모델은 느려도 똑똑하게 대답해서, 작으면 머리가 나빠지는 줄 알았어요... '-'a
오히려 이번 4b, 2b 는 text, image, audio 가 다 되는 멀티모달이에요.
레알 트루입니까... 언능 돌려봐야겠네요
그전엔 조금 느려도 qwen3.5:27b 를 썼는데 지금은 젬마 26b가 대답이 빨라서 더 자주 쓰게 되는것 같아요 성능테스트는 좀더 해보긴 해야 할것 같습니다.
m5 24g메모리 맥북입니다.
얼렁 배송와서 저기 자빠져있는 맥미니 m4 32를 깨워야겠군요
31b 너무 쾌적합니다.
앞으로 몇년만 더 업데이트하면 특정분야는 클라우드 안써도 될거같네요.....ㅎㅎ;;
오올... 긱벤치 멀티로 M4 가 66%쯤 성능이라니까 기재 되네요...
PCI-E LANE 대역폭이 양쪽으로 절반으로 나눠질테니까요.
혹시 워크스테이션이더라도..PCI-E LANE은 메모리 대역폭에 비하면 너무나도 얕아서..도저히..
그러면 뭐 포기하고 M4 맥미니만 굴려야겠죠 ㅜ.ㅜ
안그래도 세컨 슬롯은 pcie가 반쪽이라...
말로는 용량을 얻고 연산코어가 풍부해지고 병목결과로는 -30%속도저하선인데 그래도 M4 맥보다 빠를거래서 해보려는건데... 메인메모리에 올린거보다 느리고 그러면 화딱지 날거같지말이빈다
저도 잘은 모르지만 LLM의 어텐션 메커니즘이 매 레이어 연산시마다 메모리 전체를 액세스 해야하는 극악조건인 것 같더군요..
그렇게 생각하면 TB/s수준인 현행 HBM 성능도 부족하다는 말이 나올만도 하네 싶기도 하구요. (물론 프론티어급 모델 얘깁니다만..)
선더볼트로 RDMA로 이 기종간 연결 Exo Cluster까지 알아보고 있었는데...
정말 이미 글카간에 느리면 ㅎㅎ...
VRAM 16+8기가 일때 글카간 병목이 어느정도 문제가 되나... 조만간 해볼것이니 뭐 알게되겠죠.
이거 안되면 RDMA도 의지가 파사삭할듯요