https://www.aipostkorea.com/news/articleView.html?idxno=2844
"경량 모델 중 가장 빠르고 저렴"…오픈AI, 경량 버전 'GPT-4o 미니' 출시
어제 GPT-4o-mini 가 출시됐습니다.
API용으로 출시가 됐는데요.
저도 데이터 전처리 하는게 있어서 비용이슈로 GPT-3.5-turbo를 사용해왔습니다.
대충 300번 API 호출에 2000원정도 쓰고 있는데요.
이걸 GPT-4o로 하면 10,000원정도 들었습니다.
4o-mini가 3.5 대비 60% 저렴해졌다길래 써봤는데
성능은 당연히 3.5보다 만족스럽고 속도도 빠른데 비용이 대박이네요..

290번 호출했는데요.. 80원정도 들었습니다... ㄷㄷㄷ
좀더 써봐야 정확한 비용이 측정이 될텐데 말도안되게 싸서 뭐지? 했는데
좀더 찾아보니..
GPT-4o-mini부터 SLM에 사용되는 양자화가 적용됐지 않을까? 추측중입니다
양자화는..
gpt-4o-mini의 토큰 비용이 저렴한 이유 중 하나는 양자화 때문일 수 있습니다.
양자화(Quantization)는 모델의 파라미터(가중치)를 더 작은 정밀도로 변환하는 기술입니다.
이는 모델의 크기를 줄이고, 메모리 사용을 감소시키며, 계산 속도를 높이는 장점이 있습니다.
양자화는 모델이 사용하는 숫자의 비트를 줄임으로써 이루어집니다.
예를 들어, 일반적으로 32비트 부동 소수점 숫자를 사용하던 것을 8비트 정수로 변환하는 것입니다.
이렇게 하면 모델이 더 적은 자원을 사용하고, 비용을 절감할 수 있습니다.
이 기술을 사용하면 성능 저하가 있을 수 있지만,
적절하게 적용하면 대부분의 경우 그 차이를 감지하기 어렵습니다.
따라서 양자화된 모델은 비용 효율적인 동시에 충분히 높은 성능을 유지할 수 있습니다.
라고 하네요 ㅎ
좀더 찾아보니 mini에 양자화가 적용됐다는 공식 문서는 없습니다. 아마 양자화 때문이지 않을까? 라는 추측입니다
저도 괜찮다는 평을 들어서 봤는데, 4o에 추가 비용만 저렴해 지는 건가요?
예를 들어 고객 설문 자료를 분석 하려면 그걸 GPT 브라우저에 일일이 물어보기 힘드니 파이썬에서 API 호출로 반복작업을 해서 엑셀로 저장하는거죠.
그러면 1000명의 설문조사 데이터가 있으면 그걸 분석해서 엑셀로 저장할 수가 있는데
1명 분석할때마다 1번 질문을 해서 API 호출 1회가 적용되는거죠
1번 호출할때마다 대략 8원정도 들었는데.. 이게 이제 30번에 8원꼴이 됐다는 글입니다 ㅎ
당연히 만족하시니 그렇게 하실것 같긴한데
실제 수동으로 할때 대비 만족 하시나요??
폼이 입력되면, api 불러서 요약하고, 그 다음에 구글시트에 저장하고 이런거죠?
근데, 요약이나 분석을 시키려면 파인튜닝을 따로 해야할 것 같은데요??? api가 파인튜닝도 지원하나요? 아님 그런거 없이, 매번 이렇게 이렇게 대답해줘...이런 식으로 파라메타를 길게 만들어서 넘기나요??
설문조사 항목중 마지막 건의사항 혹은 기타 주관식 항목있나자요
이걸 카테고리로 분류하고, 부정적 피드백만 따로 분류하고
요긴하게 쓰고 있습니다
구글시트에 GPT 익스텐션이 있어서 이걸로 해도 되는데.. 겁나 비싸더라구요;
다만, 클로드3에서 프리뷰 기능으로 웹앱을 실행할 수 있는 기능이 생겼는데
구글클라우드 + 제미나이가 붙어서 바로 앱을 만들수 있게되면 개쩔지 않을까.. 기대중입니다
근데, API를 주로 뭐에 쓰세요?
저는 조건에 부합하는 메일의 첨부파일을 읽어서 요약한 다음, 업무용 메신저에 noti할 때 쓰는데, 막상 한달에 열댓번이나 호출하더라고요.
회사에서 각종 자료들 엑셀에 취합하거나 모아야 하는 경우가 있자나요. 근데 포맷이 다 각기 달라서 써먹기가 힘든걸 하나의 형식으로 모으거나, 나중에 뽑아서 필요한 양식으로 조정한다거나 하는 식이요.
양식에 상관없이 알아서 분류 하는 작업이 딱일거 같아서 이쪽으로 작업중이에요
업무진행상황을 gpt로 모니터링 한 다음에, 파이프드라이브 같은 SaaS에다 붙여서, 각 단계 이행여부를 자동으로 체크하도록 해도 되겠네요. 그러면 업무상 뭔가 빼먹은 것이 있는지, 다음 처리할 것은 뭔지...이런 거 한눈에 들어오겠는데요.
성능을 굳이 판단하자면 3.5와 4o의 사이에 있는 거 같았습니다.
적당한 추론 능력이 필요한 작업이라면 괜찮은 거 같습니다.