중국 AI 스타트업 DeepSeek, 오픈 소스 코드 언어 모델 'DeepSeek-Coder-V2'를 발표하였습니다.
중국의 AI 스타트업 딥시크가 오픈 소스 전문가 혼합(MoE) 코드 언어 모델인 'DeepSeek-Coder-V2'를 공개하였습니다.
이 모델은 300개 이상의 프로그래밍 언어를 지원하며, GPT-4 터보, 클로드 3 오푸스, 제미니 1.5 프로 등 최첨단 폐쇄형 모델의 성능을 뛰어넘는 것으로 알려졌습니다.
회사 측은 "이것이 오픈 모델이 이 위업을 달성한 첫 사례"라고 밝혔습니다.
DeepSeek-Coder-V2는 지난달 공개된 MoE 모델 'DeepSeek-V2'를 기반으로 개발되었습니다.
이 모델은 GitHub와 CommonCrawl에서 수집한 6조 토큰의 코드 및 수학 관련 데이터를 추가로 학습하여 코딩과 수학 작업에서 뛰어난 성능을 보여줍니다.
또한 컨텍스트 윈도우를 128K로 확장해 더욱 복잡하고 광범위한 코딩 작업을 처리할 수 있게 되었습니다.
https://twitter.com/deepseek_ai/status/1802680388256768145
각종 벤치마크 테스트 결과, DeepSeek-Coder-V2는 코드 생성, 편집, 문제 해결 능력 등에서 기존의 폐쇄형 및 오픈 소스 모델을 압도하는 성적을 기록하였습니다.
특히 일반적인 추론 및 언어 이해 작업에서도 견줄 만한 성능을 보여주며, 개방형 코딩 전용 모델이 전반적인 영역에서 최첨단 폐쇄형 모델에 근접하고 있음을 입증하였습니다.
DeepSeek-Coder-V2는 연구와 상업적 사용이 모두 가능한 MIT 라이선스로 공개되었으며, Hugging Face를 통해 다운로드 받으실 수 있습니다.
회사는 또한 API를 통한 모델 접근과 챗봇을 이용한 테스트 기회도 제공하고 있습니다.
중국은 기술발전을 하면 할수록 세계적인 골치거리가 될거라고 봐요. 무엇을 이용하여 무슨 테스트를 할지 모르니깐요.
(물론 다른나라들도 문제이지만 중국은 워낙 선을 넘는 경우가 많다보니..)
시스템도 궁금하지만 이정도면 gpt 5급은 훈련이 끝났겠네요
이 부분이 걱정되는군요... 과연 사용자(제작자) 동의가 된 데이터일런지... commoncrawl이 수집한건데, 수집 대상 출처가 걱정이 되는군요
(추가)
조금 찾아보니 commoncrawl은.. 괜찮을수도 있겠네요
아주 이기적이죠. ㅇㅇ