바이두, GPT-5와 제미나이를 능가한다고 주장하는 오픈소스 멀티모달 AI 공개 : 클리앙

바이두가 구글과 OpenAI의 경쟁 모델들을 능가한다고 주장하는 새로운 AI 모델을 공개했습니다.

ERNIE-4.5-VL-28B-A3B-Thinking이라는 이름의 이 모델은 이미지, 비디오, 문서를 텍스트와 함께 이해하고 추론할 수 있는 멀티모달 AI입니다.

이 모델의 가장 큰 특징은 효율성입니다.

총 280억 개의 파라미터를 유지하면서도 실제 작동 시에는 30억 개의 파라미터만 활성화하는 정교한 라우팅 아키텍처를 사용합니다.

바이두에 따르면 이러한 설계 덕분에 훨씬 더 큰 경쟁 시스템과 비슷하거나 더 나은 성능을 보이면서도 컴퓨팅 파워와 메모리는 훨씬 적게 소비한다고 합니다.

바이두는 이 모델이 "이미지와 함께 사고하기"라는 독특한 기능을 갖췄다고 설명합니다.

AI가 이미지를 동적으로 확대하고 축소하면서 세밀한 디테일을 검토할 수 있어, 마치 인간이 시각적 문제를 해결하는 방식을 모방한다는 것입니다.

일반적인 비전-언어 모델은 고정된 해상도로 이미지를 처리하지만, 이 모델은 복잡한 기술 다이어그램을 분석하거나 제조 품질 관리에서 미묘한 결함을 감지하는 등 넓은 맥락과 세밀한 디테일이 모두 필요한 작업을 처리할 수 있습니다.

바이두는 이 모델이 구글의 Gemini 2.5 Pro와 OpenAI의 GPT-5-High를 여러 문서 및 차트 이해 벤치마크에서 능가한다고 주장하지만, 아직 독립적인 검증은 이루어지지 않았습니다.

다만 회사가 무제한 상업적 사용을 허용하는 Apache 2.0 라이선스로 모델을 공개한 점은 주목할 만합니다.

바이두는 이 모델이 6가지 핵심 능력을 갖췄다고 설명합니다.

복잡한 시각 작업에서 다단계 추론과 차트 분석, 인과 추론을 수행할 수 있고, 사진에서 STEM 문제를 해결하는 능력도 뛰어나다고 합니다.

또한 산업 수준의 정밀도로 이미지 내 객체를 식별하고 위치를 파악할 수 있으며, 이미지 검색 같은 외부 도구를 호출해 훈련 데이터를 넘어서는 정보에도 접근할 수 있습니다.

비디오의 경우 시간 인식과 이벤트 위치 파악 능력이 뛰어나 다른 시간 세그먼트의 콘텐츠 변화를 정확하게 식별한다고 합니다.

바이두 문서에 따르면 이 모델은 단일 80GB GPU에서 실행 가능해, 여러 고급 가속기가 필요한 경쟁 시스템보다 훨씬 접근하기 쉽습니다.

많은 기업 데이터 센터에서 쉽게 구할 수 있는 하드웨어인 만큼 배포 장벽이 낮아진 셈입니다.

이 모델은 2025년 6월 공개된 ERNIE 4.5 모델 패밀리의 일부입니다.

이 패밀리는 4,240억 개 파라미터의 플래그십 모델부터 3억 개 파라미터의 컴팩트 모델까지 10개의 변형으로 구성되어 있습니다.

개발자들을 위해 바이두는 ERNIEKit이라는 종합 개발 툴킷을 공개했습니다.

Hugging Face Transformers, vLLM, FastDeploy 등 인기 있는 오픈소스 프레임워크와 완전히 호환되어, 기업들이 기존 AI 인프라에 큰 변경 없이 모델을 통합할 수 있습니다.

바이두가 공개한 샘플 코드를 보면 약 30줄의 Python 코드만으로 모델을 로드하고 실행할 수 있습니다.

https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

새로운소식