Stability AI가 텍스트 - 이미지 생성 AI 기술의 새로운 버전인 Stable Diffusion 3.5를 공개했습니다.
이번 업데이트는 지난 버전의 미흡했던 점들을 개선하는 데 중점을 두었습니다.
Stable Diffusion 3는 지난 2월 처음 프리뷰되었으며, 첫 번째 오픈 모델 버전은 Stable Diffusion 3 Medium의 출시와 함께 6월에 일반 공개되었습니다.
이번에 출시된 Stable Diffusion 3.5는 세 가지 버전으로 제공됩니다.
가장 높은 품질과 프롬프트 준수율을 자랑하는 80억 개의 파라미터를 가진 'Stable Diffusion 3.5 Large'.
대형 모델의 경량화 버전으로, 빠른 이미지 생성이 가능한 'Stable Diffusion 3.5 Large Turbo'.
그리고 26억 개의 파라미터로 엣지 컴퓨팅 환경에 최적화된 'Stable Diffusion 3.5 Medium'입니다.
모든 버전은 Stability AI 커뮤니티 라이선스 하에 제공되어 비상업적 목적으로는 무료로 사용할 수 있으며, 연간 수익이 100만 달러 미만인 기업도 상업적으로 무료 사용이 가능합니다.
대규모 사용을 위한 기업용 라이선스도 별도로 제공되며, Stability AI의 API와 Hugging Face 플랫폼을 통해 접근할 수 있습니다.
Stability AI의 CTO 한노 바세는 이전 모델의 문제점을 분석하고 개선했다고 설명했습니다.
특히 새로운 버전에서는 Query-Key 정규화 기술을 트랜스포머 블록에 통합하여 사용자들의 미세 조정과 추가 개발을 용이하게 했습니다.
또한 멀티모달 디퓨전 트랜스포머(MMDiT-X) 아키텍처를 향상시켜 이미지 품질 개선과 다중 해상도 생성 기능을 강화했습니다.
Stability AI는 향후 Stable Diffusion 3.5에 ControlNets 기능을 출시할 계획입니다.
이는 2023년 7월 SDXL 1.0에서 처음 선보인 기술로, 전체적인 색상을 유지하면서 이미지를 확대하거나 특정 깊이 패턴을 따르는 이미지를 생성하는 등 전문적인 용도에서 더 세밀한 제어가 가능하게 합니다.