간만에 레딧 들어가 봤더니 중요한 정보가 떳길레 간단히 전달해드립니다.
1.DragDiffusion
https://huggingface.co/papers/2306.14435
정밀하고 제어 가능한 이미지 편집은 상당한 주목을 받고 있는 까다로운 작업입니다. 최근 DragGAN은 인터랙티브한 포인트 기반 이미지 편집 프레임워크를 구현하고 픽셀 수준의 정밀도로 인상적인 편집 결과를 얻을 수 있게 해줍니다. 그러나 이 방법은 생성적 적대 신경망(GAN)을 기반으로 하기 때문에 미리 학습된 GAN 모델의 용량에 따라 일반성이 상한선이 정해져 있습니다. 이 연구에서는 이러한 편집 프레임워크를 확산 모델로 확장하여 DragDiffusion을 제안합니다. 사전 학습된 대규모 확산 모델을 활용함으로써 실제 시나리오에서 인터랙티브 포인트 기반 편집의 적용 가능성을 크게 향상시킵니다. 기존의 대부분의 확산 기반 이미지 편집 방법은 텍스트 임베딩에서 작동하는 반면, DragDiffusion은 확산 잠재력을 최적화하여 정밀한 공간 제어를 달성합니다. 확산 모델은 반복적인 방식으로 이미지를 생성하지만, 한 단계에서 확산 잠재력을 최적화하는 것만으로도 일관된 결과를 생성할 수 있으며, 이를 통해 고품질 편집을 효율적으로 완료할 수 있음을 경험적으로 보여줍니다. 여러 오브젝트, 다양한 오브젝트 카테고리, 다양한 스타일 등 까다로운 다양한 사례에 대한 광범위한 실험을 통해 DragDiffusion의 다목적성과 범용성을 입증했습니다.
DeepL 번역 제공
GAN에서 Diffusion 모델로 사용하기 위한 논문이 발표되었습니다.
아래 이미지는 논문에 기제된 작업 이미지 중 일부 입니다.
우선 인페인트 처럼 영역을 지정하고
빨간색 점(조작)과 파란색 점(대상)을 지정하면 빨간색에서 파란색으로 드래그 합니다.
SD로 작업해 보신분들은 다들 아시겠지만 대상의 포즈나 일정부분을 조작하려면 꽤 많은 작업이 소요되었습니다.
팔 하나 바꾸려면 밑그림을 그리거나 포즈 에디터로 작업을 해야됬었죠
그런데 이 드래그 기능이 나오게 되면 그 작업량을 확 줄일수 있게 되는겁니다.
아마 웹툰쪽 업계에 있는 사람들에겐 어마어마 한 기능이 아닐까 싶네요
컨트롤넷 이후로 엄청 획기적인 기능이 나오는건데 이를 컨트롤넷이 어떻게 흡수할지 기대 됩니다.
2.SDXL
레딧의 한 유저가 SD 디코에서 XL 담당자와 이야기한 내용과 Emad(Stability AI 설립자이자 현 CEO)가 유튜브에 올린 영상의 내용을 정리해서 올린겁니다.
-
SDXL 0.9는 SDXL 1.0으로 가는 디딤돌입니다: 개발팀은 SDXL 0.9를 통해 이룬 진전에 대해 매우 기쁘게 생각하며, SDXL 1.0의 정식 릴리스를 위한 디딤돌이라고 생각합니다.
-
커뮤니티 참여: 커뮤니티는 특히 Discord 봇을 통해 새로운 AI 버전을 테스트하고 피드백을 제공하는 데 적극적으로 참여했습니다. 이러한 피드백은 사람의 선호도에 더 잘 맞도록 AI를 미세 조정하는 데 결정적인 역할을 했습니다.
-
가용성: SDXL 0.9는 클립드롭에서 사용할 수 있으며, 곧 API와 드림 스튜디오에도 출시될 예정입니다. 연구 가중치는 이번 주 중에 연구자들에게 발송될 예정입니다.
-
출시 일정: 1.0 정식 버전 출시는 7월 중순을 목표로 하고 있습니다. 메인 릴리스는 기존의 Stable Diffusion과 유사한 크리에이티브 ML 라이선스 릴리스가 될 것입니다.
-
지속적인 개선: 개발팀은 주기적인 릴리스를 통해 모델을 지속적으로 개선할 계획입니다. 또한 SD3와 같은 다른 모델도 개발 중입니다.
-
커뮤니티 기반 엔티티: 팀은 미세 조정을 더 쉽게 하기 위해 노력하고 있으며, 확장을 위한 가이드와 보조금을 제공할 계획입니다. 또한 Comfy UI와 같은 커뮤니티 기반 엔티티에서 AI를 사용할 수 있도록 할 계획입니다. 주요 미세 조정자들의 가중치 및 미세 조정은 출시 시점에 맞춰 가이드 및 기타 리소스와 함께 제공될 예정입니다. 개발팀은 커뮤니티와의 상호작용을 개선하고 로드맵에 대한 투명성을 높이기 위해 노력하고 있습니다. 또한 MacBook과 같은 기기에서 실행하는 것을 목표로 AI의 접근성을 높이기 위해 노력하고 있습니다.
-
연구팀과 응용팀의 협업: 연구팀과 응용팀은 모델을 개선하기 위해 긴밀히 협력하고 있습니다. 응용 팀은 개발 프로세스에 다른 관점을 제공합니다.
-
하드웨어 요구 사항: 연구팀은 RTX 2070의 랭크 8에서 1024×1024로 이미지를 생성하고 LORA를 훈련하는 데 8기가바이트의 VRAM이면 충분하다는 것을 확인했습니다. 전체 미세 조정은 3090에서 수행할 수 있습니다.
-
향후 개선 사항: 개발팀은 데이터 세트를 최적화하고 아키텍처를 개선하여 AI의 접근성을 높이기 위해 노력하고 있습니다. 또한 사용자를 위한 더 나은 도구와 인터페이스도 개발 중입니다.
-
SDXL 1.0은 아직 개발 중입니다: SDXL 1.0의 아키텍처는 출시 전에 변경될 것으로 예상됩니다. 현재 벤치마크는 현재 버전인 SDXL 0.9를 기반으로 합니다.
-
SDXL 1.0은 최첨단 모델입니다: SDXL 1.0은 전 세계에서 가장 최신 모델 중 하나라고 할 수 있습니다. 하지만 특정 작업에는 SD 1.5와 같은 이전 버전을 계속 사용할 수 있습니다.
-
안정적인 LLM과 안정적인 확산의 통합: 개발팀은 Bing 채팅과 Dall-e의 통합과 유사한 방식으로 이 두 시스템을 통합하는 것을 고려하고 있습니다. 이 통합에는 많은 잠재력이 있다고 생각하지만 현재는 다른 프로젝트에 집중하고 있습니다.
-
StableLM 출시: 팀은 언어 모델 UI를 준비했으며 StableLM의 베타 버전 출시를 준비하고 있습니다. 또한 최대 130억 개의 매개변수까지 복제할 수 있는 Lama 복제본을 출시했으며, 이제 막 200억 개를 완료했습니다.
-
SDXL의 개선: 팀은 SDXL을 통해 즉각적인 이해력이 크게 향상되었음을 확인했습니다. 시중에 나와 있는 다른 모델보다 성능이 뛰어나며 생성할 수 있는 데이터도 크게 개선되었다고 생각합니다. 특히 자연어 프롬프트를 이해하고 이에 응답하는 모델의 능력이 인상적이었습니다.
-
SDXL의 기능: SDXL의 주요 강점 중 하나는 최소 성능 기준입니다. 최소한의 노력으로도 SDXL이 생성하는 출력은 SD 버전 1이 생성하는 출력과 최소한 같거나 그 이상입니다. 팀은 이 점이 아티스트와 이 모델로 작업하는 다른 사람들에게 중요한 영향을 미칠 것이라고 믿습니다.
-
환경적 고려 사항: 개발팀은 이 모델에 사용되는 에너지가 환경에 미치는 영향을 인지하고 있으며, 이를 줄이기 위한 조치를 취하고 있습니다. 1.0 버전이 효율적이고 효과적으로 사용될 수 있도록 출시에 신중을 기하고 있습니다.
-
출시 계획: 팀은 7월 중순 출시를 목표로 하고 있지만, 필요하다면 0.95 버전도 출시할 준비가 되어 있습니다. 또한 해당 모델의 코드를 공개할 계획이며 미세 조정자를 위한 보조금 프로그램도 고려하고 있습니다.
-
NSFW 필터링: 팀은 NSFW 콘텐츠에 대한 우려를 알고 있습니다. 이 점에서 이 모델은 조정이 가능하다고 생각합니다.
-
향후 계획: SDXL 1.0 출시 이후, 팀은 새로운 SD 버전, 텍스트-비디오 모델, 특수 모델 등 다양한 프로젝트를 진행할 계획입니다.
-
대규모 모델 구축의 워크플로: SDXL과 같은 모델을 구축하는 과정에는 지속적인 테스트와 반복이 수반됩니다. 팀은 다양한 모델과 매개변수를 비교하면서 다양한 테스트를 실행하고 그 결과를 바탕으로 모델을 점차적으로 개선합니다. 목표는 유용하고 가치 있는 동시에 효율적이고 환경 친화적인 모델을 만드는 것입니다.
위 내용에서 주요 포인트를 몇개 짚어보자면
SDXL v1.0은 7월 중순에 배포를 목표로 하고 있고(v0.95 가 출시될 수도 있음) 아키텍처가 변경될 것이라고 합니다. XL v1.0부터는 CreativeML 라이선스가 적용된다고 하는데 이게 SD v1에 쓰인 CreativeML Open RAIL-M 라이선스인지는 알수없습니다. 유사한 이라 언급한걸 보면 다른 라이선스일 가능성이 있습니다.
자연어를 이해하는 성능이 개선되었고 이에따라 LLM과 결합하는데 관심이 있는걸로 보입니다. StableLM과 챗봇 관련한 예전 소식등을 조합해보면 ChatGPT에 대응한 솔루션을 준비하고 있는게 아닌가 싶습니다.
그리고 그래픽 작업에 MacBook을 쓰는 사용자들이 많다보니 이에 대한 지원을 언급한것 보면 앞으로 맥북 사용자들에게는 희소식으로 받아들여도 될거 같습니다. 혹시 애플과 뒤에서 뭔가 긴밀히 협력을 했나?
파인튜닝 사용자를 위한 보조금 프로그램을 고려하고 있다고 합니다. 저작권 때문에 어떻게 이루어질진 알수 없으나 civitai 가 어떻게 반응할지 지켜보아야 할거 같습니다. 과연 이게 수익화로 전환되는 시점이 될 수 있을지...
v1과 비교한 내용이나 NSFW, 로라 및 파인튜닝 보상제도에 대한것들이 언급된걸 보면 SDv1.5에서 XL로 사용자를 확실히 끌어오기 위한 준비를 단단히 하는거 같습니다.
기존SD v2의 저조한 성적에 비해 XL은 본격적으로 버전 이동이 빠르게 이루어질걸로 보고 있습니다.
dalcefo님이시라면 모델 만드신게 있어 충분히 줄거 같습니다
저는 xl 이후로 좀 공개적으로 프로젝트를 좀 진행하려고 생각중입니다 ㅋ