위키 번역입니다.
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Optimizations/ (최신은 이 쪽으로)
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Optimizations/b7deec399a19dcc0dad67d1a91cdba405f4076f4 (번역 기준으로 잡은 판)
* DeepL 번역기 사용했습니다.
--opt-sdp-attention
xformers를 사용하는 것보다 빠른 속도, Torch 2.0을 venv에 수동으로 설치한 사용자만 사용 가능(비결정론적).
--opt-sdp-no-mem-attention
xformers를 사용하는 것보다 빠른 속도, Torch 2.0을 venv에 수동으로 설치한 사용자만 사용 가능(결정론적 deterministic, --opt-sdp-attention보다 약간 느림).
--xformers
xformers 라이브러리 사용. 메모리 소비량과 속도가 크게 개선됩니다. 바이너리가 있기 때문에 구성의 일부만 사용됩니다.
--force-enable-xformers
프로그램에서 실행할 수 있다고 생각하는지 여부에 관계없이 위의 xformers를 활성화합니다. 실행 중 발생하는 버그는 제보하지 마세요.
--opt-split-attention
크로스 어텐션 레이어 최적화를 통해 거의 비용 없이 메모리 사용량을 크게 줄일 수 있습니다(일부에서는 이를 통해 성능이 향상되었다고 보고합니다). 요술 같은 기능. 엔비디아 및 AMD 카드가 모두 포함된 torch.cuda의 경우 기본적으로 켜집니다.
--disable-opt-split-attention
위 최적화를 비활성화합니다.
--opt-sub-quad-attention
서브 쿼드릭 어텐션은 메모리 효율적인 크로스 어텐션 레이어 최적화로, 때로는 약간의 성능 저하를 감수하면서 필요한 메모리를 크게 줄일 수 있습니다. xformers가 작동하지 않는 하드웨어/소프트웨어 구성으로 인해 성능이 저하되거나 생성에 실패하는 경우 권장됩니다. macOS에서는 더 큰 이미지도 생성할 수 있습니다.
--opt-split-attention-v1
attention-v1은 위 최적화의 이전 버전을 사용하며 메모리를 덜 소모합니다(VRAM을 덜 사용하지만 만들 수 있는 사진의 최대 크기가 더 제한됩니다).
--medvram
스테이블 디퓨전 모델을 cond(텍스트를 숫자 표현으로 변환), first_stage(그림을 잠재 공간으로 변환한 후 다시 변환), unet(잠재 공간의 실제 노이즈 제거)의 세 부분으로 분할하여 항상 하나만 VRAM에 있고 나머지는 CPU RAM으로 보내도록 해서 VRAM을 덜 소비하도록 합니다. 실시간 미리 보기가 활성화된 경우를 제외하고는 성능이 약간 저하됩니다.
--lowvram
위의 최적화를 더 강화하여 unet을 여러 모듈로 분할하고 하나의 모듈만 VRAM에 유지합니다. 성능에 있어서는 치명적입니다.
*do-not-batch-cond-uncond
샘플링 중에 긍정 및 부정 프롬프트의 일괄 처리를 방지하여 기본적으로 0.5 배치 크기로 실행할 수 있으므로 많은 메모리를 절약할 수 있습니다. 성능이 저하됩니다. 명령줄 옵션이 아니고 --medvram 또는 --lowvram을 사용하면 암묵적으로 최적화가 활성화됩니다.
--always-batch-cond-uncond
위 최적화를 비활성화합니다. --medvram 또는 --lowvram과 함께 사용해야만 의미가 있습니다.
--opt-channelslast
스테이블 디퓨전의 Torch 메모리 유형을 마지막 채널로 변경합니다. 효과는 아직 충분히 연구되지 않았습니다.
--upcast-sampling
일반적으로 --no-half로 실행하도록 강제되는 엔비디아 및 AMD 카드는 생성 속도를 개선할 수 있습니다.
[후략]