Per NVIDIA, New Game Ready Driver 545.84 Released: Stable Diffusion Is Now Up To 2X Faster
엔비디아에서 속도가 2배 빨라졌다고 자랑하는데,
모델 (로라도 함께) 변환 필요 / 해상도 제한 (512~768 사이) 등 번거로움 때문에 그냥 그래요...인 것 같습니다.
레딧 중 댓글 하나.
It looks like it takes about 4-10 minutes per model, per resolution, per batch size to set up, requires a 2GB file for every model/resolution/batch size combination, and only works for resolutions between 512 and 768.
And you have to manually convert any loras you want to use.
Seems like a good idea, but more trouble than it's worth for now. Every new model will take hours to configure/initialize even with limited resolution options and take up an order of magnitude more storage than the model itself.
[발번역]
설정하는 데 모델당, 해상도당, 배치 크기당 약 4~10분이 걸리고, 모든 모델/해상도/배치 크기 조합에 대해 2GB 파일이 필요하며, 512~768 사이의 해상도에서만 작동하는 것으로 보이네요.
그리고 사용하려는 로라를 수동으로 변환해야 해요.
좋은 아이디어처럼 보이지만 지금은 번거로워 보이네요. 모든 새 모델은 해상도 옵션이 제한되어 있어도 구성/초기화하는 데 몇 시간이 걸리고 모델 자체보다 훨씬 더 많은 저장 공간을 차지하게 되네요.
모델을 양자화하고 그래프 최적화를 하고 노드 프루닝을 하고... 뭐 이런 처리들을 내부적으로 사전에 마쳐놔야 하기때문에 작업이 필요한데
이걸 공통화하여 자동으로 처리하기가 까다로울듯 하네요.. 그래서 언급된것처럼 수작업으로 모델 변환을 하는듯 보이고요 (대신 자동화 하려면 할 순 있긴할듯..)
근데 더 문제가 되는것은.... PyTorch 에서는 다이내믹 인풋을 받을 수 있어서 이미지 사이즈를 비교적 자유롭게 (8의 배수이기만 하면 됐던가요..) 변경할 수 있지만
TensorRT를 쓰게되면 위에서 얘기한데로 최적화 작업을 해두기 때문에, 이때 다이내믹 쉐입을 쓸 수 없게 됩니다.. 그런 이유일것 같네요