JPEG압축과 딥러닝. jpg : 클리앙

모두의공원

JPEG압축과 딥러닝. jpg 72

베모레클

9,021

2021-02-25 10:14:08 수정일 : 2021-02-25 10:17:29 211.♡.40.168

- 32x32 블록으로 2차원 DCT(디스크릿 코싸인 변환) 변환한 이미지입니다.

- 물론 당근 그레이스케일 이미지죠. 그래야 푸리에변환(DCT)이 되니까요.

- JPEG 이미지 압축할때 많이 쓰는 방법이죠.

- 이미지를 이렇게 블록DCT 변환한 이미지들을 CNN에 입력해서 딥러닝학습하면 이미지 분류가 될까요? 안될까요?

여러분들 생각은요?

딥러닝 입력으로 JPG이미지를 입력한다는건..

DCT압축해서 디코딩한 걸 다시 압축해제해서

이미지로 복원후 입력하는걸 말합니다.

그렇다면 압축해제 하지않고 부호화된 데이타 자체를

딥러닝에 넣어도 학습이 되는지를 묻는 질문인 것입니다.

베모레클 님의

댓글 • [72]

love114

아조씨 이거 자랑 글이죠? ㅎㅎ

베모레클

@love114님

드..들켰군요

aodoena

저는 합격이요!

베모레클

@alpejfn님

축하합니다.

초보이지요

된다에 한표!

naleci

제 생각은 오늘 점심 뭐먹지 입니다.

베모레클

@날레찌님

월급쟁이 시군요

태리야사랑해

된다고는 알고 있지만, 결과가 만족스럽게 나오는지 궁금합니다.

Atreyu

당연 되지 않나요?

MHI

공간적 유사성이 사라지기 때문에 cnn 네트워크와는 맞지 않을 것으로 보입니다

베모레클

@MHI님

그럼 블록격자를 8x8 처럼 더 촘촘히 하면요?

유령회원님

됩니다. 덧붙이자면 네트워크 디자인에 따라서 성능이 미묘하게 떨어질 확률도 일부 존재하지만, classification 에는 큰 지장이 없습니다. 단지 domain 을 frequency domain 으로 이동했을 뿐이라 안될이유가 없고, 그에 맞는 네트워크도 존재합니다.

베모레클

@유령회원님님

그에 맞는 네트웍은 어디있나요?

링크좀 ~

베모레클

딥러닝 입력으로 JPG이미지를 입력한다는건..
DCT압축해서 디코딩한 걸 다시 압축해제해서
이미지로 복원후 입력하는걸 말합니다.

그렇다면 압축해제 하지않고 부호화된 데이타 자체를
딥러닝에 넣어도 학습이 되는지를 묻는 질문인 것입니다.

spring3

"당근" 이미지라는거죠? ㅎㅎ

베모레클

@spring3님

당삼 빠떼루~

thryu_king

뭔소리래요?

별헤는아이

무슨말인지 모르겠네요.
가만히 있어야겠단ㅋㅋ

wiseguyli

심층 신경망 자체가 푸리에 연산을 수행할 수 있어서 충분한 깊이의 신경망이라면 학습이 될 것 같네요.

베모레클

@전기전자전파님

"심층 신경망 자체가 푸리에 연산을 수행할 수 있어서" <- 저랑 같은 생각을 하시는군요.

근데 그렇다면 오히려

더 얕은 신경망이 유리하지 읺을까요? 아니면 아예 MLP만?
이미 푸리에변환으로 피쳐추출이 된 상태이니 말이죠..

KoKo

@전기전자전파님 흥미롭네요. deep learning 이 homomophic 할까라는 주제인거 같아서. 압축방식에 따라 다르지 않을까요?

베모레클

@KoKo님

homo-morphic (준동형)말씀이군요?

압축방식은 dct에 한해서일때 궁금합니다.

삭제 되었습니다.

베모레클

@OS폐인님

리딕처럼 퓨리아 출신이죠.
가슴에서 빛이 번쩍~

제리아스

열화된 정보를 다시 원본에 가깝게 복구하는 기술인가 싶습니다.

edge

tensorflow의 보이스 코맨드 예제에 있는 fft를 안하고 딥러닝 단을 늘려서 한적이 있습니다.
그럭저럭 되긴했습니다만 같은 하드웨어가 주어진다면 좋다고 못하겠습니다.

베모레클

@edge님

스펙트로그램 음성인식 말인가요?
그건 1차원을 푸리에로 이미지로 만드는 거라서
약간 다르긴 합니다..

edge

@제갈클님 네.
이론적으론 1차원이 되면 2차원도 되긴하죠. 그게 효율적인질 떠나서요.

베모레클

@edge님

1차원 오디오가 2차원 이미지가 되면 딥러닝이 된다면
2차원 이미지는 3차원볼륨이 되어야
딥러닝이 되는건 아닐까요?

2차원to2차원 푸리에데이타는 딥러닝이 안되는 이유는 무엇일까요?

(대충 이해 못했으면서 이해하는 척 하는 짤)

아질게요~

베모레클

@님

답이 없는 거라서
아질게는 아닌듯 합니다..

beholder

됩니다
이미지를 동일하게 DCT 변환하여 CNN에 넣는다면
학습이 됩니다

푸른미르

질문은 '아질게' 입니다. ㅎㅎㅎ

베모레클

@푸른미르님

답이 없는 거라서
아질게는 아닌듯 합니다..

동경오감

공간이 주파수 도메인으로 변환되니 FIR 필터 개념에 기반한 conv layer가 아닌 다른 특징의 layer가 있어야 할 것 같아요. 기존의 conv layer 동작을 그대로 구현한다면 conv가 일반 곱셈으로 변환될테니 커널이 이미지 크기랑 동일해져서 모델 사이즈가 커지는 대신 연산량은 줄 수도 있겠네요. 제 생각에 가능하더하도 써먹기엔 좀 비효율적일 것 같아요.

베모레클

@동경오감님

콘브넷 레이어들은 FIR을 넘어서서 훨 일반적인 필터를
학습으로 만들어내는 거 아닌가요?

다른 특징레이어는 무엇을 말하시나요?

동경오감

제가 복잡하게 생각한 것 같네요. 초창기에 conv를 frequency domain으로 변환해서 처리하거나 winograd로 계산량 줄이는 연구들이 있었는데 그거랑 헷갈렸나봐요. receptive field가 충분히 크면 일반 cnn으로도 가능할 것 같네요. 근데 성능이 좋을지는...

동경오감

google에 image classification in frequency domain으로 검색하니 뭐가 많이 나오네요.

베모레클

@동경오감님

다 찾아본 것들입니다.

transistor

학습됩니다. 논문 제목은 기억안나는데 1년전쯤에 이미 있었어요 ㅋ

베모레클

@transistor님

기억을 떠올려주세요.

내가그린기린그림

@transistor님 저도 봤습니다. 스쳐지나가면서 본거라 제목은 기억안납니다.

베모레클

@내가그린기린그림님

증명은 했는데
여백이 없어서 증명식을 못남긴거랑 같은 경우군요... --;

놜라리놜라

그런데... 형..
교수님이 이번엔 졸업시켜준대요?... 군대 보내버린다는 소문이 있던데요....

대충 이런 댓글로 아름답게 넘어가자...

베모레클

@놜라리놜라님

교수에게 개기고도 졸업 잘했던 사람이지요.
개겼던 동기들이 오히려 더 존데로 취업했었다는..

아, 옛날이여~

darong

이런 경우에는 transformer 기반의 이미지 분류가 좋은 결과를 보일 것 같네요.

베모레클

@darong님

왜 그렇게 생각 하셨나요?

동경오감

@darong님 그러게요. ViT 같은게 좋을 수 있겠네요.

darong

이미지에 변형을 가했기 때문에 공간적 유사성을 학습하는 것 보다는 attention를
학습하는 것이 낫지 않을까 합니다.

베모레클

@darong님

음...

하지만 어텐션이 너무 스파스하게
산재되어 나타나지 않을까요?

어텐션은 곧 로컬한 집중 아니던가요?

데미로바토

Spectral Convolution Network가 이미 비슷한 원리로 작동하고 Frequency Separation Block 같은 것도 이미 있어요.
푸리에 변환이라고 해봐야 사실 선형변환이고 정규화항만 잘 설정하면 Orthonormal Matrix로 표현할 수 있기도 하고,
RGB 입력을 컬러 스페이스만 바꿔서 YCbCr로 입력하는 것도 선형변환인데 네트워크는 잘 동작하는 것처럼 커널은 잘 학습될 거에요.
결론은 "문제없이 동작한다"입니다. 그게 효율적일지 비효율적일지는 응용 문제에 따라 다를 것이라 생각합니다.

베모레클

@데미로바토님

그렇죠? 저도 그렇게 생각합니다.
...
그런데 해보면 안됩니다.
해보시면 압니다.

이유가 뭘까요?

데미로바토

@제갈클님
이미지-FFT-CNN-IFFT-이미지 순으로 했는데 학습이 안 된다구요?
Super Resolution 같은데서는 잘 동작하는데...

베모레클

@데미로바토님

이미지-FFT-CNN-IFFT-이미지
처럼 출력으로 이미지가 나오는게 아니고

출력은 분류결과인 분류망 학습의 경우 말입니다.
일반화 학습이 안됩니다.
valid_loss 가 안줄어요.

데미로바토

@제갈클님
분류 문제라면 기존의 CNN이 특징 추출시 고주파수 영역에 더 집중한다는 점에 착안해서 고주파수 영역에 집중하도록 하는 연산을 넣으면 어떨까요?

SR이 솔루션이 여러개인 문제라서 분류 문제보다 해결하기 쉬운 케이스는 아닌 것 같아서요 ㅜ.ㅜ

동경오감

@제갈클님 애초에 CNN과 convolution layer는 기존 computer vision 지식과 visual cortex에 대한 이해를 바탕으로 입력 데이터의 성질(locality, shift-invariance)을 이용해서 연산을 제한한 것이라고 이해하고 있습니다. (CNN을 FC layer만으로 구성해도 이론적으로는 문제 없겠지만, 학습이 잘 되지 않을테고 연산량도 엄청 많으니까요.)
그런데 입력 데이터를 DCT로 변환해버리면 애초에 CNN이 생각했던 "이미지"라는 성질을 잃어버릴 것 같습니다. 물론 'DCT 결과를 또 다른 "이미지"라고 보고 CNN이 pattern을 찾는다고 생각하면 되지 않냐'가 질문일 것 같은데요. 제 생각에 DCT 결과는 locality가 떨어져서 receptive field가 엄청 커야 할 것 같습니다. kernel size가 커지거나 신경망이 더 deep 해지거나요. 그에 따라서 효율이 떨어지거나 학습이 잘 안되고 하는 문제가 생길 것 같고요.
저 위에 제가 단 댓글에 convolution이 아닌 다른 operator를 언급한 것도 비슷한 이유에서 입니다. 데미로바토님께서 말씀하시는 연산 같은 것도 답이 될 수 있을 것 같고요.

베모레클

@동경오감님

receptive field가 엄청 크다는건
VGG나 Alexnet 같은 망을 말하는 건가요?

resnet152로 해도 안되는거 보면
딥한망도 소용없는거 같습니다만...

wide_resnet 으로 안되더라니까요~

(대략 완벽하게 이해했어 짤)

carbo

이미지을 조각내서 저렇게 모으면 용량이 중어든다구요??

베모레클

@carbo님

많은 부분을 잘라버리는 거죠.
손실압축 입니다.

방학이필요해

@carbo님 dct로 spatial domain의 정보를 freq domain으로 옮기는것 만으로는 용량이 줄지 않습니다. (정보량은 그대로...)

다만 여기에 각 데이터의 확률 분포를 이용한 허프만 코딩을 통해 무손실 압축을 해서 용량을 줄일 수 있고...

데이터의 확률 분포를 좀 더 0 방향으로 집중시키기 위하여 양자화(quantization)을 적용하는데(이 부분에서 손실 발생), 양자화를 적용할 때 사람 눈이 high freq 성분에 덜 민감하단걸 이용해서 high freq 정보를 더 심하게 버리게 되면 정보량이 주는거대비 눈으로 봤을때의주관적 화질은 크게 떨어지지 않는 결과를 보입니다.

안경뺀라이언

MRI같은 경우도 마그네틱 시그널을 푸리에 트랜스폼해서 우리가 보는 MRI영상으로 만드는건데 MRI영상으로도 딥러닝을 하고, 시그널로도 딥러닝을 하고, 시그널 -> 영상 변환 알고리즘도 푸리에 트랜스폼대신 딥러닝으로 수행하는 연구도 있습니다.

해봐야 알겠지만 저는 될 것 같아요

다만 상황에 따라서 domain generalization이나 self-supervised쪽까지 곁들여서 해봐야될거같아요

quartzsaber

제가 보기에도 학습이 되어야할것 같은데 안되는 이유라면... 일단 생각나는게 32x32 블록을 그림처럼 합쳐서 CNN 입력으로 퉁쳐버리면 성능이 줄어들지도 모르겠다는 거네요. 만약 진짜로 이런 이유라면 첫 conv를 filter=1024, kernel=32, stride=32 세팅으로 하거나, 아예 32x32=1024채널 이미지로 입력을 주면 개선될것 같고요. 근데 이렇게 하면 32x32는 너무 큰것같고 JPEG처럼 8x8정도로 해야겠네요. (그런데 진짜 신기하네요. https://github.com/akai-katto/dandere2x/wiki/How-Dandere2x-Works#observation_3 이 잘 되는걸 보면 이것도 잘 되어야 할것 같은데 말이죠.)

동경오감

@quartzsaber님 저도 비슷한 생각인데, 기존 conv layer를 사용할 경우 이미지 특성에 맞게 stride, dilation, filter size를 설정하거나 아니면 입력이나 feature map을 shuffle/reshape해주는 방법이 필요할 것 같습니다.

베모레클

@quartzsaber님

단데레2x ?
이건 와이푸2x의 비디오 버전 인가요?

DCT matrix 를 써서 고속연산화 한것인가요?
큰 이미지에 DCT한번 하는거 보다.
DCT매트릭스로 하면 훨 빠르건든요..

quartzsaber

@제갈클님 아니요. 그정도는 아니에요. 링크한 페이지의 이미지만 위에서부터 쭉 봐도 감이 오실텐데, waifu2x를 비디오에 적용할때 모든 프레임을 전부 변환하면 느리니까 이전 프레임과 비교해서 바뀌지 않은 타일만 모아서 프레임을 구성하는거에요.

DCT와는 전혀 관계가 없지만 하나의 이미지가 아니라 서로 이어지지 않는 (경계가 뚜렷한) 조각들을 이어붙인데 CNN에 입력으로 들어간다는 점이 본문의 상황과 비슷한점이 있는것 같아서 가져왔어요.

삭제 되었습니다.

맥덕스

안될 이유가 없을 거 같은데요

베모레클

@맥덕스님

그런데 해보면 안됩니다.

이유를 규명하시면
딥러닝의 비밀이 열립니다.

콘브넷(CNN) 은 딥러닝의 꽃이거든요.

킁킁~!!

Classification에서는 Global 정보가 Feature map을 작게해서 Convolution receptive field에 들어가야 하는데,아직 low level feature일 때 Frequency domain에서의 pooling, Stride, Sampling이 등이 안 통하는 거 아닐까요? Low level feature에서는 기존 방법이 아닌 Frequency Band를 조절하면서 내려가야 할 것 같은 느낌적인 느낌이 듭니다. high level feature에서야 어차피 우리가 모르는 도메인으로 가버리니 상관 없지만요.

베모레클

@킁킁~!!님

공간도메인과 푸리에도메인간의 불확정성 때문일까요?

실수가 아닌 복소수를 사용하는
새로운 딥러닝망이 필요한 걸까요?

킁킁~!!

Low level Feature map에서 pooling을 할 때 일반적으로 하는 것 처럼 spatial 기준으로 pooling을 하면 안되지 않을까요? 어찌 접근해야 할지는 좀 고민해봐야 할 것 같은데, 재미있는 주재가 될 것 같네요.

JPG DCT가 8x8단위이니, pooling을 DCT 단위로 한다든가. 예를 들어 8x8 DCT를 2개 당 1개만 하는 식으로 한다거나.....

베모레클

@킁킁~!!님

그럼 블럭단위가 아닌 이미지 전체를 DCT해버리면
일반적 콘브넷으로 학습이 된다는 이야기 같습니다만...

목록으로

글쓰기

이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고

고객지원

개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책