절반쯤 보다가 재밌길래 이리로 퍼왔습니당
직접 보셔야 용어정리보단 원리이해에 도움이 될겁니당
절반쯤 보다가 재밌길래 이리로 퍼왔습니당
직접 보셔야 용어정리보단 원리이해에 도움이 될겁니당
이해하면 나도 할 수 있다. 결과보다 과정을 중요시하는 사람 어설픈 추측은 놉. 방구석 제갈량 그만yo 힌트 흘리고 다니는 사람이 생각보다 잘 없음. LR네임: 모두에게 떳떳한 사람으로 남아야 한다. 나만의 후라이드: 술, 담배 안 하기 노래방 안 다님 첫 직장을 목적 없이 아무 직종이나 대충 지원하지 않기 나와 상대의 보안 철저 내가 아는 선에서 최선의 선한 길부터 생각함 남의 거 응용 최소화(얻어걸치기 싫어함) 말과 글은 같게 되는 방향부터 먼저 생각한다 없는 말, 거짓말 안 하기(매우 싫어함) 패 다 까고 시작하기 취미는 최대한 전공과 동떨어진 것으로(전공과 접목 시 폭넓게 활용하기 위함) 대출 없이 내가 벌어서 살아보기 삐치지 않기 지극히 당연한 것은 빼고 말하기/생각해보기 기존에 없던것을 생각하라 모르면 확실하게 질문하기 B형 INTP 가장 싫어하는 대답: 경우에 따라 달라요 << 이런식 질문에 되묻기 뻔한 대답 등 클리앙에서 느낀점: 댓글이 필요없을 정도면, 게시물이 이 서명 내용처럼 주절주절 너덜너덜 해져야된다
출연: 올거나이즈 신기빈 CAIO
1. 서론: 컴퓨터는 숫자밖에 모르는 바보
* 컴퓨터는 본질적으로 숫자, 더 정확하게는 전기 신호(0과 1)만 처리할 수 있습니다.
* 우리가 다루는 모든 것(사진, 음성, 글)은 컴퓨터가 이해할 수 있도록 결국 숫자로 변환되어야 합니다.
2. 그림/음성과 글자의 차이
* 그림(이미지): 태생이 숫자입니다. RGB 값(0~255)으로 표현되며, 숫자가 비슷하면 색깔도 비슷하다는 '의미적 근접성'이 존재합니다.
* 음성: 공기의 압력 변화를 전기 신호와 숫자로 기록하므로 본질적으로 숫자 데이터입니다.
* 글자(텍스트): 글자는 태생이 숫자가 아닙니다. 유니코드 같은 번호를 부여할 수는 있지만, '나', '난', '남'처럼 번호가 가깝다고 해서 의미가 가까운 것은 아닙니다. 숫자의 차이가 의미의 차이를 나타내지 못하는 것이 글자 데이터의 특징입니다.
3. 벡터(Vector)와 임베딩의 개념
* 벡터: 숫자들의 순서쌍입니다. 숫자가 나열된 순서 자체가 중요한 의미를 가집니다.
* 희소 벡터(Sparse Vector) vs 밀집 벡터(Dense Vector):
* 희소 벡터: 대부분이 0이고 특정 값만 1인 형태 (예: 원-핫 인코딩).
* 밀집 벡터: 0이 아닌 의미 있는 숫자들로 꽉 채워진 형태. '임베딩'은 결국 글자를 이런 밀집 벡터로 변환하는 과정입니다.
4. Word2Vec: 글자에서 의미를 추출하다
* 단어를 숫자로 바꿀 때, 비슷한 의미를 가진 단어들이 숫자 공간(벡터 공간)에서도 가깝게 위치하도록 만드는 기법입니다.
* 예를 들어, '왕 - 남자 + 여자 = 여왕'과 같은 단어 간의 연산이 가능해지는 신기한 결과를 보여줍니다.
5. 토크나이징(Tokenizing): 어떻게 쪼갤 것인가?
* 컴퓨터가 글자를 읽을 때 단어 단위로 자를지, 글자 단위로 자를지 결정하는 과정입니다.
* BPE(Byte Pair Encoding): 가장 많이 쓰이는 방식 중 하나로, 빈도수가 높은 글자 조합을 하나의 단위(토큰)로 묶습니다.
* 이 방식을 통해 모르는 단어(OOV: Out of Vocabulary) 문제를 해결하고, 한글처럼 복잡한 언어도 효율적으로 처리할 수 있습니다.
6. 결론 및 다음 예고
* 임베딩을 통해 단어를 숫자로 바꿀 수 있게 되었지만, '눈(Eye)'과 '눈(Snow)'처럼 형태는 같고 의미가 다른 단어를 어떻게 구별할지가 숙제로 남습니다.
* 다음 세션에서는 주변 단어(문맥)를 파악하는 **컨텍스트 윈도우(Context Window)**와 더 발전된 임베딩 기술에 대해 다룰 예정입니다.
요약 너무 좋아하시면 안돼요..
요약 감사합니다~