AI의 최근 학습 방법의 힌트를 또 다시 딥시크가 보여줍니다. : 클리앙

프런티어 모델의 학습 방법은 안개에 가려져 있어서,

알 수 있는 방법이 파편화 된 정보를 모으는 것 정도입니다.

그렇다고 아예 추측이 안 되는 것은 아닌 것이,

기존 정보에 대부분 있는 것들을 새롭게 조합하는 것이기 때문입니다.

다음은 매쓰 분야에서 소타를 찍은

최신 딥시크 매쓰 버전에서 밝힌 내용을 정리해 보겠습니다.

A라는 수학 문제를 풀 때 각 전문가들을 붙여 좋은 증명의 기준을 심습니다.

3단계 체점 기준을 세우고, 점수가 부족하면 그 이유를 검증기를 통해 가립니다.

1점과 0.5점, 0점의 차이를 구분하는 능력을 심는 것입니다.

그 다음은 메타검증기를 통해 무한 자가 발전을 하게 됩니다.

인간 레이블러가 아닌 자체적으로 갖춘 구분 하는 능력으로

엄청난 양의 데이터를 학습할 때 필요한 검증 단계를 스스로 반복하게 됩니다.

검증기의 피드백을 받아 약한 부분일 수록 더욱 집중적으로 수정하고 재차 검증을 받게 합니다.

세분화 된 검증으로, 증명의 과정까지 디테일한 검증을 해나가는 것입니다.

이 정도 보셨다면 기존에도 비슷한 논리가 있었음을 기억하실 겁니다.

즉, 딥시크는 이러한 방법론을 보다 정교하게... 그리고 막대한 연산량으로

실제 행하고 도입하고 있다는 것입니다.

풀고 검증하고 풀고 검증하고의 과정을 최대 64회까지 반복한다고 하며,

이 과정에서 막대한 연산량을 필요로 하게 됩니다.

정리하면, 초기에 인간 전문가에 의해 논리의 엄밀함의 기준을 세우고, 그것이 검증기가 되어,

스스로 무수히 많은 반복 검증을 행하며, 이러한 과정이 끝이 나면 다시 인간이 확인하게 되는데,

딥시크 매쓰의 경우 이 최종 결과가 학계 전문가들의 눈에도 완성도가 높은 결과가 만들어졌다고 합니다.

사실 이것은 드러난 일부이고, 학습 방법은 점차적으로 정교해지고 있습니다.

지피티5.1과 제미나이3.0이 서로 다른 분야에서 강점을 달리 하는 것은,

데이터만이 아니라 학습 과정에서도 다르기 때문일 것이며,

세부적으로 드러나지 않은 여러 방법론이 동원됨을 미루어 짐작할 수 있고,

딥시크가 그 일면을 보여주는 것 같습니다.

모두의공원