지금 검색엔진에 있어서 가장 뛰어난 곳을 꼽으라고 한다면,
구글을 대체할 곳이 마땅히 보이지 않을 것입니다.
그런데 AI의 환각 중 가장 비중이 높은 것이 바로 검색 데이터 중
과거와 현재를 혼동하는 케이스입니다.
물론 다른 여러 환각의 요소들이 있습니다.
대표적인 것이 실제 존재하지 않는 단어 및 개념인데도 있는 것처럼 말하는 경우입니다.
종종 활용하는 질문 중에 하나가 필요한 기능을 찾기 위해
오픈 소스 중 이런 것이 있느냐는 질문입니다.
깃허브에서 직접 찾으려면 시간과 공을 꽤 들여야 하기에
질문으로 한번씩 던져 보는데...
환각 비중이 상당히 높습니다.
있지도 않은 오픈소스가 있는 것처럼 그럴 싸 하게 소개하고 설명하는데.. 이 비중이 항상 절반을 넘습니다.
그런데 검색에서는 날짜 혼동이 가장 많습니다.
예를 들어 어떤 소프트웨어의 5버전이 나왔다면,
그 버전에 대해 설명해 달라고 할 때 4버전에 대해 말하고 있는 식입니다.(기존 데이터가 있는 경우에 버전을 혼동)
왜 그럴까요.
이것은 아무래도 페이지랭크에 기반한 구글의 검색 엔진의 가치 부여 방식 때문일 것으로 추정됩니다.
보다 더 가치 있는 문서 상위부터 검색하고, 그중 정부나 기업의 공식 문서에 가중점을 두는 등
보완은 하는 것 같지만, 그럼에도 어디서 문제가 주로 발생하느냐면,
나온지 얼마 안된 소식의 경우 기존 대비 자료의 수가 부족하여,
가치 부여에서 부족함이 발생하고, 이것을 바로 잡기 위한 알고리즘을 제대로 구현하지 않음으로서
과거 데이터를 기반으로 생각하려는 경향이 강한 AI 가 학습을 마친 이후의 데이터에 대해서는
학습 된 부분 보다 가치를 낮게 평가하여 자신이 알고 있는 정보에 무게를 두는 것으로 보입니다.
이걸 해결하려면 구글의 페이지랭크 알고리즘에 조금의 변화를 주어
AI 검색에 맞는 기준 점을 추가로 두어 이에 따라 정보가 누적 되게 하고, 그것을 지속적으로 끌고 가면 되는데,
이것을 구글조차 제대로 하고 있지 않다 보니,
시점을 혼동하는 환각이 가장 비중이 높은 상황인 것으로 보입니다.
구글이 이러한데 다른 AI는 말할 것도 없는...
국가법령정보시스템과 연동된 Korean law mcp 같은 경우에 클로드에 붙여쓰니 환각이 없어지더군요.
mcp 같은.것들이 없는것을 전제로하면 그럼에도 불구하고 구글 제미나이가 가장 환각이 적긴 하더라고요.
그래서 저는 퍼블렉시티를 자주 씁니다