https://www.itworld.co.kr/article/4059708
...
이들은 최신 모델을 대상으로 실험을 진행했다. 예를 들어 “딥시크(DEEPSEEK)에 D가 몇 개 있나?”라는 질문에 DeepSeek-V3(6,000억 파라미터)는 10번의 독립적 실험에서 ‘2’ 또는 ‘3’을 답했으며, 메타 AI와 클로드 3.7 소네트 역시 유사한 결과를 내며 ‘6’이나 ‘7’ 같은 답을 내기도 했다.
오픈AI는 자사 모델에서도 같은 문제가 지속됨을 인정했다. 논문은 “챗GPT 역시 환각을 일으킨다. GPT-5는 특히 추론 영역에서 환각 빈도가 크게 줄었지만 완전히 사라지지는 않았다. 환각은 모든 LLM의 근본적인 과제”라고 밝혔다.
...
오픈AI가 환각은 단순한 버그나 개발 실수가 아니라 LLM의 수학적이고 구조적인 한계 때문에 앞으로도 없앨 수 없다고 인정했습ㄴ다.
이런 환각의 원인은
- 훈련 데이터의 희소성 -> 인식 불확실성
- 모델 아키텍처의 표현 한계
- 암호학적 난제 등 본질적으로계산 불가능한 문제
이라고 하는데, AI는 학습 시 "모른다"라고 답변하는 걸 불이익으로 처리해서 해당 비슷한 답변을 내지 않도록 하고, 틀린 답이라도 자신있게 내면 더 좋은 답이라고 가중 점수를 주는 구조라고 하네요. 즉 환각을 더 하라고 장려하는 것.
결론적으로 환각 완전 제거는 불구하고, 기업에서 AI를 활용할 때는 사람이 개입해서 확인하는 절차를 강화하고 산업 별 안전 장치 도입, 실환경 모니터링 등이 필요하다고 합니다. 결국 사람이 필요한 거죠.
문제는 기업의 경우 이렇게 AI 활용하면서 환각을 잡아낼 능력이라도 있지, 그런 능력도 없는 개인들은 이제 ChatGPT나 Gemini 같은 것을 어떻게 쓰나요...
예초에 이 알고리즘이 확률 기반의 알고리즘 이기 때문에 근본적으로 나올수 밖에 없습니다 그 빈도를 줄이는거지 없애지는 못하죠
그 외적인 방법으로 잡아내는 연구는 많습니다.
하지만 그런 능력이 있는 사람에게는 오히려 일을 빠르게 할수 있는 도구가 됩니다.
학습한 것을 비슷하게 흉내 내는데 그 의미는 모르는 상태죠.
근데 결과물을 아무런 비판 의식 없이 받아들이는 건 단순히 AI에 국한된 문제는 아니라고 봐요.
본인이 걸러 들을 수 있는 건 걸러 듣고 검증해야죠.
앵무새도 학습합니다.
용어들을 많이 적어두셨는대
그래서 결국 자기회귀 과정중에 판단 근거에대한 학습을 하진 않고 입력 토큰에 대한 출력을 학습할 뿐일텐데
사람말을 입력으로 자기 목소리로 출력하는 앵무새 라는 비유가 입출력 입장에서 보면 크게 다를바 없어 보입니다.
앵무새나 llm이나 블랙박스인간 비슷하고
Xai 나 뇌과학이 발전해서 근거를 확인할 가능성 이 있다는것고 나름의 유머로 같은 취급 할만합니다.
앵무새의 말이 성능 나쁜 llm과 구별이 힘들것 같긴하네요 eos 생성못하는 모델을 만든적이 있었는데 앵무새 같긴 했었네요
전공자 이고 실무자입니다..
너무 이론에만 몰두 하신게 아닌가 싶습니다.
이미 알고있는 내용이니 본인의 의견을 더얘기해주셧으면 합니다
LLM의 모든 대답은 100% 환각인데 그 중에서 우리가 '가치가 있다'고 믿거나 '참'이라고 믿는 대답은 환각이라고 분류되지 않고, '가치가 없다'고 여겨지거나 '거짓'이라고 여겨지는 대답이 최종적으로 '환각'으로 정의된다고 하더군요.
'환각'이라는 단어가 주는 뉘앙스가 부정적이어서 그렇지, LLM = 환각 이라고 봐도 무방하다라고 주장하는 글이었는데 저도 공감이 갔습니다.
저 논문에서 거짓말과 같은 환각을 일으키는 주요 원인이 모른다고 답변하는 것보다 거짓말을 했는데,
정답을 맞추는 경우가 발생할 수 있기 때문이라고 합니다.
그래서 확신이 없는데 거짓말을 하다 걸리면 많은 감점을 주는 방식으로 평가 방식을 바꿔야 한다고 주장합니다.
해결책은 아는 사실에 대해 정답을 맞추면 1점, 모르는 사실에 대해 ‘모른다’고 답하면 0점, 모르는 사실을 그럴듯하게 지어내서 답변하면 -1점을 부여하는 겁니다.
잘할떈 잘하는데 못하는건 죽어도 못하면 할려고 난리를 피우져...
아예 뭔가를 밑바닥부터 새로 만들려고 합니다. 물론 이것도 컨텍스트 좀 잘 적어 놓으면 덜하긴 한데
그렇다고 해결 못하는걸 해결하지는 않습니다.
오히려 더 꼬아놓으면 꼬아 놓았지...
현재 동료가 커서와 클로드로 버무려놓은 기능을 제가 이어서 개발중인데...
제가 원래 만들었던 기능에 살짝 수정만 하면 확장할수 있었는데...
이 미친 AI 가 아예 제 코딩을 참조해서 새로운 코딩을 창조해놓고 그걸... 쓰는데...
나중에는 제가 짠 코드와 호환이 안되니까... 컨버터 까지... 만들어 놓았습니다.
대충 백여줄을 그렇게 코딩해놨는데 어이가 없어서...
싹다 들어내고
10줄 코딩해서
제 코드에서 확장되게 만들었는데...
앞으론 바이브 코딩하는 사람들과는 콜라보는 안하는 것이 정신건강에 좋을것 같다는 생각이 들었습니다.
레일즈에서는 DB 마이그레이션이 중요한데
AI 놈들이 짜놓은 마이그레이션은...
현재 디비 상황만 고려해서 마이그레이션 해버려서...
나중에 프로젝트를 새로 포크해서 마이그레이션 할려고 하면 에러투성입니다 -_-;
와... 진짜 대환장의 파티 였습니다.
최소한...
깨끗한 상태에서 rake db:migrate 는 안전하게 끝나게 해줘야 하는거 아닙니까 -_-;
LLM은 당연히 실수하고, 때로는 거짓말도 하며, 없는 말을 지어내기도 합니다. 사람도 마찬가지죠. 사람은 당연히 실수하고, 때로는 거짓말도 하며, 없는 말을 지어내기도 하죠. 사람에게 당연한 것을 인공지능에 대해서는 적용하지 못하는 건, 우리 사회에 인공지능에 대한 이해가 그만큼 부족하다는 걸 드러낸다고 봅니다.
"나는 내가 모른다는 걸 안다"라고 한 소크라테스는 뇌의 기본적인 작동 알고리즘을 넘어선 거죠.
( https://www.clien.net/service/board/use/18959299CLIEN )
ai가 도구중의 하나인 과거의 사람들(원 지식이 있는 사람들)에게는 정정의 기회가 있지만
ai가 학습의 도구 또는 의지의 도구(ai로 지식을 쌓는 사람들)가 될 수 있는 미래의 인류에게는 치명적인 문제네요
마치 가짜 유튜브정보가 판 치는 데 그걸 구분하고 판단할 수 있는 사람이 없어지는 것과 같이요
그리고 환각은 잘만 활용하면 창의성과 세렌디피디티의 원천이 되기도 하죠. 문제는 사람이 매의 눈을 가져야 한다는 것.
기존의 지식이나 기억 흔적 여러가지 정보를 섞은 다음에...
이상한 답을 내 놓죠. 기본적으로 인간의 뇌를 정확히 시뮬레이션 하는 것이기 때문에(물론 속도는 빠릅니다.)
당연한게 아닐까 합니다.
그래서 마누라가 맨날 옆에서 바가지 긁죠.(-_-;)
이거 근본적으로 해결 못한다는 느낌적인 느낌이 있습니다.
초지능을 가도 일어날 것 같은데요?