AI 가 단순 데이터 많이 넣고, GPU 많으면 장땡인가 했는데
기술력 차이가 존재하기는 하는군요.
AGI 성능 비교에서 이런 기술력 차이가 좀 있는게 아닌가 하는 생각도 듭니다.
https://twitter.com/HoneyJamTesla/status/1943490756129493138
AI 가 단순 데이터 많이 넣고, GPU 많으면 장땡인가 했는데
기술력 차이가 존재하기는 하는군요.
AGI 성능 비교에서 이런 기술력 차이가 좀 있는게 아닌가 하는 생각도 듭니다.
https://twitter.com/HoneyJamTesla/status/1943490756129493138
아직 시작이라 좀더 다양성은 열어 놓고 확인 중 같네요.
AGI1 은 문제 은행 느낌의 답변으로 커버가 좀 가능 했던듯 하네요.
솔직히 이 테스트는 AI 성능평가라기 보다는 AI가 이런것도 할수 있어?를 보고 싶어서 꼬아논 느낌이라 실제 성능과는 거리가 있을겁니다.
그렇기도 하네요. 인터넷 검색을 해보니 아래와 같은 얘기도 있네요.
ARC-AGI 테스트는 AI가 새로운, 예측하지 못한 작업에 대해 학습하고 적응하는 능력을 평가하여 인공 일반 지능(AGI)을 평가하도록 설계된 벤치마크입니다.이는 AI가 제한된 정보로부터 얼마나 잘 일반화할 수 있는지를 측정하는 "표본 효율성"에 초점을 맞추고 있는데, 이는 인간 수준 지능의 핵심 측면입니다. 현재 AI 모델은 이 테스트에서 어려움을 겪고 있으며, 좁은 범위의 AI와 AGI와 관련된 더 광범위한 역량 간의 격차를 드러냅니다.
AGI란 무엇인가?
AGI는 다양한 작업과 영역에서 학습, 추론, 이해 및 적응 능력을 포함하여 인간 수준의 인지 능력을 보유한 AI를 말합니다.
ARC-AGI 검사가 중요한 이유는 무엇입니까?
현재 AI 테스트는 주로 특정 작업에 대한 정확도, 성능, 그리고 견고성에 중점을 둡니다. ARC-AGI 테스트는 이를 넘어 AI의 일반화 능력, 새로운 문제 해결 능력, 그리고 제한된 데이터로부터 학습하는 능력을 평가합니다.
우선 데이터의 품질...중국의 모 기업이 고용량 HDD 수십개 분량의 데이터를 중국 밖으로 나가 훈련 시키고 돌아간다는 이야기를 보신 적 있을 텐데요.
이런 양으로 승부 보는 것에 더해, 그 데이터의 품질도 굉장히 신경 쓰기 시작했고,
데이터의 양과 품질을 관리하는 스타트업도 많고 각광 받고 있습니다.
또한 같은 질문에 여러 가지 다양한 추론 과정을 일일이 훈련하기도 하고요.
심지어 내재하는 시스템프롬프트의 영향도 받습니다.
비단 LLM의 자체 성능만이 아니라 그것의 잠재력을 최대한 끌어 낼 수 있는 방식의 차이도 있습니다.
제미나이 Cli와 클로드 코드의 기본 베이스는 거의 비슷해서 엎치락 뒤치락 하는데,
막상 성능을 잘 활용하는 방법에 능숙한 노하우가 담겨 있는 클로드 코드가 더 좋은 결과물을 내놓게 됩니다.
이 외에도 사람처럼 사고하게 하기 위해 유독 수학과 과학 이런 부분에 조금 더 깊고 많은 데이터를 만들어 내서 훈련시키는 부분도 적지 않습니다.
그래서 성능이 두 배 오른 벤치마크 보면...
실 사용 체감도 오르긴 하는데...두 배 만큼은 아니기도 하죠.
여튼, 뭐 하나 빠짐 없이 다 잘 되어 있어야 하고,
우리가 모르는 뭔가 엄청난... 그런 알고리즘이 따로 있다기 보다는...
알려진 것들의 세심한 노하우와 막대한 투자 덕이라고 보고 있습니다.