젠슨황 방한 기념! NVIDIA의 Nemotron PJT 데이터셋으로 설문조사 시뮬레이터 만들기 : 클리앙

LINK

0. NVIDIA Nemotron Persona 프로젝트란?
짧게 요약하자면 NVIDIA Lab에서 몇몇 국가를 선택해 그 나라의 지리, 인구 조사 통계 데이터 및 문화 설문 조사 데이터등을 있는대로 긁어모아, 그 통계 데이터를 베이스로 하여 가상의 국민 데이터를 수십만개에서 수백만개를 만들어 내었습니다. 이를 만들때 NVIDIA의 그래픽 카드 칩셋을 이용해서 자신들만의 기술로 "합성 페르소나 데이터셋"을 기가 막히게 만들어 냈습니다.

그 결과 한국에는 실제로 존재하지는 않는 가상의 인물들에 대한 무려 700만개의 서술형 페르소나를 만들어서, 대전시 대덕구에 사는 59세 여성 서상미씨의 인생을 A4용지 두장 분량으로 설명하는 데이터가 만들어지게 되었습니다. 놀라운 건, 실제 존재하지 않음에도 불구하고, 우리나라의 실제 통계 데이터들에 기초했기 때문에 실제 이름조차도 그 도시의 50대 여성에게 있을 법한 이름이고, 몸무게 키, 직업 취향까지 정말 있을법한, 아니 한명 한명 개인이 아닌 집단으로 보면 현실과 거의 비슷한 분포도로 직업이나 문화 생활, 식생활, 성격등이 데이터셋으로 잘 구성되어 있다는 겁니다.

놀랍게도 젠슨황은 올해 초부터 미국과 일본을 포함한 몇몇 나라를 타겟으로 실험삼아 이 데이터셋을 만들어 마음대로 사용해보고 검증해보고 우리 NVIDIA의 기술력에 놀라보거라! 하고 Nemotron Persona 프로젝트라는 이름 아래 를 허깅페이스에 산출물 데이터셋과 데이터셋을 만드는 레시피를 공개 했습니다.

https://huggingface.co/collections/nvidia/nemotron-personas

Screenshot 2026-06-05 at 5.53.07 PM.png

1. 합성 페르소나 데이터의 효용성

지금 ChatGPT나 Gemini를 열고
“40대 김포 운양동 거주 기혼인 남성 자영업자는 / 자식을 영어 유치원에 보내는 것에 대해 어떻게 생각할까?”

라고 물으면 해당 조건의 인물이 했을 법한 결정이나 의견을 거의 유사하게 내놓을 겁니다. LLM AI는 결국 온톨로지로 대표되는 단어간의연관성을 가중치라는 미리 달아놓은 태그로 패턴을 찾아내는 것이기에, 특정 인물의 조건을 쥐어주고 그 인물의 반응을 유추하라고 하면 상당히 설득력 있는 대답을 내놓을 겁니다.

하지만 이는 일개 개인의 반응을 유추해 내는 것이고,

“40대 김포 운양동 거주 기혼인 남성 자영업자”가 1명만 존재하지는 않을 터인데 이 집단 코호트가 같은 질문에 대해 어떻게 대답할지 코호트 내에서도 가지각색의 배경을 가진 복수의 인물들이 내놓는 다양한 의견까지 내놓기는 쉽지 않습니다. 바로 이 빈틈에 Nemotron Persona 프로젝트가 끼어 듭니다.

실제 통계 결과를 가지고 나이, 성별, 교육 수준, 거주 지역 데이터까지 참조해 개별 합성 인간의 특성 데이터를 생성해내고 그걸 모아 인구구조를 반영하여 특정 코호트 집단을 설명할 수 있는 메가 데이터셋을 만들었습니다. 그리고 이걸 가지고 AI툴들을 통해 인간 인지 모사 기술들을 적용하면, 이 데이터셋들은 단순히 개별 인간을 설명하는 데이터가 아닌 그 데이터에 근거해 나올수 있는 가장 그럴듯한 반응을 보여줄 수 있는 개별 AI 인간들을 만들 수 있고, 그것이 수백 수천 수백만개를 만들면 현재 우리 사회와 근접하게 시뮬레이션 할 수 있다고도 감히 이야기 할 수 있겠죠? 개별로는 틀려도 도매급 집단으로 봤을떄 인구 구조가 비슷하니 말이죠.

Screenshot 2026-06-05 at 9.14.12 PM.png

2. MiroFish: 무엇이든 예측한다! Predict Anything
이와 같은 AI 사회 시뮬레이터를 만들 수 있다면, 예를 들어,
"기본 소득 50만원에 대해 어떻게 생각하시나요?"
라는 질문에 대해 농촌지역 50대 이상의 반응, 도심의 20대들의 반응을 실제로 어마어마한 비용을 줄이는 것 뿐만 아니라 설문조사 과정에서 발생할 수 있는 오류등도 피하면서도 그 반응을 대강이라도 유추해볼 수 있겠죠.

그래서 지난 2월에 중 저장성의 한 대학생이 만든 깃허브 프로젝트가 "세상의 모든 것을 예측한다!"라는 기치를 내걸고 MiroFish라는 이름 아래 공개되자 정말 반응이 엄청 났습니다. 제가 듣기로는 이 프로젝트를 보고 놀란 알리바바의 공동 창립자이자 현재 VC투자자인 중국분이 이 프로젝트를 만든 학생을 수소문해서 찾아내 500만달러를 투자하고 연구를 하게 팀을 꾸려줬다고 하더라구요
https://github.com/666ghj/MiroFish

Screenshot 2026-06-05 at 5.49.45 PM.png
3. AUA: 무엇이든 물어보세요! 4450만 대한민국이 답해드립니다!
저 강걸우 또한 MiroFish라는 프로젝트를 데모를 시연하는 걸 보고, 그 컨셉의 참신함에 너무 놀랐었습니다. 그로부터 몇개월 지나지 않아, NVIDIA Lab에서 놀랍게도 대한민국 통계를 베이스로 한 합성 인간 페르소나 데이터를 700만개 분량을 만들었다고 해서 저는 어라? 그렇다면 이 데이터셋을 기반으로 개별 인간 인지 모사를 캐주얼하게라도 흉내내게 하면 설문조사 시뮬레이터를 만들수 있지 않을까? 생각해서 일단 바로 데이터셋의 검증과 가공부터 들어가 봅니다.

일단 NVIDIA의 데이터셋은 100만명 분량의 데이터셋이었기에, 이 100만명이 우리나라의 각지역의 인구와 성별, 나이, 직업등의 통계 지리학적, 인구 구조적으로 맞는지 검증이 필요했습니다. 그리고 놀랍게도 우리나라 공공데이터 오픈API는 이 모든 데이터들이 너무나 클린하고 엄청난 사양의 속도로 접근하고 콜렉트 가능하게 만들어져 있어, 데이터 사용 신청을 하고, 데이터를 2-3일 긁어모아서 NVIDIA의 Nemotron데이터셋을 검증했는데, 건강 관련한 내용에는 수많은 오류가 있어 그걸 제외했고 나머지 내용들은 정말 너무 정확하더군요.

검증후에는 추가적으로 데이터셋을 보정하고 하여 최종적으로 한국의 18세이상 인구수인 4450만명에 맞게 보정하고 늘렸습니다. 그리고 이 데이터셋의 개별 데이터를 가지고 챗봇을 만들어보니 얼추 완벽치는 않지만 페르소나 설명에 맞는 반응을 해주는 것을 확인했습니다. 그래서 처음에는 이를 가지고 6.3 지방 선거가 가까워져서 선거 투표수 예측하는 프로그램을 만들어 볼까 했는데, 2-3주간 도전했다가 결과가 처참하고 들쭉 날쭉하고 제가 그 결과가 어떻게 나온건지 도저히 설명할수 없어 접었습니다. 그리고 설문조사를 시뮬레이션하는 프로그램으로 디자인을 해서 한달 넘게 이리저리 만들어서 결국 이렇게 Ask Us Anything Korea!를 만들어 보았습니다.

4. AI가 뒤바꿀 학계와 산업계의 미래
AUA Korea를 쓸데없이 왜 만들었냐고 물어보시면 NVIDIA가 공개한 데이터셋을 보고 그냥 호기심이 동해서 만들어 보았다고 밖에 말 못하겠습니다. 10년도 더 전에 대학원에서 정치와 정책을 공부할때 공학부 선배들과 몇몊이 팀을 이뤄 영국의 REF라는 단체의 22기가 짜리 데이터를 분석하는 대회에 거의 1여년간 도전했었는데, 그때는 1년 넘게 슈퍼컴퓨터를 써가며 22기가의 데이터를 분석해내는데 지금과 비교하면 그리 대단한 성과를 내지 못하고, 이전에 페이퍼로 내기 위해 모아둔 자료들을 꺼내보니 지금 Claude Code를 가지고 2-3일이면 처리하고 분석을 끝낼수 있는 데이터 같아 아기 장난 같이 느껴져 헛웃음만 나오네요.

하여튼, AUA Korea는 표본 조사 2000명 기준으로 개별 인원 답변 수집 완료 및 보고서 작성까지 30분 전후가 걸리고, 거기에 더해 1회 실시시 API 비용이 말도 안되게 높아서 어떻게 상용화 시키기는 힘들지만, 어찌되었건, 친근한 UI로 캐주얼하게 완성까지 한것에 의의를 두고, 젠슨황 형님이 한국에 오셨다고 하니 이를 만들게 된 계기나 사용한 데이터 소스에 대해 의식의 흐름대로 글을 써서 올려봅니다.

사용기

전자기기 젠슨황 방한 기념! NVIDIA의 Nemotron PJT 데이터셋으로 설문조사 시뮬레이터 만들기