NVIDIA 네모트론 데이에 다녀왔습니다!
DGX Spark 온디바이스 데모 등 다양한 기술 소개가 있었는데 가장 인상 깊었던 건 한국 개발자들을 위해 공개된 '네모트론 페르소나 한국 데이터셋(Nemotron-Personas-Korea)' 이었습니다.
무려 700만 개의 합성 페르소나 데이터가 담겨 있는데, 나이, 성별, 직업, 지역, 소득 같은 정보가 들어있는 프로필로 완전 합성 데이터라 개인정보 유출 걱정은 전혀 없으면서도, 대한민국 인구 5,100만 명의 실제 인구 분포와 특성을 거의 그대로 반영할 수 있는 규모라고 합니다. 통계청(KOSIS), 대법원, 국민건강보험공단, 한국농촌경제연구원 데이터를 기반으로 만들어졌고, 네이버 클라우드가 시드 데이터와 도메인 전문성을 제공했다고 합니다.
한국 문화와 맥락을 담고 있어서 한국인 대상 서비스/콘텐츠를 만들때 미리 반응을 보거나 하는 등으로 사용해볼 수 있을 것 같네요!
데이터셋 링크는 이어지는 트윗