구글 딥마인드, 가상 세계를 창조하는 ‘지니3’ 공개

구글 딥마인드가 세계 최초의 실시간 상호작용 가능한 범용 월드 모델 ‘Genie 3’를 공개했습니다. 텍스트 프롬프트만으로 3D 가상 세계를 실시간 생성하며, 사용자가 직접 환경을 조작하거나 AI 에이전트를 훈련시킬 수 있는 기능이 포함됐습니다.

Genie 3는 초당 24프레임, 720p 해상도로 수 분간의 일관된 3D 환경을 생성할 수 있습니다. 기존 Genie 2가 약 10~20초의 짧은 시뮬레이션만 가능했던 것에 비해 비약적인 발전입니다. 이 모델은 과거의 상호작용을 기억해 환경을 일관되게 유지하며, 사용자의 텍스트 입력으로 날씨 변화나 객체 추가 등 동적 이벤트를 실시간으로 제어할 수 있는 ‘Promptable World Events’ 기능도 지원합니다.

딥마인드는 Genie 3가 물리 기반 렌더링이나 고정된 3D 모델 없이도, 물, 빛, 동물 행동, 식물 성장 등 다양한 자연 및 생태계 요소를 프롬프트만으로 자연스럽게 표현할 수 있다고 밝혔습니다. 사용자는 고대 로마 도시나 미래형 우주기지 같은 공간을 텍스트로 묘사해 생성할 수 있으며, 이 세계 안에서 AI 에이전트는 탐색, 판단, 행동을 학습합니다.

Genie 3는 특히 AGI 연구를 위한 실험 도구로서 주목받고 있습니다. 딥마인드는 내부 테스트를 통해 Genie 3에서 작동하는 SIMA 에이전트가 목표를 인식하고 상황에 맞는 행동을 수행할 수 있음을 확인했다고 전했습니다. 창고 환경에서 쓰레기 압축기나 지게차에 접근하는 과제를 수행한 예시가 대표적입니다.

기술적으로도 Genie 3는 기존의 NeRF, Gaussian Splatting 등 시각적 표현 기법과 다릅니다. 프레임마다 사용자 입력과 과거 시퀀스를 반영하는 오토리그레시브 방식으로 동작하며, 하드코딩된 물리 엔진 없이도 실제처럼 보이고 작동하는 세계를 구성합니다.

다만 한계도 존재합니다. 에이전트가 직접 수행할 수 있는 행동의 폭은 아직 제한적이며, 다중 에이전트 간 정밀한 상호작용 구현은 초기 단계입니다. 실제 지형의 정밀 재현이나 명확한 텍스트 표현 역시 일부 상황에만 가능하며, 장시간의 상호작용보다는 몇 분간의 실시간 시뮬레이션에 초점이 맞춰져 있습니다.

딥마인드는 이 모델이 교육, 게임, 영화 제작, 로봇 훈련 등 다양한 분야에서 활용될 수 있을 것으로 기대하고 있습니다. 하지만 Genie 3는 아직 제한된 연구 미리보기 형태로만 제공되며, 초기에는 일부 연구자와 창작자에게만 공개됩니다. 개발사 측은 안전성과 윤리 문제를 고려해 책임 있는 연구팀과 긴밀히 협업하고 있다고 밝혔습니다.

딥마인드는 Genie 3가 인간처럼 경험을 통해 학습하는 AI의 기반이 될 수 있다고 평가합니다. AI가 시행착오를 통해 계획을 수립하고 불확실성을 탐색하는 능력을 갖춘다면, 이는 AGI로 가는 핵심적인 진전이 될 수 있다는 것이 회사 측의 설명입니다. 2016년 알파고가 바둑에서 보여준 예기치 않은 전략처럼, Genie 3는 새로운 시대를 여는 신호탄이 될 가능성을 품고 있습니다.

(C)Google Deepmind
(C)Google Deepmind
(C)Google Deepmind
(C)Google Deepmind
(C)Google Deepmind
(C)Google Deepmind
(C)Google Deepmind
(C)Google Deepmind
(C)Google Deepmind

더 보기 및 출처

인기 아티클
인기 기사
광고 없는 오픈카톡방
뉴스, 프리미엄 콘텐츠 업데이트까지.
매일 전하는 소식을 놓치지 마세요.

디자인 나침반 뉴스레터

11,156명이 구독하는 디자인 영감을 받아보세요.

Plus
25. 11. 10
Plus
25. 11. 07
Plus
25. 11. 05
Plus
25. 11. 03

스폰서

최근 소식

디자인 나침반 뉴스레터

11,156명이 구독하는 디자인 영감을 받아보세요.

Design for Business