Google, 향상된 검색 및 작성 기능을 위해 Gemini AI를 Gmail에 통합
Google은 Gmail에 새로운 Gemini AI 기능을 도입하여 사용자에게 AI 기반 검색 요약과 고급 작성 지원을 Google AI Pro 구독의 일부로 제공하고 있습니다.

레벨 5 자율주행(Level 5 autonomy)을 향한 끊임없는 추구에 있어, 가장 큰 장벽은 도로의 규칙이 아니라 세상의 혼돈이었습니다. 오늘, 웨이모(Waymo)가 그 장벽을 허물었습니다. 생성형 AI(Generative AI)와 물리적 로보틱스 사이의 간극을 메우는 획기적인 발표에서, 알파벳(Alphabet) 소유의 자율주행 선도 기업은 **구글 딥마인드의 지니 3(Google DeepMind’s Genie 3)**를 기반으로 구축된 차세대 시뮬레이션 엔진인 **웨이모 월드 모델(Waymo World Model)**을 공개했습니다.
수년 동안 업계는 안전의 황금 지표로 "주행 거리"에 의존해 왔습니다. 이미 공공 도로에서 약 2억 마일의 완전 자율주행 거리를 기록한 웨이모는 이제 물리적 주행 거리만으로는 충분하지 않다고 사실상 선언하고 있습니다. 지니 3의 방대한 인터넷 규모의 세상 지식을 활용함으로써, 웨이모는 단순히 현실을 기록하는 것이 아니라 이를 합성하고 있습니다. 고속도로에 상륙하는 토네이도부터 도심 거리를 배회하는 코끼리에 이르기까지, 웨이모 월드 모델은 "웨이모 드라이버(Waymo Driver)"가 불가능한 상황을 경험하게 함으로써 일어날 법하지 않은 상황에 대비할 수 있도록 합니다.
Creati.ai에서 우리는 이것을 단순한 시뮬레이터 업그레이드가 아니라, 생성 모델이 단지 비디오를 만드는 수준을 넘어 로봇이 생존하는 법을 가르치기 시작하는 진정한 **물리적 AI (Physical AI)**의 도래로 보고 있습니다.
이러한 돌파구의 핵심은 **구글 지니 3(Google Genie 3)**에 있습니다. 이전 모델들이 이미지로부터 플레이 가능한 2D 환경을 생성하는 것으로 찬사를 받았다면, 지니 3는 차원적 이해에 있어 비약적인 도약을 의미합니다. 이는 다양한 비디오 데이터의 방대한 코퍼스로 사전 학습된 범용 월드 모델로, 물리 법칙, 객체 영속성, 인과 관계에 대한 직관적인 파악 능력을 제공합니다.
웨이모는 주행 영역의 특수한 엄격함에 맞춰 이 강력한 모델을 미세 조정했습니다. 수작업으로 코딩된 에셋과 경직된 물리 엔진에 의존하는 전통적인 시뮬레이터와 달리, 웨이모 월드 모델은 엔드투엔드 생성형(end-to-end generative) 모델입니다. 이는 단순히 장면을 렌더링하는 것이 아니라, 프레임 전반에 걸쳐 시간적 일관성을 유지하며 장면을 "꿈을 꾸듯" 생성해냅니다.
결정적으로, 이 시스템은 가시광선 영역을 넘어섭니다. 이 모델은 카메라 피드뿐만 아니라 4D 라이다(LiDAR) 포인트 클라우드를 합성하여 고정밀 멀티 센서 출력을 생성합니다. 이것은 게임 체인저입니다. 자율주행 차량(AV)은 인간처럼 "보지" 않습니다. 레이저 펄스를 통해 깊이와 기하학적 구조를 인지합니다. 포토리얼리스틱한 비디오만 생성하는 시뮬레이터는 라이다 의존형 스택에는 쓸모가 없습니다. 웨이모 월드 모델은 이러한 간극을 메워, 원시 센서 데이터와 수학적으로 구별할 수 없는 합성 현실을 만들어냅니다.
10억 마일에 한 번 발생할 법한 기이한 사건들인 주행 시나리오의 "롱테일(long-tail)" 문제는 역사적으로 자율주행차 개발의 아킬레스건이었습니다. 한 번도 본 적 없는 상황에 대해 자동차를 엄밀하게 프로그래밍할 수 없으며, 테스트 차량이 특정 유형의 자연 재해를 우연히 마주할 때까지 100년을 기다릴 수도 없습니다.
웨이모 월드 모델은 엣지 케이스(edge cases)에 대한 유효한 학습 데이터를 환각(hallucinating)함으로써 이러한 데이터 병목 현상을 해결합니다. 공개 행사에서 강조된 것처럼, 이 시스템은 실제 세계에서 연출하기 위험하거나 불가능한 시나리오를 생성할 수 있습니다.
가장 인상적인 시연 중 하나에서 웨이모는 다음과 같은 상황을 처리하는 시스템을 선보였습니다:
이것들은 미리 스크립트된 애니메이션이 아닙니다. 자율주행 차량(에고 차량)이 결정을 내리면 세상이 그에 따라 반응하는 상호작용 환경입니다. 차가 코끼리를 보고 브레이크를 밟으면 정지 물리 법칙이 계산되고, 센서 데이터가 바뀌며, "세상"은 일관되게 계속 진화합니다.
무작위적인 혼돈을 환각하는 생성 모델도 유용하지만, 제어된 시뮬레이션은 도구입니다. 웨이모는 지니 3의 창의성을 활용하기 위해 세 가지 뚜렷한 메커니즘을 구현하여 엔지니어가 자율주행차의 학습 공백에 대해 정밀 타격을 가할 수 있도록 했습니다.
이 메커니즘은 **반사실적 테스트(counterfactual testing)**를 가능하게 합니다. 엔지니어는 자율주행차가 합류하는 트럭에 양보한 순간과 같은 실제 로그를 가져와서 "만약에?"라고 물을 수 있습니다.
이를 통해 정적인 세상을 변형할 수 있습니다. 엔지니어는 도로 기하학적 구조를 변경하거나, 교통 신호 상태를 바꾸거나, 다른 도로 사용자들의 배치를 재배열할 수 있습니다. 조용한 교외 교차로를 고장 난 신호등이 있는 스트레스 높은 6차선 교차로로 즉시 변형하여, 자율주행차가 새로운 "레벨"의 게임으로 지식을 어떻게 일반화하는지 테스트할 수 있습니다.
세 가지 기능 중 가장 "생성형 AI"다운 기능으로, 엔지니어가 자연어 프롬프트를 사용하여 시뮬레이션을 조작할 수 있게 해줍니다.
이러한 변화의 규모를 이해하려면, 지난 10년 동안 업계를 정의해 온 결정론적 시뮬레이터와 새로운 생성형 접근 방식을 비교해야 합니다.
시뮬레이션 아키텍처 비교
| 기능 | 전통적인 시뮬레이터 | 웨이모 월드 모델 (지니 3) |
|---|---|---|
| 핵심 기술 | 게임 엔진 (Unreal/Unity) 및 규칙 기반 로직 | 생성형 월드 모델 (Video-to-World) |
| 에셋 생성 | 에셋(자동차, 나무, 도로)의 수동 모델링 | 학습된 개념으로부터의 생성적 합성 |
| 센서 충실도 | 광선 추적(Ray-tracing) 근사치 | 학습된 센서 합성 (Camera + LiDAR) |
| 시나리오 다양성 | 사전 프로그래밍된 로직으로 제한됨 | 무한한 "롱테일" 생성 |
| 리얼리즘 | 높은 시각적 충실도, 경직된 행동 | 높은 의미론적 충실도, 반응형 물리 |
| 엣지 케이스 처리 | 스크립트된 특정 이벤트 | 프롬프트 기반의 "불가능한" 시나리오 |
| 확장성 | 선형적 (더 많은 아티스트/개발 시간 필요) | 기하급수적 (컴퓨팅 자원에 비례) |
웨이모 월드 모델의 출시는 헤드라인을 장식해 온 "챗봇" 스타일의 AI와 물리 세계에서 작동하는 "로봇" AI 간의 수렴을 시사합니다. 이것이 바로 물리적 AI 로드맵입니다. 거대 모델의 추론 및 생성 능력을 사용하여 운동학적 문제를 해결하는 것입니다.
주행을 if/then 규칙의 집합이 아니라 학습된 월드 모델 내의 지속적인 예측 작업으로 취급함으로써, 웨이모는 자신의 스택을 인간의 뇌가 작동하는 방식(우리는 결과를 예측하기 위해 세상에 대한 내부 시뮬레이션을 실행함)과 일치시키고 있습니다. 지니 3는 웨이모 드라이버에게 상상력을 제공합니다.
이러한 발전은 경쟁사들에게도 큰 도전 과제가 됩니다. 업계의 다른 이들이 엣지 케이스를 찾기 위해 함대 데이터에 의존하는 동안, 웨이모는 이제 이를 제조할 수 있습니다. "수십억 마일의 가상 주행"이라는 이점은 수년 동안 존재해 왔지만, 그 주행의 품질이 기하급수적으로 향상되었습니다. 지니 3 시뮬레이션에서 주행한 1마일은 더 이상 비디오 게임의 근사치가 아닙니다. 그것은 현실을 위한 센서 수준의 정확한 리허설입니다.
Creati.ai의 관점에서 볼 때, 이 기술의 영향은 자율주행 택시를 훨씬 넘어 확장됩니다. 웨이모와 구글 딥마인드는 사실상 현실을 위한 물리 엔진을 구축하고 있습니다. 자동차가 토네이도를 이해하게 하는 기술은 결국 가정용 로봇이 어질러진 주방을 탐색하거나 산업용 드론이 재난 지역을 조사하도록 훈련시키는 것과 동일한 기술입니다.
웨이모 월드 모델은 업계에 보내는 경고 사격입니다. 자율주행의 미래는 단순히 더 나은 센서나 더 빠른 프로세서에 관한 것이 아닙니다. 그것은 누가 세상에 대해 가장 완벽한 "꿈"을 꾸느냐에 달려 있으며, 현재 웨이모의 꿈은 현실과 구별할 수 없을 정도로 정교해지고 있습니다.