Waymo 發表用於自駕車模擬的世界模型 AI

模擬趕上現實的一天

在對 Level 5 自動駕駛的無止境追求中，最大的障礙從來不是道路規則——而是世界的混亂。今天，Waymo 打破了這一障礙。在一項彌合生成式 AI（Generative AI）與實體機器人之間差距的里程碑式聲明中，這家隸屬於 Alphabet 的自動駕駛領導者推出了 Waymo 世界模型（Waymo World Model），這是一個基於 Google DeepMind 的 Genie 3 構建的下一代模擬引擎。

多年來，業界一直將「行駛里程」視為安全的黃金指標。Waymo 在公共道路上已累計行駛近 2 億英里完全自動駕駛里程，現在有效地宣布，物理里程已不再足夠。透過利用 Genie 3 龐大的互聯網規模世界知識，Waymo 不僅是在記錄現實；他們正在合成現實。從降臨在高速公路上的龍捲風到徘徊在城市街道上的大象，Waymo 世界模型讓「Waymo 司機（Waymo Driver）」能夠體驗不可能，確保其為小概率事件做好準備。

在 Creati.ai，我們認為這不僅僅是模擬器的升級，而是真正的 實體 AI（Physical AI） 的到來——生成式模型不再僅僅是創建影片，而是開始教導機器人如何生存。

深入解析：Genie 3 架構

這一突破的核心在於 Google Genie 3。雖然其前身因從圖像生成可操作的 2D 環境而受到讚譽，但 Genie 3 代表了在維度理解上的量子飛躍。它是一個通用世界模型，在海量的多樣化影片數據上進行了預訓練，使其對物理規律、物體恆常性以及因果關係具有直觀的理解。

Waymo 為駕駛領域的特定嚴苛要求微調了這個強大的模型。與依賴手動編碼資源和僵化物理引擎的傳統模擬器不同，Waymo 世界模型是 端到端生成式（end-to-end generative） 的。它不只是渲染一個場景；它「夢想」場景，並在幀與幀之間保持時間一致性。

至關重要的是，該系統超越了視覺光譜。它生成 高保真多傳感器輸出，不僅合成攝影機饋送，還合成 4D LiDAR 點雲。這是一個遊戲規則改變者。自動駕駛車輛（AV）不像人類那樣「看」；它透過雷射脈衝感知深度和幾何形狀。一個只生成照片級逼真影片的模擬器對於依賴 LiDAR 的系統堆疊來說是毫無用處的。Waymo 世界模型彌合了這一差距，創造了一個在數學上與原始傳感器數據無法區分的合成現實。

模擬不可能：長尾問題

駕駛場景中的「長尾（long-tail）」問題——那些在十億英里中才發生一次的異常情況——歷來是自動駕駛開發的致命弱點。你無法嚴格地為汽車編寫它從未見過的場景程式，你也無法等待 100 年讓測試車隊偶然遇到特定類型的自然災害。

Waymo 世界模型透過為長尾場景（edge cases）幻覺出有效的訓練數據，解決了這個數據瓶頸。正如發布會中所強調的，該系統可以生成在現實世界中模擬起來既危險又不可能的場景。

房間裡的「大象」

在其中一項最令人印象深刻的展示中，Waymo 展示了其系統處理以下情況的能力：

極端天氣： 在突然出現的龍捲風、積水淹沒的路面和遮蔽視線的山火中航行。
罕見障礙物： 遇到大象、獅子，甚至是穿著奇異服裝（如暴龍）的行人。
混亂的人類行為： 咄咄逼人的駕駛者突然駛離道路，或車輛裝載著搖搖欲墜的家具。

這些不是腳本化的動畫。它們是交互式環境，主車（ego-vehicle，即正在接受培訓的自動駕駛車）可以在其中做出決定，而世界會做出相應反應。如果汽車為大象煞車，系統會計算煞車的物理特性，傳感器數據會發生變化，且「世界」會繼續連貫地演變。

三大控制支柱

生成隨機混亂的生成式模型很有用，但受控模擬才是一項工具。Waymo 實施了三種不同的機制來利用 Genie 3 的創造力，讓工程師能夠針對自動駕駛車的學習漏洞進行精確打擊。

1. 駕駛行為控制

該機制支援 反事實測試。工程師可以獲取一段現實世界的日誌——例如，自動駕駛車讓行給併線卡車的瞬間——並詢問「如果……會怎樣？」

如果自動駕駛車反而加速了呢？
如果自動駕駛車激進地變換車道了呢？
模型會生成這些不同選擇導致的替代現實，使 Waymo 能夠根據數百萬次假設的錯誤來驗證其當前策略的安全性。

2. 場景佈局控制

這允許對靜態世界進行變動。工程師可以更改道路幾何形狀、改變交通訊號狀態，或重新安排其他道路使用者的位置。一個安靜的郊區路口可以立即變成一個壓力巨大的、帶有故障紅綠燈的六車道交匯處，測試自動駕駛車如何將其知識推廣到遊戲的新「關卡」。

3. 語言控制

這可能是三者中最具「生成式 AI（generative AI）」特色的功能，它允許工程師使用自然語言提示來操作模擬。

「添加濃霧並將時間改為午夜。」
「插入一輛警車在對向車道追捕超速轎車。」
這使測試案例的創建變得大眾化，將其從繁重的程式碼腳本轉變為語義描述。

傳統模擬 vs. Waymo 世界模型

要理解這一轉變的重要性，我們必須將新的生成式方法與過去十年定義行業的確定性模擬器進行比較。

模擬架構比較

功能	傳統模擬器	Waymo 世界模型 (Genie 3)
核心技術	遊戲引擎 (Unreal/Unity) 與基於規則的邏輯	生成式世界模型 (影片到世界)
資源創建	手動建模資源 (汽車、樹木、道路)	從學習到的概念進行生成式合成
傳感器保真度	光線追蹤近似	學習型傳感器合成 (攝影機 + LiDAR)
場景多樣性	局限於預編寫的邏輯	無限的「長尾」生成
真實度	高視覺保真度，僵化的行為	高語義保真度，反應性物理
長尾場景處理	腳本化特定事件	基於提示的「不可能」場景
可擴展性	線性 (需要更多美術/開發時間)	指數級 (受算力限制)

實體 AI 的時代

Waymo 世界模型的發布標誌著佔據頭條新聞的「聊天機器人」式 AI 與在現實物理世界中運行的「機器人」式 AI 之間的融合。這就是 實體 AI（Physical AI） 的發展藍圖：利用大型模型的推理和生成能力來解決動力學問題。

透過不將駕駛視為一套 if/then 規則，而是視為學習過的世界模型中的連續預測任務，Waymo 正在使其技術堆疊與人類大腦的可能運作方式保持一致——我們運行世界的內部模擬來預測結果。Genie 3 為 Waymo 司機提供了想像力。

這一發展也給競爭對手帶來了巨大挑戰。當該領域的其他公司依靠車隊數據來尋找長尾場景時，Waymo 現在可以製造它們。「數十億虛擬英里」的優勢已存在多年，但這些里程的品質剛剛呈指數級增長。在 Genie 3 模擬中行駛的一英里不再是遊戲式的近似；它是對現實的傳感器級精確演練。

Creati.ai 觀點

從我們 Creati.ai 的角度來看，其影響遠超自動駕駛計程車。Waymo 和 Google DeepMind 實際上正在構建一個 現實世界的物理引擎。使汽車能夠理解龍捲風的技術，與最終訓練家用機器人在雜亂的廚房中導航或訓練工業無人機檢查災區的技術是相同的。

Waymo 世界模型是對業界的一次警告：自動駕駛的未來不僅在於更好的傳感器或更快的處理器。它在於誰擁有對世界最好的「夢想」——而現在，Waymo 的夢想正變得與現實難以區分。

模擬趕上現實的一天

深入解析：Genie 3 架構