AI News

模擬趕上現實的一天

在對 Level 5 自動駕駛的無止境追求中,最大的障礙從來不是道路規則——而是世界的混亂。今天,Waymo 打破了這一障礙。在一項彌合生成式 AI(Generative AI)與實體機器人之間差距的里程碑式聲明中,這家隸屬於 Alphabet 的自動駕駛領導者推出了 Waymo 世界模型(Waymo World Model),這是一個基於 Google DeepMind 的 Genie 3 構建的下一代模擬引擎。

多年來,業界一直將「行駛里程」視為安全的黃金指標。Waymo 在公共道路上已累計行駛近 2 億英里完全自動駕駛里程,現在有效地宣布,物理里程已不再足夠。透過利用 Genie 3 龐大的互聯網規模世界知識,Waymo 不僅是在記錄現實;他們正在合成現實。從降臨在高速公路上的龍捲風到徘徊在城市街道上的大象,Waymo 世界模型 讓「Waymo 司機(Waymo Driver)」能夠體驗不可能,確保其為小概率事件做好準備。

在 Creati.ai,我們認為這不僅僅是模擬器的升級,而是真正的 實體 AI(Physical AI) 的到來——生成式模型不再僅僅是創建影片,而是開始教導機器人如何生存。

深入解析:Genie 3 架構

這一突破的核心在於 Google Genie 3。雖然其前身因從圖像生成可操作的 2D 環境而受到讚譽,但 Genie 3 代表了在維度理解上的量子飛躍。它是一個通用世界模型,在海量的多樣化影片數據上進行了預訓練,使其對物理規律、物體恆常性以及因果關係具有直觀的理解。

Waymo 為駕駛領域的特定嚴苛要求微調了這個強大的模型。與依賴手動編碼資源和僵化物理引擎的傳統模擬器不同,Waymo 世界模型是 端到端生成式(end-to-end generative) 的。它不只是渲染一個場景;它「夢想」場景,並在幀與幀之間保持時間一致性。

至關重要的是,該系統超越了視覺光譜。它生成 高保真多傳感器輸出,不僅合成攝影機饋送,還合成 4D LiDAR 點雲。這是一個遊戲規則改變者。自動駕駛車輛(AV)不像人類那樣「看」;它透過雷射脈衝感知深度和幾何形狀。一個只生成照片級逼真影片的模擬器對於依賴 LiDAR 的系統堆疊來說是毫無用處的。Waymo 世界模型彌合了這一差距,創造了一個在數學上與原始傳感器數據無法區分的合成現實。

模擬不可能:長尾問題

駕駛場景中的「長尾(long-tail)」問題——那些在十億英里中才發生一次的異常情況——歷來是自動駕駛開發的致命弱點。你無法嚴格地為汽車編寫它從未見過的場景程式,你也無法等待 100 年讓測試車隊偶然遇到特定類型的自然災害。

Waymo 世界模型透過為 長尾場景(edge cases) 幻覺出有效的訓練數據,解決了這個數據瓶頸。正如發布會中所強調的,該系統可以生成在現實世界中模擬起來既危險又不可能的場景。

房間裡的「大象」

在其中一項最令人印象深刻的展示中,Waymo 展示了其系統處理以下情況的能力:

  • 極端天氣: 在突然出現的龍捲風、積水淹沒的路面和遮蔽視線的山火中航行。
  • 罕見障礙物: 遇到大象、獅子,甚至是穿著奇異服裝(如暴龍)的行人。
  • 混亂的人類行為: 咄咄逼人的駕駛者突然駛離道路,或車輛裝載著搖搖欲墜的家具。

這些不是腳本化的動畫。它們是交互式環境,主車(ego-vehicle,即正在接受培訓的自動駕駛車)可以在其中做出決定,而世界會做出相應反應。如果汽車為大象煞車,系統會計算煞車的物理特性,傳感器數據會發生變化,且「世界」會繼續連貫地演變。

三大控制支柱

生成隨機混亂的生成式模型很有用,但受控模擬才是一項工具。Waymo 實施了三種不同的機制來利用 Genie 3 的創造力,讓工程師能夠針對自動駕駛車的學習漏洞進行精確打擊。

1. 駕駛行為控制

該機制支援 反事實測試。工程師可以獲取一段現實世界的日誌——例如,自動駕駛車讓行給併線卡車的瞬間——並詢問「如果……會怎樣?」

  • 如果自動駕駛車反而加速了呢?
  • 如果自動駕駛車激進地變換車道了呢?
    模型會生成這些不同選擇導致的替代現實,使 Waymo 能夠根據數百萬次假設的錯誤來驗證其當前策略的安全性。

2. 場景佈局控制

這允許對靜態世界進行變動。工程師可以更改道路幾何形狀、改變交通訊號狀態,或重新安排其他道路使用者的位置。一個安靜的郊區路口可以立即變成一個壓力巨大的、帶有故障紅綠燈的六車道交匯處,測試自動駕駛車如何將其知識推廣到遊戲的新「關卡」。

3. 語言控制

這可能是三者中最具「生成式 AI(generative AI)」特色的功能,它允許工程師使用自然語言提示來操作模擬。

  • 「添加濃霧並將時間改為午夜。」
  • 「插入一輛警車在對向車道追捕超速轎車。」
    這使測試案例的創建變得大眾化,將其從繁重的程式碼腳本轉變為語義描述。

傳統模擬 vs. Waymo 世界模型

要理解這一轉變的重要性,我們必須將新的生成式方法與過去十年定義行業的確定性模擬器進行比較。

模擬架構比較

功能 傳統模擬器 Waymo 世界模型 (Genie 3)
核心技術 遊戲引擎 (Unreal/Unity) 與基於規則的邏輯 生成式世界模型 (影片到世界)
資源創建 手動建模資源 (汽車、樹木、道路) 從學習到的概念進行生成式合成
傳感器保真度 光線追蹤近似 學習型傳感器合成 (攝影機 + LiDAR)
場景多樣性 局限於預編寫的邏輯 無限的「長尾」生成
真實度 高視覺保真度,僵化的行為 高語義保真度,反應性物理
長尾場景處理 腳本化特定事件 基於提示的「不可能」場景
可擴展性 線性 (需要更多美術/開發時間) 指數級 (受算力限制)

實體 AI 的時代

Waymo 世界模型的發布標誌著佔據頭條新聞的「聊天機器人」式 AI 與在現實物理世界中運行的「機器人」式 AI 之間的融合。這就是 實體 AI(Physical AI) 的發展藍圖:利用大型模型的推理和生成能力來解決動力學問題。

透過不將駕駛視為一套 if/then 規則,而是視為學習過的世界模型中的連續預測任務,Waymo 正在使其技術堆疊與人類大腦的可能運作方式保持一致——我們運行世界的內部模擬來預測結果。Genie 3 為 Waymo 司機提供了想像力。

這一發展也給競爭對手帶來了巨大挑戰。當該領域的其他公司依靠車隊數據來尋找長尾場景時,Waymo 現在可以製造它們。「數十億虛擬英里」的優勢已存在多年,但這些里程的 品質 剛剛呈指數級增長。在 Genie 3 模擬中行駛的一英里不再是遊戲式的近似;它是對現實的傳感器級精確演練。

Creati.ai 觀點

從我們 Creati.ai 的角度來看,其影響遠超自動駕駛計程車。Waymo 和 Google DeepMind 實際上正在構建一個 現實世界的物理引擎。使汽車能夠理解龍捲風的技術,與最終訓練家用機器人在雜亂的廚房中導航或訓練工業無人機檢查災區的技術是相同的。

Waymo 世界模型是對業界的一次警告:自動駕駛的未來不僅在於更好的傳感器或更快的處理器。它在於誰擁有對世界最好的「夢想」——而現在,Waymo 的夢想正變得與現實難以區分。

精選
ex ads 202603311112
1111111111111
BlazeGard
Blazeguard provides unparalleled fire safety through innovative fire-rated sheathing technology.
Test Face Swap
Test Face Swap Test Face Swap Test Face Swap Test Face Swap Test Face Swap Test Face Swap
Midjourney for Slack
Bring AI-generated images directly to your Slack workspace with Midjourney for Slack.
AI Bot Eye
Transform your security with AI-driven surveillance technology.
amy
Amy is a comprehensive workplace assistant that streamlines tasks, schedules meetings, and manages projects.
sharkfoto-20250108-quick
Remove background from the image with just one click and convert the image to or from 200+ formats.
test 2 face swap 2
test 2 face swap 2test 2 face swap 2test 2 face swap 2test 2 face swap 2test 2 face swap 2test 2 face swap 2test 2 face
Gptzero me
GPTZero is a tool to detect AI-generated text accurately and easily.
sharkfoto-20250108-free
AI-powered tool for background removal and image conversion in over 200 formats.
BGRemover
Easily remove image backgrounds online with SharkFoto BGRemover.
sharkfoto agent test 202510111844
SharkFoto offers AI-powered free photo editing tools including background removal and colorization.
WorkViz
Workviz: AI-powered platform optimizing team performance through comprehensive analytics.
FreeAiKit
FreeAiKit offers a collection of free AI tools for various content creation needs.
TAROT ARCANA
Unveil your future with Tarot Arcana, an AI-powered tarot reading app.
Skywork
Skywork 將簡單的輸入轉化為多模式內容,例如報告和幻燈片。
sharkfoto svip 20250715
BrowseGPTs
Daily updated directory for diverse ChatGPT models.
blockbank
All-in-one crypto neo banking app combining DeFi and CeFi technologies.
Sharkfoto Quick 091801
SharkFoto offers free AI-powered image editing tools including background removal and photo colorization.
Neuronwriter
Advanced tool for content optimization using semantic models.
Novel
Novel helps you craft a comprehensive professional profile.
AI Fortunist (AI-Powered Tarot Readings)
AI Fortunist provides personalized tarot readings, coffee readings, and dream interpretations using advanced AI.
ParrotPDF
ParrotPDF lets users engage with PDF files interactively.
Flove
Flove is a minimalist movement tracking app with innovative features.
Franklin AI
AI tool to streamline business operations and enhance decision-making.
Durable AI
AI-powered website builder to get your business online in 30 seconds.
JungGPT
An AI tool for emotional reflection and psychological insights.
ChartX
AI-powered medical documentation for efficient and accurate patient care.
eztalks-20250226-0424003
輕鬆地去除圖片背景並轉換圖片格式,盡在SharkFoto。
Udemy Summary with ChatGPT
Summarize Udemy videos with ChatGPT and take notes effortlessly.
Astro Answer New Tab
Discover astrology with personalized AI-generated horoscopes.
aiBot копирайтер
Effortlessly enhance your text with aiBot копирайтер.
PageSage
PageSage simplifies web browsing by generating questions and answers instantly.
GPU Finder
GPU Finder helps discover available GPU instances from global public cloud providers.
Skyworker
AI-powered platform for tech job seekers and recruiters.
Craft
Craft is a powerful document creation and collaboration tool for teams and individuals.
GottaMeme. AI Meme Generator
Create hilarious memes effortlessly with GottaMeme's AI-powered generator.
Recap
Easily summarize any webpage portion with Recap, an open-source browser extension utilizing ChatGPT.
kimi quick test 20250417-121312223
一個創新的平台,用於提升個人生產力。
Magazine Luiza
Efficient shopping assistant for Magazine Luiza users.
sharkfoto svip test 202512241034
SharkFoto 是一個由 AI 驅動的平台,可輕鬆創建與編輯影片、圖像和音樂。
Bigjpg AI
Bigjpg enhances image quality through advanced AI upscaling.
kimi test 20250328-3
使用由AI驅動的工具免費提升、轉換和編輯圖像。
viddo.ai
Veo3 by Viddo AI enables AI-powered text or image to high-quality video creation rapidly.
Simplifly
Summarize lengthy articles easily with Simplifly.
BearGPT - Chatgpt Enhancer
Enhance your ChatGPT experience with BearGPT for better navigation and customization.
2026 Face Swap
2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Face Wwap2026 Fac
TextPal
TextPal utilizes AI to summarize and manage webpage text effortlessly.
AlgoDocs
AlgoDocs: AI-powered document data extraction made easy.
Audioread: Ultra-Realistic Text-to-Speech
Listen to articles with ultra-realistic AI voices.
GPTXtend
Enhance your ChatGPT experience with powerful sharing tools.
Free Email Extractor from Website
Free email extraction tool for scraping emails, phone numbers, and social profiles from websites.
Skypher
Streamline your security reviews with Skypher's automation.
AI PDF chatbot agent built with LangChain & LangGraph
SharkFoto 提供免費的 AI 驅動照片編輯工具,用於背景移除、著色、增強和調整圖片大小。
Wan 2.2-test
Wan 2 AI offers fast, high-quality 1080p AI video generation with advanced motion control.
Tappy AI
AI browser extension for adding thoughtful comments to LinkedIn posts.
sharkfoto-svip-092202
SharkFoto offers free AI-powered image editing tools like background removal and coloring.
Letz DM
Automate TikTok influencer marketing without the hassle.
Belly Buddy
Track food intake and digestive symptoms with Belly Buddy.
sharkfoto svip test 202509221443
SharkFoto offers free AI-powered photo editing tools for automatic background removal and image enhancement.
sharkfoto-svip-0922-changename
SharkFoto 提供免費的 AI 驅動照片工具,自動移除背景並提升圖像質量。
Alltum
Organizes emails, tasks, and files with AI-driven project management.

Waymo 發表用於自駕車模擬的世界模型 AI

Waymo 宣布一款基於 Google 的 Genie 3 的 AI 模擬模型,可生成包括大象和龍捲風等罕見情境在內的寫實 3D 環境。