Google、検索と作成機能を強化するためにGemini AIをGmailに統合
GoogleはGmailに新しいGemini AI機能を展開し、ユーザーにAIによる検索の要約と高度な文章作成支援をGoogle AI Proのサブスクリプションの一部として提供しています。

レベル5の自動運転(Level 5 autonomy)を執拗に追求する中で、最大の障壁は道路のルールではなく、世界のカオスでした。今日、Waymoはその障壁を打ち破りました。生成AI(Generative AI)と物理ロボティクスのギャップを埋める画期的な発表として、Alphabet傘下の自動運転リーダーは、Google DeepMindのGenie 3をベースに構築された次世代シミュレーションエンジン、Waymo World Modelを公開しました。
長年、業界は「走行マイル数」を安全性の黄金指標として信頼してきました。すでに公道で2億マイル近い完全自動運転の走行実績を持つWaymoは、今、物理的なマイル数だけではもはや不十分であると事実上の宣言をしています。Genie 3の巨大なインターネット規模の世界知識を活用することで、Waymoは単に現実を記録するだけでなく、それを合成しています。高速道路に発生した竜巻から、都市部の道路に迷い込んだゾウまで、Waymo World Modelは「Waymo Driver」にあり得ない事象を経験させ、起こりそうにない事態への備えを確実にします。
Creati.aiでは、これを単なるシミュレーターのアップグレードではなく、真の**フィジカルAI(Physical AI)**の到来であると考えています。つまり、生成モデルが単に動画を作成するだけでなく、ロボットに生き残る方法を教え始める段階に達したのです。
この突破口の核心はGoogle Genie 3にあります。その前身モデルは画像からプレイ可能な2D環境を生成することで称賛されましたが、Genie 3は次元の理解において飛躍的な進歩を遂げています。これは、膨大な量の多様なビデオデータで事前学習された汎用的な世界モデルであり、物理法則、物体の永続性、そして因果関係を直感的に把握する能力を身につけています。
Waymoはこの怪物を、自動運転ドメインの特定の厳しさに合わせて微調整しました。手作業でコード化されたアセットや硬直した物理エンジンに依存する従来のシミュレーターとは異なり、Waymo World Modelはエンドツーエンドの生成型です。単にシーンをレンダリングするのではなく、フレーム間で時間的な一貫性を維持しながらシーンを「夢見(dream)」ます。
決定的なのは、このシステムが視覚スペクトルを超えていることです。カメラ映像だけでなく、4D LiDARポイントクラウドも合成し、高精度なマルチセンサー出力を生成します。これはゲームチェンジャーです。自動運転車(AV)は人間のように「見る」のではなく、レーザーパルスを通じて深度と幾何学的形状を認識します。フォトリアルな動画のみを生成するシミュレーターは、LiDARに依存するスタックには役に立ちません。Waymo World Modelはこのギャップを埋め、生のセンサーデータと数学的に区別がつかない合成現実を作り出します。
「ロングテール(Long-tail)」、つまり10億マイルに一度しか起こらないような異常な出来事は、歴史的に自動運転開発のアキレス腱となってきました。一度も見ことのない状況に対して車を厳密にプログラミングすることはできず、テスト車両が特定の種類の自然災害に偶然遭遇するのを100年も待つわけにはいきません。
Waymo World Modelは、エッジケース(edge cases)に対する有効なトレーニングデータを生成(ハルシネーション)することで、このデータのボトルネックを解決します。発表で強調されたように、このシステムは現実世界で演出するには危険すぎる、あるいは不可能なシナリオを生成することができます。
最も印象的なデモンストレーションの一つで、Waymoは以下の状況に対処するシステムを公開しました:
これらは台本のあるアニメーションではありません。自車(トレーニング中の自動運転車)が意思決定を行い、それに応じて世界が反応するインタラクティブな環境です。もし車がゾウのためにブレーキをかければ、停止の物理計算が行われ、センサーデータが変化し、「世界」は一貫性を保ちながら進化し続けます。
ランダムなカオスを生成するだけの生成モデルも有用ですが、制御されたシミュレーションこそがツールとなります。Waymoは、Genie 3の創造性を活用するために3つの明確なメカニズムを実装し、エンジニアが自動運転車の学習不足な箇所に対してピンポイントで対策を行えるようにしました。
このメカニズムは反実仮想テストを可能にします。エンジニアは、現実世界のログ(例えば、自動運転車が合流してくるトラックに道を譲った瞬間)を取り出し、「もしも」を問いかけることができます。
これにより、静的な世界の改変が可能になります。エンジニアは道路の形状を変更したり、信号機の状態を変えたり、他の道路利用者の配置を並べ替えたりできます。静かな郊外の交差点を、壊れた信号機があるストレスの高い6車線の交差点に瞬時に変貌させ、自動運転車がその知識を新しい「レベル」のゲームにどれだけ汎用化できるかをテストできます。
おそらく3つの中で最も「生成AI(Generative AI)」らしい機能で、エンジニアは自然言語のプロンプトを使用してシミュレーションを操作できます。
この転換の大きさを理解するために、新しい生成アプローチと、過去10年間の業界を定義してきた決定論的なシミュレーターを比較する必要があります。
シミュレーションアーキテクチャの比較
| 機能 | 従来のシミュレーター | Waymo World Model (Genie 3) |
|---|---|---|
| コアテクノロジー | ゲームエンジン(Unreal/Unity)およびルールベースのロジック | 生成世界モデル(Video-to-World) |
| アセット作成 | アセット(車、木、道路)の手動モデリング | 学習された概念からの生成的な合成 |
| センサーの忠実度 | レイトレーシングによる近似 | 学習されたセンサー合成(カメラ + LiDAR) |
| シナリオの多様性 | あらかじめプログラムされたロジックに限定 | 無限の「ロングテール」生成 |
| リアリズム | 高い視覚的忠実度、硬直した動作 | 高い意味的忠実度、反応的な物理 |
| エッジケースへの対応 | スクリプト化された特定のイベント | プロンプトベースの「不可能」なシナリオ |
| 拡張性 | 線形的(より多くのアーティスト/開発者の時間が必要) | 指数関数的(計算資源に依存) |
Waymo World Modelのリリースは、見出しを独占してきた「チャットボット」スタイルのAIと、物理世界で動作する「ロボット」AIの融合を告げるものです。これがフィジカルAIのロードマップです。大規模モデルの推論能力と生成能力を使用して、動的な問題を解決します。
運転を単なる if/then ルールの集合としてではなく、学習された世界モデル内での継続的な予測タスクとして扱うことで、Waymoはそのスタックを人間の脳の機能(私たちは結果を予測するために世界の内部シミュレーションを行っています)に合わせています。Genie 3はWaymo Driverに「想像力」を与えます。
この開発は競合他社にとっても大きな挑戦となります。他社がエッジケースを見つけるためにフリートデータに依存している一方で、Waymoは今やそれらを製造することができます。「何十億マイルもの仮想走行」という優位性は以前から存在していましたが、そのマイルの「質」が指数関数的に向上したのです。Genie 3のシミュレーションで走行する1マイルは、もはやビデオゲームの近似ではなく、現実のためのセンサー精度の高いリハーサルなのです。
Creati.aiの見地からすると、その影響は自動運転タクシーをはるかに超えて広がります。WaymoとGoogle DeepMindは、事実上の**「現実のための物理エンジン」**を構築しています。車が竜巻を理解することを可能にする技術は、最終的に家庭用ロボットが散らかったキッチンを移動したり、産業用ドローンが災害地を検査したりするためのトレーニングに使われる技術と同じです。
Waymo World Modelは業界への警告です。自動運転の未来は、単に優れたセンサーや高速なプロセッサだけではありません。それは誰が最も優れた世界の「夢」を持っているかということであり、今、Waymoの夢は現実と区別がつかなくなりつつあります。