BitcoinWorld
Google DeepMindがStreet ViewとGenie 3を融合してインタラクティブなAIワールドを創出
Google DeepMindは、同社の汎用ワールドモデルであるProject GenieにStreet Viewの画像を直接統合することで、物理世界とデジタル世界を橋渡しする重要な一歩を踏み出しました。Google I/O開発者会議で発表されたこの統合により、ユーザーは20年以上にわたるStreet Viewデータで捉えられたリアルな場所を基盤とした、インタラクティブで探索可能な環境を生成できるようになります。
Googleは20年間にわたり、カメラ搭載車やバックパック型トラッカーを使用して110カ国で2,800億枚以上の画像を収集してきました。現在、その膨大なデータセットはGenie 3に供給されており、テキストプロンプトや画像から多様なインタラクティブ3D環境を生成できるワールドモデルとなっています。DeepMindのオープンエンデッドネスチームの研究科学者であるJack Parker-Holderは、Bitcoin Worldに対し、リアルワールドデータと生成シミュレーションの組み合わせがロボティクスと人間の探索の両方で強力なユースケースを開くと説明しました。
「エージェント(およびロボティクス)のユースケースと、人間が操作するうえでも非常に強力です」とParker-Holderは述べました。彼は、ほとんど日差しのない都市であるロンドンに展開されたロボットが、Street Viewデータから生成された晴れた日のシミュレーションでトレーニングを受けることで、ビクトリア朝の住宅からの突然の日光の反射がセンサーを乱すことがなくなるシナリオを説明しました。同様に、冬にニューヨーク市への旅行を計画している旅行者は、このツールを使って特定のブロックの雪景色を視覚化し、天候条件をオンデマンドで調整できます。
Genie 3は、Googleの自動運転車子会社であるWaymoがすでに使用しており、自律走行車のトレーニングのために竜巻や予期しない動物との遭遇などの極めてまれなイベントをシミュレートしています。Parker-Holderは、WaymoにはAの視点に特化した独自のシミュレーターがあるものの、Street Viewの統合により歩行者や配送ロボットなど他のエージェントへの視点の切り替えが可能になり、より包括的なトレーニングシナリオが実現すると指摘しました。
シミュレーションを実際の地理的場所に固定する機能は、物理的な車両の展開を必要とせずに、AIドライバーが多様な道路レイアウト、標識、環境条件に対応できるようにすることで、Waymoの世界中の新都市への拡大を加速させる可能性があります。
近隣の水中シミュレーションを含む印象的なデモにもかかわらず、この技術はまだ実験段階です。DeepMindのプロダクトマネージャーであるDiego Rivasは、GenieのStreet Viewはまだ開発中であると警告しました。記者に公開されたサンプルでは、環境は認識可能でしたが、フォトリアルというよりはビデオゲームクオリティでした。モデルはまた物理的な認識も欠如しており、あるシミュレーションでは、雪のJoshua Treeのシーンを走る女性がサボテンや茂みをすり抜けてしまいました。
Parker-Holderはこのギャップを認め、Genieの現在の精度を6〜12ヶ月前の動画生成モデルと比較しました。「これは解決できると思います」と彼は述べ、物理的な理解は生き物が学ぶ方法と同様に、受動的な観察を通じて直感的に生まれると指摘しました。
Google Mapsのディレクターであり12年のStreet Viewベテランであるjonathan Herbertは、本当のブレークスルーは空間的連続性にあると強調しました。ユーザーが360度回転すると、AIは背後の環境を正確に記憶してシミュレートし、その理解の上に新しい環境を構築します。「私たちはStreet Viewデータをもとに、世界の最良かつ最も豊かなモデルをどのように構築できるかについて長い間考えてきました」とHerbertは述べました。
Googleは本日より米国の一部のUltraユーザーを対象にGenieのStreet Viewの提供を開始し、時間をかけて米国全体へのアクセスを拡大する予定です。グローバルのUltraユーザーは今後数週間以内にアクセスできるようになります。Rivasによると、研究者たちの目標はこの機能をできるだけ多くの人々に届けることですが、精度の向上が引き続き優先事項であると強調しました。
20年にわたるリアルワールド画像と生成AIを結びつけることで、Google DeepMindはインタラクティブシミュレーションの新しいクラスの基盤を築いています。まだ初期段階にありますが、Genie 3へのStreet Viewの統合は、物理世界を理解し、シミュレートし、インタラクトできるAIシステムに向けた意義ある一歩を表しており、ロボティクス、自動運転、都市計画、没入感のある体験教育への示唆を持っています。
Q1: Genie 3とは何ですか?
Genie 3はGoogle DeepMindの汎用ワールドモデルで、テキストプロンプトや画像からインタラクティブで探索可能な3D環境を生成できます。ロボティクスのトレーニング、ゲーム、教育体験向けに設計されています。
Q2: Street Viewの統合はどのように機能しますか?
この統合により、Genie 3はGoogleの膨大なStreet View画像データセット(110カ国から2,800億枚以上の画像)を基盤として使用し、リアルな場所に固定されたシミュレーションを生成できます。ユーザーはこれらの環境をインタラクティブに探索し、天候などの条件を調整できます。
Q3: シミュレーションは物理的に正確ですか?
まだです。現在のバージョンは物理的な認識が欠如しており、オブジェクトがリアルにインタラクトしない場合があります(例:キャラクターが固体オブジェクトをすり抜ける)。Googleは、モデルがより多くのデータを通じて直感的に物理を学習するにつれて、今後6〜12ヶ月で改善されることを期待しています。
この記事「Google DeepMindがStreet ViewとGenie 3を融合してインタラクティブなAIワールドを創出」はBitcoinWorldに最初に掲載されました。


