ylliX - Online Advertising Network

世界最大の物理 AI 産業が採用——NVIDIA、自律走行車やロボに現実世界を理解させる「Cosmos」を発表 – BRIDGE(ブリッジ)


Cosmos World Foundation AIモデルが物理AIを支援 画像クレジット: Nvidia

NvidiaCES 2025 のJensen Huang(ジェンセン・ファン)CEOの基調講演で、物理 AI 開発を加速するCosmos ワールドファウンデーションモデルプラットフォームを発表した。

同社によると、このプラットフォームには最先端の生成ワールドファウンデーションモデル、高度なトークナイザー、ガードレール、自律走行車(AV)やロボットなどの物理 AI システムの開発を進めるために構築されたビデオ処理パイプラインが含まれている。

物理 AI モデルの開発は高コストで、膨大な量の実世界データとテストが必要になる。そこで Cosmos ワールドファウンデーションモデル(WFM)は、開発者に既存のモデルのトレーニングと評価のための大量のフォトリアルな物理ベースの合成データを生成する簡単な方法を提供する。開発者はまた、Cosmos WFM をファインチューニングすることでカスタムモデルを構築することもできる。

Cosmos モデルは、ロボティクスと AV コミュニティの作業を加速するためにオープンモデルライセンスの下で利用可能になる。開発者は Nvidia API カタログで最初のモデルをプレビューするか、Nvidia の NGCTM カタログまたは Hugging Face からモデルファミリーとファインチューニングフレームワークをダウンロードできる。

「2,000万時間の動画でトレーニングされています」とファン氏は述べる。「Nvidia Cosmos。これは AI に物理世界を理解させる新たな手法となるのです」。

Cosmosは合成データを生成する

1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi、XPENG などの主要なロボティクスと自動車企業、そしてライドシェア大手の Uber が、Cosmos を最初に採用する企業として名を連ねた。

「ロボティクスの ChatGPT モーメントが来ています。大規模言語モデルのように、ワールドファウンデーションモデルはロボットと AV の開発を進める上で基本的なものですが、すべての開発者が独自のモデルをトレーニングする専門知識とリソースを持っているわけではありません。私たちは物理 AI を民主化し、すべての開発者が一般的なロボティクスに手が届くようにするためにCosmosを作成しました」(ファン氏)。

NvidiaのCES 2025への道のり

AI の次の波を加速するオープンワールドファウンデーションモデル

Nvidia のオープンモデルスイートである Cosmos は、開発者が AV の走行やロボットが倉庫内を移動する様子を記録した動画などのデータセットを使用して、ターゲットアプリケーションのニーズに応じて WFM をカスタマイズできることを意味する。

Cosmos WFM は物理 AI 研究開発のために特別に構築されており、テキスト、画像、動画、ロボットセンサーやモーション データなどの入力の組み合わせから物理ベースの動画を生成できる。

これらのモデルは、物理ベースのインタラクション、オブジェクトの永続性、倉庫や工場などの産業環境、そしてさまざまな道路状況を含む運転環境の高品質な生成のために構築されている。

CES の基調講演でファン氏は物理 AI 開発者が Cosmos モデルを使用できる方法を紹介した。

  • 動画検索と理解:開発者が雪道の状況や倉庫の混雑など、特定のトレーニングシナリオを動画データから簡単に見つけることができる。
  • 制御可能な3Dからリアルへの合成データ生成:Nvidia Omniverse プラットフォームで開発された制御された3Dシナリオからフォトリアルな動画を生成するためにCosmosモデルを使用。
  • 物理AIモデルの開発と評価:ファウンデーションモデル上でのカスタムモデルの構築、強化学習に Cosmos を使用したモデルの改善、特定のシミュレーションシナリオでの性能テストなど。
  • 予見性:物理 AI モデルの次の潜在的なアクションの結果を予測する能力により、最適なアクションを選択するのを支援。
  • マルチバースシミュレーション:Cosmos と Omniverse を使用して、AI モデルが取り得るすべての可能な将来の結果を生成し、最良で最も正確な経路を選択するのを支援。

高度なワールドモデル開発ツール

Nvidia は、物理世界の AI 技術とデジタル ツインを融合させています。

物理 AI モデルの構築には、ペタバイト規模の動画データと、そのデータの処理、キュレーション、ラベル付けに数万時間の計算時間が必要になる。そこでデータのキュレーション、トレーニング、モデルのカスタマイズにかかる膨大なコストを節約するために、Cosmos は以下の機能を提供する。

  • Nvidia NeMo Curator を搭載した Nvidia AIとCUDA データ処理パイプライン:開発者は Nvidia Blackwell プラットフォームを使用して14日間で2,000万時間の動画を処理、キュレーション、ラベル付けできる(CPUのみのパイプラインでは3.4年かかる)。
  • Nvidia Cosmos トークナイザー:画像と動画をトークンに変換する最先端の視覚トークナイザー。現在の主要なトークナイザーと比較して8倍の圧縮率と12倍の処理速度を実現。
  • 高効率なモデルトレーニング、カスタマイズ、最適化のための Nvidia NeMo フレームワーク

世界最大の物理 AI 産業が Cosmos を採用

物理 AI 業界のパイオニアたちはすでに Cosmos 技術を採用している。

AI とヒューマノイドロボット企業の 1X は、Cosmos トークナイザーを使用して 1X World Model Challenge データセットを立ち上げた。XPENG はヒューマノイドロボットの開発を加速するために Cosmos を使用する予定だ。そして Hillbot と SkildAI は汎用ロボットの開発を加速するためにCosmosを使用している。

「データの不足と変動性は、ロボット環境での学習を成功させる上での重要な課題です。Cosmosのテキスト、画像、動画からワールドへの機能により、高価な実世界のデータ収集をそれほど必要とせずにモデルをトレーニングできる、さまざまなタスクにおけるフォトリアリスティックなシナリオを生成・拡張することができます」(Agilityのチーフテクノロジーオフィサー、Pras Velagapudi氏)。

輸送業界のリーダーたちも AV 向けの物理 AI を構築するために Cosmos を使用している。

物理世界の生成 AI のパイオニアである Waabi は、AV ソフトウェア開発とシミュレーションのための動画データの検索とキュレーションに Cosmos を使用する。

また、自動運転向け AI ファウンデーションモデルを開発している Wayve は、安全性と検証に使用されるエッジケースとコーナーケースの運転シナリオを検索するツールとして Cosmos を評価している。

さらに AV ツールチェーンプロバイダーの Foretellix は、Nvidia Omniverse Sensor RTX API と共に Cosmos を使用して、大規模な高忠実度のテストシナリオとトレーニングデータを評価・生成する予定ということだ。

Uber は自律移動を加速するために Nvidia と提携しています。Uber からのリッチな運転データセットは、Cosmos プラットフォームと nvidia DGX Cloud の機能と組み合わさることで、AV パートナーがより効率的に強力な AI モデルを構築するのを支援する。

「生成AIはモビリティの未来を動かし、リッチなデータと非常に強力な計算能力の両方を必要とします。Nvidiaと協力することで、業界向けの安全でスケーラブルな自動運転ソリューションのタイムラインを大幅に加速できると確信しています」(UberのCEO、Dara Khosrowshahi氏)

オープンで安全で責任あるAIの開発

Cosmos は機械が物理的な世界を理解できるようにします。

Nvidia Cosmos は、プライバシー、安全性、セキュリティ、透明性、望ましくないバイアスの削減を優先する Nvidia の「信頼できる AI」の原則に沿って開発された。

信頼できる AI は、開発者コミュニティ内のイノベーションを促進し、ユーザーの信頼を維持するために不可欠だ。Nvidia は、ホワイトハウスの自主的な AI コミットメントやその他のグローバルな AI 安全性イニシアチブに沿って、安全で信頼できる AI に取り組んでいる。

オープンな Cosmos プラットフォームには、有害なテキストや画像を軽減するために設計されたガードレールが含まれており、正確性を向上させるテキストプロンプトツールも備えている。

Nvidia API カタログ上の Cosmos の自己回帰モデルと拡散モデルで生成された動画には、AI 生成コンテンツを識別する目に見えない透かしが含まれており、誤情報や誤帰属の可能性を減らすのに役立つ。

Nvidia は開発者に信頼できる AI プラクティスを採用し、アプリケーションのガードレールと透かし入れソリューションをさらに強化することを推奨している。

提供時期

Cosmos を使用して物理的なロボットをトレーニングできます。

Cosmos WFM は現在、Hugging Face と Nvidia NGC カタログで Nvidia のオープンモデルライセンスの下で利用可能となっている。Cosmos モデルは近く、完全に最適化された Nvidia NIM マイクロサービスとして利用可能になる予定だ。

開発者はビデオ処理のために Nvidia NeMo Curator にアクセスし、Nvidia NeMo で独自のワールドモデルをカスタマイズできる。Nvidia DGX Cloud はこれらのモデルを迅速かつ簡単に展開する方法を提供し、Nvidia AI Enterprise ソフトウェアプラットフォームを通じてエンタープライズサポートが利用可能。

Nvidia はまた、医療、金融サービス、製造などのエンタープライズ AI のユースケースで開発者が使用できる新しいNvidia Llama Nemotron大規模言語モデルと Nvidia Cosmos Nemotron ビジョン言語モデルも発表している。

【via VentureBeat】 @VentureBeat

【原文】





Source link

Leave a Reply

Your email address will not be published. Required fields are marked *