Veo 3:Googleの最新AIビデオ生成モデルの実力とは?

こんにちは、GDX株式会社のAIリサーチ担当です。
今回は、2024年5月にGoogle DeepMindが発表した最新のAIビデオ生成モデル「Veo 3」についてご紹介します。生成AIの分野において、テキストから高精度なビデオを作成する技術は急速に進化しており、Veo 3はその最先端を行く存在です。本記事では、その技術的特徴、他社モデルとの違い、そして今後の展望について解説します。
はじめに
生成AI分野では、テキストから画像を生成する「画像生成AI(例:DALL·E、Midjourney)」に続き、近年は「ビデオ生成AI」が注目を集めています。OpenAIの「Sora」やRunwayの「Gen-2」などが先行する中、Google DeepMindが新たに発表した「Veo 3」は、数秒から1分以上の高解像度・高品質な映像を生成できる点で注目されています。
Veo 3は、自然なカメラワーク、物理的整合性、そして映画的な演出を含んだ映像を作り出す能力を持ち、生成ビデオの新たな基準を打ち立てようとしています【https://www.datacamp.com/tutorial/veo-3】。
Veo 3の主な特徴
1. 高解像度・長尺ビデオの生成
Veo 3は1080p解像度で1分以上の映像を生成可能です。これは従来のビデオ生成モデル(一般的には数秒~20秒程度)と比較して大きな進歩です。加えて、シーンの中のカメラの動きや視点の変化をリアルに表現することができます【https://deepmind.google/models/veo/】。
2. 映画的なスタイルとコンテンツ理解
Veo 3は、映画のような構図、カメラアングル、被写界深度などを学習しており、ナレーションやシナリオに基づいて物語性のあるビデオを生成することができます。たとえば「中世ヨーロッパ風の城で騎士がドラゴンと戦うシーン」といった複雑なプロンプトにも対応します【https://www.itmedia.co.jp/aiplus/articles/2505/26/news056.html】。
3. 編集機能との統合
ユーザーがプロンプトや指示を使って、すでに生成されたビデオの一部を編集することも可能です。例えば「このシーンを夜に変更して」「キャラクターの服を赤にして」といった指示に応答して映像を再生成できます。これは映画制作などの用途において強力なツールとなるでしょう【https://blog.google/technology/ai/google-flow-veo-ai-filmmaking-tool/】。
他社のビデオ生成モデルとの比較
OpenAIの「Sora」やRunwayの「Gen-2」、Pika Labsなども高精度なビデオ生成を提供していますが、Veo 3は以下の点で優れています:
持続時間の長さと解像度:Soraは最大60秒、Runwayは数十秒が上限であるのに対し、Veoは安定して1分以上のビデオ生成が可能。
一貫性と物理的リアリズム:人物やオブジェクトの動きが自然で、シーンの整合性が保たれている。
高度な編集機能:プロンプトによる部分修正が可能な点は、Veoならではの特長です。
各モデルの特徴を理解した上で、用途や表現スタイルに応じて使い分けることが、クリエイティブなプロジェクトにおいて重要になります【https://deepmind.google/models/veo/】。
クリエイター支援と今後の展開
Veo 3は現在、選ばれたクリエイターを対象にした試験運用が始まっており、今後はGoogleの「VideoFX」などのサービスを通じて一般ユーザーにも提供される予定です。また、YouTubeとの連携も視野に入っており、AI生成映像の利用が拡大していくと見られます。
Googleは、倫理的なAIの利用を推進するために、Veoで生成されたビデオに自動的に「SynthID」という透かし技術を付加することで、偽情報やディープフェイクへの対策も講じています【https://deepmind.google/models/veo/】。
おわりに
Veo 3は、テキストから高品質なビデオを生成できる点で、生成AIの可能性を大きく広げる存在です。今後は映像制作、広告、教育、エンタメなど幅広い分野での応用が期待されます。生成AIが映像表現をどこまで変えるのか、今後の動向に注目です。