本記事では2025年9月24日にリリースされたWan2.5をご紹介します。今回のモデルはVeo3に対抗するような、現在の市場で最も高性能なモデルです。
概要
Wan2.5は中国Alibabaグループが開発した動画生成モデルです。text to videoとimage to video両方に対応しており、1080pの高解像度での生成も可能です。本バージョンの最も重要なポイントはVeo3と同様にネイティブに音声を統合して生成することです。今まで市場に存在したモデルはVeo3を除いて統合された音声の生成には対応していませんでしたが、Wan2.5はVeo3に続いてネイティブ音声生成に対応しました。APIコストもVeo3よりも安いようで、Alibabaが本気でGoogleをシバきに行っているのが見えます。
Wan2.5の強み
Wan2.5のコンセプトは本当にGoogleのVeo3とほぼ同じです。非常に高いプロンプト理解、破綻の少なさ、多様なカメラワーク、高品質なネイティブ音声などVeo3でできることは大抵Wan2.5もできます。それでいてWan2.5はVeo3には出来ないアスペクト比での動画生成やAPIコスト、生成速度などの点でVeo3を上回ります。簡単に言えば、Wan2.5は安いVeo3のように機能します。
Wanシリーズを比較
Wanシリーズは2025年に急速に進化を遂げました。Wan2.1はオープンソース動画生成の基盤を築き、Wan2.2はMoEアーキテクチャにより性能を大幅に向上、Wan2.5ではこれをさらに洗練して音声生成に対応しました。以下に各モデルを比較します。
| 項目 | Wan2.1 | Wan2.2 | Wan2.5 |
| 主な機能 | t2v/i2v | t2v/itv/ti2v | t2v/itv/ti2v/音声統合生成 |
| 解像度 | 480p/720p | 480p/720p | 480p/720p/1080p |
| 生成速度 | RTX 4090で4min | 9min | Veo3より高速、APIでの提供のため詳細不明 |
| 性能向上点 | 大幅な画質向上 | 音声統合生成 |
Wan2.2からの最大の進化点は音声をネイティブに統合して生成できることです。これは多くのユーザーが待ち望んだ機能でしょう。その他にも画質の向上、物理シミュレーションの進化などがあります。
ただ一点気になるのは、Wan2.5はAPIでサービスを提供しているという点です。前モデルまではオープンソースで提供することをメリットの一つとしていたのに、どういう訳かWan2.5はAPIでサービスを提供しています。どうにもコンセプトがぶれている気がしてならないのですが、まぁ経営戦略と言われればそれまでです。
Veo3と比較
正直に言えば、Wan2.5をシリーズの進化の中で捉えるのはそこまで効果的ではありません。なぜなら、Wan2.5の市場での価値はVeo3と同等のパフォーマンスを持つことにあるからです。Wan2.5登場前の動画生成モデルは、音声も欲しければVeo3一択、そうでなければ求める画像ごとに適するモデルを選択するというのが一般的でした。ただ知っての通りVeo3は非常に高価なモデルで、月3000円も課金してGoogle Ai proにサブスクリプションを購読していても1日3回しか生成を楽しめません。SeaArtのようにAPIで提供しているプラットフォームを使えば回数制限を回避できますが、法外な額のコンピューティングパワーを消費します。そこにWan2.5が登場しました。Veo3と同等の性能でありながら、圧倒的に低コストで利用可能です。
そろそろVeo3と比較しましょう。と言っても比較表を作るほど違いは多くありません。
まず、画質に関しては被写体やその動きに大きく依存しますが、全体的にはVeo3の方が好評です。とは言えそこまで大きな違いというわけでもなく、比較すればVeo3の方が美しいといった程度で一般的にみればWan2.5も十分な画質を備えています。Wan2.2の時点で十分に美しかったですが、Wan2.5はそれから順当に進化したといった印象です。ただ、私が検証した限りでは写実的な動画においてはVeo3の方が画質が良いと感じましたが、アニメ調の動画生成においてはWan2.5に軍配が上がるように感じました。
続いて生成速度ですが、SeaArtで試した限りでは多少Wan2.5が早いといった程度でそこまで大きな差ではありません。どうせ数分待つ間は別の作業をしているのでどっちでもいい。
オーディオに関しては、本当にVeo3と同程度に感じました。環境音やBGM,車のエンジンサウンドなどのクオリティにおいてVeo3とWan2.5で明確な差は感じられませんでした。
プロンプト追従性は両者ともに文句ナシです。このクラスのモデルではモデルのプロンプト追従性よりもユーザー側のプロンプトを書く能力の方が問題です。
最後に生成コストですが、これはWan2.5の圧勝です。Veo3高すぎでしょ。Wan2.5は5sで300, Veo3が8sで3500消費ですよ、勘弁して~~ 今後多少価格が変動する可能性はありますが、GoogleがAPIコストを9割引きにするとは思えないので、Wan2.5が安いのは変わらないでしょう。
作例
Wan2.5を用いて生成した動画を見てみましょう。
どういう訳か、SeaArtの記事に動画を挿入できなかったので投稿のリンク形式で対応します。運営さん見てたら直してね。 https://www.seaart.ai/artWorkDetail/d39t3lle878c73dghgn0
2025/10/11 追記: 問題が修正されました。SeaArt Team ありがとう。
生成された動画ではVeo3と遜色ないエンジン音が生成されています。映像の画質に関しても全く文句ないクオリティと言えるのではないでしょうか。
まとめ
Wan2.5はVeo3に正面から対抗するモデルとして今の動画生成市場を塗り替える可能性があります。Veo3とほぼ同等の性能でありながら圧倒的に安い計算コストのWan2.5は今後のスタンダードになるかもしれません。現在はWan2.5に関して様々なイベントがあるので、是非積極的にお試しください~~














