阿里通義萬相新突破：靜態圖+音頻，輕松生成電影級數字人視頻

2025-08-27 20:20來源：ITBear編輯：時寒峰

掃一掃

分享文章到微信

掃一掃

關注99科技網微信公眾號

復制網址

　　原標題：阿里通義萬相新突破：靜態圖+音頻，輕松生成電影級數字人視頻

　　在科技日新月異的今天，阿里巴巴再次引領技術潮流，正式推出了其通義萬相平臺的全新多模態視頻生成模型——Wan2.2-S2V。這一創新模型僅需用戶提供一張靜態圖片和一段音頻，便能自動生成面部表情生動、口型精準匹配、肢體動作流暢的電影級數字人視頻，為數字人直播、影視后期制作及AI教育等領域帶來了革命性的變化。

　　據悉，Wan2.2-S2V模型能夠生成分鐘級別的視頻內容，極大提升了視頻創作的效率。用戶只需簡單操作，便能見證靜態圖片中的人物仿佛被賦予了生命，隨著音頻的節奏動起來，無論是唱歌、說話還是表演，都顯得栩栩如生。這一技術突破無疑為影視行業的內容創作者提供了強有力的支持，也為數字人直播等新興領域打開了全新的想象空間。

　　早在今年7月，阿里通義萬相已經開源了包括文生視頻、圖生視頻在內的多款視頻生成模型，如Wan2.2-T2V-A14B、Wan2.2-I2V-A14B等，這些模型在業界首次采用了MoE架構，展現了強大的視頻生成能力。而此次推出的Wan2.2-S2V則更加注重音頻與圖像的同步，致力于實現畫面與音頻的完美契合。

　　在實際體驗中，Wan2.2-S2V展現出了令人驚嘆的效果。無論是真人、卡通、動物還是數字人形象，只需上傳一張圖片和一段音頻，模型便能自動生成一段與音頻完美同步的視頻。視頻中的人物面部表情豐富自然，口型與音頻精準對位，甚至手部或身體其他部分的動作也十分流暢。這一技術不僅適用于真人角色的視頻生成，還能為動畫角色增添生動的表現力。

　　Wan2.2-S2V還支持多種畫幅和分辨率的視頻生成，無論是豎屏短視頻還是橫屏影視劇，都能輕松應對。用戶還可以通過輸入文本Prompt來控制視頻畫面，讓視頻主體的運動和背景的變化更加豐富多樣。這一功能為視頻創作者提供了更多的創作自由和想象空間。

　　在測試過程中，我們嘗試上傳了一張動畫人物“吉伊”的圖片，并輸入指令讓畫面中的角色唱歌。結果令人驚喜，“吉伊”不僅動了起來，還配上了背景音樂，雖然嘴巴的線條識別尚有一些誤差，但整體效果已經相當出色。隨后，我們又嘗試了讓小狗張嘴唱歌、愛因斯坦張口說話等場景，每一次嘗試都帶來了全新的視覺體驗。

　　隨著數字人直播、影視制作等行業對高效視頻創作工具需求的日益增長，阿里通義萬相平臺不斷推出創新技術，為這些領域提供了強有力的支持。Wan2.2-S2V模型的推出，無疑將進一步推動視頻生成技術的快速發展，為創作者們帶來更多驚喜和可能。

?????投稿郵箱：jiujiukejiwang@163.com ??詳情訪問99科技網：http://www.hacbq.cn

相關推薦