阿里通義萬相新突破:靜態圖+音頻,輕松生成電影級數字人視頻
原標題:阿里通義萬相新突破:靜態圖+音頻,輕松生成電影級數字人視頻
在科技日新月異的今天,阿里巴巴再次引領技術潮流,正式推出了其通義萬相平臺的全新多模態視頻生成模型——Wan2.2-S2V。這一創新模型僅需用戶提供一張靜態圖片和一段音頻,便能自動生成面部表情生動、口型精準匹配、肢體動作流暢的電影級數字人視頻,為數字人直播、影視后期制作及AI教育等領域帶來了革命性的變化。

據悉,Wan2.2-S2V模型能夠生成分鐘級別的視頻內容,極大提升了視頻創作的效率。用戶只需簡單操作,便能見證靜態圖片中的人物仿佛被賦予了生命,隨著音頻的節奏動起來,無論是唱歌、說話還是表演,都顯得栩栩如生。這一技術突破無疑為影視行業的內容創作者提供了強有力的支持,也為數字人直播等新興領域打開了全新的想象空間。
早在今年7月,阿里通義萬相已經開源了包括文生視頻、圖生視頻在內的多款視頻生成模型,如Wan2.2-T2V-A14B、Wan2.2-I2V-A14B等,這些模型在業界首次采用了MoE架構,展現了強大的視頻生成能力。而此次推出的Wan2.2-S2V則更加注重音頻與圖像的同步,致力于實現畫面與音頻的完美契合。
在實際體驗中,Wan2.2-S2V展現出了令人驚嘆的效果。無論是真人、卡通、動物還是數字人形象,只需上傳一張圖片和一段音頻,模型便能自動生成一段與音頻完美同步的視頻。視頻中的人物面部表情豐富自然,口型與音頻精準對位,甚至手部或身體其他部分的動作也十分流暢。這一技術不僅適用于真人角色的視頻生成,還能為動畫角色增添生動的表現力。
Wan2.2-S2V還支持多種畫幅和分辨率的視頻生成,無論是豎屏短視頻還是橫屏影視劇,都能輕松應對。用戶還可以通過輸入文本Prompt來控制視頻畫面,讓視頻主體的運動和背景的變化更加豐富多樣。這一功能為視頻創作者提供了更多的創作自由和想象空間。
在測試過程中,我們嘗試上傳了一張動畫人物“吉伊”的圖片,并輸入指令讓畫面中的角色唱歌。結果令人驚喜,“吉伊”不僅動了起來,還配上了背景音樂,雖然嘴巴的線條識別尚有一些誤差,但整體效果已經相當出色。隨后,我們又嘗試了讓小狗張嘴唱歌、愛因斯坦張口說話等場景,每一次嘗試都帶來了全新的視覺體驗。
隨著數字人直播、影視制作等行業對高效視頻創作工具需求的日益增長,阿里通義萬相平臺不斷推出創新技術,為這些領域提供了強有力的支持。Wan2.2-S2V模型的推出,無疑將進一步推動視頻生成技術的快速發展,為創作者們帶來更多驚喜和可能。
?????投稿郵箱:jiujiukejiwang@163.com ??詳情訪問99科技網:http://www.hacbq.cn
























