設計師看呆!印象派插畫轉視頻 揭秘Luma AI生成模型隱藏玩法
原標題:設計師看呆!印象派插畫轉視頻 揭秘Luma AI生成模型隱藏玩法
剛玩過Pika 2.0這款“最優秀的免費AI視頻生成工具”后,網友又有新樂子了。
昨晚,我在微博上看到了設計師@Simon_阿文 po出了一組AI生成的圖片。本來他想為難一下這個名叫“Dream Machine”的大模型,但……小丑張嘴說話,旋轉木馬開始旋轉,獨角獸開始奔跑,po主直呼“我瘋了”。

▲“馬戲團”靜幀生成視頻(來源:Simon_阿文)
我也驚了,這絕對是迄今為止第一個能把風格化圖片轉成合理視頻的模型。(風格化是一種模擬真實藝術手法的創作方式,會有繪畫或印象派的效果,而不注重寫實。)
Dream Machine(造夢機)是2021年成立的Luma AI昨天免費開放的視頻生成大模型,這家公司在A輪B輪中都拿到了英偉達的投資。Luma AI模型可以在120秒以內生成120幀影像(5秒視頻)。
從官網效果視頻來看,“人緊閉雙眼在水下呼吸”、“北極熊在雪野中慵懶地匍匐前行”、“房間瞬時發生了爆破”……生成視頻動感、逼真、流暢,甚至有一些故事的延伸感!

▲Luma.AI官方視頻效果
全球互聯網的熱情一下子被點燃,大量用戶涌入Luma AI網站,乃至今天上午我試用時也出現了排隊的情況。我承認,Luma AI生成模型終于能用了,雖然視頻幀率遠不如Sora,細節上還是問題很多,但比Pika半年推出的模型進步了一大截。
實測:風格化表現力好,但畫面質量太有問題
Luma AI的造夢機大模型用起來非常的簡單,只要登入官網(https://lumalabs.ai/dream-machine)后注冊,通過輸入文字提示詞,等待約2兩分鐘,就可以獲得一段5秒的視頻。
我先后將一些風景照片、影視截圖、Coser高清美照等等投給Luma AI,120s的時間說長不長,如果你能忍受偶爾幾次的卡頓,模型能消化各種風格,交出一些生動有趣的“電影級”畫面。
首先,這個模型對提示詞的要求低,哪怕你說“將圖片轉化成視頻”,Luma AI也可以自由發揮。比如我將電影《教父》的畫面給到模型,你能想象AI會怎么“續寫”嗎?視頻中,老教父站起身來,他旁邊的侍從一臉凝重地拉住了他,這畫面引人遐想,仿佛暴風雨前的蓄勢待發。

▲電影《教父》畫面生成視頻
一直以來,過去人們對圖生視頻模型的印象大概是超寫實還行,但風格化表現極差,這一次Luma AI卻表現真的不一樣。
相對來說,文生視頻的效果就會差一些。我直接使用Luma AI給出的參考文本生成視頻,可以看到視頻中的熊突然跳躍到空地上,然后對一個不斷變形的吉他使出了“無影爪”……運動幅度不是很流暢。

▲文本“一只戴著墨鏡的泰迪熊在一片美麗的大瀑布前的叢林里,彈著電吉他、跳著舞、晃著頭。”生成視頻
我承認,Luma AI在做畫面補充上是有一手,但是也會翻車在這一點上,出現完全不符合內容邏輯的情況。比如,我將《楚門的世界》結局時的經典微笑畫面交給大模型,視頻閃現了兩張一群人簇擁“楚門”的畫面,離譜!第二個畫面不知道是AI從哪里學來的,有種可惡的熟悉感。

▲電影《楚門的世界》畫面生成視頻,提示詞為“這個男人開心地笑了起來并揮手再見的鏡頭”
另外,理解物理世界對于Luma AI來說仍然是未被解決的問題。當某網友將美劇《生活大爆炸》中Sheldon的劇照投給Dream Machine,生成視頻中Sheldon的動作細節不符合物理。這個是AI視頻生成的老毛病了。

▲《生活大爆炸》中Sheldon生成視頻
最最嚴重的問題其實是畫面質量。Luma AI生成視頻的粒子效果尚可,不過這本來難度就不大,但是視頻幀率較低,想必是計算能力一般,畫面紋理和材質差,多為低渲染素材,細節表現失真。
這令我也很疑惑,Luma AI畫面逼真度比Sora差了怎么這么多?Luma AI模型的標定是2分鐘120幀,為了保證這個輸出速度,圖片質量就會比較低,渲染速度快就會出現低渲染素材。那如果我們用分辨率稍低一點的素材試一下,比如我用電影《五星級大鼠》可能效果就會……還是不怎么樣。

▲電影《五星級大鼠》畫面生成視頻
總的來說,Luma.AI表現得最好的部分是運動平滑度、運動程度,它還有一定的內容表現力,例如可以在5s視頻中補充與風格、內容一致的動態畫面。畫面不僅僅只是動作流暢,還比原來更有趣、更有故事性。
盡管運動和內容表現力不錯,Luma.AI也坦率承認,目前模型存在著重現自然動作、變形效果和文本方面的困難。不過我認為,成像質量才是Luma.AI最大的問題,視頻的幀率較低,畫面紋理和材質經不起細看,細節表現失真。

▲Luma.AI評分(來源:烏鴉智能說)
人類學構圖時最先學的是物理邏輯,而AI的學習路徑大大不同。無論是Sora的刷屏視頻出現多處失誤,還是Luma “自爆”還需要改進的各種問題,當前我對Luma大模型表達驚艷的同時,也意識到了模擬真實世界仍需闖關。
畫面幾乎不可用,實際價值待解
除了生成效果,視頻生成長度(約5s)、產品易得性(完全免費)也都是Luma AI模型的亮點。
要知道OpenAI“重磅彈”Sora雖然能根據提示詞生成1分鐘視頻,但還未開發公測。此外,開放的Pika、Runway和PixVerse等文生視頻產品基于原創模型,生成視頻長度也只有3-4秒,部分產品仍有付費門檻。
那么,更易得、完全免費的Luma AI有沒有更實際的案例價值呢?
對于創意視頻生成、廣告創作、電影特效這類較專業的案例來說,答案是:Luma AI不行,Sora也不行。影視從業者江江告訴烏鴉君,Luma AI生成視頻的畫面質量太低,幾乎不可用。今年2月,第一財經的一篇報道也提到,某紀錄片從業者認為Sora還不能直接用于影視作品,因為精細度還不夠。
Luma AI視頻工具對于藝術表現這一塊也不見得打得通。上文提到的設計師@Simon_阿文也開始反思AI對作品的二創,他認為生成的視頻導致風格偏離,得不償失,“比如這只熊…感覺串片場了”。設計師的風格暫時還不能被AI視頻生成精細地復制。

▲@Simon_阿文 作品中的獅子突然變成了卡通版本
英偉達看好,開放打法是否有效?
AI生成視頻賽道打得火熱,資本市場也展現出對視頻生成領域的瘋狂,今年3月,三個華人創立的AI視頻生成創企(Haiper、愛詩科技、HeyGen)扎堆獲得了融資,而且融資額都過了千萬美金。
Luma AI的融資歷程也非常順利,截至今年1月份,Luma AI已融資超7000萬美元。A輪融資2000萬美元,投資方包括Amplify Partners、英偉達、General Catalyst等。B輪融資4300萬美元,a16z領投,Anjey Midha、Amplify、Matrix、英偉達等參投。
Luma AI的開放策略,使得Dream Machine對所有人都可用,這可能會使其在建立開發者和創作者社區方面占據顯著優勢。據了解,Luma AI計劃發布API和插件,將Dream Machine與流行的創意軟件集成,進一步擴大其影響力。
從另一個角度來講,Luma團隊可能是沒有能夠收集到足夠的信息訓練,所以只能開放,以此收集數據。而做得比較好的視頻生成項目可能不會開放,因為他們擔心垃圾數據會降低AI的訓練度。

▲Luma在網站支持模型現有的問題
結語:AI視頻生成正在普及化
過去我們無法想象,AI視頻可以精細到如Sora、Luma這種程度,從文生文到文生視頻、圖生視頻,也不過才用了一年時間。Luma AI的視頻的質量令人驚嘆,但目前,它們除了作為展示AI潛力的范例作用外,實用落地價值仍待觀察。
Luma等AI生成視頻工具的開放和收費,預示AI視頻工具商業化將提速。影視從業者江江也對烏鴉君表示,Ta從視頻制作者的角度來看,原以為會成為技術難關的東西,AI都已經突破或者有突破的跡象了。或許AI視頻生成普及化到實際落地的那一天不會讓我們等太久。
?????投稿郵箱:jiujiukejiwang@163.com ??詳情訪問99科技網:http://www.hacbq.cn
推薦資訊


















