收藏本站

電腦請使用 Ctrl + D 加入最愛
手機請使用 收藏
關閉

小編的世界 優質文選 探索

誰是視頻之王,國內外AI視頻生成模型大對比_Imagen_一致性_Sora


字體大小:
2025年11月24日 -
:        
 

誰是視頻之王,國內外AI視頻生成模型大對比

作者:數據猿

從2024年開始,AI圈最熱門的話題中,視頻生成模型一定占一席之地。從OpenAI推出視頻模型產品Sora一記重拳驚豔亮相,到國內AI視頻生成大模型井噴,AI視頻生成已經成為科技巨頭和創業公司必爭之地。

毫無疑問,AI視頻生成對內容創作、媒體生產乃至社會認知都會產生深遠影響。盡管被市場寄予厚望,但目前AI視頻生成開發面臨高成本、高難度、實用性差的痛點,真正商業化非一日之功。

目前,市場上主流AI視頻生成模型賽道有哪些玩家,其技術路線和產品能力如何,數據猿選取國內外AI視頻生成模型代表,從技術解讀到實測效果,為大家全面呈現AI視頻生成的現狀。

技術背後沒有魔法

AI視頻生成邏輯底座解讀

amocity
amocity

  


2024年初,OpenAI發布了Sora技術演示視頻,瞬間引爆全網。那些流暢自然、細節豐富的短視頻,讓人幾乎難以辨別真假。相較於2022年DALL-E和Midjourney引發的AI繪畫浪潮,Sora掀起的這波AI視頻風暴,似乎來得更猛烈、更具顛覆性。

但事實上,Sora爆火之後,鮮有人注意到這場AI視頻革命其實早已醞釀多時。從穀歌2022年的Imagen Video,到Runway 2023年的Gen-1和Gen-2,再到Meta去年年底發布的MovieGen,科技巨頭們一直在這個賽道上暗自較勁。而國內從高校實驗室到互聯網巨頭,也紛紛入局,一場關於AI視頻生成的角逐正在全球範圍內進行。

相比圖像生成,視頻生成複雜度提升了不止一個量級。靜態圖像生成只需要關注空間一致性,而視頻生成不僅要在空間維度上保持一致性,更要在時間維度上維持連貫性。這就像是從畫一幅靜態畫面,變成了導演一部連續變化的電影。而這種難度上的飛躍,也意味著技術壁壘和門檻的大幅提高。

通常而言,未來成熟的視頻生成技術模型,一定是同時具備以下幾個方面:

☆時空一致性:確保同一物體在不同幀中保持一致的外觀和合理的運動軌跡

☆物理規則遵循:生成的畫面需符合現實世界的物理規則,如重力、慣性等

☆敘事連貫性:維持視頻內容的邏輯連貫,避免情節跳躍或角色突變

☆細節真實性:捕捉光影變化、材質特性等微觀細節

☆長序列穩定性:在更長的時間跨度內保持穩定生成質量

但就目前而言,AI視頻生成技術,仍處於從“能用”到“好用”的過渡階段,和AI圖像生成一樣,剛開始的時候充滿各種瑕疵,但迭代速度會超過大多人的想象。可以肯定的是,在創新競速的大背景下,這個領域的創新速度只會更快。

要了解AI視頻生成的現狀和未來,首先要了解其技術本質。簡單來說,AI視頻生成的工作流程主要是從提示詞到視頻的過程。

當我們輸入“一只貓在草地上奔跑”這樣的提示詞時,AI視頻生成模型大致會經歷以下過程:首先通過大型語言模型理解文本提示,然後規劃視頻中的場景和動作,接著使用擴散模型生成視頻的各個幀,同時努力確保視頻中的角色和物體在不同幀之間保持一致性,最後對生成的視頻進行後處理優化。

聽起來簡單,實際上非常複雜。特別是保持時空一致性這一步,堪稱視頻生成的最大難關。我們經常看到早期AI生成視頻中人物的臉會突變、物體會憑空消失或改變形態、場景會莫名切換——這些都是時空一致性問題導致的。要解決這些問題,需要驚人的計算資源。

目前,在AI視頻生成領域的主流技術路線主要有5個。

1.生成對抗網絡(GAN)

早期視頻生成多采用GAN架構,算是繼承了圖像生成的思路:一個生成器不斷嘗試合成逼真幀,一個判別器則力求區分真實與合成,兩者博弈推動整體質量提升。然而,標准GAN在長序列生成中普遍面臨幀間運動不連貫和圖像抖動等問題。為此,視頻生成模型MoCoGAN將視頻生成過程拆分為“內容”與“運動”兩條潛在子空間,分別生成靜態語義與動態變化,通過對子空間的獨立建模顯著改善了運動連貫性和多樣性。緊隨其後,視頻生成模型TGAN提出“雙生成器”架構:時間生成器(Temporal Generator)產出幀級潛在序列,圖像生成器(Image Generator)將這些潛在碼映射為圖像幀,從而提高了長序列的時序一致性與語義穩定性。

目前,GAN已逐漸被擴散模型取代,但在特定場景下仍有應用。GAN路線的優勢在於生成速度快,但在處理複雜場景和長視頻方面存在局限。

2.自回歸Transformer與VQVAE的融合

基於自回歸模型與VQVAE/Transformer的視頻生成方法首先采用VQVAE將原始視頻幀分層編碼為離散潛在表示,通過3D卷積與向量量化實現高效壓縮,借助自注意力模塊捕捉局部與全局語義特征。

隨後,構建GPT樣式的自回歸Transformer,將這些離散潛在碼視作“視覺詞匯”,結合時空位置編碼,以因果自注意力順序預測未來幀潛碼,從而確保生成視頻在運動軌跡和內容連貫性上的一致性。該架構在BAIR Robot、UCF101、TGIF等數據集上表現出與最優GAN模型相當的生成質量,卻因逐步解碼的特性導致長視頻生成推理速度受限,面臨顯存壓力和並行化難題。

3.擴散模型路線

擴散模型路線采用類似於Stable Diffusion的架構,但針對視頻序列進行了深度優化。這類模型通常采用U-Net架構進行噪聲預測,並利用transformer結構捕捉時間維度上的依賴關系。簡單來說,擴散模型的視頻生成路線先通過正向擴散,將目標視頻幀序列逐步添加噪聲,直至近似純高斯噪聲,然後再反向去噪,模型以學習到的參數指導噪聲逐步還原成連續幀,從而完成視頻合成。

核心是3D UNet或帶時空注意力的變體,在空間上提取圖像特征的同時,還跨幀共享信息,以保證運動連貫性。整體而言,擴散模型以其自然的迭代生成和強大的細節還原能力,已成為當下文本到視頻、圖像到視頻等多模態生成任務的主流技術路線。

4.NeRF動態場景渲染技術路線

NeRF最初用於3D場景重建,通過對每個射線采樣顏色與體密度估計,實現高保真3D渲染。動態NeRF(Neural Radiance Fields)通過將時間或形變場作為額外維度輸入,擴展了原始僅支持靜態場景的NeRF框架,使其能夠對物體或場景的運動進行高保真渲染。

以DNeRF為代表的方法,將時間t作為第六維度輸入,並分兩階段學習:首先將時序體素映射到一個“規範空間”以統一表示場景,再通過變形網絡將規範空間中的體素根據時間變換回當前時刻,從而在單目視頻或稀疏視角下重建剛性與非剛性運動對象的體素密度與視依賴-dependent輻射度。後續工作如Nerfies則進一步在每個觀察點上優化體素形變場,將動態場景的點雲“扭曲”回統一的高維流形空間,從而更好地處理複雜非剛性形變。這個路線擅長生成幾何與光照一致的高質量短視頻,但對多視圖視頻數據依賴高,計算開銷大。

5.多模態融合混合架構

隨著技術演進,越來越多的模型采用混合架構,結合不同技術路線的優勢。例如,一些模型使用大語言模型處理提示解析和場景規劃,再用擴散模型生成具體視覺內容,最後通過專門的時序一致性模塊優化幀間連貫性。

一方面,在AI視頻生成中,幀間信息的複雜依賴使得時序一致性(temporal consistency)成為評價生成質量的關鍵,為此,部分技術如TCVE(TemporalConsistent Video Editing)在2D圖像擴散網絡之外引入專門的時序Unet,通過跨幀特征對齊和空間時序建模單元來保持視頻序列的時間連貫性擴散視頻模型常在傳統的空間去噪模塊後增設時序注意力塊,使模型能夠捕捉幀序索引並在幀間執行注意力運算,從而顯著改善運動平滑度與視覺一致性。

另一方面,多模態融合(multimodal fusion)致力於將文本、圖像、音頻及3D信息整合進同一生成流程,從而創造出視聽一體的沉浸式內容。

總結來看,AI視頻生成技術經歷了從生成對抗網絡(GAN)到自回歸Transformer、擴散模型、神經輻射場(NeRF)以及時序一致性與多模態融合等多條技術路線疊加的迭代演進。其中,GAN方法在早期取得了短視頻生成樣本的突破,但難以滿足長序列時序連貫要求,而自回歸模型和Transformer架構通過離散編碼與序列預測打開了更高質量生成的可能。擴散模型是當前絕對主流技術路線,但多模態的深度融合,是AI 視頻生成正逐步朝向生產級應用的關鍵。

國內外主要玩家

實力懸殊還是各有千秋?

隨著AI視頻生成競爭逐步深入,國內外湧現出了非常多的大模型,盡管技術邏輯不盡相同,但都算是這一賽道的代表。我們羅列了部分國內外AI視頻模型,方便大家了解,部分描述借鑒了官方公開表述,一切以實際使用體驗為准。

先從國際方面來,首先當然是OpenAI Sora,作為顛覆性的產品,Sora重新定義了行業標准。Sora能生成長達60秒的高質量視頻,在畫面細節、動作流暢度和鏡頭語言把控較為均衡。Sora最大的優勢在於其對物理世界規則的准確理解,Sora采用了一種被稱為"視頻作為圖像補丁"的創新方法,將視頻表示為時空塊,不需要傳統的幀到幀預測,大大提升了生成質量和效率。目前Sora與ChatGPT Plus深度綁定,用戶可在對話中一鍵體驗,但因為模型規模龐大,對GPU算力要求高,生成延遲相對較長。

☆Meta Movie Gen

作為社交媒體巨頭,Meta對短視頻內容生態有著天然的重視。其Movie Gen模型支持多種生成模式,包括文本轉視頻、圖像轉視頻和視頻擴展。Movie Gen的獨特優勢在於其對社交媒體視頻樣式的深度理解。在生成垂直短視頻、創意內容等社交媒體常見形式時,Movie Gen表現出色。此外,Meta還特別優化了Movie Gen在移動設備上的性能,使其能夠在Instagram、Facebook等平台無縫集成。與此同時,Movie Gen的獨特之處在於其對畫面構圖的精准把控,生成的視頻往往具有電影級的審美水准。但在動作連貫性方面還有明顯提升空間。

☆Imagen Video

作為AI領域的傳統巨頭,Google在視頻生成領域采取了相對低調的策略。其主要產品線包括Imagen Video和Phenaki兩款模型。

Google Labs發布的Imagen Video采用級聯擴散策略:先生成低分辨率視頻,再層層上采樣至高清,兼顧生成速度與畫面質量。它在物體運動的平滑度和細節還原方面優於早期同類模型,但分階段推理導致算力消耗巨大,難以實現實時交互。

☆Google Phenaki

Phenaki是Google Research推出的自回歸文本到視頻模型,通過序列式提示將長文本分解、生成分鐘級連貫視頻,兼顧語義理解與運動規律。不過,自回歸策略生成速度緩慢,對顯存和訓練數據的依賴也相當高,且在複雜場景下偶爾有語義漂移現象。

☆Runway Gen-4 Alpha

RunwayML的Gen-4 Alpha基於多模態大規模預訓練,憑借強大的Vision Transformer架構,實現了10–20秒短視頻的高保真合成,運動連貫與細節表現均表現搶眼。相比技術巨頭的產品,Runway更懂創意人。Gen-4不僅提供直觀的用戶界面,還有豐富的風格預設和後期編輯功能。雖然在純技術指標上可能不及Sora,但其開放的商業模式和對創意行業的深度優化,得到了大量用戶認可。

☆Pika Labs

Pika Labs將AI視頻生成做成一款面向普通用戶的在線工具,支持文本與圖像混合輸入,快速產出5–15秒的社交短視頻,且“Selfie With Your Younger Self”等創意功能深受年輕人喜愛。門檻低、響應快是其優勢,但分辨率和時長受限,不適合長視頻或專業場景。

☆Dream Machine

Dream Machine由Luma AI推出,基於Ray2 Transformer架構,專注物理自然的10秒級短視頻生成,支持網頁和iOS端使用,用戶僅需輸入文本即可獲得富有電影質感的作品。其“傻瓜式”體驗省去後期調參數的煩惱,但企業版價格較高,免費額度有限。

☆CogVideo

清華大學道生智能團隊推出CogVideo模型是在9B參數Transformer上,融合CogView2文本編碼與多幀率訓練策略,首創了3–5秒480p視頻的學術級生成模式,是較早問世的國產視頻生成模型,屬於國內開源領域的頭部選手。CogVideo的最大亮點是對中文提示詞的精准理解。在中國傳統文化元素表達上,其表現遠超國際模型。CogVideo為國內AI視頻技術奠定了重要基礎。

☆Vchitect

上海人工智能實驗室(InternVideo)基於InternVideo架構開發的Vchitect,專注東方審美,采用創新的時空注意力與超分插幀技術,在人物動作連貫性上表現出色。尤其是在舞蹈、運動等高難度動作場景中,其生成效果接近國際一線水平。

☆萬相

阿裏通義萬相支持中英文雙語文本到視頻的無縫切換,並兼容圖像到視頻的混合生成,滿足電商與營銷等垂直場景需求。它的模板化和語義融合強,但完全依賴雲端接口,網絡與調用成本是其潛在瓶頸。

☆混元圖生視頻

騰訊混元大模型憑借對多模態預訓練的深度優化,能基於圖像或文本提示生成5秒內的2K短視頻,並支持口型驅動、動作驅動及背景音效一體化。混元視頻生成模型追求輕量級而非極致畫質。

☆百度 “一鏡流影”

百度“文心一言”4.0中的“一鏡流影”插件主打批量化短視頻生產,能夠將文本自動轉化為5–10秒720p視頻,並支持文本、視覺與語音的多模態融合,為新聞和教育場景提供了高效解決方案。但在深入故事化和長視頻生成方面,還需與專業創作管線結合使用。"一鏡流影"走了一條與眾不同的路線,即將視頻生成能力整合進大模型生態。這種方式雖然在專業性上有所妥協,但大大提高了普通用戶的可及性。

☆可靈

可靈AI(Kling AI)是快手在去年6月推出的AI視頻生成模型,可靈AI基於DiT(Diffusion Transformer)架構,提供“文生視頻”和“圖生視頻”雙模式,支持最長3分鐘、1080p、30fps的高質量視頻輸出,同時有“視頻續寫”功能。

實測對決

誰是真正的視頻之王?

誠然,每個AI視頻生成模型都各有特點和長處,很難通過一個評測決定誰更厲害。但從用戶角度而言,根據一段文字生成符合要求的視頻是最直觀的需求。因此,根據篇幅情況,我們以通用場景和複雜場景兩種題目進行評測,對部分AI視頻生成模型進行測試,直觀呈現各模型畫面質量、動作流暢度、創意表現等維度,測試結果僅供參考。

為進一步均衡各模型特色,我們統一采用文字生視頻方式,相較於一般評測,我們會對題目進行稍微拉升,以下是兩個場景的通用題目:

☆通用場景:城市黃昏街道漫步

生成一段15秒的高清視頻,展現一條現代化城市街道在傍晚時分的景象。

畫面主體:行人緩慢漫步、商鋪燈光初亮、路邊汽車行駛

氛圍與色調:溫暖的橙紅色調、夕陽餘暉反射在玻璃幕牆上

攝像機動態:鏡頭由左至右平滑推進,伴隨輕微的推拉效果

附加元素:偶爾出現飛過的鳥群、路邊招牌稍微閃爍

☆複雜場景:夜幕下的賽博朋克式追逐

生成一段30秒的超高清視頻,場景設定為未來都市的夜晚。

畫面主體:一名身著熒光裝甲的女主角騎摩托高速穿過霓虹閃爍的街區

背景與氛圍:賽博朋克風格,高對比冷暖光源交替,雨後濕潤街面反射霓虹燈

視覺特效:動態霓虹線條、半透明全息廣告牌、漂浮的無人機編隊

攝像機動態:多機位剪輯——高速跟隨鏡頭、低角度推近、俯拍全景

敘事提示:開場女主角在橋頭躍下,隨後進入錯綜複雜的巷道並甩開追兵

首先是OpenAI Sora,Sora目前僅對ChatGPT plus版本(20美元/月)和pro版本(200美元/月)開放,生成視頻長度為5秒鐘,生成速度非常快。

在通用場景中,Sora生成的視頻對於街道、建築物、商戶、車輛及飛鳥塑造比較成功,但人物走動稍微有些穿模。

在複雜場景測試中,Sora塑造的女主角騎摩托車,行駛速度非常緩慢,對於雨後街道、兩側建築及無人機塑造比較貼切,有一定鏡頭跟隨。就本次測試而言,Sora表現並不算出色。

穀歌的Veo 2可以通過Google AI Studio 和 Gemini App進行使用,目前可以生成8秒720p的視頻功能。實測中,Veo 2生成視頻速度非常快,不到1分鐘即可完成。

在通用場景中,Veo 2成功塑造了多個行人、商鋪燈光、汽車、街道、鳥群等元素,整體鏡頭呈現類似街拍。人物呈現非常逼真,但汽車不是在路邊行駛,路邊招牌也未閃爍,整體鏡頭從左至右平滑推進則完全沒有呈現。

在複雜場景中,Veo 2把視頻創意設置為了類似遊戲畫面,呈現了“一名身著熒光裝甲的女主角騎摩托高速穿過霓虹閃爍的街區”,雨後的界面,半透明全息廣告牌、無人機編隊等都有呈現。但可以受限時長,沒有後續的甩開追兵等內容,也沒有多機位切換。但整體來看,畫面風格和呈現已經非常不錯。

Gen-4 Alpha支持文本到視頻、圖像到視頻等功能,對所有付費訂閱用戶開放(標准套餐15美元/月),但是由於Gen-4必須要一張圖片作為基礎,所以我們以AI圖片為基礎,測試AI圖片加統一場景描述。整體來說,Gen-4的視頻生成速度一般,超過20分鐘,可選擇6種生成視頻尺寸,視頻時長可以選擇5秒和10秒。另外,生成視頻後還可以根據該視頻生成4K版本。

通用場景使用圖片(下同)

複雜場景使用圖片(下同)

Gen-4使用界面

在通用場景中,Gen-4根據圖片,生成了動態視頻,整體來看動作較為流暢,但由於幾乎完全是根據圖片來生成視頻,所以並沒有根據描述進行創新。

在複雜場景中,由於Gen-4同樣根據圖片生成視頻,不僅對圖片進行了優化,內容元素也根據提示詞進行了優化,鏡頭也進行了跟隨,整體來看視頻質量很出眾。Gen-4更擅長根據圖片生成視頻,且整體視頻邏輯和質量較為可靠。

Pika Labs則是擅長將視頻進行扭曲調整,比如讓喝水的貓自己拿起杯子喝,比如讓書中的貓頭鷹出來、讓視頻中人的頭變成氣球飄出畫面等等。目前PIKA2.2版本僅對付費用戶開放,單月費用為28美元。

Pika使用界面

amocity
amocity

  


Pika效果演示

接下來是國內AI視頻生成模型:

CogVideoX測試中,我們先對智譜清言中智譜清影-AI視頻生視頻進行了測試。智譜清影同樣需要一個參考圖,可生成視頻為5秒,生成過程需要排隊。

智譜清影使用界面

從生成視頻結果來看,差距較為明顯,通用場景中不僅行人有倒走現場,甚至有詭異回頭等不和諧形式。

在複雜場景中,所生成視頻有所改觀,有部分鏡頭跟隨,但把無人機生成為了鳥,整體來看,不夠精准。

另外,我們還找到了一個名為CogVideoX-5B-demo的模型倉庫,並對命題進行了測試,結果更差,不僅人物模糊,畫面擦除現場非常嚴重,很難稱之為合格視頻。

CogVideoX-5B-demo

Vchitect2.0中文名為書生·築夢,非常有意境和寓意,從官網進入測試界面,僅用於學術研究及體驗性使用。由於GPU內存限制,演示僅支持2秒的視頻生成。要使用完整版本,需要本地版本。

Vchitect2.0 書生·築夢界面

不過有意思的是,在實際測試中,Vchitect2.0似乎很難理解中文命令,需要翻譯成英文,才能生成貼合內容的視頻。

在通用場景測試中,盡管視頻生成僅有2秒鐘,但從展現出的質量來看還有提升空間,視頻中有部分人物剪影,天空中有鳥呈現,質量非常一般。

在複雜場景測試中,Vchitect2.0直接出錯,提示已超出GPU配額,時間一直停留在(請求120秒,剩餘85秒)。並提示創建免費賬戶獲取更多使用配額。

阿裏通義萬相測試的是文生視頻2.1專業版,通義萬相文生視頻需要消耗10靈感值,不過每次簽到可以獲得50靈感值,頁面比較簡潔,支持4種視頻比例。視頻生成過程中會顯示預計需要用時,但實測中倒計時結束後並未生成視頻,整體視頻生成超過半小時,生成視頻後可以再次生成HD版本。

阿裏通義萬相界面

在通用場景測試中,通用萬相生成的視頻只有6秒,但非常驚豔,視頻為高清版本,人物動作自然,畫面對於文案還原程度非常高,行人緩慢漫步,商鋪燈光初亮、夕陽餘暉反射在玻璃幕牆上,整體呈現非常不錯。

在複雜場景測試中,通用萬相生成的視頻同樣6秒,整體畫面流暢,女主角騎車動作自然,有多次鏡頭切換及跟隨,但開始時無人機出現很突兀,整體道路、雨後路面效果還原較為自然。

騰訊混元AI視頻目前是在體驗階段,使用需要申請,不過一般都是秒過,初次可以體驗標准4次,高品質2次,2K視頻1次,有導演模式,並提供5種視頻比例,視頻生成需要排隊,但比較快,10分鐘以內可以生成完畢。值得一提的是,騰訊混元AI視頻有短信提醒功能,視頻生成完成後會進行短信提醒。

騰訊混元AI視頻界面

在通用場景測試中,騰訊混元AI所生成視頻為5秒,並可以,視頻塑造了一個黃昏晚霞的街頭熱鬧場景,商鋪、行人、車輛、天空中緩慢飛翔的鳥群以及閃爍的紅綠燈,細節可圈可點。與此同時,鏡頭由左至右平滑推進,較完整還原了命題要求,整體來看非常驚豔。

在複雜場景測試中,騰訊混元AI同樣生成了一個5秒鐘視頻,視頻中女主角騎摩托車飛馳街頭,多機位呈現,無人機艦隊逼真。在創意方面,騰訊混元AI在女主角騎摩托躍起脫離地面後,巧妙地將摩托車輪子回收,成為駕駛小型飛船畫面,這個創意堪稱滿分。

“一鏡流影”是百度文心一言4.0會員專屬的AI文字轉視頻插件,但目前文心一言無論是4.0Turbo還是文心4.5版本,都沒有展示插件端口。

可靈AI目前有可靈2.0大師版,連續包月58元/月,我們測試是可靈1.6版本。可靈AI視頻生成有文生視頻、圖生視頻、多模態編輯三種模式。其中文生視頻有3個比例,可生成10秒視頻,創意相關可調整想象力,視頻生成需排隊,但一般10分鐘以內可以生成完畢。

可靈界面

在通用場景測試中,可靈同樣塑造了一個黃昏街頭的視頻,模擬了手持鏡頭的效果,整體呈現還不錯,商場玻璃倒影比較出色,無論是大樓還是車輛駛過,都比較自然。

在複雜場景測試中,可靈本次生成效果一般,女主角騎車不僅有突然調轉車輛,還有穿模現象,命題中要求的無人機編隊、雨後街面等都沒有呈現。

綜合來看,就本次評測而言,國外方面Sora、Veo 2整體呈現比較出眾,Gen-4 Alpha圖生視頻非常驚豔。而國內通義萬相、騰訊混元AI視頻、可靈AI創意和結果呈現都比較好,國內外主流AI視頻生成模型基本上平分秋色。

就目前而言,國內外AI視頻生成的商業化路徑其實是比較清晰的,目前主要有以下類型:

第一個當然是訂閱制SaaS服務,不管是Sora、Pika、Gen-4 Alpha,還是國內的可靈,都有開放不同等級的付費套餐。

其次是API服務,據了解,目前非常多的模型主要針對企業客戶或開發者,按調用量付費,這種模式靈活性高,更受大型企業青睞。

最後一種是提供垂直行業解決方案,針對特定行業需求提供定制化視頻生成方案,如電商產品展示、教育內容制作、遊戲資產生成等。這類解決方案一般是項目制收費或年度服務費模式。

未來已來:AI視頻生成的下一站

盡管目前所有AI視頻生成模型都僅僅只能生成數秒視頻,但可以預見AI視頻技術爆發已經不遠,我們大膽預測,未來2-3年,AI視頻生成領域會著重從以下幾個方面突破。

首先,視頻長度將從目前的秒級延伸至完整短片級別。當AI能生成10分鐘以上的連貫敘事視頻時,內容創作行業將迎來又一個革命性變革。

其次,模型將進化出"導演能力",不僅能按文本生成單一鏡頭,還能理解並實現分鏡頭腳本、蒙太奇等高級電影語言,這是更高級和值得期待的一步。

接下來,專業化分工將更加明顯。除了通用視頻生成模型之外,針對電商、教育、遊戲等垂直領域的專業模型將會湧現出來,為特定場景提供優化解決方案。

最後,算力成本的下降會讓AI視頻生成門檻進一步降低,會有更多AI視頻應用形式誕生。

可以肯定的是,AI視頻生成競爭中,技術實力固然重要,但最終能否廣泛商用並創造價值,才是真正決定這場角逐的關鍵,好戲才剛剛開始。