<bdo id="vljxk"><rt id="vljxk"><noframes id="vljxk"><noframes id="vljxk"><noframes id="vljxk"><rt id="vljxk"></rt><rt id="vljxk"></rt><noframes id="vljxk"><rt id="vljxk"><delect id="vljxk"></delect></rt><noframes id="vljxk"><rt id="vljxk"></rt><noframes id="vljxk"><noframes id="vljxk"><rt id="vljxk"></rt>

  1. 創業頭條
  2. 前沿領域
  3. 人工智能
  4. 正文

從文生圖到文生視頻,AI行業卷瘋了

 2023-12-26 10:58  來源:A5專欄  我來投稿 撤稿糾錯

  阿里云優惠券 先領券再下單

前不久,身穿太空服的馬斯克瞬間進入二次元的視頻在網上引起炸裂,讓人不可思議的是,動畫版的馬斯克不僅神形兼備,背景和動作也非常連貫合理,而這一切都來自于一位斯坦福華人博士生設計的一款名叫“Pika”的視頻生成工具。只需要在該軟件的視頻輸入框內輸入“馬斯克穿著太空服,3D動畫”的關鍵詞,一個身穿太空服的卡通馬斯克便能躍然于屏上。

近幾年,隨著AIGC賦能多業態應用的加速落地,整個行業的熱潮,已經逐漸從文生文、文生圖,轉向了文生視頻領域。事實上,AIGC從文字到視頻是大的發展趨勢,不少產業人士已經感知到了市場的風向,國內字節跳動、阿里、百度等科技大廠均已跑步入場。

AIGC邁入視頻時代

據了解,字節跳動于11月18日推出了文生視頻模型PixelDance;阿里緊隨其后也上線了Animate Anyone模型;百度文心大模型的類似功能則在內測中,不久后會以插件形式開放。顯然,AI技術與文生視頻的融合已經在業界掀起了一股新的熱潮。而國內玩家之所以如此積極地下場布局,其中的原因不言而喻。

首先,文生視頻應用非常廣泛,具備巨大的市場潛力。短視頻市場雖然方興未艾,但短視頻的制作能力卻跟不上各個平臺爆發的短視頻需求。而文生視頻技術的日趨成熟和廣泛應用,或將為當下熱門的短視頻市場帶來一些變數。比如,影視和游戲等行業就是文生視頻落地的重要場景,文生視頻用文字就可以編輯和生成想要的故事情節,實現創意輔助和降本增效。而憑借為內容生成賦能這一獨特優勢,文生視頻的前景也是毋庸置疑。

其次,文生視頻操作十分便利,能有效降低各項成本。眾所周知,個性化的視頻制作麻煩、成本高昂,所以一款簡單的視頻生成工具,就成了不少行業和企業的渴望,而AI文生視頻技術能力的突破則為這一問題帶來全新解決方案。文生視頻顧名思義就是無需視頻制作技巧,僅用簡單文字就可以生成想要的視頻素材,不僅如此,還能隨著輸入場景和關鍵詞不斷更新,簡直大大降低了視頻制作的門檻和成本,可以說是創作者在數字化時代下的“福音”。

最后,文生視頻產品功能驚艷,能進一步增強企業競爭力。在當下的AI賽道上,文生圖的應用早已層出不窮,相比較而言,能夠完全“攻下”文生視頻這一陣地的玩家卻是寥寥無幾。歸根結底,是文生視頻的產品功能更加強大,其難度自然也就可想而知了。只不過,高難度往往伴隨著高價值,若是有哪一個企業能憑借強大的算力、跨領域合作能力和技術自主性等優勢引領這一賽道,那么其在行業內形成差異化優勢也將指日可待。

萬丈高樓平地起

文生視頻作為一種新興的傳媒形式,正以前所未有的方式影響著我們的日常生活。目前,在企業宣傳、數字化人、科普創作、線上社交等領域都對文生視頻技術有所運用。而為了提高視頻生成的流暢度、真實感,國內入局的玩家如字節跳動、阿里和百度等都在多個方面下足了功夫。

一方面,各玩家收集了大量數據,以提高視頻生成效果的多樣性。文本生成視頻模型往往需要大量數據來學習字幕的相關性、幀照片的寫實感和時間的動態信息,而缺乏高質量配對的數據集,就難以合理組合人物、難以合理架構場景,因此,生成視頻的合理性及連貫性就會大打折扣。阿里為了提高生成效果的多樣性,就讓其研究人員收集了大約3500萬單的文本視頻對和60億文本圖像對來優化模型,讓生成的視頻達到了預期效果。

另一方面,各玩家設計了分層編輯器,以提高文生視頻語義的一致性。從簡單文字生成高質量視頻,就需要文生視頻產品能夠準確預測文字的意圖,然后在保持輸入文字內容和結構的同時生成精確的運動。為了達到這一目標,阿里的研究者設計了兩個分層編碼器,即固定CLIP編碼器和可學習內容編碼器,分別提取高級語義和低級細節,然后將其合并到視頻擴散模型中,更好地確保了低分辨率下生成視頻的語義連貫。

除此之外,各玩家還提高了視頻分辨率,以保證視頻生成效果的高質量。文生視頻最理想的效果就是用戶給出提示詞,系統自動生成任何風格相對應的視頻,但這就對視頻分辨率提出了不小的考驗。阿里的文生視頻將視頻分辨率提高到了1280×720,還優化了初始的600個去噪step,以改進生成視頻中存在的細節、偽影和噪音問題。字節跳動文生視頻也提出了基于文本指導+首尾幀圖片指導的視頻生成方法,使得視頻生成的動態性變得更強。

打鐵還需自身硬

隨著人工智能和視頻技術的快速發展,AIGC行業正在向AI視頻傾斜,AI文生視頻的爆發期或許即將到來,而參與到AI視頻創作中的玩家也將會越來越多。即便是在這樣的大環境下,不管是已經推出模型的字節跳動和阿里,還是正準備推出插件的百度,能入局文生視頻賽道,其自身都有著不可忽視的倚仗。

一來,參與玩家算力儲備充足,能很好地克服文生視頻在技術上的不足。作為文生文、文生圖的升級,文生視頻對算力以及模型的工程化能力要求更高。據了解,文生視頻的人工智能模型參數為10億級別至100億級別。而國內在文生視頻領域有所布局的頭部玩家中,無論是字節跳動還是阿里、百度,其在參數上的積累都已經十分深厚??梢?,這些具有算力儲備的云服務廠商在發展視頻生成類應用上具有天然優勢。

二來,參與玩家行業經驗豐富,能大大加速文生視頻面世和迭代的速度。文生圖和文生視頻的人工智能模型在底層技術框架上有著較高的相似性,一定程度上來說,文生視頻可以看作是文生圖的進階版技術,這也就意味著,文生圖的技術和經驗可供文生視頻加以運用和參考。而眾所周知,字節跳動、阿里、百度等玩家早已在文生圖領域有所深耕,甚至有的產品也已投入商用,憑借在文生圖技術上的積淀,其在文生視頻領域也有望實現大幅進步。

三來,參與玩家資源整合能力強大,能夠為其文生視頻的發展提供助力。相較于文字和圖片,視頻能承載的信息量更大,這也就是說,想要生產出更加生動、高清,真實感更強的視頻,各玩家在文生視頻上的投入成本也將更高。不過,值得一提的是,作為互聯網大廠,阿里、百度、字節跳動經過多年發展,其在人才、資金、算力等眾多資源和實力上的優勢和權利不容小覷,得益于此,其文生視頻產品也將擁有更強的競爭力和影響力。

山雨欲來風滿樓

文生視頻不僅顛覆了傳統媒體行業,也為內容升級和產業進化帶來了許多新的商機和可能性。只不過,目前國內文生視頻技術還在發展的初級階段,雖然看上去文生視頻與文生圖的邏輯極其相似,但事實上,文生視頻的難度要大得多,需要突破的瓶頸也有很多。

一是,文生視頻數據要求高、計算難度大,參與玩家離產出令人滿意的視頻還有很大距離。相較于文字和圖片,視頻在多維信息表達、畫面豐富性及動態性方面有更大優勢,但這同時也意味著,文生視頻對算力的需求將進一步加大;文生視頻所涉及的自然語言處理、視覺處理、畫面合成等領域,需要攻克的技術難點也在增加。而國內的玩家,目前仍然缺乏高質量配對數據集,因此其在語義準確性、清晰度和連續性等方面將會面臨嚴峻挑戰。

二是,文生視頻成本耗費大,商業模式較單一,參與玩家想要將商業化跑通還有一定難度。與文生圖相比,文生視頻的計算復雜性提升,其成本耗費也會相應有所增加。另外,圖片生成類的商業模式較為單一,收費模式和收費依據較為趨同,而視頻生成模型的收費依據則與其類似。雖然圖片生成類在多模態大模型中的商業化程度較高,可為視頻生成的商業化前景提供一定參考,但作為新興產業,文生視頻的商業化想要跑通仍需一定時間。

三是,國內外企業紛紛加大了對文生視頻的投入和研究,該賽道的競爭將會進一步升級。AI視頻生成賽道已然十分熱鬧,不僅有美國AI初創公司Pika labs發布的“Pika 1.0”,還有谷歌推出的AI視頻生成模型“W.A.L.T”等。而除了國外企業對文生視頻技術的高度重視外,國內百度、阿里、字節、騰訊、360、萬興科技、昆侖萬維、國脈文化、美圖等公司也紛紛涉足該領域,并推出了相關的人工智能模型,顯然,視頻生成領域的競爭正日趨白熱化。

從文生圖到文生視頻,AIGC賽道的競爭已經非常激烈。雖然國內文生視頻的進展相對緩慢,尚且沒有明星產品的出現,但更多有人才、有技術的文生視頻公司正在不斷涌現。只不過,除了上述挑戰之外,文生視頻目前還有一些數據隱私和安全性問題需要解決,真正的商業化運作和盈利能力也還有待驗證。而誰能在這次“跑馬圈地”中成為最終的贏家,我們也只能拭目以待。

申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!

相關文章

  • 2025年10個頂級GPU云平臺:Serverless+RL開啟AI普惠時代

    近期,“AI新云”(NeoCloud)概念在科技圈和投資圈引發熱潮。今年3月,被業內稱作“英偉達親兒子”的AI基礎設施企業CoreWeave上市。這家依托英偉達GPU資源沖擊新云市場的初創公司,上市不到3個月市值飆升359%,達881億美元。CoreWeave的“身價暴漲”吸引了無數視線。對此,不少

    標簽:
    ai智能
  • 阿里巴巴梭哈AI

    2024年往前數三年,我們稱之為阿里巴巴失去的三年。

  • 華為盤古大模型5.5發布:深度思考模型將上線

    一場人工智能領域的革新風暴正從華為開發者大會現場席卷全球產業界。2025年6月20日,在東莞舉行的華為開發者大會HDC2025上,華為常務董事、華為云計算CEO張平安揭開了盤古大模型5.5的神秘面紗。這一全新版本在自然語言處理、計算機視覺、多模態、預測和科學計算五大基礎模型上實現全面突破,標志著中國

  • OpenAI 推出開源客戶服務代理框架 支持商業或實驗用途

    一行代碼未寫,企業已獲完整客服系統——這將是AI代理普及的新起點?!敖裉鞓酥局鳤I代理技術從實驗室走向產業的轉折點?!監penAI產品負責人OlivierGodement在項目發布聲明中如此評價。就在今日,這家AI巨頭通過HuggingFace平臺開源了一套完整的客戶服務代理框架,采用寬松的MIT許

    標簽:
    ai技術
  • 夸克App上線“夸克老師”:AI實現個性化輔導,精準攻克學習難題

    6月17日,阿里巴巴旗下智能信息平臺夸克App正式推出全新學習產品“夸克老師”——一款集講題、批作業、出題、找試卷于一體的AI家教。該功能依托通義千問大模型,通過指令微調、強化學習等前沿技術,首次實現“因材施教”的個性化輔導,標志著AI在教育領域的應用邁入新階段。技術突破:AI模擬真人教學,推理能力

    標簽:
    夸克
  • 字節旗下AI工具豆包電腦版與網頁版上線“AI播客”功能,用戶可一鍵生成雙人對話播客

    2025年6月17日,字節跳動旗下智能助手豆包正式在電腦版及網頁端全量上線“AI播客”功能,用戶只需上傳PDF文檔或網頁鏈接,即可一鍵生成由兩位AI主播演繹的對話式播客節目。這一創新功能憑借高度擬人化的語音效果和秒級轉化效率,迅速引發內容創作者、學生群體及職場人士的關注。技術突破:真人級語音交互,秒

    標簽:
    豆包ai
  • 全球AI巨頭正在賭:誰搞定MCP,誰就是未來老大

    我不是危言聳聽,現在全球的AI巨頭都在做MCP,毫不夸張的說:誰能把MCP做起來,誰就擁有AI生態控制權,誰就是AI圈的老大。你們有沒有發現,MCP在2025年初開始特別火爆,互聯網技術大廠都在強推MCP。(1)阿里云百煉搞了個MCP平臺,提供50+預置MCP服務。不過大都只面向阿里系產品。(2)騰

    標簽:
    ai智能
  • 對話李軍:人工智能是“第五范式革命”

    2025國際人工智能程序設計精英挑戰賽(IAEPC)在香港中文大學成功舉辦。作為主辦方之一,歐美同學基金會理事長李軍接受了大賽主持人艾誠采訪。在采訪中,李軍認為IAEPC不僅是一場“冠軍中的冠軍”對決,更是一次全球AI人才的線下交流盛會。大賽“史無前例”的吸引了全球青年科技精英匯聚香港,更加推動和普

編輯推薦