您的位置: 蕭山網(wǎng) >  新聞中心 >  蕭山新聞 >  時政經(jīng)濟 > 

北大信研院和孵化企業(yè)國研能匯 發(fā)布全國首個文生視頻

[ 時政經(jīng)濟 ]    
2024
08-13
08:30

日前,在北京市超高清視聽(計算視聽)創(chuàng)新應用示范區(qū)揭牌儀式上,北大信研院和國研能匯發(fā)布了全國首個文生視頻Agent-VisionConnect,標志著研發(fā)文生視頻核心技術(shù)實現(xiàn)了從零到一、從無到有的歷史性跨越,以人工智能高質(zhì)量發(fā)展和高水平應用培育經(jīng)濟發(fā)展新動能。

據(jù)悉,國研能匯孵化自北京大學信息技術(shù)高等研究院崔斌教授課題組,專注于提供卓越的AIGC復雜長視頻生成解決方案。近三年來,該公司在AI頂刊頂會發(fā)表學術(shù)論文數(shù)十篇,內(nèi)容涉及基于Diffusion Model的文生圖、文生視頻等核心技術(shù),在生成式圖像技術(shù)方面達到國際領(lǐng)先水平。

該技術(shù)構(gòu)建了一個基于多模態(tài)大語言模型(MLLM)的Agent架構(gòu),采用MLLM作為全局規(guī)劃器,運用其強大的思維鏈推理能力,將復雜長視頻的生成過程分解為多個更簡單的生成任務,來增強文本到視頻擴散模型的組合性。利用該架構(gòu),可將用戶文字意圖轉(zhuǎn)化為視頻的時空布局規(guī)劃,通過算法確保多場景主體、背景一致,將生成的視頻片段組合成長視頻。該技術(shù)可最長生成30秒視頻,同時具備提示詞簡單、長視頻時空一致性強、細節(jié)豐富、動作自然等特性。



來源:蕭山日報  

作者:首席記者 黃婷  

編輯:湯圣潔
相關(guān)新聞
推薦閱讀