您的位置: 蕭山網(wǎng) >  新聞中心 >  蕭山新聞 >  時政經(jīng)濟 > 

信息港小鎮(zhèn)企業(yè)一知智能 讓照片“活”起來

[ 時政經(jīng)濟 ]    
2024
08-29
08:34

最近,信息港小鎮(zhèn)企業(yè)杭州一知智能科技有限公司自研的通用說話人合成技術(shù)上線,能讓靜態(tài)照片“開口說話”。

什么是通用說話人合成技術(shù)?這是一種基于智能算法的圖像處理技術(shù),它能根據(jù)語音直接驅(qū)動靜態(tài)照片中人物頭部和面部自然動作,不需要定制訓練,即可生成人物流暢說話的視頻效果。

也就是說,僅需一張圖片,一段音頻,就能讓圖片中的人物“活”起來。

那么,通用說話人合成技術(shù)是如何做到的?一知智能相關(guān)負責人介紹,首先,在語音特征方面,采用基于Transformer的語音特征聚合模型,來提取每一幀畫面對應(yīng)的語音特征。同時,通過motion extractor提取頭部姿態(tài)和表情偏移量,在實際使用中可以用模板庫中豐富的頭部姿態(tài)序列進行驅(qū)動,“這樣子,我們就將關(guān)鍵點、語音特征、運動信息和圖片特征通過聚合模型進行了融合,并利用擴散模型重建了頭部圖像。想象一下,你只需上傳一張自己滿意的照片和一段音頻,就能得到一個動態(tài)的你,是不是很有趣?”

值得一提的是,基于過去為眾多電商品牌拍攝的定制或公用模特,一知智能構(gòu)建了豐富的頭面部動作與表情模型庫,這使得通用說話人合成技術(shù)能夠創(chuàng)造出自然又真實的多樣化面部表情與動作,精準匹配聲音與細膩表情變化。

實際上,這項技術(shù)的突破,不僅僅使一知智能在通用式唇音匹配效果上處于業(yè)界領(lǐng)先地位,更極大降低了數(shù)字人制作的經(jīng)濟與時間成本,“我們摒棄了前期對攝影棚拍攝和專業(yè)化妝師團隊的依賴,僅憑單圖就可驅(qū)動出高真實度、高可控性、高表現(xiàn)力的數(shù)字人,與定制化數(shù)字人模型所差無幾?!?/p>

一直以來,一知智能不斷探索AI多模態(tài)人機交互的新邊界,致力于將AI深度融入業(yè)務(wù)場景。該技術(shù)提升了數(shù)字人制作的靈活性與效率,也為一知的業(yè)務(wù)拓展開辟了新視野,帶來更多可能性。



來源:蕭山日報  

作者:首席記者 周珂 通訊員 馮佳程  

編輯:湯圣潔
相關(guān)新聞
推薦閱讀