亚洲系列一区中文字幕,国产高潮流白浆喷水免费网站

您的位置：蕭山網(wǎng) > 新聞中心 > 蕭山新聞 > 時政經(jīng)濟 >

信息港小鎮(zhèn)企業(yè)一知智能讓照片“活”起來

[ 時政經(jīng)濟 ]

2024

08-29

08:34

最近，信息港小鎮(zhèn)企業(yè)杭州一知智能科技有限公司自研的通用說話人合成技術(shù)上線，能讓靜態(tài)照片“開口說話”。

什么是通用說話人合成技術(shù)？這是一種基于智能算法的圖像處理技術(shù)，它能根據(jù)語音直接驅(qū)動靜態(tài)照片中人物頭部和面部自然動作，不需要定制訓練，即可生成人物流暢說話的視頻效果。

也就是說，僅需一張圖片，一段音頻，就能讓圖片中的人物“活”起來。

那么，通用說話人合成技術(shù)是如何做到的？一知智能相關(guān)負責人介紹，首先，在語音特征方面，采用基于Transformer的語音特征聚合模型，來提取每一幀畫面對應(yīng)的語音特征。同時，通過motion extractor提取頭部姿態(tài)和表情偏移量，在實際使用中可以用模板庫中豐富的頭部姿態(tài)序列進行驅(qū)動，“這樣子，我們就將關(guān)鍵點、語音特征、運動信息和圖片特征通過聚合模型進行了融合，并利用擴散模型重建了頭部圖像。想象一下，你只需上傳一張自己滿意的照片和一段音頻，就能得到一個動態(tài)的你，是不是很有趣？”

值得一提的是，基于過去為眾多電商品牌拍攝的定制或公用模特，一知智能構(gòu)建了豐富的頭面部動作與表情模型庫，這使得通用說話人合成技術(shù)能夠創(chuàng)造出自然又真實的多樣化面部表情與動作，精準匹配聲音與細膩表情變化。

實際上，這項技術(shù)的突破，不僅僅使一知智能在通用式唇音匹配效果上處于業(yè)界領(lǐng)先地位，更極大降低了數(shù)字人制作的經(jīng)濟與時間成本，“我們摒棄了前期對攝影棚拍攝和專業(yè)化妝師團隊的依賴，僅憑單圖就可驅(qū)動出高真實度、高可控性、高表現(xiàn)力的數(shù)字人，與定制化數(shù)字人模型所差無幾?！?/p>

一直以來，一知智能不斷探索AI多模態(tài)人機交互的新邊界，致力于將AI深度融入業(yè)務(wù)場景。該技術(shù)提升了數(shù)字人制作的靈活性與效率，也為一知的業(yè)務(wù)拓展開辟了新視野，帶來更多可能性。

來源：蕭山日報

作者：首席記者周珂通訊員馮佳程

編輯：湯圣潔

相關(guān)新聞

信息港小鎮(zhèn)企業(yè)一知智能讓照片“活”起來

心系戶外勞動者

嚴把黃金飾品交易計量關(guān)

南陽街道潮都社區(qū)高強獲評2024年度第一季蕭山好人

信息港小鎮(zhèn)企業(yè)一知智能 讓照片“活”起來

心系戶外勞動者

嚴把黃金飾品 交易計量關(guān)

南陽街道潮都社區(qū)高強獲評2024年度第一季蕭山好人

信息港小鎮(zhèn)企業(yè)一知智能讓照片“活”起來

嚴把黃金飾品交易計量關(guān)