亚洲国产成人美女久久久_亚洲日韩不卡综合_免费中文乱码字幕在线观看_免费观看很黄很色裸乳视频_国产一级a不收费_欧美视频好看站日韩国产_小草青青日韩av在线不卡_在线直播免费看大黄网站_欧美日韩国产猎奇激情自拍_性色av天堂人人爽

數(shù)字內(nèi)容“遍地開花”,AI技術(shù)如何創(chuàng)新“造夢(mèng)”?

數(shù)字內(nèi)容“遍地開花”,AI技術(shù)如何創(chuàng)新“造夢(mèng)”?

公司新聞 發(fā)布日期:2024-06-25
對(duì)比過去的技術(shù)能力,新的技術(shù)所帶來的效果是非常顯著的。

一、語音生成進(jìn)階:只需三言兩語,沉浸式、真實(shí)感的語音易如反掌

過去的語音生成依賴傳統(tǒng)的聲音克隆模型,由于模型比較小,精度低等原因,往往在實(shí)際操作上就要復(fù)雜得多。比如,在數(shù)據(jù)收集階段,對(duì)目標(biāo)人物的語音數(shù)據(jù)就要盡可能的多樣化,包括不同的語速、語調(diào)、音量以及不同語境下的語音,需用到幾百句話的錄音。

然后到了預(yù)處理階段,需要對(duì)收集到的語音數(shù)據(jù)進(jìn)行清洗,通過人工標(biāo)注等形式去除噪聲、靜音片段和其他不需要的部分。進(jìn)而還要進(jìn)行語音分割,將連續(xù)的語音信號(hào)切割成較小的語音片段(如音素或單詞)。最后提取音頻特征,再用于后續(xù)的聲音建模。

以上,還只是數(shù)據(jù)收集和預(yù)處理,尚未進(jìn)入真正的語音生成階段。但其中的工作量和操作復(fù)雜度就已經(jīng)很大了,對(duì)語音生成的效率和質(zhì)量都是一個(gè)非常大的影響和挑戰(zhàn)。

時(shí)至今日,隨著技術(shù)的創(chuàng)新,基于更先進(jìn)的模型,比如盤古媒體大模型的語音生成能力,這一問題得到了很好的解決。只需要幾句話、幾秒鐘的聲音,AI即可學(xué)習(xí)到個(gè)性化的音色、語調(diào)、表達(dá)韻律,從而獲得高質(zhì)量的個(gè)性化語音。同時(shí),還支持喜怒哀樂等擬人情感語音,閑聊、新聞、直播等10多種語氣風(fēng)格,讓生成的語音更真實(shí)、更有情感色彩,能沉浸式地應(yīng)用到不同場景中。

比如,在視頻譯制中,AI將能做到配音演員的專業(yè)程度——通過盤古媒體大模型提供的視頻翻譯能力,AI可以把視頻翻譯為目標(biāo)語言,并保留原始角色的音色、情感、語氣。華為云也在積極聯(lián)合伙伴邏輯智能,打造高感情語音克隆以及14國小語種配音,共同構(gòu)建高感情超擬人多模態(tài)音頻應(yīng)用能力等。同時(shí),再結(jié)合盤古媒體大模型的口型驅(qū)動(dòng)模型,還可以實(shí)現(xiàn)音唇同步,尤其是在側(cè)面、多人對(duì)話、物體遮擋以及人物移動(dòng)等場景,也能做到很好的口型匹配。

二、視頻生成跨越:只需幾十張圖,可控的、一致的視頻唾手可得

傳統(tǒng)的視頻生成技術(shù)在資源需求、數(shù)據(jù)集、時(shí)序一致性、物理定律遵守、效率與質(zhì)量平衡、可控性、逼真度和連貫性以及應(yīng)用限制等方面都存在一定的局限性。如今,基于盤古媒體大模型,只需要訓(xùn)練幾十張?zhí)囟缹W(xué)風(fēng)格的圖片,如吉卜利、二次元等風(fēng)格,再輸入實(shí)拍視頻即可快速生成該風(fēng)格的動(dòng)漫視頻。

除了按需時(shí)長生成穩(wěn)定的動(dòng)漫視頻,再通過ID一致性模型,還能對(duì)生成畫面中的關(guān)鍵角色進(jìn)行一致性處理,確保視頻中角色樣貌特征在前一幀和后一幀中所呈現(xiàn)的效果始終一致,在側(cè)臉、運(yùn)動(dòng)軌跡下的視覺效果合理一致,由此增強(qiáng)AI視頻生成的可控性、一致性,讓視頻內(nèi)容更合理、真實(shí)。

此外,業(yè)內(nèi)對(duì)視頻生成的真實(shí)度、復(fù)雜度也在聚焦增強(qiáng)。比如,OpenAI的Sora正在試圖模擬復(fù)雜的攝像機(jī)運(yùn)鏡,同時(shí)準(zhǔn)確地保持角色和視覺風(fēng)格一致,讓AI創(chuàng)作的數(shù)字內(nèi)容更加趨于現(xiàn)實(shí)創(chuàng)作。英偉達(dá)更是發(fā)布了一系列技術(shù)套件如ACE(NVIDIA Avatar Cloud Engine)、NeMo?以及RTX?等,去增強(qiáng)數(shù)字內(nèi)容的真實(shí)感,讓數(shù)字人物的互動(dòng)、對(duì)話更加復(fù)雜、逼真。