6月18日消息,今日凌晨,谷歌DeepMind發(fā)布了一個(gè)名為V2A(Video-to-Audio)的系統(tǒng),能根據(jù)畫(huà)面內(nèi)容或者手動(dòng)輸入的提示詞直接為視頻配音。它還可以為任何視頻輸入生成無(wú)限數(shù)量的音軌。
谷歌DeepMindV2A系統(tǒng)最大的特點(diǎn)就是無(wú)需人工輸入提示詞也可以為視頻配音。DeepMind在博客中稱(chēng)V2A能依靠自己的視覺(jué)能力理解視頻中的像素。也就是說(shuō),V2A能看懂畫(huà)面,知道畫(huà)面里正在發(fā)生什么