微信號
Wang13795530723
因為有許多老友和我化學反響形形 *** 疑難啊,對不起可能沒全數得出答疑。如今有一類愈加單純的辦法去做阿誰音頻,只必要之一部智妙手機方可,詳細情況能點選我的新該文
Dante:目前最單純的造做Unravel/Damedane/相片跳舞類音頻的辦法63 附和 · 19 評論該文
假設你想在造做音頻的同時側面領會呵呵那背后的原理和代碼的現實運轉,想要讓阿誰 *** 做過程愈加具有挑戰的 *** ,請看以下書名。
在起頭之前,詳細來說你必要預備:
天然資本文檔閱讀地址: 鏡像:https://pan.baidu.com/s/1IM36QM5bSypcS6YOnVd-LA 提取碼:5gqg
最適宜也預備(可選):
PS(標定用做動畫片子化的相片)PR(用做預處置,為音頻加上音樂)出格留意:繼續施行 *** 做過程中常量兩個兩個繼續施行,查抄上兩個常量繼續施行情況恒定之后再繼續施行下兩個常量能制止大部門問題。
出格小常識:常量要按挨次繼續施行,繼續施行常量前先看呵呵上兩個常量的運轉成果正不恒定
我們接納的手藝現實上是Cadours了那篇論文的兩個Demo。 阿誰Demo的源倉庫包容了兩個能在Colab上在線運轉的條記本電腦。我對其停止了一些刪去和常姓,只保留了必要加進的部門。

閱讀好的天然資本文檔若是包容那幾個文檔.
預備階段詳細來說將天然資本文檔夾上載至Google Drive,接著滑鼠接納Colab關上first-order-model-demo.ipynb

出格留意:之一次接納時必要干系呵呵應用范疇,優先選擇干系更多應用范疇找到Google Colaboratory方可

預備兩張你期望用做動畫片子生成的人臉識別相片,因為我們目的音頻的解析度是256*256,所以那張人臉識別相片沒需要太高明晰度。只要大于256*256方可(你用高明晰度的相片也會被強迫上色為阿誰解析度)
可選:相片標定假設期望獲得優良的效果,能將相片略微處置呵呵。接納PS翻轉相片和音頻的眼鏡和嘴巴,以及使人臉識別處于相片的中心位置。 那兒我選了兩張懂王的相片

假設能,最適宜把頭也放正。
標定完成后上載至記事本同兩個文檔夾
此時你上載至記事本的文檔夾里若是包羅那些文檔

(Unravel.mp3在那兒是無謂的)
干系好之后關上,步入Colab
繼續施行 情況修建步入之后詳細來說點選相連,Colab會為你分配一臺機器

假設呈現無法相連到GPU后端

暗示當前用的人太多,亞麻已經被薅完了。你能優先選擇等等再試(CPU運轉十分慢,不保舉)
詳細來說運轉前三個常量,接著在左側切換到文檔快照

受權相連記事本,關上藍色鏡像,一路繼續,允許

復造代碼

粘貼到那兒,回車確定

顯示Mounted at xxxx即為勝利,此時能切換呵呵快照(右邊三個按鈕隨意點兩個再點回來),能發現多了兩個文檔夾,阿誰文檔夾就是你的記事本。

修改下兩個常量中指定源音頻和源相片的途徑

能在左側文檔閱讀中找到文檔后間接滑鼠復造途徑粘貼方可

修改后運轉方可


那一步的目標是把相片上色成指定的尺寸(那兒是256*256),還有把音頻處置成Python能承受的數據格局,最初得出預覽。
創建模子并繼續施行把那兒的checkpoint_path的參數修改成你本身的。 阿誰文檔就是天然資本文檔中的vox-adv-cpk.pth.tar,那是pytorch的模子文檔,是訓練完成的神經收集本體,有了阿誰文檔我們就不必要從頭訓練兩個模子。

創建好之后繼續施行下兩個單位方可,那兒我修改了原做者Demo。因為我發現生成的音頻幀率是固定為10,那兒我給imageio的save添加了fps的參數修復了阿誰問題。

那一步耗時較長,必要耐心期待。生成完畢后右邊的文檔里面會呈現兩個generated.mp4的文檔,滑鼠閱讀下來方可。
可選:為音頻添加音樂閱讀下來的音頻是沒音樂的,那兒我們用Pr為音頻添加音軌。 隨意創建兩個工程,接著將素材導入到媒體庫中。

詳細來說將Unravel.mp4和Unravel.mp3拖到軌道上,把那兩個翻轉,因為音頻是從中間起頭唱的。當然你不消原版間接用音頻的女聲音軌也是能的(就是生草水平不如原OP好)
翻轉了之后把音頻也拖上去。
襯著音頻并導出:文檔-導出-媒體
默認方可,生成后的音頻放在項目文檔夾下。
Have fun!
微信號
Wang13795530723
評論列表