深度生成式模型試圖把概率論與數(shù)理統(tǒng)計(jì)的知 識(shí)與強(qiáng)有力的深度神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)能力相結(jié) 合, 在最近幾年取得了顯著進(jìn)步, 是當(dāng)前主流的深 度學(xué)習(xí)方向. 本文對(duì)深度生成式模型的主要類型進(jìn) 行了梳理, 給出了模型的構(gòu)造過程、優(yōu)缺點(diǎn)以及模 型存在的問題. 深度生成式模型雖然大有潛力, 但 也存在很多挑戰(zhàn):
1) 評(píng)估指標(biāo)與評(píng)估系統(tǒng) 和判別式模型、基于 矩陣與線性代數(shù)的模型、基于幾何的模型相比, 深 度生成模型存在訓(xùn)練過程復(fù)雜、結(jié)構(gòu)不易理解和使 用、訓(xùn)練速度慢等問題, 在大規(guī)模數(shù)據(jù)上學(xué)習(xí)模型 很困難, 在不同的應(yīng)用領(lǐng)域應(yīng)該有相應(yīng)的有效評(píng)估 指標(biāo)和實(shí)用的評(píng)估系統(tǒng)是急需研究的問題.
2) 不確定性 深度生成模型的動(dòng)機(jī)和構(gòu)造過程 通常有嚴(yán)格的數(shù)學(xué)推導(dǎo), 但在實(shí)際過程往往限于求 解的難度不得不進(jìn)行近似和簡化, 使模型偏離原來 的目標(biāo). 訓(xùn)練好的模型難以在理論上分析透徹, 只 能借助實(shí)驗(yàn)結(jié)果反向判斷調(diào)整方法, 對(duì)生成模型的 訓(xùn)練造成很大困擾, 是限制模型進(jìn)一步發(fā)展的重要 因素. 因此了解模型的近似和簡化對(duì)模型性能、誤 差和實(shí)際應(yīng)用的影響是發(fā)展生產(chǎn)模型的重要方向
3) 樣本多樣性 如何使深度生成模型生成的圖 像、文本和語音等樣本具有多樣性是一個(gè)值得研究 的問題. 度量多樣性最基本的標(biāo)準(zhǔn)是熵, 因而把生 成模型與最大互信息結(jié)合的 Info-VAE 和 Info-GAN[121] 等模型既能限制生成模型的靈活性又能提升樣本的 多樣性; 把訓(xùn)練樣本看作多個(gè)概率分布的噪聲混合 后的隨機(jī)變量, 提取不同噪聲的特征表示, 得到不 同層次的特征表示, 在訓(xùn)練目標(biāo)函數(shù)里顯式地引入 不同的歸納偏置.
4) 泛化能力 機(jī)器學(xué)習(xí)理論認(rèn)為好的模型要具 有更好的泛化能力. 重新思考深度學(xué)習(xí)的泛化能力, 從模型復(fù)雜性、偏差-方差權(quán)衡等觀點(diǎn), 理論上討論 各種深度生成模型的學(xué)習(xí)機(jī)制, 豐富模型的理論基 礎(chǔ), 從而真正確立深度生成模型在深度學(xué)習(xí)中的顯 著地位是值得思考的問題.
5) 更高效的模型結(jié)構(gòu)和訓(xùn)練方法 代表著最先 進(jìn)的一批生成模型如 BigGAN、Glow 和 VQ-VAE[60?61] 等已經(jīng)可以生成足夠清晰的圖片樣本, 但這樣的大 型模型背后是遠(yuǎn)超常規(guī)的計(jì)算量, 是所有大型生成 模型的弊端: 高昂的計(jì)算機(jī)硬件設(shè)備以及長時(shí)間的 訓(xùn)練讓很多人難以進(jìn)入該領(lǐng)域的前沿研究, 所以更 加高效的模型結(jié)構(gòu)和訓(xùn)練方法是未來發(fā)展方向之一.
6) 應(yīng)用領(lǐng)域擴(kuò)展 深度生產(chǎn)模型的應(yīng)用范圍相 對(duì)較小, 如何將其他深度生成模型的思想以及成果 運(yùn)用在常見場(chǎng)景中、如何加速與這些領(lǐng)域的融合, 是未來進(jìn)一步發(fā)展深度生成模型的關(guān)鍵方向, 如智 能家居物聯(lián)網(wǎng)和自動(dòng)駕駛等領(lǐng)域都有待深度生成模 型的使用. 目前生成模型通常用于傳統(tǒng)機(jī)器學(xué)習(xí)和 人工智能專屬領(lǐng)域, 對(duì)于工業(yè)生產(chǎn)等其他領(lǐng)域的應(yīng) 用也有待進(jìn)一步開發(fā).
7) 生成離散數(shù)據(jù) 如 GAN 等深度生成模型的 訓(xùn)練依賴于參數(shù)的完全可微, 因此無法直接生成如 獨(dú)熱編碼等離散數(shù)據(jù). 這個(gè)問題限制了此類深度生 成模型在 NLP 領(lǐng)域的應(yīng)用, 目前已經(jīng)有初步的解 決辦法, 例如使用 Gumbel-softmax[148]、用連續(xù)函數(shù) 近似[149] 等, 但效果有待進(jìn)一步提升. 因此研究深度 生成模型生成離散數(shù)據(jù)是提高文本生成能力的關(guān)鍵 問題, 是值得深入研究的領(lǐng)域.
8) 度量方法 生成模型可以使用不同的度量方法, 例如 GAN 使用的是 KL 散度和 JS 散度, WGAN 使用 Wasserstein 距離替換了原來的散度, 可以提 升模型的生成能力和訓(xùn)練穩(wěn)定性. 因此通過理論分 析, 使用新的度量方法可能會(huì)進(jìn)一步提高模型性能。