深度學習模型集成方法 - 我爱AQ

轉發一篇文章，本文總結了Snapshot Ensemble（快照集成），Fast Geometric Ensembling （快速幾何集成方法），Stochastic Weight Averaging（隨機權重平均），三種常用的深度學習模型集成的方法。

【AI 科技大本營導讀】本文，我們將討論近期兩篇有意思的論文，論文的大致思路是通過一種集成方式來提高任意給定的神經網络性能。這兩篇論文分別是：

傳統的集成方法是集成幾種不同的模型，再用相同的輸入對模型進行預測，然後使用某種平均方法來確定集成模型的最終預測。平均方法（ averaging ）可以採用簡單的投票方法（ voting ），平均法或甚至使用整合模型中的一個模型去學習並預測輸入的正確值或標籤。嶺回歸（ Ridge Regression ）是一種特別的整合預測方式，也是被 Kaggle 競賽冠軍使用過的一種模型整合方法

Snapshot 集成：每次學習速率週期結束時保存相應的模型，然後在模型預測過程中同時使用已保存的所有模型進行預測。

當集成方法與深度學習相結合時，可以通過組合多個神經網路的預測來產生最終的預測結果。通常，集成不同結構的神經網路會得到一個性能不錯的集成模型，因為每種模型可能在不同的訓練樣本上犯錯，因此這樣的集成方法能夠最大化地提升模型的最終性能。

但是，你也可以集成相同結構的神經網路模型，這種集成方式也可以獲得出人意料的好結果。在 snapshot ensembling 論文中，基於這種集成方式，作者提出了一個非常棒的訓練技巧。在訓練兩個相同的神經網路時，採用 weight snapshot 策略，並在訓練結束后創建一個具有相同結構、帶不同權重的集成模型。實驗證明這種方式得到的集成模型可以提高最終的測試性能，而且這也是一種非常簡單的方法，你只需每次訓練一個模型，大大減少計算的時間成本。

如果在訓練中你還沒有採用迴圈學習率策略的話，那麼你必須要學會使用它，因為它是當前最先進的訓練技巧，非常易於實現，計算量並不大，也幾乎不需要額外的成本就可以收穫顯著的效果。

以上，我介紹的所有例子都是基於模型空間的集成方法，即通過結合幾個或幾種模型，集成單個模型的預測來產生最終的預測結果。

而在這篇文章將要討論的論文中，作者提出一種基於權重空間的新集成方法。這種方法通過在不同訓練階段組合相同網路的權重來集成模型，然後使用這種組合權重的集成模型進行預測。這種方法有兩大優點：

下面，我們將具體瞭解下它是如何工作的。但在這之前，我們需要瞭解一些關於損失平面（ loss surface ）和泛化問題（ generalizable solution ）的知識。

第一個重要的觀點是一個訓練好的網路其實就是多維權重空間中的一個點。對於給定的模型結構，網路權重的每個不同組合都會生成一個單獨的模型。由於任何的模型結構都有無限多種的權重組合，因此這將會有無限多的解決方案。訓練神經網路的目標是找到一個特定的、指向權重空間的解決方案，它能夠在訓練和測試數據集上最小化損失函數值。

在訓練期間，通過改變權重，訓練演算法將改變網路結構並在權重空間中探索解決方案。梯度下降演算法在損失平面上傳播，而平面的高程由損失函數的值給出。

可視化並理解多維的權重空間的幾何特性是非常困難的。同時，這也是非常重要的，因為本質上，在訓練期間隨機梯度下降演算法是在這個高度的多維空間中穿過損失平面，並試圖找到一個好的解決方案，即在損失平面上探索一個損失值最低的"點"。眾所周知，這樣的損失平面會存在許多的局部最優解，但並不是所有的局部最優解都會是全域的最佳解決方案。

Hinton 曾說過：「處理 14 維空間中的超平面時，你可以想像一個 3 維空間，並大聲地告訴自己」這是一個十四維空間」。。每個人都可以這樣做。 ”