深度學習模型集成方法2 - 我爱AQ

局部最優解和全域最優解。在訓練和測試過程中，平坦區域的最小值會產生類似的損失，但是減小損失將在訓練和測試過程中產生非常不同的結果。換句話說，全域最小值比局部的最小值更具有普遍性。

一個可以區分解決方案好壞的衡量標準是它的平坦度。因為模型在訓練數據集和測試數據集上會產生相似但不完全相同的損失平面。你可以想像一下，測試的損失平面會比訓練的損失平面稍微偏移一點。對於一個局部最優解，在測試期間，由於這種轉變，損失較低的點可能會產生很大的損失值，這意味著這種局部最優解並不具有很好的通用性，即在訓練時損失低，而測試時損失卻很大。另一方面，對於全域最優解而言，這種轉變將導致訓練和測試損失彼此接近。羅V保8 保羅V8副作用美國保羅v8官網保羅V8 ptt 美國保羅生物科技保羅V8效果

訓練剛開始，SGD 在權重空間會產生大幅的跳躍。隨後，由於餘弦退火策略使得學習率逐漸變小，SGD 將會收斂到某個局部最優解，並且通過 snapshot ensembling 的方式將該模型添加到集合中，實現模型的集成。然後，學習率將被重新設置為較大的值，並且在模型收斂到一些不同的局部最優解之前，SGD 將再次發生大幅的跳躍。

Snapshot ensembling 方法的週期長度為 20 到 40 次反覆運算。長時間的循環學習速率能夠在權重空間中找到盡可能不相同的模型。如果模型太相似，那麼在集成模型中單獨網路的預測將會過於接近，這將導致集成模型的優勢變得微不足道。

Snapshot ensembling 方法所取得的效果非常好，它能夠大大提高模型性能，但相比之下快速幾何集成（ Fast Geometric Ensembling ）方法的效果更佳。

Fast Geometric Ensembling （FGE）與 Snapshot Ensembling 方法非常相似，但其具有一些顯著的特性。它使用線性分段的迴圈學習速率，來取代 snapshot ensembling 中的餘弦。其次，FGE 的週期長度要比 snapshot ensembling 短得多，每個週期只有 2 到 4 次反覆運算過程。

直觀上，我們可能會認為短週期是錯誤的，因為每個周期結束時的模型將彼此接近，再將它們組合起來不會帶來任何好處。然而，正如作者所發現的那樣，因為在完全不同的模型之間，存在低損失的連接路徑，所以可以沿著這些路徑以小的步長行進，將遇到的模型集成在一起並獲得好的結果。因此，與 snapshot ensembling 方法相比，FGE 展示了其改進之處，且能夠以更少的步數得到我們想要的模型，這也使得訓練的速度更快。

左圖：傳統的直覺認為，局部最小值是被高損失值的區域所分隔。如果我們沿著局部最小值的路徑探索，所得到情況也是如此。中間和右圖：確實在局部最小值之間存在一些較低損失值的路徑。 FGE 會沿這些路徑生成一個整合模型。

為了充分利用 snapshot ensembling 或 FGE 方法，我們需要存儲多個訓練模型，然後對每個模型進行預測並平均最終的預測結果。因此，為了獲得更好的集成性能，需要付出更多的計算量，這正是"沒有免費的午餐"法則的體現，同時也是這篇"隨機加權平均"論文提出的動

隨機加權平均（ SWA ）與 FGE 方法非常接近，但其計算損失很小。 SWA 可以應用於任何的模型結構和數據集，並在這些數據集中都顯示出良好的結果。這篇論文表明 SWA 會更趨於一個全域最小值，它的優點正如我在上面所討論的。 SWA 並不是我們傳統意義上所理解的集成方法。在訓練結束時，你會得到一個模型，這個集成模型的性能將更優於 snapshot ensembling 和 FGE。

左圖：W1，W2 和W3 代表3個獨立訓練的網路，Wswa 是它們的平均值。中間圖：與SGD相比，Wswa 在測試集上表現出更出色的性能。右圖：請注意，雖然Wswa 在訓練過程表現出更差的損失，但它的泛化性和通用性更好。

SWA 的觀點是來自經驗觀察，即每個學習速率週期結束時的局部最小值都傾向於在損失平面上損失值低的區域邊界處累積（如左圖中點 W1，W2 和 W3 所位於紅色區域的邊界處）。通過平均化這種點的損失值，可以得到具有更低損失值、泛化性和通用性更好的全域最優解（如上左圖的 Wswa ）。

在每個學習速率週期結束時，將使用第二個模型的當前權重，通過在舊的平均權重和第二個模型的新權重集合之間進行加權平均值來更新模型的平均權重（公式如左圖所示）。按照這種方法，你只需要訓練一個模型，並且在訓練期間將兩個模型存儲在記憶體中。在預測階段，你只需要那個具有平均權重的模型，並對其進行預測，這比使用上述那些需要使用多個模型來進行預測的集成方法要快得多。