寬變壓器型號的功率
本文是我們對最新AI 研究報道的一部分。
Transformer 是近年來最具影響力的機器學習架構之一。它是一些最先進的深度學習系統的基礎,包括 OpenAI 的GPT-3和 DeepMind 的 AlphaFold 等大型語言模型。
Transformer 架構的成功歸功于其強大的注意力機制,這使其能夠超越其前身RNN和 LSTM。Transformer 模型可以并行處理正向和反向的長數據序列。
鑒于變壓器網絡的重要性,有幾項努力來提高其準確性和效率。其中一項舉措是劍橋大學、牛津大學和倫敦帝國理工學院的科學家開展的一項新研究項目,該項目建議將變壓器架構從深向寬轉變。雖然是一個小的架構變化,但結果表明,這種修改顯著提高了變壓器網絡的速度、內存和可解釋性。
改進變壓器架構
2017 年推出的原始 Transformer 架構由使用類似組件的編碼器和解碼器模塊組成。后來又引入了其他的transformer變體,其中一些只使用了編碼器或解碼器部分。例如,BERT 是一個僅編碼器的變壓器模型,而 GPT-3 是一個僅解碼器的網絡。
考慮一個僅編碼器的轉換器模型,它將電影或產品的評論分類為正面或負面。輸入文本首先被轉換為具有位置編碼的嵌入。嵌入是單詞的多維數字表示。因此,一串文本變成了一個多維向量數組。位置編碼修改嵌入值以說明序列中每個單詞的位置。
這些值被饋送到注意層,這是變壓器的主要構建塊。注意層由幾個注意頭組成。在訓練階段,每個注意力頭配置其參數以捕獲不同輸入之間的關系。然后可以將輸出展平并饋送到一個或多個全連接層,最后變成二進制分類輸出。
以前改進轉換器的嘗試主要集中在創建專門針對特定任務的新注意力機制。劍橋大學、牛津大學和倫敦帝國理工學院的科學家們提出了一個想法,與其改變注意力機制,不如重新思考變壓器的總體架構?結果是一種新技術,可以提高轉換器的性能,同時也不受任務和注意力機制的影響。
“我們最初是在研究不同的注意力機制,以及是否可以結合不同的注意力來提高性能,”該論文的合著者、劍橋大學工程系學生 Jason Brown 告訴TechTalks。
研究人員創建了一個單層轉換器模型,該模型結合了許多不同的注意力頭作為他們搜索實驗的一部分。令他們驚訝的是,他們發現該模型盡管整體尺寸較小,但性能出乎意料地好。
“探索這背后的原因,我們發現這是因為它在注意力中具有相同的總計算量,而只有一層,”布朗說。“由于變形金剛的訓練和運行成本非常高,因此能夠在保持準確性的同時提高它們的效率是一個令人興奮的前景。”
深與寬變壓器模型
深變壓器(左)與寬變壓器(右)的比較
像大多數深度學習架構一樣,Transformer 模型的學習能力隨著它們變得更深而增加。通過將多個注意力層堆疊在一起,您可以使轉換器網絡能夠學習輸入空間的更復雜的表示。
然而,添加注意力層的額外好處伴隨著一些權衡。首先,它們增加了神經網絡的內存占用。其次,它們通過添加更多的串行處理層來增加模型的延遲。第三,它們使模型的可解釋性降低,因為隨著層數的增加,將輸出與特定輸入點相關聯變得更加困難。
Brown 和他的合著者提出的想法是將深度網絡轉換為廣泛的網絡。因此,不是在網絡中添加注意力層,而是在注意力層中添加注意力頭。這個想法非常簡單,但恰好對變壓器的性能產生了深遠的影響。
例如,考慮一個由六個注意力層組成的轉換器模型,每個注意力層有八個注意力頭。使用寬網絡方法,您可以將架構更改為具有 48 個注意力頭的單個注意力層,或具有 24 個注意力頭的兩個注意力層,或者可能是具有 16 個注意力頭的三層。
寬變壓器的好處
這種方法有幾個好處。首先,雖然 deep 和 Wide Transformer 具有相同數量的注意力頭,但 Wide 網絡的參數較少,因為它移除了將每個注意力層連接到下一個注意力層的密集層。在至少一種情況下,研究人員能夠通過從深架構切換到寬架構,將模型縮小到其原始大小的 48%。其他配置導致內存節省的實質性收益。
第二個好處是速度。由于注意力頭并行而不是順序處理輸入,該模型具有更低的延遲和更快的響應。在 CPU 上,研究人員能夠將速度提高 3.1 倍,而在 GPU 上,他們獲得了 1.9 倍的速度提升。
最后,寬網絡比深度轉換器更易于解釋,因為您可以直接將注意力頭特征與輸入相關聯,而不是通過多個層。“在基于 Transformer 的架構中,可以檢查給定輸出的注意力機制,以查看每層中每個頭的輸入特征之間的哪些連接是重要的。對于深度網絡,必須對每一層都執行此過程,并且通常會不清楚最終輸出實際上是什么,”研究人員寫道。“在單層寬網絡的情況下,可解釋性要容易得多,因為只需要檢查一層,并且認為對最終輸出重要的內容更加清晰。”
這些改進可以在資源有限且需要實時推理的邊緣設備上運行變壓器。
還有更多關于寬變壓器模型的知識
根據 Brown 和他的合著者的研究結果,從深度變換器切換到寬變換器不僅可以保持性能,而且在某些情況下還可以提高準確性。
“平均而言,更廣泛的 Transformer 網絡優于深度網絡。這一結果既適用于具有點積注意力的“香草”Transformer,也適用于許多其他類型的注意力,”研究人員寫道。
比較深變壓器和寬變壓器的精度。
然而,到目前為止,這些測試是有限的。作者在四個文本分類任務上測試了廣泛的轉換器架構。Transformer 有更多的應用,尤其是在語言建模和文本生成方面。測試也僅限于具有六個注意力層和每個注意力頭的轉換器模型。與 GPT-3 等大型語言模型相比,這是非常有限的,后者有數十個注意力層,每個注意力層都有數十個注意力頭和一百多個維度。
但到目前為止,寬變壓器模型已被證明是一個非常有前途的研究方向。
“我們想在更大的模型和其他領域(例如語言建模和翻譯)上進行測試,但我們時間有限,想發布我們迄今為止的發現,”布朗說。“大型 Transformer 模型,尤其是那些用于 BERT 或 GPT3 等語言建模的模型,由于參數和訓練數據數量巨大,從頭開始訓練非常昂貴。我們希望未來的研究能夠探索這些方向,并提高我們對變壓器架構的整體理解。”