要說誰是近幾年人工智能這條街上最靚的仔,那莫過于深度學習,特別是“大數據”、“大模型”、“大算力”不絕于耳。隨著產業(yè)應用對AI模型效果的要求越來越高,數據和參數規(guī)模不斷增長,分布式訓練即使用多臺機器共同完成大數據大模型的訓練任務,已經成為開發(fā)者們必須關注的技術。
各大深度學習框架也都在分布式訓練上頻頻發(fā)力,秀肌肉顯成效。作為我國首個開源開放、自主研發(fā)、功能完備的產業(yè)級深度學習平臺,飛槳在分布式訓練上保持強勢輸出,不僅具備業(yè)內最早支持萬億級稀疏參數模型訓練的能力,近期又創(chuàng)新性的提出了4D混合并行策略,以訓練千億級稠密參數模型。
那么,飛槳的分布式訓練技術到底有多強呢?
?。ò俣蓉S富的業(yè)務場景)
飛槳的分布式訓練技術在對外提供之前就已經在百度內部業(yè)務廣泛應用,早在2018年飛槳的純CPU參數服務器模式,就可以支持萬億參數規(guī)模模型的訓練,來解決搜索推薦場景面臨的數據量大、特征維度高且稀疏化的問題。
隨著模型網絡越來越復雜,對算力要求越來越高,在數據量不變的情況下,CPU計算性能差的弱勢便暴露無遺。面對這一問題,飛槳引入了純GPU參數服務器來提升計算性能,把100臺CPU機器才能訓練的模型只用1臺多卡GPU設備即可完成訓練,不僅節(jié)約了成本,還保障了集群的穩(wěn)定性和擴展性。
此次技術升級之后,飛槳“越戰(zhàn)越勇”。考慮到在純GPU的參數服務器下,當模型網絡層比較復雜時,GPU 利用率很難被打滿,飛槳框架2.0版又創(chuàng)新性地推出了業(yè)內首個通用異構參數服務器功能,可以同時使用不同的硬件進行混合異構訓練,
兼容了多款CPU、AI專用芯片(如百度昆侖XPU)、GPU(如V100、P40、K40),讓用戶可以在硬件異構集群中部署分布式訓練任務,實現對不同算力芯片高效利用,為用戶提供更高吞吐、更低資源消耗的訓練能力。
?。w槳全景圖)
飛槳分布式訓練不僅支持參數服務器模式訓練萬億級稀疏參數模型,對于NLP 和 CV 這類擁有復雜網絡、稠密參數特點的模型訓練,也同樣得心應手。其優(yōu)勢在百度“語義理解技術與平臺文心ERNIE”上大有體現,文心ERNIE采用了分布式訓練中的集合通信模式,通過較少節(jié)點間的通信輪數完成全局節(jié)點的模型參數傳輸,大大提升通信效率,讓同步并行訓練的多GPU擴展能力得到極大突破。當前飛槳集合通信模式已經可以支持文心ERNIE 2300億參數規(guī)模的訓練,其提出的Sharding-DP策略更是助力文心ERNIE的多項任務分數刷新GLUE榜單。
?。w槳助力文心ERNIE刷新GLUE榜單)
文心ERNIE作為百度在各大榜單刷分霸榜,搶占高地的“利器”,其在性能上的優(yōu)勢得益于飛槳的給力支持。文心ERNIE的千億級模型計算復雜,訓練需占用T級顯存資源,想用更少的機器高效訓練,必須采取一系列優(yōu)化措施。飛槳對此創(chuàng)新性地提出了4D混合并行策略,進一步優(yōu)化訓練性能和顯存占比,再次走到了技術的前沿。
4D混合并行策略能夠結合多種并行策略的優(yōu)點,將分布式訓練技術與業(yè)務緊密結合。飛槳研發(fā)人員正是通過模型并行策略、分組參數切片組合、流水線并行策略和數據并行策略的多層疊加,發(fā)揮合力作用,誕生了業(yè)內第一個4D混合并行策略。通過測試驗證,如此創(chuàng)新性提出的4D混合并行策略的訓練速度的確高于3D混合并行策略,效果也十分明顯。
自飛槳設計之初就開始潛心研究分布式訓練技術以應對大規(guī)模參數模型的訓練任務。如今飛槳已經開始研究下一代分布式技術,來同時兼容超大規(guī)模稠密參數和稀疏參數模型的訓練。
隨著產業(yè)智能化基礎技術底座飛槳輸出應用到各行各業(yè)的實際業(yè)務場景中,在城市、工業(yè)、能源、通信等領域發(fā)揮了重要價值。相信百度還將在技術上不斷創(chuàng)新進步,探索分布式訓練技術等的邊界,擴展AI賦能的領域,為智能化時代的發(fā)展做出貢獻。(辛文)
免責聲明:本網轉載自其它媒體的文章,目的在于弘揚科技創(chuàng)新精神,傳遞更多科技創(chuàng)新信息,并不代表本網贊同其觀點和對其真實性負責,在此我們謹向原作者和原媒體致以崇高敬意。如果您認為本站文章侵犯了您的版權,請與我們聯系,我們將第一時間刪除。