5300億參數(shù)!全球最大規(guī)模NLP模型誕生。
由微軟聯(lián)手英偉達(dá)推出,名叫威震天-圖靈自然語言生成模型(Megatron Turing-NLG)。
據(jù)他們介紹,這樣的量級不僅讓它成為全球規(guī)模最大,同時(shí)也是性能最強(qiáng)的NLP模型。
訓(xùn)練過程一共使用了4480塊英偉達(dá)A100 GPU,最終使該模型在一系列自然語言任務(wù)中——包括文本預(yù)測、閱讀理解、常識推理、自然語言推理、詞義消歧——都獲得了前所未有的準(zhǔn)確率。
三倍規(guī)模于GPT-3
此模型簡稱MT-NLG,是微軟Turing NLG和英偉達(dá)Megatron-LM兩者的“繼任者”。
Turing NLG由微軟于2020年2月推出,參數(shù)為170億;Megatron-LM來自英偉達(dá),2019年8月推出,參數(shù)83億。
它倆在當(dāng)時(shí)分別是第一、二大規(guī)模的Transfomer架構(gòu)模型。
我們都知道大參數(shù)規(guī)模的語言模型效果會更好,但訓(xùn)練起來也很有挑戰(zhàn)性,比如:
即使是最大容量的GPU,也存不下如此規(guī)模的參數(shù);
如果不特別注意優(yōu)化算法、軟件和硬件堆棧,那么所需的大量計(jì)算操作可能會導(dǎo)致訓(xùn)練時(shí)間過長。
那這個(gè)參數(shù)已是GPT-3三倍的MT-NLG又是如何解決的呢?
答案就是汲取“兩家”所長,融合英偉達(dá)最先進(jìn)的GPU加速訓(xùn)練設(shè)備,以及微軟最先進(jìn)的分布式學(xué)習(xí)系統(tǒng),來提高訓(xùn)練速度。
并用上千億個(gè)token構(gòu)建語料庫,共同開發(fā)訓(xùn)練方法來優(yōu)化效率和穩(wěn)定性。
具體來說,通過借鑒英偉達(dá)Megatron-LM模型的GPU并行處理,以及微軟開源的分布式訓(xùn)練框架DeepSpeed,創(chuàng)建3D并行系統(tǒng)。
對于本文中這個(gè)5300億個(gè)參數(shù)的模型,每個(gè)模型副本跨越280個(gè)NVIDIA A100 GPU,節(jié)點(diǎn)內(nèi)采用Megatron-LM的8路張量切片(tensor-slicing),節(jié)點(diǎn)間采用35路管道并行(pipeline parallelism)。
然后再使用DeepSpeed的數(shù)據(jù)并行性進(jìn)一步擴(kuò)展到數(shù)千個(gè)GPU。
最終在基于NVIDIA DGX SuperPOD的Selene超級計(jì)算機(jī)上完成混合精度訓(xùn)練。
(該超級計(jì)算機(jī)由560個(gè)DGX A100服務(wù)器提供支持,每個(gè)DGX A100有8個(gè)NVIDIA A100 80GB Tensor Core GPU,通過NVLink 和 NVSwitch相互完全連接)。
該模型使用了Transformer解碼器的架構(gòu),層數(shù)、hidden dimension和attention head分別為 105、20480和128。
訓(xùn)練所用數(shù)據(jù)集包括近20萬本書的純文本數(shù)據(jù)集Books3、問答網(wǎng)站Stack Exchange、維基百科、學(xué)術(shù)資源網(wǎng)站PubMed Abstracts、ArXiv、維基百科、GitHub等等,這些都是從他們先前搭建的Pile數(shù)據(jù)集中挑出的質(zhì)量較高的子集。
最終一共提取了2700億個(gè)token。
五大任務(wù)上的準(zhǔn)確度測試
開發(fā)者在以下5大任務(wù)上對MT-NLG進(jìn)行了準(zhǔn)確度測試。
在文本預(yù)測任務(wù)LAMBADA中,該模型需預(yù)測給定段落的最后一個(gè)詞。
在閱讀理解任務(wù)RACE-h和BoolQ中,模型需根據(jù)給定的段落生成問題的答案。
在常識推理任務(wù)PiQA、HellaSwag和Winogrande中,每個(gè)任務(wù)都需要該模型具有一定程度的常識了解。
對于自然語言推理,兩個(gè)硬基準(zhǔn),ANLI-R2和HANS考驗(yàn)先前模型的典型失敗案例。
詞義消歧任務(wù)WiC需該模型從上下文對多義詞進(jìn)行理解。
結(jié)果該模型在PiQA開發(fā)集和LAMBADA測試集上的零樣本、單樣本和少樣本三種設(shè)置中都獲得了最高的成績。
在其他各項(xiàng)任務(wù)上也獲得了最佳。
除了報(bào)告基準(zhǔn)任務(wù)的匯總指標(biāo)外,他們還對模型輸出進(jìn)行了定性分析,并觀察到,即使符號被嚴(yán)重混淆,該模型也可以從上下文中推斷出基本的數(shù)學(xué)運(yùn)算。
當(dāng)然,該模型也從數(shù)據(jù)中也提取出了刻板印象和偏見。微軟和英偉達(dá)表示也在解決這個(gè)問題。
另外,他們表示在生產(chǎn)場景中使用MT-NLG都必須遵守微軟的“負(fù)責(zé)任的AI原則”來減少輸出內(nèi)容的負(fù)面影響,但目前該模型還未公開。
凡注有"環(huán)球傳媒網(wǎng)"或電頭為"環(huán)球傳媒網(wǎng)"的稿件,均為環(huán)球傳媒網(wǎng)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng)",并保留"環(huán)球傳媒網(wǎng)"的電頭。
- 羅永浩想做汽車的沖動和激情來自哪里 ?
- iPhone 14價(jià)格曝光?沒錯(cuò),就是要漲!
- 熱門中概股周一收盤大跌,納斯達(dá)克中國金龍指數(shù)收跌6.73%
- 美聯(lián)儲將大幅提高利率以遏制通脹 3年期美國國債收益率盤中一度上漲
- MSCI全球股指較2021年11月的收盤紀(jì)錄水平下跌逾20%
- 微博被禁言?吳曉波頻道公眾號已停更多日
- 道瓊斯指數(shù)下跌879.80點(diǎn) 跌幅2.73%報(bào)31392.66點(diǎn)
- 美股全線重挫 道指跌超600點(diǎn)納指跌幅近3%
- 黃金微幅收跌 !美元及美債收益率攀升
- 女?dāng)z影師伊芙琳·范雷:我曾被問你這么小舉得起攝影機(jī)嗎?
資訊
- 銀華中證港股通醫(yī)藥衛(wèi)生綜合ETF基金06月13日下跌3.82%
- 廣發(fā)恒生科技ETF(QDII)凈值下跌4.48% 場內(nèi)價(jià)格溢價(jià)率為0.65%
- “化石獵人”發(fā)現(xiàn)歐洲最大掠食性恐龍 長度超過10米!
- 《花木蘭》口碑撲街兩年之后的新作 《夢華錄》表現(xiàn)如何?
- 搶車廠的靈魂?CarPlay已經(jīng)不僅僅是一個(gè)APP
- 觀影總?cè)舜?56.4萬 六一檔電影總票房破5000萬
- “多編劇時(shí)代”來了 對劇本而言是好事嗎?
- 《花兒與少年》時(shí)隔五年回歸 第四季節(jié)目官宣定檔
- 經(jīng)紀(jì)人員不得發(fā)布或者雇傭營銷號發(fā)布引發(fā)粉絲互撕
- 拿回商標(biāo)權(quán)?魚丁糸回應(yīng):一無所悉已請律師詢問
焦點(diǎn)
- 卡車司機(jī)罷工!韓國最大鋼鐵公司暫停部分生產(chǎn)
- 據(jù)江蘇省鹽城市住房和城鄉(xiāng)建設(shè)局消息 二孩家庭補(bǔ)貼50%
- 日本制造業(yè)巨頭川崎重工數(shù)據(jù)造假 造假行為從1984年就已經(jīng)開始
- 再創(chuàng)新高!英國房價(jià)連續(xù)第11個(gè)月上漲
- 創(chuàng)一年多最大降幅 英國5月零售銷售同比下降1.1%
- 全球油脂供應(yīng)恢復(fù) 黑海地區(qū)油脂貿(mào)易或?qū)⒌玫竭M(jìn)一步緩解
- 兒童人數(shù)連續(xù)41年減少?日本2021年出生人口約81萬人
- 一年后不能購買新書!亞馬遜官宣將停止Kindle中國運(yùn)營
- 新加坡“國菜”海南雞飯告急 馬來西亞宣布停止活雞出口
- 這個(gè)國家改名成功!聯(lián)合國批準(zhǔn)土耳其改名