語言賦予人類表達思想、交流概念、創(chuàng)造記憶和相互理解的能力,開發(fā)和研究強大的語言模型有助于構(gòu)建安全高效的高級人工智能系統(tǒng)。
此前,研究人員通過使用人工注釋器手寫測試用例來識別語言模型部署前的有害行為。這種方法是有效的,但由于人工注釋成本高昂,測試用例的數(shù)量和多樣性被大大限制。
近日,谷歌 DeepMind 團隊發(fā)表了一項新研究,他們提供了一種名為“紅隊”(Red Teaming)的工具,可以在運行的語言模型影響用戶之前發(fā)現(xiàn)并修復(fù)其有害行為。
在這項研究中,DeepMind 使用經(jīng)過訓(xùn)練的分類器來評估目標(biāo)語言模型對生成測試用例的回復(fù)情況,并檢測其中的冒犯性內(nèi)容。最終,該團隊在參數(shù)達 280B 的語言模型聊天機器人中發(fā)現(xiàn)上萬條冒犯性回復(fù)。
據(jù)悉,DeepMind 通過即時工程來檢測語言模型生成的測試用例,以發(fā)現(xiàn)各種其他危害,包括自動查找聊天機器人的攻擊性回復(fù)、被聊天機器人濫用的私人電話號碼、以及在生成文本中泄露的私人訓(xùn)練數(shù)據(jù)等。
生成式語言模型有時會以意料不到的方式危害到用戶,其可能會輸出不良的文本內(nèi)容。而在實際應(yīng)用程序中,哪怕只有極小的可能性會對用戶造成傷害,也是不被允許的。
2016 年,微軟推出了能夠自動發(fā)布推文給用戶的 Tay 機器人。但在上線的 16 小時內(nèi),有幾名用戶利用 Tay 機器人的漏洞,讓其將帶有種族主義和性意味的推文發(fā)送給了超過 5 萬名用戶,之后微軟將該機器人關(guān)閉。
然而,這并不是因為微軟的疏忽。微軟副總裁彼得·李(Peter Lee)表示,“我們已經(jīng)做好了應(yīng)對許多類系統(tǒng)濫用行為的準(zhǔn)備,而且我們對這一特定攻擊進行了關(guān)鍵監(jiān)督。”
癥結(jié)在于,會致使語言模型輸出有害文本的場景數(shù)不勝數(shù),研究人員無法在語言模型被部署到現(xiàn)實中之前找出一切可能發(fā)生的情況。
正如大家所熟知的強大語言模型 GPT-3,盡管其能夠輸出高質(zhì)量的文本內(nèi)容,但卻不容易在真實世界中完成部署。
圖 | GPT-3 模型用于法語語法更正(來源:OpenAI)
據(jù)了解,DeepMind 的目標(biāo)是通過自動查找故障案例來對手寫測試用例進行補充,從而減少關(guān)鍵疏忽的數(shù)量。
為此,DeepMind 使用語言模型本身生成測試用例,從零觸發(fā)生成到監(jiān)督微調(diào)和強化學(xué)習(xí),DeepMind 探索了多種方法來生成具有不同多樣性和難度的測試用例,這將有助于獲得高測試覆蓋率及模擬對抗性案例。
此外,DeepMind 使用分類器檢測測試用例上的以下各種有害行為:
首先是冒犯性語言,模型有時會發(fā)表具有歧視、仇恨、色情等意味的內(nèi)容;其次是數(shù)據(jù)外泄行為,模型濫用訓(xùn)練時給到的數(shù)據(jù)庫,包括私人的身份信息;再次是聯(lián)系信息的濫用,模型會發(fā)送無意義的電子郵件或通過電話打擾到其他真實用戶;然后是群體認(rèn)知偏差,即在輸出的文本內(nèi)容中包含對某些人群不公正的偏見類言論;最后,模型還會在與用戶對話時,作出有攻擊性等不良意味的回復(fù)。
在明確哪些行為會給用戶造成傷害后,如何去修復(fù)這些行為就不是難事了,DeepMind 主要采取了以下幾種方式:
例如,通過禁止語言模型使用在不良內(nèi)容中高頻率出現(xiàn)的詞組,來盡量避免模型輸出有害文本;在迭代階段,篩選并刪除語言模型在訓(xùn)練時使用過的攻擊性對話數(shù)據(jù);強化語言模型的意識,訓(xùn)練時嵌入特定類型輸入所需的行為案例;在標(biāo)準(zhǔn)測試中對模型進行最初輸出文本的訓(xùn)練,最大化避免輸出有害文本的情況。
總的來說,基于語言模型的“紅隊”是一種具有發(fā)展前景的工具,可以發(fā)現(xiàn)語言模型何時在以各種不良方式運行,應(yīng)該與其他許多用于發(fā)現(xiàn)并緩解語言模型中危害的技術(shù)工具一起使用。
值得一提的是,DeepMind 的這項研究還可用于先發(fā)制人地發(fā)現(xiàn)來自高級機器學(xué)習(xí)系統(tǒng)的其他假設(shè)危害,如由內(nèi)部失調(diào)或客觀穩(wěn)健性失效而引發(fā)的故障。
圖 | Gopher 模型進行對話交互(來源:DeepMind)
前不久,DeepMind 對外公布了具有 2800 億參數(shù)的全新語言模型 Gopher,其在參數(shù)量上超越了 OpenAI 的 GPT-3。
在性能方面,研究人員測試了 152 個任務(wù)后得出,Gopher 在絕大多數(shù)的任務(wù)中遠勝 SOTA 模型,特別是在需使用大量知識來應(yīng)對的方面。
這些成就為 DeepMind 未來的語言研究奠定了基礎(chǔ),進一步推動了其解決智能問題以推進科學(xué)并造福人類的使命實現(xiàn)。
關(guān)鍵詞: 語言模型 修復(fù)其有害行為 影響用戶 新型工具
凡注有"環(huán)球傳媒網(wǎng)"或電頭為"環(huán)球傳媒網(wǎng)"的稿件,均為環(huán)球傳媒網(wǎng)獨家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng)",并保留"環(huán)球傳媒網(wǎng)"的電頭。
資訊
- 銀華中證港股通醫(yī)藥衛(wèi)生綜合ETF基金06月13日下跌3.82%
- 廣發(fā)恒生科技ETF(QDII)凈值下跌4.48% 場內(nèi)價格溢價率為0.65%
- “化石獵人”發(fā)現(xiàn)歐洲最大掠食性恐龍 長度超過10米!
- 《花木蘭》口碑撲街兩年之后的新作 《夢華錄》表現(xiàn)如何?
- 搶車廠的靈魂?CarPlay已經(jīng)不僅僅是一個APP
- 觀影總?cè)舜?56.4萬 六一檔電影總票房破5000萬
- “多編劇時代”來了 對劇本而言是好事嗎?
- 《花兒與少年》時隔五年回歸 第四季節(jié)目官宣定檔
- 經(jīng)紀(jì)人員不得發(fā)布或者雇傭營銷號發(fā)布引發(fā)粉絲互撕
- 拿回商標(biāo)權(quán)?魚丁糸回應(yīng):一無所悉已請律師詢問
焦點
- 卡車司機罷工!韓國最大鋼鐵公司暫停部分生產(chǎn)
- 據(jù)江蘇省鹽城市住房和城鄉(xiāng)建設(shè)局消息 二孩家庭補貼50%
- 日本制造業(yè)巨頭川崎重工數(shù)據(jù)造假 造假行為從1984年就已經(jīng)開始
- 再創(chuàng)新高!英國房價連續(xù)第11個月上漲
- 創(chuàng)一年多最大降幅 英國5月零售銷售同比下降1.1%
- 全球油脂供應(yīng)恢復(fù) 黑海地區(qū)油脂貿(mào)易或?qū)⒌玫竭M一步緩解
- 兒童人數(shù)連續(xù)41年減少?日本2021年出生人口約81萬人
- 一年后不能購買新書!亞馬遜官宣將停止Kindle中國運營
- 新加坡“國菜”海南雞飯告急 馬來西亞宣布停止活雞出口
- 這個國家改名成功!聯(lián)合國批準(zhǔn)土耳其改名