環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶-重新發(fā)現(xiàn)生活

您當(dāng)前的位置：環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶>生活資訊 > 正文

每日熱文：谷歌更新隱私政策，大模型“諸神之戰(zhàn)”背后的訓(xùn)練數(shù)據(jù)隱憂

2023-07-05 20:56:54 來源：21世紀(jì)經(jīng)濟(jì)報道編輯：

21世紀(jì)經(jīng)濟(jì)報道記者王俊南方財經(jīng)全媒體記者馮戀閣實習(xí)生羅洛北京、廣州報道“我們可能會收集公開的在線信息或來自其他公共來源的信息，幫助訓(xùn)練Google的人工智能模型?！苯?，谷歌更新隱私政策，表示將利用網(wǎng)絡(luò)公開數(shù)據(jù)訓(xùn)練旗下的AI模型，相關(guān)條款已于7月1日生效。

谷歌的這一動作引發(fā)爭議，單方面通知用戶的行為是否合法合規(guī)？此舉又是否有“囤數(shù)據(jù)”之嫌？

此前，Twitter和社交網(wǎng)站Reddit已經(jīng)采取措施，限制第三方對其API的訪問。國外科技公司的一系列舉措背后，可能是大模型發(fā)展路上一個不可忽視的真相：訓(xùn)練數(shù)據(jù)的重要性愈發(fā)顯現(xiàn)。隨著大模型產(chǎn)業(yè)的快速發(fā)展，出于市場競爭的需要，模型規(guī)模將快速膨脹，但同時可用于訓(xùn)練的數(shù)據(jù)供給相對不足，且未來日趨稀缺。

(相關(guān)資料圖)

未來，數(shù)據(jù)或?qū)⒊蔀锳I發(fā)展的“兵家必爭之地”。

“囤數(shù)據(jù)”訓(xùn)練AI模型

近日，谷歌更新隱私政策，表示將利用網(wǎng)絡(luò)公開數(shù)據(jù)訓(xùn)練旗下的AI模型。在隱私協(xié)議的“可公開獲取的資源”一欄，谷歌提到：“我們可能會收集公開的在線信息或來自其他公共來源的信息，幫助訓(xùn)練Google的人工智能模型?！痹摯竽Ｐ蛯楣雀璺g、谷歌旗下聊天機(jī)器人產(chǎn)品“Bard”及Cloud AI等產(chǎn)品和功能提供助力。

對比去年年底發(fā)布的上一版隱私政策，谷歌將“收集信息以幫助訓(xùn)練語言模型”的相關(guān)措辭更改為“訓(xùn)練人工智能模型”，并新增明確了自家AI產(chǎn)品對于數(shù)據(jù)的使用權(quán)利。這似乎意味著，谷歌在訓(xùn)練旗下聊天機(jī)器人及其他AI模型，或未來開發(fā)AI產(chǎn)品的過程中，有權(quán)使用人們在網(wǎng)上公開發(fā)布的任意內(nèi)容。

南方財經(jīng)全媒體記者在檢索后發(fā)現(xiàn)，7月5日，谷歌中文版隱私政策也已經(jīng)進(jìn)行同步更新。

在競天公誠律師事務(wù)所合伙人袁立志看來，此次谷歌隱私政策的更新從實踐角度看不算重大變化?！盁o論在我國還是域外，對公開數(shù)據(jù)的正常收集和使用，在一般情況下不算違法?！辈贿^他補(bǔ)充道，如果個人通過發(fā)送郵件等方式向信息處理者就相關(guān)使用表露明確拒絕，對其個人信息的收集和使用就應(yīng)當(dāng)停止。

北京大成律師事務(wù)所高級合伙人鄧志松也表示，就目前可獲得的信息而言，谷歌對收集與處理用戶個人信息的范圍和目的作出了詳細(xì)說明，即使以歐盟GDPR項下更為嚴(yán)格的“告知-同意”規(guī)則為標(biāo)準(zhǔn)，谷歌的這一收集與處理行為至少在形式上具有合法性。至于其實施過程中可能涉及的實質(zhì)合法性判斷，及由此可能對AI等行業(yè)產(chǎn)生的影響，則尚待進(jìn)一步觀察。

雖然此次更新并未對個人信息保護(hù)帶來影響，但暗藏背后的數(shù)據(jù)隱憂卻逐漸被公眾注意到。

“得數(shù)據(jù)者得天下”

數(shù)據(jù)是數(shù)字經(jīng)濟(jì)時代的“新石油”，處在時代中的人工智能技術(shù)亦受其影響。

以O(shè)penAI的幾代GPT模型為例，訓(xùn)練數(shù)據(jù)上，GPT-1預(yù)訓(xùn)練數(shù)據(jù)量僅有5GB；到了GPT-2，這個數(shù)據(jù)則增加至40GB；而在GPT3模型下，OpenAI用以訓(xùn)練模型的數(shù)據(jù)集數(shù)據(jù)量達(dá)到了驚人的45TB。

“大模型時代，得數(shù)據(jù)者得天下。”對外經(jīng)濟(jì)貿(mào)易大學(xué)數(shù)字經(jīng)濟(jì)與法律創(chuàng)新研究中心執(zhí)行主任張欣指出，一方面，訓(xùn)練數(shù)據(jù)是大模型訓(xùn)練的基石和燃料，如果沒有數(shù)據(jù)，大模型的訓(xùn)練就無法開展和持續(xù)；另一方面，當(dāng)前技術(shù)領(lǐng)域的研究顯示，各家大模型在算法層區(qū)別并不大，并且具有同質(zhì)化的趨勢。在此背景下，訓(xùn)練數(shù)據(jù)就成了真正區(qū)分且影響大模型性能的重要因素之一。

需求漸長，供給端卻并未馬上配合。目前，有多家處在“數(shù)據(jù)提供端”的公司對數(shù)據(jù)抓取、開源等做出了反應(yīng)。比如Twitter限制了用戶每天能查看的推文數(shù)量，幾乎使數(shù)據(jù)提供服務(wù)無法使用。馬斯克表示，這是對“數(shù)據(jù)抓取”和“系統(tǒng)操縱”的必要反應(yīng)。

今年1月，圖庫網(wǎng)站Getty Images對AI圖像生成器研發(fā)公司Stability AI提起法律訴訟，指其非法復(fù)制和處理版權(quán)圖像作為模型訓(xùn)練數(shù)據(jù)。4月，環(huán)球音樂集團(tuán)發(fā)函要求Spotify等音樂流媒體平臺切斷AI公司的訪問權(quán)限，以阻止其版權(quán)歌曲被用于訓(xùn)練模型和生成音樂。

同樣在4月，Reddit官方宣布將對調(diào)用其API的公司收費，原因正是OpenAI、谷歌等公司利用該平臺上的數(shù)據(jù)訓(xùn)練模型。此外，IT技術(shù)問答網(wǎng)站Stack Overflow也計劃向AI大模型的開發(fā)者及公司收取數(shù)據(jù)訪問費用。

6月，中文在線、同方知網(wǎng)與中國工人出版社等國內(nèi)25家文化出版機(jī)構(gòu)發(fā)出共同倡議，強(qiáng)調(diào)“為人工智能學(xué)習(xí)模型提供可靠、穩(wěn)定、安全的內(nèi)容來源”等AIGC版權(quán)保護(hù)問題的重要性。

科技公司的系列動作，一定程度反映了數(shù)據(jù)的重要性。

在7月2日全球數(shù)字經(jīng)濟(jì)大會人工智能高峰論壇上，昆侖萬維科技股份有限公司CEO方漢表示，高質(zhì)量數(shù)據(jù)對大模型發(fā)展至關(guān)重要。

“坦白地講，最近三年的大模型訓(xùn)練積累的是對豐富的預(yù)訓(xùn)練數(shù)據(jù)深度加工的能力。OpenAI所有公開的論文和講演，對訓(xùn)練過程和訓(xùn)練算法都是公開的，但其從不公開模型結(jié)構(gòu)及數(shù)據(jù)處理。”方漢指出，目前全世界大模型預(yù)訓(xùn)練團(tuán)隊都試圖重現(xiàn)OpenAI在模型架構(gòu)的動作以及預(yù)訓(xùn)練數(shù)據(jù)的動作，任何一家企業(yè)的預(yù)訓(xùn)練數(shù)據(jù)加工能力都至關(guān)重要。

數(shù)據(jù)稀缺、分散難題何解？

數(shù)據(jù)的重要性不言而喻，高質(zhì)量數(shù)據(jù)更是稀缺品。

早在去年，一項來自Epoch Al Research團(tuán)隊的研究就揭示了一個殘酷的事實：模型還要繼續(xù)做大，但數(shù)據(jù)卻不夠用了。研究結(jié)果表明，高質(zhì)量的語言數(shù)據(jù)存量將在2026年耗盡，低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量則分別在2030年至2050年、2030年至2060年枯竭。

這意味著如果數(shù)據(jù)效率沒有顯著提高或沒有新的數(shù)據(jù)源可用，那么到2040年，模型的規(guī)模增長將放緩。

百舸爭流是市場競爭的常態(tài)，但過分競爭也有可能為行業(yè)帶來災(zāi)難。限制數(shù)據(jù)抓取，很可能導(dǎo)致新一輪的數(shù)據(jù)大戰(zhàn)，進(jìn)而引發(fā)平臺之間屏蔽、數(shù)據(jù)壟斷等問題。

國際標(biāo)準(zhǔn)化組織TC/154技術(shù)專家王翔指出，大模型的蓬勃發(fā)展對訓(xùn)練數(shù)據(jù)提出了很高的數(shù)量和質(zhì)量要求。在供給側(cè)，人口增速、用網(wǎng)時間下降、制度性地理約束提高、高質(zhì)量數(shù)據(jù)匱乏等都在制約大模型未來發(fā)展，SOP化和轉(zhuǎn)發(fā)習(xí)慣也降低了供給能力；在需求側(cè)，無論是主觀治理思路還是客觀基礎(chǔ)設(shè)施條件，以及大型語言模型所有者應(yīng)對市場的考量，都會持續(xù)強(qiáng)化數(shù)據(jù)壟斷。

此外，大模型訓(xùn)練中，面對的高質(zhì)量數(shù)據(jù)的稀缺、行業(yè)數(shù)據(jù)分散等問題應(yīng)如何解決？

受訪專家指出，未來健康的生態(tài)需要市場側(cè)和監(jiān)管側(cè)等多方的共同建設(shè)維護(hù)。

“首先還是需要相信市場的力量”，袁立志指出，隨著優(yōu)質(zhì)數(shù)據(jù)的需求逐漸顯現(xiàn)，各個市場主體都會被“無形的手”推動向前?！皵?shù)據(jù)資源的尋找、匯聚、清洗、標(biāo)注等各個環(huán)節(jié)預(yù)計都會因競爭的活躍而不斷改善，以滿足市場需求。”他表示。

張欣則具體指出，目前行業(yè)內(nèi)的開源數(shù)據(jù)集正在不斷增多，未來應(yīng)呼吁更多人工智能企業(yè)、從業(yè)者加入，建立更加良好的行業(yè)生態(tài)?！叭斯ぶ悄苡?xùn)練時的眾包思路也非常重要?！彼J(rèn)為，企業(yè)之外，還可以善用技術(shù)社群的力量提升并開拓更多的高質(zhì)量數(shù)據(jù)集。

而監(jiān)管側(cè)，在張欣看來，從法律法規(guī)層面明確訓(xùn)練數(shù)據(jù)集的合法性獲取路徑是監(jiān)管下一步應(yīng)當(dāng)關(guān)注的重點?！爸挥忻鞔_了合法獲取的路徑，大模型訓(xùn)練者才有更穩(wěn)定的合規(guī)預(yù)期以開展工作?！?/p>

袁立志認(rèn)為，監(jiān)管側(cè)數(shù)據(jù)要素市場的建設(shè)深入會為大模型領(lǐng)域的發(fā)展帶來良性影響?！皵?shù)據(jù)要素市場建設(shè)走深意味著數(shù)據(jù)流通利用全流程提速提效，自然也惠及大模型的訓(xùn)練數(shù)據(jù)收集。”

關(guān)鍵詞：

相關(guān)閱讀

分享到：

版權(quán)和免責(zé)申明

凡注有"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"或電頭為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的稿件，均為環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶獨家版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載或鏡像；授權(quán)轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"，并保留"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的電頭。

每日熱文：谷歌更新隱私政策，大模型“諸神2023-07-05
21解藥｜過度嗜睡、猝倒、睡眠癱瘓，我國“2023-07-05
觀點：券業(yè)大財富④丨“人頭攢動”時代遠(yuǎn)去2023-07-05
天天快報!珠海市市長黃志豪：珠海要為推動2023-07-05
世界觀焦點：國家文物局、公安部：進(jìn)一步做2023-07-05
焦點熱文：國家文物局：加強(qiáng)主汛期防災(zāi)減災(zāi)2023-07-05
當(dāng)前觀點：14部門聯(lián)合部署2023暑期兒童關(guān)愛2023-07-05
國網(wǎng)新邵縣供電公司：開展設(shè)備巡視護(hù)航迎峰2023-07-05
南頭古城入選廣東第二批省級旅游休閑街區(qū)2023-07-05
天天精選！谷歌展示團(tuán)隊在量子計算機(jī)領(lǐng)域的2023-07-05
山東省養(yǎng)老金上調(diào)2023最新方案公布了嗎？202023-07-05
在“世界最美海灣”暢飲“醉”美的青島啤酒2023-07-05
比亞迪漢 VS 騰勢N7 貴10萬！就差0.1米2023-07-05
【全球聚看點】阿巴斯甜致癌風(fēng)波下，代糖企2023-07-05
世界熱消息：蘋果頭顯減產(chǎn) A股產(chǎn)業(yè)鏈2023-07-05
專治高啟強(qiáng)同款干眼癥，諾華25億美元剝離眼2023-07-05
轉(zhuǎn)化率與核銷率雙高，美團(tuán)通過直播釋放潛力2023-07-05
全面綠色時代到來？綠色債券融資額首次超越2023-07-05
全省唯一！這些警匪片“名場面”，都是他的2023-07-05
Mysteel日報：全國冷軋板卷漲跌互現(xiàn) 庫存2023-07-05
新時代中國調(diào)研行·長江篇丨因為珍稀所以2023-07-05
雄安新區(qū)謀劃出海通道完善交通“微細(xì)血管”2023-07-05
特稿｜中藥材漲成“金融藥”：誰制造了這場2023-07-05
百事通！山東：到2025年培育壯大千家綠色高2023-07-05
西藏：數(shù)字經(jīng)濟(jì)加速融入國家“東數(shù)西算”格2023-07-05
媒體人：周琦的事今天不會有結(jié)果雙方還在2023-07-05
當(dāng)愛心暑托班遇上社會大美育，開啟快樂“藝2023-07-05
動態(tài)：三字經(jīng)兒歌歌詞大全（三字經(jīng)兒歌歌詞2023-07-05
億都(國際控股)(00259)7月5日耗資61.04萬港2023-07-05
天天播報:企業(yè)全球化戰(zhàn)略拓展，金融機(jī)構(gòu)呼2023-07-05

长腿少妇视频小说,AV大黑逼,亚洲日本精品A在线观看,国产又粗又猛又黄又湿视频

“囤數(shù)據(jù)”訓(xùn)練AI模型

“得數(shù)據(jù)者得天下”

數(shù)據(jù)稀缺、分散難題何解？

新視野

資訊

焦點

长腿少妇视频小说,AV大黑逼,亚洲日本精品A在线观看,国产又粗又猛又黄又湿视频

“囤數(shù)據(jù)”訓(xùn)練AI模型

“得數(shù)據(jù)者得天下”

數(shù)據(jù)稀缺、分散難題何解？

新視野

資訊

焦點

數(shù)據(jù)稀缺、分散難題何解？