2025-04-06 20:05:44照明科技園
本站 4 月 6 日消息,一項(xiàng)新研究似乎為 OpenAI 至少使用部分受版權(quán)保護(hù)內(nèi)容來(lái)訓(xùn)練其人工智能模型的指控提供了依據(jù)。

本站注意到,OpenAI 正面臨由作家、程序員以及其他版權(quán)持有者提起的訴訟,這些原告指責(zé)該公司在未經(jīng)許可的情況下,使用他們的作品 —— 包括書(shū)籍、代碼庫(kù)等,來(lái)開(kāi)發(fā)其模型。盡管 OpenAI 一直聲稱(chēng)其享有合理使用的抗辯理由,但原告方則認(rèn)為美國(guó)版權(quán)法中并無(wú)針對(duì)訓(xùn)練數(shù)據(jù)的豁免條款。
該研究由華盛頓大學(xué)、哥本哈根大學(xué)和斯坦福大學(xué)的研究人員共同撰寫(xiě),提出了一種新方法,用于識(shí)別像 OpenAI 這樣通過(guò)應(yīng)用程序接口(API)提供服務(wù)的模型所“記憶”的訓(xùn)練數(shù)據(jù)。
AI 模型本質(zhì)上是預(yù)測(cè)引擎,通過(guò)大量數(shù)據(jù)訓(xùn)練,它們能夠?qū)W習(xí)各種模式,從而生成文章、照片等。雖然大多數(shù)輸出并非訓(xùn)練數(shù)據(jù)的逐字復(fù)制,但由于模型的“學(xué)習(xí)”方式,部分內(nèi)容不可避免地會(huì)被模型記憶下來(lái)。此前已有研究發(fā)現(xiàn),圖像模型會(huì)重復(fù)生成其訓(xùn)練數(shù)據(jù)中電影的截圖,而語(yǔ)言模型則被觀察到存在剽竊新聞文章的行為。
該研究的核心方法依賴(lài)于研究人員提出的“高意外性”詞匯,即在大量作品中顯得不常見(jiàn)的詞匯。例如,在句子“Jack and I sat perfectly still with the radar humming”中,“radar”(雷達(dá))一詞被認(rèn)為是高意外性的,因?yàn)閺慕y(tǒng)計(jì)學(xué)角度來(lái)看,它出現(xiàn)在“humming”(嗡嗡作響)之前的可能性比“engine”(引擎)或“radio”(收音機(jī))等詞要低。
共同作者對(duì)包括 GPT-4 和 GPT-3.5 在內(nèi)的幾種 OpenAI 模型進(jìn)行了測(cè)試,通過(guò)從虛構(gòu)小說(shuō)片段和《紐約時(shí)報(bào)》文章中移除高意外性詞匯,然后讓模型嘗試“猜測(cè)”被屏蔽的詞匯,來(lái)尋找記憶跡象。研究人員認(rèn)為,如果模型能夠成功猜出這些詞語(yǔ),則很可能表明該模型在訓(xùn)練過(guò)程中記憶了這些片段。
根據(jù)測(cè)試結(jié)果,GPT-4 顯示出記住了流行小說(shuō)書(shū)籍的部分內(nèi)容,包括一個(gè)包含受版權(quán)保護(hù)電子書(shū)樣本的數(shù)據(jù)集 BookMIA 中的書(shū)籍。結(jié)果還表明,該模型記住了《紐約時(shí)報(bào)》文章的部分內(nèi)容,盡管比例相對(duì)較低。
華盛頓大學(xué)的博士生、該研究的共同作者阿比拉沙?拉維奇漢德(Abhilasha Ravichander)對(duì) TechCrunch 表示,這些發(fā)現(xiàn)揭示了模型可能接受訓(xùn)練的“有爭(zhēng)議的數(shù)據(jù)”。
長(zhǎng)期以來(lái),OpenAI 一直倡導(dǎo)放寬對(duì)使用受版權(quán)保護(hù)數(shù)據(jù)開(kāi)發(fā)模型的限制。盡管該公司已經(jīng)達(dá)成了一些內(nèi)容許可協(xié)議,并提供了允許版權(quán)所有者標(biāo)記不希望其用于訓(xùn)練的內(nèi)容的退出機(jī)制,但該公司一直在游說(shuō)多個(gè)**將圍繞人工智能訓(xùn)練方法的“合理使用”規(guī)則編入法典。
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。文章及其配圖僅供學(xué)習(xí)分享之
相關(guān)資訊更多
同類(lèi)推薦更多
妖精漫畫(huà)在線(xiàn)登錄頁(yè)面不用下載:如何隨時(shí)隨地享受漫畫(huà)閱讀的便利?
2025-04-03
妖精漫畫(huà)在線(xiàn)登錄頁(yè)面不用下載,越來(lái)越多的漫畫(huà)愛(ài)好者選擇在線(xiàn)閱讀平臺(tái),不需要下載任何軟件或者應(yīng)用,就能隨時(shí)隨地暢享豐富多樣的漫畫(huà)內(nèi)容。這種便利的體驗(yàn),正是如今在線(xiàn)漫畫(huà)平臺(tái)的一個(gè)重要亮點(diǎn)。無(wú)論你是喜歡熱血、奇幻、冒險(xiǎn)還是浪漫愛(ài)情,妖精漫畫(huà)在線(xiàn)登錄頁(yè)面都能為你提供豐富的選擇,而且不需要占用手機(jī)或電腦的存儲(chǔ)空間。 在線(xiàn)登錄無(wú)需下載應(yīng)用,隨時(shí)閱讀 現(xiàn)代生活節(jié)奏快,大家都希望能利用碎片化時(shí)間進(jìn)行休閑娛樂(lè),而
三角洲行動(dòng)什么時(shí)候公測(cè) 三角洲行動(dòng)公測(cè)時(shí)間一覽2024
蘋(píng)果大折疊iPhone將采用4:3比例,內(nèi)外屏一致劍指高端市場(chǎng)?
steam夏促什么開(kāi)啟 steam夏促2024開(kāi)啟時(shí)間
魔力寶貝復(fù)興石怪技能怎么學(xué) 魔力寶貝復(fù)興石怪技能介紹
潮汐守望者塔露拉怎么樣 潮汐守望者塔露拉介紹
江淮汽車(chē)2024年財(cái)報(bào)揭曉:營(yíng)收下滑近6.3%,凈虧損高達(dá)17.84億
蔚來(lái)ET9重磅交付,美的董事長(zhǎng)方洪波喜提全國(guó)首車(chē),李斌親自送上門(mén)!
三國(guó)殺online如何旁觀好友 三國(guó)殺怎么觀戰(zhàn)好友
新品榜/熱門(mén)榜
資訊推薦更多
OpenAI 遭實(shí)錘:研究稱(chēng)其 AI 模型“記住”了受版權(quán)保護(hù)的內(nèi)容
創(chuàng)造與魔法中黑暗霸王龍的抓捕等級(jí)門(mén)檻是多少?玩家何時(shí)能解鎖馴服條件?
科技昨夜今晨 0406:支付寶測(cè)試境外 NFC 功能;奇瑞 QQ 概念車(chē)官圖公布;蘋(píng)果 M4 款 MacBook Pro 和 Mac mini 國(guó)行翻新版上架...
《全民高爾夫 環(huán)球之旅》Steam頁(yè)面 年內(nèi)發(fā)售
冰原守衛(wèi)者背包容量告急?如何高效整理與擴(kuò)容,解決資源滿(mǎn)載難題?