一些視覺藝術家已經就使用他們的圖像作為文本到圖像生成器的訓練數據提起訴訟。現在,兩位知名小說家對OpenAI提起了他們自己的集體訴訟,指控ChatGPT和Bing Chat背后的公司侵犯了版權,因為該公司涉嫌使用他們的書作為訓練數據。這似乎是第一個因使用文本(而不是圖像或代碼)作為訓練數據而提起的訴訟。
(相關資料圖)
七彩虹(Colorful)iGame GeForce RTX 4060 Ultra W DUO 8GB DLSS 3 電競光追游戲設計電腦顯卡
進入購買
在加州北區美國地方法院提起的訴訟中,原告Paul Tremblay和Mona Awad指控OpenAI及其子公司侵犯了版權,違反了《數字千年版權法》,還觸犯了加州和普通法對不公平競爭的限制。這兩位作家由Joseph Saveri律師事務所和Matthew Butterick代理,他們也是最近對Diffusion AI和GitHub(關于GitHub copilot)提起訴訟的團隊。
投訴稱,特倫布萊的小說《世界盡頭的小屋》和阿瓦德的兩部小說:《看待胖女孩的13種方式》和《兔子》被用作GPT-3.5和GPT-4的訓練數據。雖然OpenAI沒有披露這些受版權保護的小說在其訓練數據中(這是保密的),但原告得出結論,它們一定是,因為ChatGPT能夠提供詳細的情節摘要并回答關于這些書的問題,這一壯舉需要它能夠獲得完整的文本。
"由于OpenAI語言模型在沒有從原告(和其他人)的作品中提取并保留在其中的表達信息的情況下無法運作,因此OpenAI語言模型本身就是侵權的衍生作品,未經原告許可而制作,侵犯了原告在《版權法》下的專屬權利,"申訴說。
這三本書還帶有版權管理信息(CMI),如ISBN和版權登記號。數字千年版權法》(DMCA)規定,刪除或偽造CMI是非法的,由于ChatGPT的輸出不包含這些信息,原告指控OpenAI在常規版權侵權的基礎上還違反了DMCA。
雖然該訴訟目前只有兩名原告,但律師們正在尋求集體訴訟地位,這將使其他被OpenAI使用過版權作品的作者也能獲得賠償。律師們正在尋求貨幣賠償、法庭費用和強制令,以迫使OpenAI改變其軟件和圍繞版權材料的商業行為。
我們向Butterick征求對該訴訟的意見,他向我們介紹了他的網站--LLM訴訟,該網站對原告的立場和他們起訴的原因有詳細的解釋。
"我們對OpenAI提起集體訴訟,質疑ChatGPT及其底層的大型語言模型GPT-3.5和GPT-4,它們在沒有同意、補償或信用的情況下,重新混合了數千名圖書作者和許多其他作者的版權作品,"律師們寫道。
他們還批評了生成性人工智能的概念,寫道:""生成性人工智能"只是人類智能,經過重新包裝,脫離了其創造者"。
就像Saveri和Butterick對穩定性人工智能使用受版權保護的圖像作為訓練數據的訴訟一樣,這起訴訟的關鍵是相信從開放的互聯網上抓取文本來為法律碩士提供動力是不公平的使用。這是一個尚未在法庭上得到答案的問題。
七彩虹(Colorful)iGame GeForce RTX 4060 Ultra W DUO 8GB DLSS 3 電競光追游戲設計電腦顯卡
進入購買
在2006年的一個案件中,Blake vs Google,一位作家起訴搜索引擎緩存了他的作品并通過搜索提供緩存版本。然而,美國地區法院駁回了該訴訟,認為谷歌對數據的緩存是合理使用。Robert C. Jones法官寫道,將文件保存在緩存中是一種轉換性使用(用于確定合理使用的四個因素之一),而且它不會損害作品的潛在市場(另一個因素)。因此,僅僅是在其服務器上以緩存的形式存儲受版權保護的數據并不能使谷歌承擔責任。
然而,使用受版權保護的創意作品作為訓練數據,與為搜索編制索引的內容有相當大的不同。人們可以說,如果法律碩士能夠重復書中的關鍵細節,那就是損害了這些作品的市場,它不是真正的轉化。另一方面,如果一個人寫了一本書的情節摘要,這一般不會觸犯版權法。最終,這些問題將因為像這樣的訴訟案而得到決定。
OpenAI并不是唯一一家使用受版權保護的材料進行培訓甚至輸出的公司。谷歌SGE,該公司的新搜索體驗,經常一字不差地剽竊整個句子和段落的版權。
關鍵詞: