在不經(jīng)授權的情況下用人類作品訓練AI,算不算侵權?圍繞AI版權的爭議已持續(xù)三年,兩起來自美國的司法判決為這場討論提供了新的參照:
6月23日,美國加州北區(qū)聯(lián)邦法院裁定,AI公司Anthropic未經(jīng)3位作家許可,使用其已出版書籍訓練大模型Claude的行為合法,符合“合理使用”原則;
6月25日,同一法院的另一法官發(fā)布簡易判決,認為Meta公司在未經(jīng)13名作家許可的情況下使用書籍訓練大模型Llama,同樣構成“合理使用”。
這兩起判決在整體上為AI公司開了綠燈,但也警告了紅線。兩份判決書都提到,“合理使用”的適用范圍有限,需要考慮數(shù)據(jù)采集方式是否侵權。
不過,具體在“影子圖書館”這一非法下載渠道上,兩案出現(xiàn)分歧。簡而言之,Anthropic案認為,偷書和學習是兩種行為,即便偷書是為了學習,也不能因此免責;而Meta案傾向于整體判斷,并且法官認為書從哪里獲得并非重點。
共識:“合理使用”的初步成立
合理使用是各國版權法的一項重要條款,允許在特定情況下,無需版權方許可即可使用作品。而生成式AI的訓練能否落入這一范疇,是近年來法律界爭議最為激烈的一道命題。
在Meta案中,法院支持AI訓練屬于合理使用,并著重從兩個維度給出了解釋:
從使用目的來看,法院認為Meta使用原告圖書訓練AI具有“高度轉換性”,也就是說這些圖書并非被用于供人閱讀或傳播思想,而是為了訓練AI完成如寫代碼、撰寫郵件等生成任務,其功能與原作用途截然不同。
從影響效果上看,AI也并沒有再現(xiàn)、輸出圖書原文,法院因此認為AI沒有直接替代圖書市場。
對市場或作品價值的影響是Meta案法官最看重的一點。“在很多情況下,未經(jīng)授權用受保護作品訓練AI大模型是違法的,因為可能削弱創(chuàng)作者的創(chuàng)作動機和市場回報。”但在本案中,法院認為原告沒有證明這一點。
Anthropic案的判決思路與之類似。法院同樣認為,訓練Claude模型的過程具備“高度轉換性”,并非為了再現(xiàn)原作品,最終也沒有向用戶輸出原文或類似內(nèi)容,只是輸出風格相似的表達,因此不能視作市場替代品。判決書引用了經(jīng)典的人類讀書比喻: “(AI訓練過程)就像一個學生閱讀了海明威的作品,然后用簡短的陳述句寫作一樣。”
在技術層面,法院還認為AI訓練過程屬于“中間性技術行為”,類似緩存或全文索引,因而也符合合理使用原則。
過去,圍繞生成式AI的版權糾紛大多集中在“輸出”環(huán)節(jié),例如OpenAI與《紐約時報》一案中,ChatGPT被發(fā)現(xiàn)能復述《紐約時報》原文;廣州互聯(lián)網(wǎng)法院的“AI畫出奧特曼”案中,AI平臺生成了與奧特曼高度相似的圖像并被判侵權。此次兩份判決的突破在于,正面回應了“AI訓練是否構成侵權”的核心爭議,并明確在一定條件下,AI訓練本身可以適用合理使用。
但這并不意味著AI公司取得全面勝利,在適用邊界上,法院仍然保持審慎。
Meta案中,法院強調(diào)該判決僅適用于13位原告作家,并不構成AI公司“大規(guī)模拿版權作品訓練”的合法通行證。
而Anthropic案的法官則針對不同使用行為,做出了分項裁定:如果來源合法——比如將紙質書掃描轉化為數(shù)字文本,可構成合理使用;但如果圖書來源于“影子圖書館”等盜版平臺,即便后續(xù)用于訓練AI,依然構成侵權。
爭議:如何看待“影子圖書館”
數(shù)據(jù)獲取渠道的合法性,會不會影響“合理使用”的認定?法院在這一問題上出現(xiàn)了分歧。
在Meta案中,判決書詳細披露了Llama模型的訓練過程:首先,Llama在訓練上使用了多個大規(guī)模數(shù)據(jù)集,約2/3來自Common Crawl(互聯(lián)網(wǎng)公開抓取的數(shù)據(jù)集),其余來自公開站點和數(shù)據(jù)庫Books3;隨后,通過BT種子的方式批量下載;最后,下載圖書被納入Llama的訓練語料中。
Books3 是其中的關鍵爭議點,因為它包含了大量受版權保護的書籍,而且是通過“影子圖書館”收集的——其指的是未經(jīng)出版社或作者授權、非法提供圖書下載的在線數(shù)據(jù)庫,典型平臺包括LibGen和Z-Library。
之所以選擇用影子圖書館,Meta解釋,公司最初確實嘗試通過談判方式獲得授權,計劃投入上億美元進行授權采購。但后來發(fā)現(xiàn)大多數(shù)作品的AI訓練許可權歸屬于作者個人,而非出版社,授權缺乏集中機制,可達成交易極少。最終,該方案在公司高層討論后被放棄,轉而采用影子圖書館。
公司在辯護中還提到,采取了“去記憶”技術(post-training mitigations)防止AI過度記憶原文。第三方測試證明,Llama只能在極端“誘導提示”下偶爾重現(xiàn)約50個詞左右的內(nèi)容,無法構成大段抄襲。
這些措施或許都影響到了Meta案的最終判決。判決書認為,Meta嘗試授權失敗后使用影子圖書館的做法,不等于惡意侵權,法院傾向于做“整體性判斷”:“因為合理使用本身就是判斷某種使用是否合法,而非單純看使用渠道是否合法”“即便使用了非法渠道,也不代表不構成合理使用。”
但Anthropic案的判決思路和結果相反,法院將不同行為分開判斷,并認為再合法的動機也不能“洗白”非法入口。
判決書顯示,Anthropic同樣使用了Books3等影子圖書館渠道的數(shù)據(jù),累計下載超過700萬本圖書,并建立起一個“永久中央圖書庫(permanent internal library)”的內(nèi)部系統(tǒng)。這些圖書中,部分被標記為訓練素材候選,其余則儲存?zhèn)溆?,尚未使用?/span>
建立“中央圖書館”是判決關鍵。法院認為,這一行為與訓練AI這一“具有轉換性的行為”不同,將盜版圖書批量匯總、長期儲存并建立內(nèi)部檢索體系,不具有任何轉換性特征。
“只要盜取本可合法獲取的內(nèi)容,本質就是侵權,即便下載后立即用于轉換性用途(AI訓練)并立即刪除也是如此。”判決書寫道,接下來會審理中央圖書館造成的損失,并據(jù)此確定Anthropic公司的賠償范圍。
值得注意的是,Meta案判決書還特別強調(diào)了市場影響。法官認為,在美國版權法對“合理使用”的四項判定標準中(使用目的、作品性質、使用比例與市場影響),市場影響是最具分量的因素。盡管法院認可AI訓練具備高度轉換性,但也警告:如果AI輸出會沖擊原作品市場,仍可能無法構成合理使用。
雖然本案并未證明AI對圖書市場的沖擊,但另一些行業(yè)可能情況不同,“尤其是某些類型作品(如新聞文章)的市場,似乎更容易受到AI競爭沖擊。”法官強調(diào)。
以上兩起案件的原告均為圖書作家,主要聚焦于文生文的聊天機器人,但類似爭議已蔓延至影視、視覺創(chuàng)作等更多領域:上周,迪士尼與環(huán)球影業(yè)聯(lián)手起訴圖像生成平臺Midjourney,指控其抓取影視劇內(nèi)容訓練AI模型;國內(nèi)四位插畫師則將AI繪圖產(chǎn)品“Trik AI”告上法庭,稱其在未經(jīng)授權的情況下抓取原創(chuàng)插畫進行訓練。該案于2024年首次開庭,目前還在審理中。
