生成式人工智能模型在開發(fā)之初,就像一個嬰兒,不具備任何關(guān)于世界的先驗知識。訓(xùn)練是生成式人工智能模型獲得智能和創(chuàng)造力的唯一途徑。訓(xùn)練實際上就是生成式人工智能模型的學(xué)習(xí)過程,從海量的數(shù)據(jù)中學(xué)習(xí)語言規(guī)律、視覺模式、概念聯(lián)系等,并通過分析數(shù)據(jù)、調(diào)整內(nèi)部參數(shù),最終構(gòu)建對世界的認知和理解。訓(xùn)練完成后,生成式人工智能模型能夠根據(jù)用戶的提示詞,利用學(xué)到的模式和知識,創(chuàng)造出新穎、合理、多樣化的內(nèi)容。由此可見,生成式人工智能模型在訓(xùn)練過程中必然使用大量受版權(quán)保護的作品,而且這些作品往往是高質(zhì)量、不可或缺的訓(xùn)練數(shù)據(jù)。
按照版權(quán)法的基本原理,未經(jīng)著作權(quán)人許可,使用他人受版權(quán)保護作品原則上都構(gòu)成侵權(quán)。同時,各國版權(quán)法對權(quán)利都會作出一些限制,規(guī)定某些未經(jīng)許可使用他人作品的行為可以獲得侵權(quán)的責任豁免。
未經(jīng)權(quán)利人許可,將他人受版權(quán)保護作品用于生成式人工智能模型訓(xùn)練,這種行為是否構(gòu)成版權(quán)侵權(quán),是否能夠獲得版權(quán)法上的侵權(quán)責任豁免,是當前開發(fā)生成式人工智能模型過程中無法回避的一個現(xiàn)實問題。本文通過考察歐盟和美國的版權(quán)法及相應(yīng)制度,分析生成式人工智能模型訓(xùn)練在歐美版權(quán)法上的法律定性以及是否可以獲得版權(quán)侵權(quán)責任豁免,以期借鑒。

武凡熙 作
生成式人工智能模型訓(xùn)練構(gòu)成初步版權(quán)侵權(quán)
模型訓(xùn)練準備工作至少侵害權(quán)利人的復(fù)制權(quán)
為了訓(xùn)練人工智能模型,人工智能模型開發(fā)者首先需要做好訓(xùn)練前的一些準備工作,其中重要的任務(wù)就是收集數(shù)據(jù)和整理數(shù)據(jù)。開發(fā)者在收集數(shù)據(jù)過程中,在大多數(shù)情況下,就是從公開可用的數(shù)據(jù)源(網(wǎng)站、數(shù)據(jù)庫等)下載數(shù)據(jù),但是無論來源如何,都必然復(fù)制數(shù)據(jù),形成數(shù)據(jù)備份。隨后,開發(fā)者將根據(jù)實際需求對數(shù)據(jù)進行整理。就受版權(quán)保護的作品來說,開發(fā)者通過以下方式將對作品反復(fù)進行復(fù)制:(1)下載作品;(2)在存儲介質(zhì)間傳輸作品;(3)將作品轉(zhuǎn)換為特定格式;(4)創(chuàng)建或修改數(shù)據(jù)集;(5)經(jīng)篩選后將作品納入數(shù)據(jù)子集。由此可見,開發(fā)者在訓(xùn)練人工智能模型之前的數(shù)據(jù)收集和整理都需要大量復(fù)制作品。因此,人工智能模型訓(xùn)練準備工作至少直接侵害權(quán)利人的復(fù)制權(quán)。
模型訓(xùn)練過程至少侵害權(quán)利人的復(fù)制權(quán)
模型訓(xùn)練過程也需要反復(fù)復(fù)制之前整理好的各種數(shù)據(jù)備份。首先,模型的訓(xùn)練速度和訓(xùn)練規(guī)模要求開發(fā)者在訓(xùn)練前下載數(shù)據(jù)集并復(fù)制到高性能存儲設(shè)備中,以便提高訓(xùn)練效率。其次,在訓(xùn)練期間,數(shù)據(jù)集將被分批“投喂”給人工智能模型,這就需要臨時復(fù)制數(shù)據(jù)集。第三,訓(xùn)練過程中向模型提供示例所用的數(shù)據(jù)、衡量模型相對于預(yù)期輸出的性能所用的數(shù)據(jù)以及迭代更新權(quán)重所用的數(shù)據(jù)都包含此前復(fù)制的數(shù)據(jù)。就受版權(quán)保護作品來說,這些過程都將復(fù)制作品或作品的實質(zhì)部分。因此,人工智能模型訓(xùn)練過程也至少直接侵害權(quán)利人的復(fù)制權(quán)。
綜上可見,生成式人工智能模型訓(xùn)練,無論是訓(xùn)練前的準備工作,還是模型訓(xùn)練過程本身,都必然大量復(fù)制受版權(quán)保護作品,都至少直接侵害權(quán)利人的復(fù)制權(quán)。但是,利用受版權(quán)保護作品訓(xùn)練人工智能模型,其使用作品的范圍和規(guī)模是前所未有的,遠遠超出傳統(tǒng)版權(quán)法的制度涵蓋范圍和立法者的預(yù)見能力范圍。因此,問題的關(guān)鍵就在于,構(gòu)成版權(quán)侵權(quán)的生成式人工智能模型訓(xùn)練能否滿足版權(quán)法寬宥而獲得侵權(quán)責任豁免。
歐盟版權(quán)法下模型訓(xùn)練版權(quán)侵權(quán)的責任豁免
生成式人工智能模型訓(xùn)練過程中使用受版權(quán)保護的作品,構(gòu)成歐盟版權(quán)法上的復(fù)制行為并無爭議,問題在于是否有任何特定的歐盟版權(quán)限制可以適用于生成式人工智能模型訓(xùn)練。目前在歐盟有關(guān)訴訟中,作為被告的模型開發(fā)者提出了可能適用于人工智能模型訓(xùn)練版權(quán)侵權(quán)責任豁免的三種版權(quán)限制,具體包括:(1)臨時復(fù)制;(2)科研性文本與數(shù)據(jù)挖掘;(3)商業(yè)性文本與數(shù)據(jù)挖掘。
臨時復(fù)制例外的適用探討
歐盟《信息社會指令》第5條是整個指令中最重要且最復(fù)雜的條款,也是歐盟版權(quán)法的核心條款,該條定義了數(shù)字環(huán)境下版權(quán)保護的邊界,通過規(guī)定一系列強制性和選擇性的例外與限制,在保護創(chuàng)作者權(quán)利與保障信息自由流通之間尋求平衡。
第5條第1款規(guī)定了臨時復(fù)制例外,這是《信息社會指令》中唯一的強制性例外,歐盟所有成員國都必須實施。臨時復(fù)制例外允許短暫或附帶的復(fù)制行為,此等復(fù)制行為是技術(shù)實施過程中不可或缺的,其唯一目的是使作品在網(wǎng)絡(luò)中通過中間媒介在第三方之間進行傳輸,但是該復(fù)制行為須本身沒有獨立的經(jīng)濟意義。
生成式人工智能訓(xùn)練前和訓(xùn)練過程中復(fù)制受版權(quán)保護作品,這些復(fù)制行為顯然不是附帶的或伴隨發(fā)生的,先于訓(xùn)練過程的復(fù)制行為是獨立的,訓(xùn)練過程中的各種復(fù)制行為是在從事人工智能訓(xùn)練的個人或組織自主控制下反復(fù)復(fù)制作品的一個過程。因此,生成式人工智能訓(xùn)練使用受版權(quán)保護作品,不能滿足臨時復(fù)制例外的法律要求。
文本與數(shù)據(jù)挖掘例外的適用探討
隨著數(shù)字技術(shù)的發(fā)展應(yīng)用,需要對各種數(shù)據(jù)進行計算或分析,這就是數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是一種利用自動化計算技術(shù),從大規(guī)模、結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)集中發(fā)現(xiàn)新模式、新趨勢、新關(guān)聯(lián)、新知識的計算過程。數(shù)據(jù)挖掘的關(guān)鍵流程通常包括數(shù)據(jù)采集、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)轉(zhuǎn)換與表示、數(shù)據(jù)挖掘與分析和結(jié)果解釋與可視化。由此可見,數(shù)據(jù)挖掘多個步驟都涉及對原有數(shù)據(jù)的復(fù)制。具體到受版權(quán)保護作品來說,也同樣需要進行復(fù)制,例如數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換等過程都需要復(fù)制作品。為解決數(shù)據(jù)挖掘技術(shù)與版權(quán)保護的沖突,歐盟《數(shù)字單一市場版權(quán)指令》將文本與數(shù)據(jù)挖掘作為一項版權(quán)保護例外,并針對科研性文本與數(shù)據(jù)挖掘和一般性文本與數(shù)據(jù)挖掘分別確立了不同的規(guī)則。
科研性文本與數(shù)據(jù)挖掘例外?!稊?shù)字單一市場版權(quán)指令》第3條規(guī)定了科研性文本與數(shù)據(jù)挖掘,這是歐盟成員國必須通過國內(nèi)法實施的一項強制性例外??蒲行晕谋九c數(shù)據(jù)挖掘例外適用主體包括大學(xué)、公立研究實驗室等科研機構(gòu)以及為科研機構(gòu)提供協(xié)作的圖書館、博物館等文化遺產(chǎn)管理機構(gòu)。
科研性文本與數(shù)據(jù)挖掘例外可以適用的行為,顧名思義就是以科學(xué)研究為目的,對合法獲取的作品或數(shù)據(jù)進行復(fù)制和提取的行為。同時,科研性文本與數(shù)據(jù)挖掘例外還需要滿足一些法定條件,例如目的僅限“科學(xué)研究”、副本須保存在安全環(huán)境中、科研機構(gòu)需要確保其僅用于科研驗證、須通過合法途徑獲得、禁止規(guī)避技術(shù)措施等。因此,在歐盟境內(nèi),從事生成式人工智能訓(xùn)練的非商業(yè)性科研機構(gòu),如果因使用受版權(quán)保護作品而被指控侵犯版權(quán)的,可以援引科研性文本與數(shù)據(jù)挖掘例外作為侵權(quán)責任的豁免依據(jù)。當然,這些科研機構(gòu)需要嚴格遵守科研性文本與數(shù)據(jù)挖掘例外的各項法定條件。
一般性文本與數(shù)據(jù)挖掘例外。《數(shù)字單一市場版權(quán)指令》第4條規(guī)定了一般性文本與數(shù)據(jù)挖掘例外,這也是歐盟成員國必須通過國內(nèi)法實施的一項強制性例外。一般性文本與數(shù)據(jù)挖掘例外適用于任何主體,包括任何個人或組織。一般性文本與數(shù)據(jù)挖掘例外對行為目的不作限制,允許對合法獲取的作品或數(shù)據(jù)的任何復(fù)制和提取。同樣,一般性文本與數(shù)據(jù)挖掘例外也需要滿足一些法定條件,具體有:(1)必須通過合法途徑獲得數(shù)據(jù)源;(2)權(quán)利人的權(quán)利保留條款優(yōu)先,如果權(quán)利人通過機器可讀方式明確保留文本與數(shù)據(jù)挖掘權(quán)利,則一般性文本與數(shù)據(jù)挖掘例外自動失效,需要另行獲得額外授權(quán);(3)副本僅能用于文本與數(shù)據(jù)挖掘分析,不可用于其他目的;(4)可以保存文本與數(shù)據(jù)挖掘副本直至分析所需期限屆滿,但需要證明其必要性。
在歐盟,對于那些不能適用科研性文本與數(shù)據(jù)挖掘例外的生成式人工智能模型訓(xùn)練,只能援引一般性文本與數(shù)據(jù)挖掘例外作為侵權(quán)責任的豁免依據(jù)。由于一般性文本與數(shù)據(jù)挖掘例外規(guī)定了比較嚴苛的種種限制,在實踐中被告很難獲得成功的抗辯。
為應(yīng)對數(shù)字技術(shù)應(yīng)用、保障數(shù)字經(jīng)濟發(fā)展,歐盟充分平衡技術(shù)創(chuàng)新與著作權(quán)保護,專門創(chuàng)制出版權(quán)保護的文本與數(shù)據(jù)挖掘例外,確實能夠為相關(guān)研究和技術(shù)創(chuàng)新提供一定的法律保障。但是,文本與數(shù)據(jù)挖掘例外中權(quán)利保留聲明與合法獲取這兩大核心限制將顯著制約文本與數(shù)據(jù)挖掘例外的實際效果。在權(quán)利保留聲明機制下,權(quán)利人通過在網(wǎng)站或數(shù)據(jù)中嵌入文本與數(shù)據(jù)挖掘保留聲明,可以比較容易地排除文本與數(shù)據(jù)挖掘例外的適用。這勢必嚴重削弱文本與數(shù)據(jù)挖掘例外的價值,尤其影響商業(yè)和創(chuàng)新型中小企業(yè)。合法獲取作為適用條件之一,禁止規(guī)避技術(shù)保護措施,勢必大大壓縮文本與數(shù)據(jù)挖掘例外可以適用的空間。這些爭議與挑戰(zhàn)對于生成式人工智能數(shù)據(jù)訓(xùn)練也同樣如此。未來的法律演進可能圍繞文本與數(shù)據(jù)挖掘例外的權(quán)利保留聲明的合理性、合法獲取的必要性開展討論。
美國版權(quán)法下模型訓(xùn)練版權(quán)侵權(quán)的責任豁免
美國版權(quán)法在其演進中,不斷適應(yīng)新技術(shù)發(fā)展應(yīng)用,既推動技術(shù)進步,又保持對創(chuàng)作的激勵,使得美國的創(chuàng)意產(chǎn)業(yè)一直處于全球領(lǐng)先地位。目前在美國有關(guān)訴訟中,權(quán)利人起訴被告的人工智能訓(xùn)練行為侵犯其版權(quán)時,被告往往以合理使用為由提出抗辯,請求獲得版權(quán)侵權(quán)責任豁免。
合理使用制度是美國司法實踐中為了平衡權(quán)利人利益與社會公眾利益而發(fā)展出來的一套裁判規(guī)則體系,后被美國1976年《著作權(quán)法》吸收而規(guī)定于第107條。合理使用制度采取了要素疊加方式,具體包括:(1)使用行為的目的和特點;(2)作品的性質(zhì);(3)作品被使用的數(shù)量和實質(zhì)性;(4)對作品的潛在市場或價值的影響。這就是通常所說的合理使用制度“四要素”。
使用行為的目的和特點
使用作品的目的和特點,是判定使用行為是否構(gòu)成合理使用的一個重要因素。在司法實踐中,法院通常強調(diào)轉(zhuǎn)換性使用和商業(yè)性這兩個核心要件。
在判斷轉(zhuǎn)換性使用時,核心問題在于被告使用作品是單純?nèi)〈孀髌罚€是通過賦予原告作品新的目的或不同特性,并以全新表達、意義或信息改變原告作品,增添新價值。因此,轉(zhuǎn)換性使用通常在市場上不會替代原告作品,反而更可能實現(xiàn)版權(quán)法的立法宗旨。同時,轉(zhuǎn)換性程度越高,商業(yè)性等不利因素在合理使用認定中的權(quán)重就越低。
商業(yè)性使用審查的核心在于,如果被告使用原告作品獲取經(jīng)濟利益卻規(guī)避付費,則可能構(gòu)成不公。被告使用原告作品進行人工智能模型訓(xùn)練是商業(yè)性的還是非商業(yè)性的,關(guān)鍵是要審查在沒有支付通常應(yīng)當支付許可費的情況下被告是否從使用作品行為中有所獲益。有的判例在考慮被告使用行為的目的和特點時,還會考慮被告是否合法獲取原告作品。利用盜版或非法獲取材料進行模型訓(xùn)練的行為性質(zhì)比較嚴重,即使被告出于合理使用目的也不例外,因此非法獲取行為本身即影響使用性質(zhì)認定。
受版權(quán)保護作品的性質(zhì)
這里所謂作品的性質(zhì),主要是指作品的原創(chuàng)性。作品的原創(chuàng)性高則保護范圍大,作品的原創(chuàng)性低則保護范圍小。作品保護范圍的大小與認定合理使用尺度的寬嚴應(yīng)當保持對應(yīng)關(guān)系。使用保護范圍越大的作品構(gòu)成著作權(quán)侵權(quán)的可能性越大,如果從嚴適用合理使用制度,那么絕大多數(shù)情形都將不構(gòu)成合理使用。這將造成保護范圍大的作品幾乎不適用合理使用制度的事實。使用保護范圍越小的作品構(gòu)成著作權(quán)侵權(quán)的可能性越小,如果從寬適用合理使用制度,那么絕大多數(shù)情形都將構(gòu)成合理使用。這將造成保護范圍小的作品幾乎不受著作權(quán)保護的事實。人工智能模型訓(xùn)練通常混合使用表達性作品與功能性作品、已公開與未公開作品,當所涉作品表達性越強或?qū)儆谖垂_作品時,受版權(quán)保護作品的性質(zhì)這個要素將顯著不利于合理使用認定。
作品被使用的數(shù)量和實質(zhì)性
從數(shù)量角度來說,被使用部分在受保護整部作品中占比越大,不構(gòu)成合理使用的可能性越大。從實質(zhì)性角度來說,被使用部分對于整部作品的實質(zhì)性越重要,不構(gòu)成合理使用的可能性越大。對于人工智能模型訓(xùn)練整個過程來說,有的步驟需要復(fù)制作品的全部內(nèi)容,有的步驟可能僅需要復(fù)制作品的部分內(nèi)容。既然存在復(fù)制作品全部內(nèi)容的情形,因此就版權(quán)侵權(quán)判定來說,就無須再具體細分哪些步驟復(fù)制了作品的全部內(nèi)容,哪些步驟復(fù)制了作品的部分內(nèi)容。
使用行為對受保護作品的潛在市場或價值的影響
美國聯(lián)邦最高法院認為,第四個因素無可爭議地構(gòu)成合理使用制度中的首要因素,是判斷使用行為是否構(gòu)成合理使用的最重要的因素。認定使用行為是否構(gòu)成合理使用,需要考慮使用行為對受保護作品的潛在市場或價值的影響。在任何情況下,最重要的就是判斷使用行為與權(quán)利人就其作品所擁有的專有權(quán)市場是否構(gòu)成競爭關(guān)系,重點評估使用受版權(quán)保護作品訓(xùn)練人工智能模型對原告作品的市場影響,包括直接銷售損失、市場稀釋效應(yīng)及許可機會流失等。雖然版權(quán)人需要承擔初步舉證責任以指明相關(guān)市場范圍,但在應(yīng)對合理使用抗辯時無須自行提供經(jīng)驗數(shù)據(jù)。
判定合理使用需要綜合考量相關(guān)情況,平衡多項法定因素。人工智能模型訓(xùn)練過程中對受版權(quán)保護作品的各種使用方式可能是轉(zhuǎn)換性的,這主要取決于使用了哪些作品、來源如何、目的為何以及對輸出施加了何種控制,所有這些都會影響版權(quán)人的市場。當人工智能模型被部署用于分析或研究等目的時,其輸出內(nèi)容一般不會替代訓(xùn)練中所使用的作品。
2025年6月,美國加州北區(qū)聯(lián)邦地區(qū)法院就Anthropic案作出一審判決,這是美國法院首次就使用受版權(quán)保護作品訓(xùn)練人工智能模型是否構(gòu)成合理使用作出判決。該判決將Anthropic的人工智能模型訓(xùn)練劃分為數(shù)據(jù)獲取、數(shù)據(jù)存儲、數(shù)據(jù)訓(xùn)練,逐一分析、各自定性,最終得出Anthropic利用合法取得的受版權(quán)保護作品訓(xùn)練其人工智能模型構(gòu)成合理使用,主要原因就在于使用受版權(quán)保護作品訓(xùn)練人工智能模型具備高度轉(zhuǎn)換性,并且沒有直接替代原作品的市場。當然,這只是美國一家聯(lián)邦初級法院在一起案件中的裁判觀點,后續(xù)有待審級更高的法院就這個問題形成具有法律約束力的判例。
