提示:本文大約1.5萬(wàn)字,文章所述僅代表作者個(gè)人研究觀點(diǎn)。
摘要
本文探討了AI大模型訓(xùn)練中的版權(quán)問(wèn)題,分析了大模型訓(xùn)練階段涉及的版權(quán)利用行為以及存在的侵權(quán)風(fēng)險(xiǎn)。同時(shí),介紹了各國(guó)在大模型版權(quán)問(wèn)題上逐漸傾向“豁免”的趨勢(shì),并對(duì)歐盟、日本和美國(guó)的豁免機(jī)制進(jìn)行了介紹和分析。
• 大模型訓(xùn)練階段的版權(quán)問(wèn)題備受關(guān)注,存在侵權(quán)風(fēng)險(xiǎn)。
• 傳統(tǒng)的授權(quán)許可模式在AI時(shí)代失靈,存在規(guī)模過(guò)大、主體不明、機(jī)制困難等問(wèn)題。
• 歐盟、日本和美國(guó)等國(guó)家已經(jīng)開始探索大模型訓(xùn)練責(zé)任豁免機(jī)制,為促進(jìn)AI產(chǎn)業(yè)發(fā)展提供了借鑒。
AIGC大模型的快速崛起,在重塑內(nèi)容行業(yè)創(chuàng)作邏輯、賦能人們工作生活的同時(shí),也引發(fā)了版權(quán)制度層面一系列新的挑戰(zhàn)。相較于AI生成內(nèi)容的版權(quán)屬性和權(quán)利分配,大模型訓(xùn)練階段究竟涉及哪些版權(quán)利用行為,這一過(guò)程可能存在哪些侵權(quán)風(fēng)險(xiǎn),以及如何借鑒域外既有探索,從產(chǎn)業(yè)發(fā)展角度搭建科學(xué)的大模型訓(xùn)練責(zé)任豁免機(jī)制,更為各界所關(guān)注。在全球各國(guó)紛紛發(fā)力AIGC領(lǐng)域的大背景下,迫切需要對(duì)于上述議題加以研究、探討,以減少技術(shù)進(jìn)步和產(chǎn)業(yè)發(fā)展面臨的不確定性。
問(wèn)題提出:大模型訓(xùn)練中的版權(quán)爭(zhēng)議備受關(guān)注
1. 這是探討大模型版權(quán)所有問(wèn)題的起點(diǎn)
一方面,大模型訓(xùn)練問(wèn)題存在于生成式人工智能生命周期的伊始,如不能妥善解決,AIGC大模型的研發(fā)便始終處于侵權(quán)不確定狀態(tài)。從行業(yè)實(shí)踐和技術(shù)原理來(lái)看,目前各類生成式人工智能利用海量?jī)?nèi)容數(shù)據(jù)進(jìn)行模型訓(xùn)練的方法大致可抽象為如下兩步:
第一步,通過(guò)購(gòu)買數(shù)據(jù)庫(kù)、公開爬取等方式獲得海量?jī)?nèi)容數(shù)據(jù),進(jìn)行一定形式的轉(zhuǎn)換之后,存儲(chǔ)在相關(guān)服務(wù)器之中;
第二步,對(duì)內(nèi)容數(shù)據(jù)進(jìn)行分析處理,以發(fā)現(xiàn)一定的模式、趨勢(shì)以及相關(guān)性并轉(zhuǎn)變?yōu)榇竽P蛥?shù),供后續(xù)內(nèi)容生成時(shí)調(diào)取使用。
另一方面,當(dāng)下生成式人工智能領(lǐng)域的版權(quán)糾紛大都聚焦于,模型訓(xùn)練階段未經(jīng)授權(quán)的版權(quán)利用行為。據(jù)不完全統(tǒng)計(jì),自2022年11月至2023年10月,僅美國(guó)加州北區(qū)法院便已經(jīng)受理了10起,版權(quán)人起訴Stability AI、Open AI、Meta、Alphabet等AIGC研發(fā)企業(yè)未經(jīng)授權(quán),利用版權(quán)作品進(jìn)行模型訓(xùn)練的案件。2023年6月,國(guó)內(nèi)在網(wǎng)絡(luò)教培行業(yè)也曾發(fā)生過(guò),未經(jīng)授權(quán)利用第三方平臺(tái)作品數(shù)據(jù)進(jìn)行大模型訓(xùn)練導(dǎo)致的紛爭(zhēng)。
2. 傳統(tǒng)“授權(quán)許可模式”在AI時(shí)代的失靈
第一,授權(quán)的基礎(chǔ)不明確,授予的是版權(quán)法上的何種權(quán)利有待論證。表面看AIGC模型訓(xùn)練行為類似于自然人閱讀文字作品、欣賞美術(shù)作品后的“思考、吸收、再創(chuàng)作的行為”,這和既有的版權(quán)專有權(quán)利無(wú)法具體對(duì)應(yīng)。[1]
需要注意的是,模型對(duì)于作品藝術(shù)風(fēng)格的學(xué)習(xí)模仿并不是版權(quán)法上規(guī)制的問(wèn)題,藝術(shù)風(fēng)格應(yīng)當(dāng)允許公眾自由使用,這關(guān)系到表達(dá)自由與創(chuàng)意經(jīng)濟(jì)的發(fā)展。即便將這一行為納入版權(quán)規(guī)制范疇,也存在版權(quán)人行權(quán)的現(xiàn)實(shí)困難。原因在于,AIGC模型訓(xùn)練行為本質(zhì)上是一種機(jī)器內(nèi)部的非外顯性作品利用行為,版權(quán)人存在發(fā)現(xiàn)模型侵權(quán)、舉證模型侵權(quán)以及侵權(quán)內(nèi)容比對(duì)等方面的判定困境。
第二,授權(quán)的可行性存疑,存在規(guī)模過(guò)大、主體不明、機(jī)制困難等系列問(wèn)題。AIGC模型訓(xùn)練涉及的作品數(shù)量眾多、來(lái)源各異、權(quán)屬不同,若采用事先授權(quán)許可的方式:一方面,需要精準(zhǔn)地將受保護(hù)的作品從海量數(shù)據(jù)中進(jìn)行分離、提??;另一方面,再找到每一部版權(quán)作品對(duì)應(yīng)的權(quán)利人與之協(xié)商授權(quán),并支付價(jià)格不一的授權(quán)費(fèi)用。這一過(guò)程漫長(zhǎng)復(fù)雜且極難落地操作。
第三,授權(quán)的意義待評(píng)估,可能產(chǎn)生“過(guò)度擬合”“寒蟬效應(yīng)”“模型偏見”等負(fù)面效應(yīng)。實(shí)踐中,具有諷刺結(jié)果的是,任何限制模型訓(xùn)練內(nèi)容規(guī)模與可用性的舉措都可能產(chǎn)生意想不到的問(wèn)題,即增加模型簡(jiǎn)單輸出被訓(xùn)練作品復(fù)制內(nèi)容的概率。此外,高昂的授權(quán)許可費(fèi)用和侵權(quán)風(fēng)險(xiǎn)的不確定性,將可能直接帶來(lái)人工智能技術(shù)和產(chǎn)業(yè)發(fā)展的“寒蟬效應(yīng)”,并產(chǎn)生因數(shù)據(jù)規(guī)模不足和數(shù)據(jù)質(zhì)量不高引發(fā)的“模型偏見”等不良后果。[2]
責(zé)任聚焦:大模型訓(xùn)練涉及哪些版權(quán)規(guī)制行為?
從AIGC模型訓(xùn)練階段的技術(shù)流程和基本原理來(lái)看,當(dāng)我們談及這一階段的版權(quán)問(wèn)題時(shí),實(shí)際上討論的是如何從版權(quán)法角度看待,“作品獲取”“作品存儲(chǔ)”與“作品分析”這三個(gè)行為。目前,整體來(lái)看只有“作品存儲(chǔ)”行為可以納入版權(quán)法“復(fù)制權(quán)”規(guī)制范疇,而更為核心的“作品分析”行為能否受到版權(quán)法規(guī)制仍值得探討。
1. 如何從版權(quán)法角度看待“作品獲取”行為?
在“作品獲取”階段,需要關(guān)注內(nèi)容數(shù)據(jù)獲取合法性的問(wèn)題,包括對(duì)數(shù)據(jù)庫(kù)內(nèi)容、網(wǎng)絡(luò)公開內(nèi)容等的獲取是否合法,是否存在破壞計(jì)算機(jī)信息系統(tǒng)、違反數(shù)據(jù)爬取保護(hù)措施、違反API端口協(xié)議等行為。
之所以對(duì)于模型訓(xùn)練階段的版權(quán)問(wèn)題探討,將“作品獲取”行為和“作品存儲(chǔ)”行為加以區(qū)分,是因?yàn)楹罄m(xù)伴隨技術(shù)模式的發(fā)展,存在通過(guò)“云端計(jì)算”“聯(lián)邦學(xué)習(xí)”等方式,在不存儲(chǔ)數(shù)據(jù)的情況下,便可以通過(guò)對(duì)內(nèi)容數(shù)據(jù)的接觸獲取而直接進(jìn)行模型訓(xùn)練的可能。
從版權(quán)法角度看,“獲取作品”或者說(shuō)對(duì)于作品的接觸類似線上瀏覽網(wǎng)頁(yè)和線下閱讀書籍,只接觸不存在后續(xù)的傳播利用大概率并不會(huì)觸發(fā)版權(quán)侵權(quán)責(zé)任。這一階段的核心版權(quán)問(wèn)題主要涉及是否存在破壞作品“技術(shù)保護(hù)措施”的行為。
根據(jù)我國(guó)《著作權(quán)法》規(guī)定,違反保護(hù)作品技術(shù)措施的規(guī)定亦構(gòu)成侵權(quán)。即使在滿足“合理使用制度”的情況下使用作品,但需要規(guī)避技術(shù)措施才可以獲得該作品,如果此種規(guī)避并不符合《著作權(quán)法》第50條關(guān)于避開技術(shù)措施的豁免規(guī)定,則可以在認(rèn)定滿足合理使用的基礎(chǔ)上,同時(shí)認(rèn)定構(gòu)成違反技術(shù)措施而承擔(dān)侵權(quán)責(zé)任。[3]
2. 如何從版權(quán)法角度看待“作品存儲(chǔ)”行為?
應(yīng)當(dāng)說(shuō)在模型訓(xùn)練階段,對(duì)于內(nèi)容數(shù)據(jù)的儲(chǔ)存行為落入到版權(quán)法上“復(fù)制權(quán)”的規(guī)制范疇,沒有過(guò)多疑問(wèn)。但值得注意,伴隨內(nèi)容生產(chǎn)和傳播領(lǐng)域新技術(shù)的應(yīng)用,也需要我們思考是否存在過(guò)度孤立看待“復(fù)制權(quán)”的問(wèn)題。因?yàn)?ldquo;復(fù)制”往往僅是依附于“作品主要利用行為”的準(zhǔn)備行為而已,若不存在復(fù)制之后的發(fā)行、廣播、信息網(wǎng)絡(luò)傳播等版權(quán)法規(guī)制的作品利用行為,侵權(quán)損害實(shí)際上無(wú)從談起,版權(quán)人也無(wú)從發(fā)現(xiàn)自身作品是否被利用。
時(shí)至今日,是否應(yīng)為信息技術(shù)和商業(yè)模式的演進(jìn),預(yù)留出一定的“復(fù)制自由”,類似于“避風(fēng)港制度”誕生之際創(chuàng)設(shè)的“緩存自由”一般,有待進(jìn)一步探討。[4]在最高人民法院2013年十大知識(shí)產(chǎn)權(quán)案件——“王莘(棉棉)訴谷歌公司等圖書搜索案”中,核心爭(zhēng)議便是在后續(xù)對(duì)于圖書片段“信息網(wǎng)絡(luò)傳播行為”構(gòu)成合理使用的情況下,前期的“復(fù)制行為”是否構(gòu)成單獨(dú)的侵權(quán)(北京一中院觀點(diǎn))或者可以被后續(xù)合理使用行為所吸收(北京高院觀點(diǎn))。
具體來(lái)看,在“谷歌圖書館案”一審中,北京一中院提出了在早期“文本與數(shù)據(jù)挖掘”案件中之所以需要單獨(dú)認(rèn)定“復(fù)制行為”的原因:一方面,以“使用”為目的而對(duì)作品進(jìn)行復(fù)制,從實(shí)際損害來(lái)看,雖然不會(huì)使公眾獲得這一復(fù)制件,但使得復(fù)制者在無(wú)需購(gòu)買合法復(fù)制件的情況下即可使用這一作品,這會(huì)影響到合法復(fù)制件的銷售;另一方面,從潛在損害來(lái)看,侵權(quán)危險(xiǎn)通常來(lái)源于他人以“傳播作品”(如發(fā)行、廣播、信息網(wǎng)絡(luò)傳播等)為目的而進(jìn)行的復(fù)制行為。
但從當(dāng)下AIGC模型訓(xùn)練來(lái)看,對(duì)標(biāo)上述邏輯分析:一方面,只要獲取被訓(xùn)練內(nèi)容數(shù)據(jù)的方式合法,實(shí)際損害這個(gè)問(wèn)題便無(wú)需過(guò)度關(guān)注;另一方面,潛在損害也存在疑問(wèn),因?yàn)槟P陀?xùn)練涉及的內(nèi)容處理分析行為,本身能否構(gòu)成版權(quán)法規(guī)制的行為,進(jìn)而對(duì)版權(quán)人帶來(lái)?yè)p害仍存在一定爭(zhēng)議,下文會(huì)詳細(xì)論述。
3.如何從版權(quán)法角度看待“作品處理”行為?
模型內(nèi)部的內(nèi)容分析處理行為對(duì)應(yīng)版權(quán)法上的何種權(quán)利存在疑問(wèn),且理論界和實(shí)務(wù)界目前尚未有明確結(jié)論。有觀點(diǎn)認(rèn)為“作品處理”行為落入版權(quán)法中“改編權(quán)”的規(guī)制范疇,但所謂的改編權(quán)是指改編既有作品形成新作品的行為,然而對(duì)作品數(shù)據(jù)進(jìn)行分析處理,并生成包含一定模式、趨勢(shì)以及相關(guān)性的參數(shù),這一過(guò)程不涉及新作品的形成,明顯難以契合“改編權(quán)”的要求。也有觀點(diǎn)表示由于現(xiàn)行《著作權(quán)法》缺乏具體權(quán)利對(duì)應(yīng)“作品處理”行為,可以通過(guò)“權(quán)利兜底條款”加以規(guī)制。
還有觀點(diǎn)認(rèn)為,上述行為不屬于版權(quán)規(guī)制的權(quán)利范疇。從目前廣泛應(yīng)用的AIGC產(chǎn)品模型來(lái)看,模型訓(xùn)練階段的“作品處理”行為大致有兩類:一類是“文生圖”領(lǐng)域比如Stable Diffusion模型,通過(guò)對(duì)既有圖像內(nèi)容的分析處理,獲得思想層面的藝術(shù)風(fēng)格、感覺、靈感等作為模型參數(shù)加以存儲(chǔ);另一類是“文生文”領(lǐng)域比如GPT模型,是在統(tǒng)計(jì)學(xué)“自回歸原理”下,不斷學(xué)習(xí)海量在先作品中不同文字之間排列組合的概率和規(guī)律,然后內(nèi)化為自身的模型參數(shù)。
版權(quán)法遵循“思想表達(dá)二分法”的基本邏輯,強(qiáng)調(diào)“不保護(hù)自然人的思想,只保護(hù)自然人對(duì)于思想的外在表達(dá)”。對(duì)于第一類“作品處理”行為,本質(zhì)上僅是對(duì)作品思想層面藝術(shù)風(fēng)格等的分析、學(xué)習(xí),故而這一行為作用的對(duì)象不屬于版權(quán)法保護(hù)的客體,行為本身便也不屬于版權(quán)法可以規(guī)制的權(quán)利范疇。對(duì)于第二類“作品處理”行為,對(duì)于作品僅僅是進(jìn)行統(tǒng)計(jì)學(xué)意義上文字組合概率的學(xué)習(xí),不是為了使用和展示作品中的表達(dá)性內(nèi)容,因此亦不屬于版權(quán)法意義上的作品利用行為。
域外觀察:加速探索大模型訓(xùn)練責(zé)任豁免機(jī)制
本輪AIGC變革始于2022年11月底ChatGPT的發(fā)布,至今不足1年時(shí)間,各國(guó)版權(quán)立法尚未能做出針對(duì)性的調(diào)整。但在此前弱人工智能階段,一些國(guó)家為促進(jìn)本國(guó)AI產(chǎn)業(yè)發(fā)展,已經(jīng)進(jìn)行了版權(quán)立法改革探索,以豁免AIGC平臺(tái)在模型訓(xùn)練階段的版權(quán)責(zé)任。目前來(lái)看大致可分為三類:一是歐盟“文本與數(shù)據(jù)挖掘”模式;二是日本的“非欣賞性作品利用”模式;三是美國(guó)的“四要素分析法+轉(zhuǎn)換性使用”模式。
1. 歐盟“文本與數(shù)據(jù)挖掘”模式
早在2016年9月,歐盟委員會(huì)提出修改版權(quán)法以適應(yīng)數(shù)字經(jīng)濟(jì)發(fā)展之初,“文本與數(shù)據(jù)挖掘”(Text Data Mining)便構(gòu)成了此次修法的重點(diǎn)。歐盟指出,新技術(shù)能夠?qū)?shù)字形式的信息進(jìn)行自動(dòng)計(jì)算分析,例如文本、聲音、圖像或數(shù)據(jù)。文本和數(shù)據(jù)挖掘使處理大量信息成為可能,以便獲得新知識(shí)和發(fā)現(xiàn)新趨勢(shì)。但文本與數(shù)據(jù)挖掘往往涉及大量受版權(quán)保護(hù)的內(nèi)容,為了消除相關(guān)主體面臨的法律不確定性,實(shí)現(xiàn)對(duì)創(chuàng)新的激勵(lì),應(yīng)當(dāng)給予這一行為對(duì)作品或其他客體的復(fù)制和提取以責(zé)任限制或例外。
由此,在2019年3月26日最終通過(guò)的《單一數(shù)字市場(chǎng)版權(quán)指令》中,歐盟便在“第二章:使例外和限制適應(yīng)數(shù)字和跨境環(huán)境的措施”下,創(chuàng)設(shè)了第3條“以科學(xué)研究為目的的文本和數(shù)據(jù)挖掘”和第4條不限制目的的“文本和數(shù)據(jù)挖掘”。具體內(nèi)容如下圖:

整體來(lái)看,目前絕大多數(shù)AIGC模型訓(xùn)練階段的作品利用行為隸屬于商業(yè)利用領(lǐng)域,僅適用第4條規(guī)定的“不限制目的的文本和數(shù)據(jù)挖掘”責(zé)任豁免情形。該規(guī)定對(duì)于“文本與數(shù)據(jù)挖掘”采取的是類似于“默示許可+‘opt-out’”的機(jī)制,有三點(diǎn)問(wèn)題需要注意。
第一,該條規(guī)定豁免的核心是“文本與數(shù)據(jù)挖掘”過(guò)程中的“作品復(fù)制行為”。歐盟在《單一數(shù)字市場(chǎng)版權(quán)指令》“立法背景”中指出,為了文本和數(shù)據(jù)挖掘而進(jìn)行的復(fù)制和提?。?ldquo;提取”針對(duì)的是“數(shù)據(jù)庫(kù)權(quán)利”中對(duì)標(biāo)作品“復(fù)制”的權(quán)利)需要在合法訪問(wèn)的作品或其他客體上進(jìn)行,特別是當(dāng)為了技術(shù)流程而進(jìn)行的復(fù)制或提取不符合關(guān)于“臨時(shí)復(fù)制”(即“避風(fēng)港制度”對(duì)應(yīng)的緩存行為)的現(xiàn)有責(zé)任豁免條件時(shí)。
由此來(lái)看,本文在第二部分關(guān)于“模型訓(xùn)練階段版權(quán)侵權(quán)風(fēng)險(xiǎn)解構(gòu)”的分析結(jié)論,未經(jīng)版權(quán)人授權(quán)的模型訓(xùn)練行為,法律層面明顯的侵權(quán)風(fēng)險(xiǎn)只涉及“復(fù)制權(quán)”,能夠得到歐盟修法邏輯的驗(yàn)證。
第二,該條規(guī)定豁免的要件是“對(duì)于被訓(xùn)練作品和其他內(nèi)容的獲取是合法的”。歐盟指出,這種例外或限制只應(yīng)適用于被豁免主體,“合法訪問(wèn)作品或其他內(nèi)容的情況”,包括已在網(wǎng)上向公眾公開以及權(quán)利人未以適當(dāng)方式保留這一權(quán)利的情形。而在此前,由于大量有價(jià)值文本的數(shù)據(jù)庫(kù)通常是收費(fèi)的,因而文本與數(shù)據(jù)挖掘的例外情形并未在實(shí)質(zhì)上減輕行為人獲得許可的負(fù)擔(dān)。
但在本輪以ChatGPT等為代表的生成式人工智能場(chǎng)景下,模型訓(xùn)練涉及的內(nèi)容大部分來(lái)源于CC(Common Crawl)、維基百科等網(wǎng)絡(luò)公開數(shù)據(jù),由此可以獲得的責(zé)任豁免價(jià)值得以凸顯。
第三,該條規(guī)定豁免的前提是“版權(quán)人未以適當(dāng)方式保留文本與數(shù)據(jù)挖掘的權(quán)利”。歐盟強(qiáng)調(diào),權(quán)利人應(yīng)當(dāng)能夠采取措施,確保對(duì)于文本與數(shù)據(jù)挖掘的權(quán)利保留得到尊重。根據(jù)《單一數(shù)字市場(chǎng)版權(quán)指令》“立法背景”的說(shuō)明,“以適當(dāng)方式保留權(quán)利”可以做如下理解:對(duì)于已經(jīng)在網(wǎng)上公開提供的內(nèi)容,應(yīng)該只考慮通過(guò)使用機(jī)器可讀手段保留這些權(quán)利,包括相關(guān)的反爬等技術(shù)保護(hù)措施;在線下對(duì)于實(shí)體出版物的掃描利用等情況下,可以通過(guò)合同約定或聲明等其他方式保留。
簡(jiǎn)單來(lái)說(shuō),只要版權(quán)人不事先通過(guò)技術(shù)等方式保留自身權(quán)利,或者向模型訓(xùn)練平臺(tái)發(fā)出專門通知,明確表示自己的作品內(nèi)容不允許被訓(xùn)練,原則上模型訓(xùn)練平臺(tái)就可以不經(jīng)過(guò)版權(quán)人授權(quán)、不向其支付費(fèi)用。
2. 日本“非欣賞性利用”模式
2018年日本對(duì)《著作權(quán)法》進(jìn)行了修改,在第30條第4款設(shè)置了新的合理使用條款——“不以欣賞作品原有價(jià)值為目的的利用”。根據(jù)日本文化廳的解讀,此次修改整體上擴(kuò)大了對(duì)于著作權(quán)的限制,其目的是鼓勵(lì)創(chuàng)新,迎接以人工智能、物聯(lián)網(wǎng)和大數(shù)據(jù)為代表的第四次產(chǎn)業(yè)革命。[5]
值得注意的是,新一輪的日本《著作權(quán)法》修正案已于2023年5月17日通過(guò)參議院表決,并未對(duì)第30條第4款進(jìn)行修改。這一定程度上也表明了立法者認(rèn)為該條能夠涵攝本輪生成式人工智能帶來(lái)的版權(quán)制度挑戰(zhàn)。
依據(jù)該條規(guī)定,AIGC模型訓(xùn)練階段的版權(quán)利用行為可以適用“不以欣賞作品原有價(jià)值為目的”的責(zé)任豁免,符合該條列舉出的“用于信息分析的情形”和兜底性“在電子計(jì)算機(jī)信息處理過(guò)程中對(duì)作品表達(dá)所進(jìn)行的不被人類感知和識(shí)別的使用情形”兩項(xiàng)要求。因此,只要模型訓(xùn)練階段的作品利用行為,不存在“根據(jù)作品的性質(zhì)、目的和使用情況,不合理地?fù)p害版權(quán)人利益”的情形,大概率可以受到第30條第4款的責(zé)任豁免。
對(duì)于日本《著作權(quán)法》“不以欣賞作品原有價(jià)值為目的利用”的責(zé)任豁免,可以從以下幾個(gè)方面把握適用的關(guān)鍵。第一,該規(guī)定本質(zhì)上對(duì)應(yīng)的是作品的“非表達(dá)型利用”,與其說(shuō)是侵權(quán)責(zé)任的豁免,不如說(shuō)是對(duì)版權(quán)法中一類非侵權(quán)行為的明確。本條款列舉的具體情形,對(duì)應(yīng)的是“不以欣賞作品原有價(jià)值為目的利用”,實(shí)際涉及的是對(duì)于作品的信息分析以及機(jī)器內(nèi)部的加工處理,都不是為了向公眾傳播被利用作品的表達(dá)性內(nèi)容,也即不屬于版權(quán)法意義上的作品使用行為。
第二,該規(guī)定豁免的行為類型并不限于“作品存儲(chǔ)行為”,而是“必要范圍內(nèi)任何利用作品的方式”。由此,可以避免AIGC模型訓(xùn)練階段對(duì)于各類具體行為屬性認(rèn)定帶來(lái)的紛爭(zhēng),例如“作品處理行為是否受到《著作權(quán)法》權(quán)利范疇的規(guī)制”。一定程度上可以說(shuō),日本“不以欣賞作品原有價(jià)值為目的利用”責(zé)任豁免模式,給予了模型訓(xùn)練研發(fā)方更明確的行為預(yù)期。
第三,該規(guī)定存在適用上的限制條件即“但因作品的種類、用途及利用方式等原因,不當(dāng)損害著作權(quán)人利益的,不在此限”。前文已述,從目前AIGC模型內(nèi)容生成模式來(lái)看,模型訓(xùn)練行為是否落入版權(quán)法專有權(quán)利規(guī)制的范疇存在疑問(wèn),因此并不會(huì)與版權(quán)人正常行使權(quán)利產(chǎn)生明顯沖突。此外,因?yàn)槟P陀?xùn)練行為本質(zhì)上是對(duì)于在先作品“非表達(dá)型的利用”以及對(duì)于思想層面風(fēng)格、感覺的學(xué)習(xí),所以也不會(huì)對(duì)作品原有傳播利用市場(chǎng)產(chǎn)生明顯替代效應(yīng)。
2023年5月,日本政府公開了自身對(duì)于版權(quán)法領(lǐng)域模型訓(xùn)練行為的態(tài)度——不會(huì)對(duì)AIGC模型訓(xùn)練中使用的內(nèi)容加以版權(quán)保護(hù)。日本文部科學(xué)大臣長(zhǎng)岡惠子(Keiko Nagaoka)表示,日本法律不會(huì)保護(hù)AIGC模型訓(xùn)練集中使用的版權(quán)材料,也即允許AIGC模型訓(xùn)練對(duì)于版權(quán)人作品的利用,無(wú)論是出于非營(yíng)利或商業(yè)目的,無(wú)論是復(fù)制還是復(fù)制以外的行為。這在一定程度驗(yàn)證了,日本《著作權(quán)法》第30條第4款“不以欣賞作品原有價(jià)值為目的利用”的責(zé)任豁免,能夠適用于當(dāng)下的AIGC模型訓(xùn)練行為。
3. 美國(guó)“四要素分析+轉(zhuǎn)換性使用”模式
2023年5月17日,美國(guó)國(guó)會(huì)召開“交互中的人工智能與版權(quán)法”聽證會(huì),美國(guó)版權(quán)局前總法律顧問(wèn)Sy Damle表示:“任何強(qiáng)制模型對(duì)于訓(xùn)練內(nèi)容付費(fèi)許可的嘗試,要么會(huì)使美國(guó)AI行業(yè)破產(chǎn),消除我們?cè)趪?guó)際舞臺(tái)上的競(jìng)爭(zhēng)力;要么會(huì)驅(qū)使這些頭部AI公司離開這個(gè)國(guó)家。”
美國(guó)之所以成為全球AI產(chǎn)業(yè)的研發(fā)中心,很大原因依賴于版權(quán)法中獨(dú)一無(wú)二、廣泛靈活的合理使用條款,相信其依然可以適用于AIGC模型。這些模型從數(shù)十億的訓(xùn)練數(shù)據(jù)中提取抽象的概念和模式(concepts and patterns),并創(chuàng)造出不同于且不侵權(quán)既有作品的全新內(nèi)容。
美國(guó)版權(quán)法以“例示列舉+一般要件”的方式對(duì)合理使用制度進(jìn)行了規(guī)定,具有高度靈活性。第107條規(guī)定,任何特定案件中判斷對(duì)作品的使用是否屬于合理使用時(shí),應(yīng)考慮的因素包括:
(1)使用的目的與性質(zhì);
(2)該版權(quán)作品的性質(zhì);
(3)使用部分占被利用作品質(zhì)與量的比例;
(4)該使用對(duì)版權(quán)作品潛在市場(chǎng)或價(jià)值所產(chǎn)生的影響。
這被稱為合理使用認(rèn)定“四要素標(biāo)準(zhǔn)”。
“商業(yè)性質(zhì)的使用”最早被排斥在美國(guó)合理使用的范疇,無(wú)償使用他人作品牟利被認(rèn)為有違公平正義的一般原則。但在隨后的司法實(shí)踐中,美國(guó)法院從“四要素標(biāo)準(zhǔn)”中的“使用目的與性質(zhì)”慢慢延伸出了“轉(zhuǎn)換性使用規(guī)則”。由此,“商業(yè)性質(zhì)的使用”不再是合理使用認(rèn)定的關(guān)鍵,重要問(wèn)題是考察新作品的“轉(zhuǎn)換性”程度。
例如在備受關(guān)注的“谷歌圖書館案”中,美國(guó)聯(lián)邦第二巡回上訴法院認(rèn)為谷歌將數(shù)字化后的圖書存放于服務(wù)器,供用戶以“檢索有限文字片段的方式”發(fā)現(xiàn)所需圖書,不構(gòu)成對(duì)原有圖書購(gòu)買市場(chǎng)的替代,符合轉(zhuǎn)換性使用的要求。
高度靈活性的“四要素標(biāo)準(zhǔn)”與“轉(zhuǎn)換性使用規(guī)則”,給予美國(guó)法院在個(gè)案中認(rèn)定特定行為是否構(gòu)成合理使用存在高度的自由裁量空間,也使得論證模型訓(xùn)練適用合理使用的正當(dāng)性存在可能。
對(duì)于ChatGPT類產(chǎn)品而言,模型訓(xùn)練階段的作品使用具有較強(qiáng)的目的轉(zhuǎn)換性,即“對(duì)于作品的利用沒有將該作品的獨(dú)創(chuàng)性表達(dá)傳播給社會(huì)大眾”。新一輪AIGC內(nèi)容生成機(jī)制實(shí)際是“學(xué)習(xí)在先作品中不同文字之間排列組合的概率,或是對(duì)作品思想層面風(fēng)格、模式等的學(xué)習(xí)再生成”。因此,AIGC輸出的內(nèi)容基本不涉及完整作品(甚至作品片段)的復(fù)制利用,相較“谷歌圖書館”而言,“侵權(quán)傳播”概率更低、“轉(zhuǎn)換使用”程度更高。[6]
目前,美國(guó)行政和司法側(cè)尚未對(duì)模型訓(xùn)練階段的版權(quán)利用行為,能否適用“四要素標(biāo)準(zhǔn)”給予傾向性意見。但值得注意的是,同樣采納合理使用“四要素分析法”的以色列,已經(jīng)表示機(jī)器學(xué)習(xí)可以獲得版權(quán)法的責(zé)任豁免。在2023年1月,以色列司法部發(fā)布專門意見,支持將版權(quán)作品用于機(jī)器學(xué)習(xí)。以色列《版權(quán)法》第19節(jié)關(guān)于合理使用的規(guī)定,是以《美國(guó)版權(quán)法》第107條為藍(lán)本,這一定程度說(shuō)明“四要素分析法”的制度框架可以囊括AI模型訓(xùn)練。
但以色列司法部表示,相關(guān)責(zé)任豁免不適用于“完全以某個(gè)特定作者的作品進(jìn)行機(jī)器訓(xùn)練”,因?yàn)檫@會(huì)產(chǎn)生明顯的市場(chǎng)替代效應(yīng)。同時(shí),該意見指出責(zé)任豁免僅適用于模型訓(xùn)練階段而不涵蓋內(nèi)容輸出階段,因?yàn)榭赡艽嬖谀P椭苯虞敵銮謾?quán)內(nèi)容的情形。
規(guī)則探討:大模型訓(xùn)練能否獲得版權(quán)責(zé)任豁免
從各國(guó)版權(quán)立法實(shí)踐來(lái)看,通過(guò)“權(quán)利限制與例外制度”給予生成式人工智能研發(fā)平臺(tái)在模型訓(xùn)練階段一定的責(zé)任豁免,是一種發(fā)展趨勢(shì)。目前來(lái)看,我國(guó)現(xiàn)行法《著作權(quán)法》尚未能對(duì)模型訓(xùn)練階段的版權(quán)利用問(wèn)題加以有效涵攝,需要從“三步檢驗(yàn)法”立法標(biāo)準(zhǔn)出發(fā),思考創(chuàng)設(shè)新的版權(quán)責(zé)任豁免機(jī)制的正當(dāng)性。
1. 既有“合理使用制度”無(wú)法涵蓋大模型
訓(xùn)練我國(guó)《著作權(quán)法》第二十四條規(guī)定了“合理使用”(對(duì)于作品的利用,可以不經(jīng)版權(quán)人許可,不向其支付報(bào)酬)的具體情形,涉及AIGC模型訓(xùn)練的具體規(guī)則大致包括“個(gè)人使用”“適當(dāng)引用”“學(xué)習(xí)研究使用”等。
“個(gè)人使用”適用目的存在嚴(yán)格限制,而目前AIGC模型最終落腳于對(duì)不特定主體的商業(yè)性服務(wù),難以與之契合;“適當(dāng)引用”適用前提是“為介紹、評(píng)論說(shuō)明某一作品”或“說(shuō)明某一問(wèn)題”,AIGC模型商業(yè)化應(yīng)用上顯然難以歸于此類;“科學(xué)研究”對(duì)作品的利用限定在“學(xué)校課堂教學(xué)或者科學(xué)研究”,同時(shí)還強(qiáng)調(diào)僅能“少量復(fù)制”,AIGC模型大量復(fù)制與利用作品的現(xiàn)狀無(wú)法滿足該項(xiàng)要求。
雖然2021年修訂后的《著作權(quán)法》對(duì)于“合理使用”規(guī)定,增加了“一般要件”和“兜底條款”。但“兜底條款”是一個(gè)半開放的內(nèi)容規(guī)定——“法律、行政法規(guī)規(guī)定的其他情形”,無(wú)法在司法實(shí)踐中由法院結(jié)合“一般要件”,根據(jù)具體案情直接適用。因此,AIGC模型訓(xùn)練能否適用“合理使用”的豁免,仍有待后續(xù)《著作權(quán)法》《著作權(quán)實(shí)施條例》等相關(guān)立法的修訂加以明確。
此外,我國(guó)《著作權(quán)法》對(duì)于“法定許可”的規(guī)定較為分散,總結(jié)起來(lái)主要包括“期刊轉(zhuǎn)載”“文藝團(tuán)體表演”“錄音唱片制作錄音制品”“廣播電臺(tái)和電視臺(tái)使用他人已發(fā)表的作品制作廣播和電視節(jié)目”四大類,和模型訓(xùn)練行為差異甚大,難以匹配適用。
2.“三步檢驗(yàn)法”是判斷版權(quán)責(zé)任豁免的關(guān)鍵
從制度目標(biāo)來(lái)看,除保護(hù)版權(quán)人之外,版權(quán)法還需要服務(wù)于促進(jìn)全社會(huì)文化知識(shí)的分享、內(nèi)容傳播技術(shù)的進(jìn)步等更高層級(jí)的公共利益。所以《伯爾尼公約》、TRIPs協(xié)定以及《世界知識(shí)產(chǎn)權(quán)組織版權(quán)條約》均允許成員國(guó)對(duì)版權(quán)規(guī)定限制和例外,但都強(qiáng)調(diào)例外規(guī)定需要滿足“只能在特殊情況下做出、與作品的正常利用不相沖突,沒有不合理的損害版權(quán)人的利益”這三步檢驗(yàn)標(biāo)準(zhǔn)。
“三步檢驗(yàn)法”也是各國(guó)設(shè)立版權(quán)限制與例外規(guī)則所應(yīng)當(dāng)遵循的立法標(biāo)準(zhǔn)。如若將AIGC模型訓(xùn)練行為納入我國(guó)版權(quán)法中“權(quán)利限制與例外”體系,也應(yīng)符合這一要求。
在“三步檢驗(yàn)法”中,第一步“只能在特殊情況下做出”僅是原則性規(guī)定,目的是防止對(duì)權(quán)利的限制過(guò)于泛化而損害版權(quán)人利益,核心的判定標(biāo)準(zhǔn)仍是對(duì)于第二步“與作品的正常利用不相沖突”和第三步“沒有不合理的損害版權(quán)人的利益”的判斷。
一方面,這兩步判斷標(biāo)準(zhǔn)都具有高度抽象性,目前來(lái)看立法、司法和理論層面都未能達(dá)成統(tǒng)一共識(shí);另一方面這兩步判斷標(biāo)準(zhǔn)實(shí)際也難以完全區(qū)分,實(shí)踐中影響作品正常利用亦會(huì)導(dǎo)致版權(quán)人利益的損害,前者落腳于“行為判斷”層面,后者聚焦于“結(jié)果判斷”層面。
一般來(lái)看,“與作品的正常利用不相沖突”“沒有不合理的侵害著作權(quán)人的合法權(quán)益”大致可以總結(jié)為三個(gè)標(biāo)準(zhǔn)。
第一,特定的利用行為,是否落入版權(quán)人日常行權(quán)的范疇即“正常利用的情形”,也就是說(shuō)版權(quán)人原本是否可以通過(guò)正常授權(quán)的方式規(guī)制這一行為并獲得收益。
第二,特定的利用行為,是否對(duì)作品的傳播、利用市場(chǎng)產(chǎn)生了明顯的替代效應(yīng)。
第三,特定的利用行為,對(duì)版權(quán)人市場(chǎng)利益的沖擊和對(duì)社會(huì)公共利益的促進(jìn),二者間孰輕孰重的權(quán)衡問(wèn)題。
3. “三步檢驗(yàn)法”下如何看待大模型訓(xùn)練行為?
第一,授權(quán)自身作品進(jìn)行模型訓(xùn)練是否是一種可以預(yù)見的版權(quán)人正常利用作品的情形?如果答案是肯定的,那么豁免未經(jīng)授權(quán)的模型訓(xùn)練行為便有違“不與作品的正常使用沖突”的要求。雖然在實(shí)踐層面,全球各地的版權(quán)人目前已經(jīng)有向大模型平臺(tái)主張付費(fèi)利用的嘗試,例如Reddit等內(nèi)容平臺(tái)相繼宣布,將向Open Al、谷歌等大模型公司收取內(nèi)容使用費(fèi)。
但前文已論述,從模型訓(xùn)練階段的作品利用行為來(lái)看,除前期的“作品存儲(chǔ)”行為暫且可以納入“復(fù)制權(quán)”范疇外,更為核心的“作品處理”行為實(shí)際很難歸入版權(quán)人法定權(quán)利范疇,“既無(wú)權(quán)利、何來(lái)授權(quán)”。由此來(lái)看,目前AIGC模型對(duì)于作品內(nèi)容的訓(xùn)練在法律層面難謂是一種明確的作品“正常利用的情形”。
第二,未經(jīng)授權(quán)的模型訓(xùn)練行為是否會(huì)對(duì)被訓(xùn)練作品的潛在市場(chǎng)產(chǎn)生替代效應(yīng)?生成式人工智能顧名思義便是用來(lái)進(jìn)行內(nèi)容生成的,不管是“文生文”領(lǐng)域的ChatGPT亦或是“文生圖”領(lǐng)域的Midjourney等,生成的內(nèi)容大概率都會(huì)投入到內(nèi)容利用和傳播領(lǐng)域。
但值得注意的是,由于生成式人工智能輸出的內(nèi)容基本不存在對(duì)被訓(xùn)練作品整體甚至說(shuō)片段的復(fù)現(xiàn),例如ChatGPT模式下更多是統(tǒng)計(jì)學(xué)概率下的“文字組合”“單字引用”。所以,在目前AIGC內(nèi)容生成機(jī)制下,并不會(huì)對(duì)被訓(xùn)練作品產(chǎn)生明顯的市場(chǎng)替代效應(yīng),只是會(huì)加劇相關(guān)內(nèi)容市場(chǎng)的競(jìng)爭(zhēng)環(huán)境。但有一種例外情形,如果是僅利用單一作家或畫家的作品進(jìn)行模型訓(xùn)練,則會(huì)存在正當(dāng)性上的質(zhì)疑。因?yàn)槟P陀?xùn)練和使用者此時(shí)存在對(duì)特定版權(quán)人作品市場(chǎng)進(jìn)行侵權(quán)替代的故意可能。[7]
第三,未經(jīng)授權(quán)的模型作品訓(xùn)練行為對(duì)被訓(xùn)練作品市場(chǎng)沖擊和對(duì)公共利益促進(jìn)的平衡?本質(zhì)上,這是一種價(jià)值考量和利益平衡的過(guò)程,很難做出精確的判斷。AIGC發(fā)展方興未艾,其對(duì)于整個(gè)人類社會(huì)的影響具有無(wú)限可能,有人稱贊其誕生價(jià)值不亞于個(gè)人電腦與互聯(lián)網(wǎng),還有人甚至將其等同于一場(chǎng)新的“工業(yè)革命”。
雖然模型訓(xùn)練對(duì)于在先版權(quán)人正常行權(quán)與既有市場(chǎng)的現(xiàn)實(shí)影響仍有待評(píng)估,但對(duì)于被訓(xùn)練內(nèi)容授權(quán)付費(fèi)的過(guò)度強(qiáng)調(diào),無(wú)疑會(huì)對(duì)人工智能行業(yè)的技術(shù)進(jìn)步和產(chǎn)業(yè)發(fā)展帶來(lái)極大的阻礙影響。2023年2月20日,韓國(guó)經(jīng)濟(jì)部長(zhǎng)會(huì)議發(fā)布了《新增長(zhǎng)4.0推進(jìn)計(jì)劃》,在第三部分“關(guān)鍵舉措”和第四部分“未來(lái)規(guī)劃”,兩次指出需要“為促進(jìn)ChatGPT等人工智能服務(wù)創(chuàng)新的發(fā)展,推動(dòng)版權(quán)法的修訂,允許在數(shù)據(jù)分析中使用版權(quán)作品,以發(fā)展超大規(guī)模的人工智能”。
路徑展望:思考大模型時(shí)代新的“合理使用”機(jī)制
目前來(lái)看,對(duì)于AIGC模型訓(xùn)練采用“法定許可模式”,現(xiàn)實(shí)中存在一系列難以克服的難題。鑒于AIGC模型訓(xùn)練行為本身的特殊性,更宜采取一種附限制條件的“合理使用”模式,在明確其適用商業(yè)目的的基礎(chǔ)下,賦予版權(quán)人“享有以適當(dāng)方式保留模型訓(xùn)練的權(quán)利”,從而實(shí)現(xiàn)更為邏輯周延和利益衡平的具體規(guī)則設(shè)計(jì)。如何構(gòu)建AIGC時(shí)代的版權(quán)“合理使用”機(jī)制,需要思考以下幾個(gè)問(wèn)題關(guān)注。
關(guān)注一,思考責(zé)任豁免機(jī)制的應(yīng)用范圍。從實(shí)踐出發(fā),不宜將責(zé)任豁免的模型訓(xùn)練目的限縮于非商業(yè)領(lǐng)域。
關(guān)注二,思考責(zé)任豁免機(jī)制的適用前提。需要明確適用的前提是“賦予版權(quán)人享有以適當(dāng)方式保留模型訓(xùn)練的權(quán)利”。
關(guān)注三,思考責(zé)任豁免機(jī)制的核心條件。一方面,應(yīng)當(dāng)注意AIGC模型訓(xùn)練豁免的作品利用行為需要囊括“復(fù)制”。另一方面,需要注意此種責(zé)任豁免,應(yīng)當(dāng)嚴(yán)格限制于模型訓(xùn)練之目的,不得從事版權(quán)人享有的現(xiàn)行法保護(hù)和規(guī)制的其他傳播行為。
參考資料來(lái)源
[1]深層思考,“學(xué)習(xí)訓(xùn)練行為”,作用的對(duì)象是在先作品中的“思想”而非版權(quán)保護(hù)的“表達(dá)”。在“思想表達(dá)二分法”規(guī)則之下,模型“學(xué)習(xí)訓(xùn)練行為”存在納入版權(quán)權(quán)利框架的根本障礙
[2]參見朱開鑫、張藝群:《“你的AI侵犯了我的版權(quán)”:淺談AIGC背后的版權(quán)保護(hù)問(wèn)題》,騰訊研究院公號(hào)
[3]參見“知產(chǎn)北京”公眾號(hào),https://mp.weixin.qq.com/s/bsOtnaN4DTl_wSD1KxUm4g
[4]參見朱開鑫:《“AI孫燕姿”背后的版權(quán)迷宮》,騰訊研究院公眾號(hào)https://mp.weixin.qq.com/s/fDk_w-CqnTNsZYbgG9Q2yA
[5]參見:文化廳:著作権法の一部を改正する法律 概要説明資料,網(wǎng)址:https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/pdf/r1406693_02.pdf
[6]參見司曉:《奇點(diǎn)來(lái)臨:ChatGPT 時(shí)代的著作權(quán)法走向何處?——兼回應(yīng)相關(guān)論點(diǎn)》,載《探索與爭(zhēng)鳴》2023年第5期
[7]參見朱開鑫:《ChatGPT生成的內(nèi)容,是否享有版權(quán)?》,騰訊研究院公眾號(hào)https://mp.weixin.qq.com/s/3_IVPrfdrDqS8uZeC7YsuQ
