大模型訓(xùn)練問題存在于生成式人工智能生命周期的伊始,如不能妥善解決,大模型的研發(fā)便始終處于備受爭議的狀態(tài)。在近日舉行的“涉大模型著作權(quán)法問題研討會(huì)暨人工智能相關(guān)案件的司法應(yīng)對(duì)研究課題開題會(huì)”上,與會(huì)嘉賓圍繞大模型訓(xùn)練中的作品使用問題,從多個(gè)角度進(jìn)行了探討。
厘清問題還需溯清源頭
眾所周知,人工智能之所以能夠高效且準(zhǔn)確地生成邏輯性內(nèi)容,得益于其背后持續(xù)深度學(xué)習(xí)的大模型。然而,大模型的訓(xùn)練語料源自海量數(shù)據(jù)的搜集與整合,這一過程潛在地觸及侵犯個(gè)人、企業(yè)合法著作權(quán)權(quán)益,乃至公共利益的法律風(fēng)險(xiǎn)。
北京大學(xué)法學(xué)院教授、北京大學(xué)武漢人工智能研究院副院長張平認(rèn)為,看待此問題需要調(diào)整視角。“以往我們?cè)谔接懼R(shí)產(chǎn)權(quán)問題時(shí),往往以結(jié)果為導(dǎo)向,關(guān)注侵權(quán)行為及其法律后果。然而,隨著人工智能技術(shù)的興起,我們必須將焦點(diǎn)前移至數(shù)據(jù)的獲取和使用階段,從源頭上追究其合法性。”張平說。
除此之外,張平還觀察到了當(dāng)前AI訓(xùn)練數(shù)據(jù)面臨高質(zhì)量數(shù)據(jù)授權(quán)難的困境。她提到,音樂、視頻、圖書等高質(zhì)量數(shù)據(jù)均受《著作權(quán)法》保護(hù),授權(quán)過程復(fù)雜且受限,數(shù)據(jù)購買雖可行,但難以獲取全部所需數(shù)據(jù);爬蟲技術(shù)獲取的數(shù)據(jù)質(zhì)量參差不齊,且易涉及版權(quán)問題;公有領(lǐng)域數(shù)據(jù)雖可用,但受國際貿(mào)易壁壘和貿(mào)易保護(hù)主義影響,中國企業(yè)和個(gè)人常受限。
摸清情況,方可對(duì)癥下藥。新浪集團(tuán)法務(wù)部訴訟總監(jiān)張喆指出,在探討大模型訓(xùn)練中的法律問題時(shí),人們往往將作品與數(shù)據(jù)混為一談,這導(dǎo)致了許多復(fù)雜問題的產(chǎn)生。在討論這一問題時(shí),必須將作品與數(shù)據(jù)區(qū)分開來。張喆進(jìn)一步解釋了作品與數(shù)據(jù)的區(qū)別。以微博為例,如果想要獲取微博上的文字信息,可以直接復(fù)制粘貼,但如果想要從數(shù)據(jù)層面獲取,則需要通過爬蟲技術(shù)獲取代碼。這種區(qū)分對(duì)于判斷行為是否侵權(quán)以及確定保護(hù)路徑至關(guān)重要。張喆還強(qiáng)調(diào)了大模型訓(xùn)練中的獲取、輸入、輸出和使用4個(gè)環(huán)節(jié)中,獲取環(huán)節(jié)尤為重要,因?yàn)樗鼪Q定了后續(xù)行為的合法性。
中國社會(huì)科學(xué)院大學(xué)法學(xué)院副教授、中國社會(huì)科學(xué)院大學(xué)互聯(lián)網(wǎng)法治研究中心主任劉曉春認(rèn)為,人工智能訓(xùn)練數(shù)據(jù)的使用并非針對(duì)特定作品的使用,而是一種非特定性、過程性的使用。劉曉春建議將這種非特定性使用行為從傳統(tǒng)的復(fù)制行為中排除出去,并強(qiáng)調(diào)人工智能工具可能成為一個(gè)非?;A(chǔ)性的增強(qiáng)型工具,其后續(xù)衍生式創(chuàng)新情況可能非常多。
華東政法大學(xué)法律學(xué)院教授王遷指出,中國目前缺乏成熟的集體管理機(jī)制和工會(huì)集體談判機(jī)制,如果要求人工智能企業(yè)使用作品訓(xùn)練AI必須經(jīng)過許可,這可能會(huì)導(dǎo)致許可難題。
多國經(jīng)驗(yàn)提供參考
人工智能發(fā)展腳步飛速,目前各國版權(quán)立法尚未能作出針對(duì)性的調(diào)整,但一些國家為促進(jìn)本國新興產(chǎn)業(yè)發(fā)展,已經(jīng)進(jìn)行了探索。
中國人民大學(xué)法學(xué)院副教授、中國人民大學(xué)未來法治研究院執(zhí)行院長張吉豫指出,隨著數(shù)字科技的飛速發(fā)展,各國版權(quán)制度都在不斷適應(yīng)這一變化。例如,日本在《著作權(quán)法》中引入了非享受性使用例外,歐盟在數(shù)字單一市場版權(quán)指令中特別規(guī)定了兩種類型的文本數(shù)據(jù)挖掘利用,而美國則主要通過合理使用四要素來進(jìn)行判斷。相比之下,我國在合理使用制度上還需進(jìn)行進(jìn)一步的價(jià)值判斷和具體回應(yīng)。
北京市律師協(xié)會(huì)數(shù)字經(jīng)濟(jì)與人工智能領(lǐng)域法律專業(yè)委員會(huì)副主任、北京市海淀區(qū)律師協(xié)會(huì)網(wǎng)絡(luò)與高新技術(shù)研究會(huì)副主任吳凡表示,國內(nèi)外在大模型訓(xùn)練階段由版權(quán)所引發(fā)的糾紛層出不窮,這一問題不僅關(guān)系到模型訓(xùn)練的合法性,也決定了后續(xù)人工智能輸出的正當(dāng)性。
王遷表示,人工智能大模型在訓(xùn)練過程中,往往需要使用大量作品作為數(shù)據(jù)支撐,這一行為多數(shù)情況會(huì)涉及對(duì)作品的永久性復(fù)制。在著作權(quán)領(lǐng)域,永久性復(fù)制通常被視為受復(fù)制權(quán)控制的行為,因此,關(guān)于使用作品訓(xùn)練人工智能是否構(gòu)成侵權(quán),或是否屬于合理使用,在國內(nèi)外學(xué)術(shù)界均存在爭議。盡管我國《著作權(quán)法》中關(guān)于合理使用的相關(guān)規(guī)定,現(xiàn)有權(quán)利限制中并沒有直接適用于人工智能訓(xùn)練數(shù)據(jù)的情形,特別是“研究性使用”這一合理使用情形,其主體通常為“個(gè)人”或“科研人員”,而人工智能訓(xùn)練數(shù)據(jù)的使用往往出于商業(yè)目的,不符合這一條件。
廈門大學(xué)知識(shí)產(chǎn)權(quán)研究院教授龍小寧則從經(jīng)濟(jì)學(xué)角度對(duì)人工智能訓(xùn)練中的作品使用問題進(jìn)行了分析。他比較了美國和歐盟在應(yīng)對(duì)人工智能法律挑戰(zhàn)時(shí)的不同路徑,并指出美國雖然未推出AI相關(guān)法律,但其AI產(chǎn)業(yè)高速發(fā)展;歐盟雖然出臺(tái)了系列AI相關(guān)法律文件,但其產(chǎn)業(yè)發(fā)展相對(duì)緩慢。龍小寧認(rèn)為,這對(duì)我國提供了啟示,即在對(duì)待人工智能法律問題時(shí),可以選擇對(duì)現(xiàn)有法律進(jìn)行修訂,添加例外條款,以減少限制;或者針對(duì)人工智能制定新法,以規(guī)范產(chǎn)業(yè)發(fā)展。
尋找適合中國的解決方案
無論是出于激勵(lì)作品創(chuàng)作的目的,還是著眼于促進(jìn)國內(nèi)生成式人工智能產(chǎn)業(yè)的發(fā)展,解決大模型訓(xùn)練中的作品使用的問題都具有現(xiàn)實(shí)必要性。
在探討模型訓(xùn)練階段版權(quán)問題的解決方案時(shí),吳凡建議,人們需要區(qū)分階段和行為來逐一討論模型訓(xùn)練中的版權(quán)問題。同時(shí),他也強(qiáng)調(diào)了建立訓(xùn)練庫或語料庫的重要性,并指出了在作品輸入或存儲(chǔ)環(huán)節(jié)中需要關(guān)注復(fù)制權(quán)的問題。此外,他還提到了為權(quán)利人保留退出機(jī)制和補(bǔ)償機(jī)制的重要性。
王遷提出了在《著作權(quán)法實(shí)施條例》中新設(shè)一項(xiàng)權(quán)利限制的建議。他認(rèn)為,至少在一定時(shí)間內(nèi)允許人工智能企業(yè)使用作品來訓(xùn)練人工智能是可行的,但需要在盈利后探討利益分享機(jī)制。
北京大學(xué)法學(xué)院教授、北京大學(xué)國際知識(shí)產(chǎn)權(quán)研究中心主任易繼明指出,合理使用制度在人工智能訓(xùn)練數(shù)據(jù)使用中具二元價(jià)值:保障公共利益和言論自由。他強(qiáng)調(diào),分析合理使用需考慮雙重構(gòu)造:基于目的、使用性質(zhì)的場景轉(zhuǎn)換,以及基于技術(shù)變革的轉(zhuǎn)換性使用(可能構(gòu)成“二次創(chuàng)作”)。他建議結(jié)合產(chǎn)業(yè)發(fā)展實(shí)踐,形成符合中國國情的著作權(quán)保護(hù)制度,以促進(jìn)人工智能技術(shù)健康發(fā)展。
“隨著人工智能技術(shù)的不斷發(fā)展,著作權(quán)領(lǐng)域的問題將越來越凸顯。我們需要法學(xué)界、實(shí)務(wù)界和技術(shù)界共同努力,加強(qiáng)合作與交流,共同探索更加完善的版權(quán)保護(hù)制度,為人工智能技術(shù)的健康發(fā)展提供堅(jiān)實(shí)的法律支撐。”北京知識(shí)產(chǎn)權(quán)法研究會(huì)副會(huì)長兼執(zhí)行秘書長、北京市海淀區(qū)律師協(xié)會(huì)副會(huì)長吳子芳表示。
