編者按
在生成式人工智能數(shù)據(jù)訓(xùn)練過程中,未經(jīng)版權(quán)人許可的作品使用行為面臨著侵權(quán)風(fēng)險(xiǎn)。本文作者認(rèn)為,著作權(quán)法應(yīng)將此種作品使用行為納入合理使用范疇,并從合法來源要求、權(quán)利人“選擇—退出”機(jī)制、模型提供者承擔(dān)披露訓(xùn)練內(nèi)容的義務(wù)3個(gè)方面設(shè)置適用限制條件,明晰版權(quán)人權(quán)益與生成式人工智能數(shù)據(jù)訓(xùn)練合法性的界限。
開發(fā)生成式人工智能模型,需要以海量文本、圖像、視頻等包含受版權(quán)保護(hù)的作品作為語料進(jìn)行數(shù)據(jù)訓(xùn)練,若未經(jīng)權(quán)利人許可,則面臨版權(quán)侵權(quán)風(fēng)險(xiǎn)。數(shù)據(jù)訓(xùn)練中的作品使用行為構(gòu)成侵權(quán)抑或合理使用,已成為實(shí)踐中相關(guān)糾紛的核心爭議焦點(diǎn)。我國合理使用制度采用封閉式的立法技術(shù),現(xiàn)行著作權(quán)法窮盡式列舉的合理使用條款無法涵蓋這一新興場景下的作品使用行為。因此,在期待司法予以能動回應(yīng)的同時(shí),有必要探索如何革新著作權(quán)法規(guī)則,以明晰版權(quán)人權(quán)益與生成式人工智能數(shù)據(jù)訓(xùn)練合法性的界限,兼顧版權(quán)保護(hù)與產(chǎn)業(yè)發(fā)展。
納入合理使用范疇
筆者認(rèn)為,基于生成式人工智能數(shù)據(jù)訓(xùn)練對作品使用具有轉(zhuǎn)換性目的的技術(shù)本質(zhì),可以考慮將其納入合理使用范疇。生成式人工智能是計(jì)算機(jī)深度學(xué)習(xí)算法的一大應(yīng)用,其通過數(shù)據(jù)訓(xùn)練提取、學(xué)習(xí)文字、圖像、音符等符號的分布規(guī)律和組合特征。海量數(shù)據(jù)訓(xùn)練旨在增強(qiáng)生成模型的泛化性能,即確保模型能夠準(zhǔn)確處理來自相同數(shù)據(jù)分布的新樣本,使其面對未知用戶指令仍能靈活生成內(nèi)容??梢?,作品作為訓(xùn)練語料的意義在于提高生成模型類似于人類學(xué)習(xí)過程中的“理解”能力,而非再現(xiàn)作品的具體表達(dá)并供公眾欣賞其藝術(shù)價(jià)值。實(shí)際上,如果模型因過度記憶訓(xùn)練語料而輸出與語料實(shí)質(zhì)相似的內(nèi)容,將被視為技術(shù)錯(cuò)誤。
將生成式人工智能數(shù)據(jù)訓(xùn)練納入合理使用范疇使之合法化,也符合著作權(quán)法促進(jìn)文學(xué)藝術(shù)作品創(chuàng)作與傳播的公共利益要求。經(jīng)過技術(shù)的不斷迭代,人工智能已能生成外觀上與人類創(chuàng)作作品幾乎無異的內(nèi)容,在質(zhì)量上能夠滿足一定程度的欣賞需求。例如,中央廣播電視總臺推出的微短劇《中國神話》,借助“文生圖”“圖生視頻”等生成式人工智能技術(shù)拓展了人們對神話的常規(guī)想象,再通過經(jīng)典意象和當(dāng)下人類社會的深度鏈接,給觀眾帶來了前所未有的視聽享受。作為人類創(chuàng)作的輔助工具,生成式人工智能可以豐富創(chuàng)作素材,提升創(chuàng)作效率與質(zhì)量,由此促進(jìn)文藝繁榮。因此,為解決人工智能版權(quán)侵權(quán)風(fēng)險(xiǎn)與其作品使用需求之間的矛盾,合理使用是具有正當(dāng)性的制度選擇。
合理確定限制條件
由于版權(quán)作品被用于數(shù)據(jù)訓(xùn)練能夠創(chuàng)造商業(yè)收益,且高質(zhì)量的生成內(nèi)容可能構(gòu)成對版權(quán)作品潛在市場的競爭替代,因此,作品用于數(shù)據(jù)訓(xùn)練事實(shí)上已成為人工智能時(shí)代新的作品利用形式,如何保障權(quán)利人的利益是不容忽視的問題。在合理使用的具體規(guī)則中,應(yīng)當(dāng)通過適用限制條件的合理設(shè)計(jì)解決此問題。參考域外的立法探索,可以從合法來源要求、權(quán)利人“選擇—退出”機(jī)制、模型提供者承擔(dān)披露訓(xùn)練內(nèi)容的義務(wù)3方面進(jìn)行限制。
合法來源要求意味著作品應(yīng)當(dāng)是通過訂閱等合同安排獲得權(quán)利人授權(quán),或是基于合理使用、法定許可等規(guī)則而合法接觸的,否則將作品用于數(shù)據(jù)訓(xùn)練仍需獲得授權(quán)。通過這一限制,權(quán)利人仍能夠保護(hù)其版權(quán)內(nèi)容,通過收取訪問費(fèi)用等方式保障其經(jīng)濟(jì)利益。需注意的是,還應(yīng)明確權(quán)利人仍能夠采取技術(shù)保護(hù)措施。對于已設(shè)置反爬蟲措施或防抓取措施的網(wǎng)絡(luò)內(nèi)容,經(jīng)破解后接觸作品的,也屬于非法接觸,排除合理使用規(guī)則的適用。
“選擇—退出”機(jī)制賦予權(quán)利人主動決定其作品是否參與生成式人工智能數(shù)據(jù)訓(xùn)練的權(quán)利。這一機(jī)制在實(shí)踐中已被廣泛應(yīng)用,成為平衡技術(shù)進(jìn)步與版權(quán)保護(hù)的重要工具。例如,法國音樂作曲家、作者和出版者協(xié)會在2023年10月發(fā)表聲明,稱將選擇退出其曲目作品的機(jī)器學(xué)習(xí),表示使用其曲目作品須獲得授權(quán),并明確協(xié)商利用條件。再如,某人工智能公司創(chuàng)建了網(wǎng)站,該網(wǎng)站允許創(chuàng)作者選擇退出生成模型的訓(xùn)練數(shù)據(jù)集,截至2024年4月已有10億余件藝術(shù)作品退出。公眾耳熟能詳?shù)墓雀?、微軟、Open AI公司亦通過擴(kuò)展爬蟲協(xié)議,為權(quán)利人提供便捷的選項(xiàng),允許他們將網(wǎng)絡(luò)作品排除在相關(guān)模型訓(xùn)練之外。
“選擇—退出”機(jī)制介于數(shù)據(jù)訓(xùn)練使用作品的授權(quán)模式和傳統(tǒng)合理使用模式二者之間,是人工智能時(shí)代加強(qiáng)權(quán)利人保護(hù)與促進(jìn)產(chǎn)業(yè)發(fā)展二者間的妥協(xié)方案。在這一機(jī)制下,除非權(quán)利人主動行使退出權(quán),否則作品原則上可被用于數(shù)據(jù)訓(xùn)練而無需個(gè)別授權(quán),由此能夠降低版權(quán)許可的高昂成本,也緩解了因獲得許可困難而導(dǎo)致的訓(xùn)練語料匱乏,以及因此加劇的算法偏見等問題。同時(shí),區(qū)別于傳統(tǒng)合理使用模式偏向絕對性的自由無償使用,版權(quán)人有權(quán)保留其作品被無償?shù)赜糜跀?shù)據(jù)訓(xùn)練,通過行使選擇退出權(quán)以此換取協(xié)商議價(jià)空間,增強(qiáng)在許可談判中的議價(jià)能力。“選擇—退出”機(jī)制的靈活方案能夠適應(yīng)技術(shù)變革,既考慮到人工智能時(shí)代對數(shù)據(jù)處理的需求,又兼顧權(quán)利人的合法權(quán)益,有助于解決傳統(tǒng)合理使用模式可能對權(quán)利人造成不合理損害的適用困境。
模型提供者承擔(dān)披露訓(xùn)練內(nèi)容的義務(wù),這一要求根植于生成式人工智能數(shù)據(jù)訓(xùn)練的固有不可追溯特性與日益增長的透明度需求之中。以聊天機(jī)器人等大型語言模型為例,在其數(shù)據(jù)訓(xùn)練過程中,海量的書籍等文本資料被轉(zhuǎn)化為數(shù)十億計(jì)的序列數(shù)據(jù),隨后,算法會計(jì)算這些序列中每個(gè)語詞后續(xù)語詞出現(xiàn)的概率。然而,由于模型最終僅保留了原始語料的概率統(tǒng)計(jì)表示形式,因此,基于此類模型輸出的句子、文章等具體內(nèi)容,往往難以追溯其特定的原始來源。
正是基于這一背景,要求模型提供者公開其訓(xùn)練內(nèi)容,以提升數(shù)據(jù)訓(xùn)練過程的透明度,顯得尤為重要。這一做法不僅能夠有效保障權(quán)利人對其作品使用情況的知情權(quán),而且還是權(quán)利人有效行使退出權(quán)的重要前提。換言之,權(quán)利人只有充分了解其作品如何被用于模型訓(xùn)練后,才能做出是否允許其作品被用于此類用途的決定。
此外,訓(xùn)練內(nèi)容的公開披露還有助于簡化輸出端可能出現(xiàn)的侵權(quán)判斷過程。當(dāng)監(jiān)督機(jī)構(gòu)或權(quán)利人需要判斷某一作品是否被非法地、專門用于生成實(shí)質(zhì)性相似的表達(dá)時(shí),公開的訓(xùn)練內(nèi)容將成為重要的參考依據(jù),從而大大降低侵權(quán)判定的難度和復(fù)雜性。因此,模型提供者披露訓(xùn)練內(nèi)容的義務(wù),不僅是透明度和知情權(quán)保障的體現(xiàn),也是維護(hù)創(chuàng)作生態(tài)健康、促進(jìn)技術(shù)創(chuàng)新與版權(quán)保護(hù)和諧共生的關(guān)鍵一環(huán)。
