隨著數(shù)字時代和人工智能的蓬勃發(fā)展,以大量數(shù)據(jù)集為核心的語料庫成為人工智能大模型產(chǎn)業(yè)發(fā)展的基石與動能。語料庫具有極高的產(chǎn)業(yè)經(jīng)濟價值。據(jù)統(tǒng)計,2023年全球人工智能訓(xùn)練數(shù)據(jù)語料庫市場規(guī)模價值達(dá)23.9億美元。
基于數(shù)據(jù)與作品的價值重疊,以及人工智能服務(wù)提供者與語料提供者的主體分離,語料庫獲取作品數(shù)據(jù)的行為在國內(nèi)外引發(fā)了諸多版權(quán)爭議。

作者簡介:付麗霞,女,法學(xué)博士, 中南財經(jīng)政法大學(xué)知識產(chǎn)權(quán)研究中心講師,德國馬克斯·普朗克創(chuàng)新與競爭研究所訪問學(xué)者。
規(guī)則不明引數(shù)據(jù)使用糾紛
在人工智能語料庫的建設(shè)過程中,語料數(shù)據(jù)的合法獲取是目前爭議較大的版權(quán)難題。究其緣由,語料數(shù)據(jù)獲取過程中不可避免地會使用受版權(quán)保護的作品數(shù)據(jù),對于此類作品數(shù)據(jù)獲取是否需要授權(quán)仍然存疑??傮w而言,現(xiàn)階段人工智能語料庫的數(shù)據(jù)獲取主要分為以下三大路徑:公開數(shù)據(jù)收集、商務(wù)合作采買、非電子數(shù)據(jù)自行收集。公開數(shù)據(jù)收集路徑即從互聯(lián)網(wǎng)公開的內(nèi)容進行抓取、爬取,但公開并不意味著進入公有領(lǐng)域,許多作品的使用仍屬于版權(quán)保護的范圍,抓取、爬取的合理界限并不明晰;商務(wù)合作采買路徑中,語料庫的數(shù)據(jù)大多從平臺、公司等數(shù)據(jù)控制者手中對價獲得,但版權(quán)授權(quán)鏈條的合法性仍有進一步探究的空間,實踐中,權(quán)利人自己可能都不清楚其數(shù)據(jù)被數(shù)據(jù)控制者用于人工智能語料庫建設(shè);非電子數(shù)據(jù)自行收集路徑中,此類并未在互聯(lián)網(wǎng)公開的作品數(shù)據(jù)是否應(yīng)當(dāng)先授權(quán)再付費使用仍需考量。
實踐中已有諸多此類糾紛,2024年9月,德國漢堡法院就曾審理未經(jīng)授權(quán)使用他人攝影作品用于制作LAION數(shù)據(jù)集的版權(quán)糾紛案件;同年7月,番茄小說簽約作者的全部或部分內(nèi)容及相關(guān)信息被強制要求作為數(shù)據(jù)用于人工智能語料庫的版權(quán)糾紛。理論界對于這一問題亦有所爭議,究竟語料庫的數(shù)據(jù)獲取該如何進行版權(quán)規(guī)制:實質(zhì)文本數(shù)據(jù)挖掘說、擴張性合理使用說、一般授權(quán)許可說、法定許可引入說等觀點不斷涌現(xiàn),但仍存爭議。
技術(shù)創(chuàng)新是制度變革重要參照
技術(shù)創(chuàng)新能力、產(chǎn)業(yè)發(fā)展現(xiàn)狀與國際戰(zhàn)略布局是一國版權(quán)制度變革的重要參照。當(dāng)前,世界各國都在加緊進行人工智能備賽,語料庫數(shù)據(jù)獲取的版權(quán)問題是全球的共性問題,但各國應(yīng)對方案卻各不相同。
美國對合理使用規(guī)則采取了觀望適用。在谷歌圖書案到OpenAI系列案件、Stability AI系列案件中,有關(guān)于語料庫數(shù)據(jù)收集行為是否滿足《美國版權(quán)法》第107條中合理使用“四要素判定”要求爭論不休。然而,面對如此多的實踐糾紛,美國并未出臺相關(guān)明確語料庫作品數(shù)據(jù)收集的版權(quán)規(guī)則,而是等待司法實踐判決與市場自由調(diào)節(jié),從而給予人工智能產(chǎn)業(yè)發(fā)展的空間,亦為版權(quán)制度變革指明方向。
德國則對文本數(shù)據(jù)挖掘版權(quán)例外的謹(jǐn)慎適用。從LAION數(shù)據(jù)集案件的判決可以看出,法院根據(jù)《德國著作權(quán)法》第44a、44b、60d對語料庫在線作品數(shù)據(jù)獲取的行為進行了版權(quán)層面的定性。一方面,該行為是非短暫性的、非伴隨性的,并非第44a條的臨時復(fù)制,應(yīng)屬于版權(quán)人控制的權(quán)利范疇;另一方面,該行為符合第44b條中文本數(shù)據(jù)挖掘的行為特點,但必須滿足第60d條的“科研目的”與“非營利”主體性質(zhì)才可適用文本數(shù)據(jù)挖掘版權(quán)例外。
日本采取了柔性寬松的版權(quán)例外應(yīng)對方案。為應(yīng)對人工智能產(chǎn)業(yè)發(fā)展對版權(quán)制度的挑戰(zhàn),《日本著作權(quán)法》第30條之4、47條之4、47條之5分別規(guī)定了多場景下版權(quán)例外規(guī)則:非享受型作品使用例外、計算機附隨性使用例外、信息處理輕微利用例外。前述條款被認(rèn)為是信息分析活動中使用作品免責(zé)的“尚方寶劍”,因此也有學(xué)者認(rèn)為日本是“機器學(xué)習(xí)的天堂”,人工智能產(chǎn)業(yè)發(fā)展的福地。
雖然,目前日本并未明確人工智能語料庫作品數(shù)據(jù)獲取的行為是否能夠適用前述條款,但也為其彈性解釋留有空間。
建立更加合規(guī)高效供應(yīng)模式
雖然DeepSeek的問世加速了我國人工智能產(chǎn)業(yè)的發(fā)展,但不可否認(rèn)的是我國和日本、德國一樣,仍處于技術(shù)追趕國家隊列,因此如何正確應(yīng)對語料庫作品數(shù)據(jù)獲取的版權(quán)爭議需要慎重考慮。
一方面,過度放大版權(quán)人權(quán)益會制約人工智能語料庫的建設(shè)速率,亦會使得語料數(shù)據(jù)的及時性無法得到滿足。例如,DeepSeek APP版本的數(shù)據(jù)是截至2023年10月,很多網(wǎng)友在使用在線問答功能時會無法獲得最新資訊。另一方面,過度強調(diào)產(chǎn)業(yè)發(fā)展亦會剝奪版權(quán)人權(quán)利,削弱制度創(chuàng)新激勵的效用,加速智能時代“機器作者”的替代效應(yīng)?;诖耍P者認(rèn)為可以從以下三個層面展開:
一是明確語料庫的版權(quán)規(guī)制原則。人工智能技術(shù)的進步與版權(quán)制度的優(yōu)化是在互動中前進的,語料庫作品數(shù)據(jù)獲取的版權(quán)問題解決不能僅著眼于回應(yīng)問題本身,還需考量版權(quán)人—語料庫建設(shè)者—人工智能公司—用戶的多元價值訴求,以及革新版權(quán)規(guī)則的外部性效應(yīng),保障高質(zhì)量、多樣化、可持續(xù)的語料供給。
二是實施分類治理的版權(quán)規(guī)制方案。首要回答的是,對不同渠道獲得作品數(shù)據(jù)的行為是進行差異性版權(quán)評價,還是進行單一性版權(quán)評價?筆者認(rèn)為,人工智能語料庫的數(shù)據(jù)獲取是新時期產(chǎn)業(yè)發(fā)展的新問題,如若仍需從不同渠道進行分類評價,那對于渠道的判定則成為了重點,可能會進入技術(shù)性立法的陷阱中。然而,不同的人工智能語料庫有不同的建設(shè)目的,亦有不同的作品數(shù)據(jù)選擇,同一作品數(shù)據(jù)在不同語料庫中的價值亦不相同,故應(yīng)從語料庫的性質(zhì)出發(fā)進行行為性質(zhì)考量與版權(quán)規(guī)則設(shè)計。具言之,可針對商業(yè)與非商業(yè)、通用語料庫與專業(yè)語料庫等分類設(shè)置合理使用、法定許可、文本數(shù)據(jù)挖掘版權(quán)例外等規(guī)則,利用差異化的版權(quán)規(guī)則應(yīng)對實踐訴求,平衡各方利益。
三是構(gòu)建語料庫登記公示備案制度。為了保障版權(quán)人對于作品數(shù)據(jù)納入語料庫的知情權(quán),便于版權(quán)人進行檢索與監(jiān)督,可以建立公示備案制度,并搭建全國性的語料庫數(shù)據(jù)信息檢索平臺,保障版權(quán)制度的有效實施。除此之外,可嘗試對接已有數(shù)據(jù)登記平臺,在既有資源的基礎(chǔ)上,實現(xiàn)數(shù)據(jù)最大程度地流通,以公共數(shù)據(jù)的開放、集成、共享,搭建起語料庫作品數(shù)據(jù)的基礎(chǔ)要素設(shè)施,以商業(yè)數(shù)據(jù)的高質(zhì)、高效實現(xiàn)語料庫的高質(zhì)量數(shù)據(jù)供給。
