AI對作品的“學習”使用,已經落入需要獲取著作權人許可的范疇,至少需要支付購買合法復制品的對價。如果任由AI全網爬取免費學習資源而無需支付合理對價,相對于常規(guī)學習中需要購買教材、支付學費的自然人,難言公平——
從西漢匡衡的鑿壁偷光、旁聽私塾的佳話,到孔乙己“竊書不算偷”的趣談;再從課堂朗讀、背誦詩文,到美術生臨摹畫作、雕塑,很少有著作權人對他人單純學習其作品的行為提出異議。但是,隨著AI大模型學習的出現(xiàn),著作權人越來越反對AI大模型未經許可學習其作品。那么,AI學習和人類學習有什么差別?AI學習作品需要獲取著作權人許可嗎?
AI學習與人類學習同為“利用”,是否應同等看待?
人類的學習活動通常被認為是人類個體內在的認知過程,且所獲取信息的認知程度存在明顯的個體差異。信息通過視覺、聽覺甚至觸覺進入大腦,經過人類特有的理解、消化、遺忘、重構,形成了對信息內容的不同程度地吸收,并在特定條件下可能產生對既往吸收信息內容不同程度的調取、輸出和各種形式的利用。最簡單的學習場景,莫過于自然人個體閱讀一首詩歌,了解詩歌文字表達出的字面含義;進而對詩歌進行背誦、默寫,顯然涉及到對作品的“復制”和“再現(xiàn)”,但仍屬于普遍被接受的學習行為;在學習詩歌基礎上,寫成風格類似的原創(chuàng)詩歌,雖然也涉及一定程度上對在先作品的利用,但通常也會被認為是可以接受的學習成果;如果對詩歌進行修改、擴寫,則突破了常規(guī)的學習范疇。
AI學習通常涉及數(shù)據收集與預處理、分詞處理、神經網絡訓練和微調四個階段,每個階段都涉及到對作品內容的直接使用。在數(shù)據收集與預處理階段,AI 需要使用者錄入作品或通過互聯(lián)網自動爬取作品并儲存在本地服務器中,形成新的作品復制件;在分詞處理階段,AI通常將文本轉換為數(shù)值形式,即將單詞、子詞或字符映射為唯一的數(shù)值token。在此階段,文本轉換為數(shù)值,是由人類語言轉換為機器語言。而在神經網絡訓練和微調兩個階段,也不可避免地調用已經轉化為機器語言的作品內容,并按AI預設或使用者要求,復制、修改、改編已有作品,抑或調用已有作品的“風格”參數(shù)生成“新成果”。
由此可見,相對于人類學習某一作品,AI學習該作品后也能輸出看似與人類一樣的背誦、改寫,抑或類似風格的“學習成果”。其模仿人類學習的過程,本質上是信息數(shù)據的錄入、分析和按要求輸出,雖然與人類的認知行為目前在存儲、調用機理上存在差異,但從行為表現(xiàn)上并無本質差別,都涉及對作品不同程度的利用。
版權許可必然成為合作新趨勢
基于著作權制度逐漸完善的歷史和不斷積累的《著作權法》保護實踐,《著作權法》規(guī)定了著作權人就其作品所享有的權利種類,以及無需著作權人許可即可使用作品的合理使用制度。人類學習某一作品之所以無需獲取著作權人的許可,是因為《著作權法》在賦予著作權人專有權利基礎上,對其著作權進行了合理限制和權利讓渡,這是對著作權人和公眾利益的平衡設置?!吨鳈喾ā吩试S自然人個體在通過合法渠道獲取作品或作品復制件后,通過閱讀、欣賞作品,吸收作品表達所承載的信息,并在合理使用范圍內對作品加以利用。
著作權制度和現(xiàn)行《著作權法》體系顯然沒有考慮AI學習中使用作品的場景。不論是合理使用制度,還是法定許可制度,目前都不能適用于在AI大模型訓練中使用作品的場景。另外,大多數(shù)AI產品由科技企業(yè)、科研機構開發(fā)運營,具有明顯的商業(yè)目的,抑或具備收費提供服務的可能,不具有參照人類學習要求著作權人作出權益讓渡的正當性和必要性。
筆者傾向認為,AI對作品的學習使用,已經落入需要獲取著作權人許可的范疇,至少需要支付購買合法復制品的對價。如果任由AI全網爬取免費學習資源而無需支付合理對價,相對于常規(guī)學習中需要購買教材、支付學費的自然人,難言公平。
隨著AI訓練使用作品需求的增加,以及著作權人越來越抵制AI免費使用其作品,AI學習場景下的版權許可必然成為AI科技企業(yè)與著作權人之間合作的新趨勢。據悉,《紐約時報》與亞馬遜達成多年版權許可合作,允許亞馬遜使用《紐約時報》內容訓練其AI平臺。
筆者相信,未來會有越來越多的版權持有和管理機構與AI科技企業(yè)達成合作,不斷豐富AI領域的版權使用場景,建立并不斷完善能夠滿足AI學習需求的版權許可規(guī)則,通過公平互惠、明晰有序的合同約定,保障著作權人與AI科技企業(yè)之間的利益平衡。
