?

機器學習使用作品的著作權風險與化解的法律路徑

2023-04-17 16:24
南海法學 2023年6期
關鍵詞:著作權人著作權法機器

陳 諾 楊 興

(中國人民大學 法學院,北京 100872;廣東金融學院 法學院,廣東 廣州 510521)

一、機器學習使用作品的著作權風險分析

在機器學習中,傳統的預先規劃操作流程被一種自主學習的機制替代,使得機器能夠從數據中自主學習和提取模式、規律和知識。與傳統的計算機學習不同,機器學習更加靈活和自主,不再需要人工干預來確定學習對象和特征,而是通過算法進行自動的特征選擇和模型構建。①孫陽:《人工智能的合理使用之辯》,《海峽法學》2018年第3期。機器學習也具備自我完善和優化的機制,通過不斷與環境進行交互和反饋,機器能夠根據反饋信息自主調整和改進自身的學習算法和模型,以適應不斷變化的需求和環境。這種自我完善機制使得機器學習具備了持續學習和不斷演化的能力,能夠更好地適應復雜和多變的任務和環境。②Sean Semmler and Zeeve Rose,“Artificial Intelligence,Application Today and Implications Tomorrow”,Duke Law& Technology Review,(2017):85.

機器學習概念涵蓋廣泛,學界、業界對其定義也不甚相同,本文所探討的機器學習是指推進機器智能化活動的關鍵支撐技術,它從海量的數據中獲取新的知識或技能,同時完善自身功能。機器學習的過程包括廣泛地收集訓練數據,而后又通過“電子復制”的方式將它們輸入計算機系統中形成訓練數據集,以便于對它們展開分析以及結果生成。近些年,人臉識別、語音識別、購物推薦、文本生成、健康醫療等領域背后無不是機器學習技術快速發展的身影。

與人類學習類似,機器學習也面臨學習材料以及學習資源的問題。模型的建立,還有進一步的算法優化都需要大量的作品作為訓練資源,而這些資料中往往包括受著作權法保護的作品,包括文學、攝影、影視、美術、音樂以及計算機軟件等作品。如全球知名圖片提供商Getty Images 起訴熱門人工智能繪畫工具Stable Diffusion 的開發者Stability AI。Getty Images 聲稱Stability AI 未經“許可”以及提供“補償”,復制了Getty Images數十億個文本和圖像用以訓練模型,并對其進行編碼和解碼,侵犯其復制權。并且Stability AI 在未經Getty Images 授權的情況下復制Getty Images 的版權作品創作衍生作品,侵犯了美國著作權法①美國著作權法第106 節內容規定了作者所享有的5 項權利,即復制權(right to reproduce)、發行權(right to distribute)、演繹權(right to prepare derivative works)、公開表演權(right to publicly perform)和展示權(right to display)。下作者的復制權、發行權、演繹權等權利。此外,還有三位藝術家對綜合藝術平臺DEVIANT ART 提起了訴訟。在起訴書中,原告認為被告在可以獲得但沒有獲得原告的許可下,用原告的圖像訓練人工智能或其他計算機程序、算法或其他功能預測引擎并創建基于該作品的衍生作品,侵犯了原告的復制、發行、傳播等權利。②Getty Images 訴Stable Diffusion 起訴狀,https://stablediffusionlitigation.com/pdf/00201/1-1-stable-diffusion-complaint.pdf,最后訪問時間:2023年11月11日。

目前在數據輸入活動中常見的收集作品的方式為,通過“爬蟲協議”爬取網站數據,未經許可抓取數據庫數據,或者未經許可將作品數字化并形成數據集③劉友華、魏遠山:《機器學習的著作權侵權問題及其解決》,《華東政法大學學報》2019年第2期。,在此過程中,可能涉及侵犯作品的復制權,因為作品需要被收集和分析。這些收集的活動往往涉及著作權人的“復制權”,同時在2020年的我國著作權法修改中,復制權中引入了“數字化”方式,導致了更多的作品收集行為可能被納入復制權的范疇。其次,在作品收集之后,需要對作品進行加工、整理、匯編等操作。如果這些操作的結果構成著作權法意義上的新作品,可能涉及侵犯改編權和匯編權。此外,如果需要將文字作品翻譯成不同的語言,可能涉及翻譯權的問題。最后,在生成與提供最后結果階段,公司需要通過互聯網傳輸數據或改編后的作品,或者將其上傳到云端。從著作權法的角度來看,這可能涉及侵犯向公眾傳播權,包括信息網絡傳播權和廣播權??偠灾?,機器學習會無可避免地對數據進行拷貝、翻譯、篡改、重新編寫等行為,可能涉及著作權人的復制、發行、演繹等權利,抑或是構成了《中華人民共和國著作權法》第五十二、五十三條所規定的侵權行為,由此引發侵權爭議。

著作權法旨在鼓勵文學創作和傳承,給予著作權人相當程度的專有權以鼓勵創作。而著作權人獲得的專有權和機器學習具有相當程度的矛盾沖突。分析既有研究成果,可以發現當前對于機器學習與著作權合理使用制度的討論存在兩個方面的問題。第一,對于機器學習使用作品的特點有所忽略,從而造成評價機器學習與保護著作權人權利沖突之間存在較大區別。第二,對于如何將機器學習中對作品的使用納入現行著作權法之中,是法定許可還是合理使用制度存在爭議?;谇笆鰡栴},本文希望借助機器學習使用作品的特點說明為何需要將其納入著作權限制與例外。同時本文將討論“法定許可”與“合理使用”的制度選擇不同,希望對保護著作權人的權利和促進機器學習技術發展間的利益平衡有所助益。

二、產生風險的原因

首先需要明確的是,應當對機器學習使用作品這一行為進行法律上的規制與處理,并且需要為機器學習創設著作權的限制與例外。目前機器學習與著作權的沖突體現在實踐中是著作權人與機器學習公司的矛盾,體現在法律上是著作權人的權利保護與促進技術發展的矛盾。相對于人類有限的認知能力,機器學習的能力是無限的。程序可以不斷地自我設定目標,實現成長進化,于是機器通過學習具備了超越設計者本人的智能,也具備了在各個領域戰勝人類的實力。其不但可以識別人臉、文字、語音、場景,還可以理解語義、自主創作。但我國現行的著作權法卻更偏向于嚴格保護作品,并規定了版權使用者都需要為使用作品征得授權人的許可并支付報酬,否則作品就會陷入侵權的狀況。然而機器學習技術的研發者則需要有大量的訓練數據,按照目前我國著作權法的規定,研發人員如果使用受著作權法保護的作品,需要在獲取訓練數據前征得著作權人許可。而如果研究公司未獲得授權或未提供報酬,依現行的司法規定,作品權利人可以向機器學習研發公司提起法律索賠,雖然每部作品的索賠費用不一定都非常高昂,但這樣龐大的作品基數所產生的天價索賠也并非普通公司所能承擔的,更別提由此而產生的巨大司法成本和社會成本。

所以,現有知識產權法律體系有必要作出回應,以調適科技發展與著作權保護的矛盾,應對新型科技挑戰,平衡各方權益。接下來,本文將主要從機器學習特點三個方面,即低密度化、創造性強、算法偏見,考察論證應當為機器學習創設著作權的限制與例外。

(一)低密度化

機器學習利用作品的方式多種多樣,具體取決于應用場景和任務要求。機器學習可以利用已有的作品數據來訓練模型,從而對未知的作品進行分類或預測。例如,根據文本內容進行情感分析,對音頻數據進行語音識別,對圖像進行目標分類等。這種能力讓機器學習能夠在大規模作品數據中發現模式和趨勢,從而進行準確的分類和預測。同時機器學習可以從大量作品中提取有用的信息和摘要。通過對作品數據的分析和模擬,機器學習可以自動提取關鍵詞、主題、摘要或總結,從而幫助用戶快速了解和瀏覽大規模的作品內容。機器學習也可以利用作品數據來評估模型的性能,并進行優化和改進。通過對已有作品的分析和比較,機器學習可以衡量模型的準確性、效率和創造性等指標,并幫助優化模型的表現??偟膩碚f,機器學習通過對作品數據的學習和分析,可以進行分類、預測、生成、提取、總結、評估和改進等多種操作,從而實現對作品的利用和增值。

但在機器學習中,數據的規模和多樣性對于取得良好的模型性能至關重要。對于機器學習公司而言,單個數據對其收益的貢獻微乎其微,只有通過收集大量作品數據并進行大規模的分析和運算,機器學習技術才能發揮其真正的作用。這種低密度化的特點要求機器學習公司采取全面的數據收集策略,包括數據采集、數據清洗、數據標注等環節。數據收集的過程可能涉及與不同數據來源的協商和合作,以確保數據的完整性和質量。同時,數據的規模也直接影響到機器學習算法的復雜性和模型訓練的時間成本。較大規模的數據集可以提供更全面的樣本分布,以及更豐富的模式和特征信息,從而可以訓練出更準確的模型。除了數據規模,數據的多樣性也對機器學習的效果和創造力產生重要影響。多樣化的數據可以幫助機器學習模型更好地適應不同場景和樣本,提升泛能力和創造潛力。只有通過收集和運用海量作品,機器學習技術才能實現其真正的潛力。

(二)創造性強

著作權法的主要目的是保護原創作品的創作者并鼓勵他們進行創作。它賦予作品的創作者一定的權利,例如復制、分發、展示和修改作品的權利。這些權利在一定程度上鼓勵了創作者進行創新和創造性的表達。機器學習作為一種創作工具或輔助工具,可以通過分析和處理大量數據生成新的作品,從這個角度來說,機器學習與著作權法的目的是一致的,都是為了鼓勵創作。

同時,創造活動是一種推陳出新的歷史過程,新的創作活動往往受益于前人的啟迪。到了今天,學習主體發生了變化,但不可辯爭的是,機器學習的能力也是人類智慧發展的延續和輔助。近些年來機器學習所呈現出的巨大潛力超乎想象,其不僅可以在分析輸入作品的基礎之上進行創作,也可以超越人類的智慧,發現作品的規律并進行創作。如果說監督學習下的機器學習是在人的智能引導下進行模型的訓練,無監督學習下的機器學習則是在去除分類、標簽的要求后,就能夠直接根據所標注的數據進行訓練,進而自主地確定在數據集中出現的規則,與人進行創作無異。機器本身也成為創作的主體,成為輔助人類創作的重要工具,這與著作權法鼓勵創新創作的目的也一致,同時也就要求法律為其提供相應的保障。

(三)算法偏見

機器學習算法通常通過大量的數據進行訓練,以學習數據中的模式和規律。然而,如果訓練數據本身具有偏見或不完整,那么算法生成的結果也可能具有相應的偏見。例如,一個以男性為主的訓練數據集可能會導致算法在生成結果時偏向于男性的觀點和偏好,而忽略女性的需求和權益。同時如果數據采樣方式不具有代表性,或者存在一些系統性的偏差,那么算法在訓練過程中可能會受到這些偏見的影響。例如,在音樂創作領域,如果數據采樣傾向于某一地區的音樂,那么音樂風格便會受到限制。

機器學習技術目前面臨的一大瓶頸便是數據的質量不高以及如何解決算法偏見的問題。如果訓練數據不充分或者帶有偏見,那么機器學習會加劇這種片面所帶來的問題。由此可見,數據質量的好壞直接關系人工智能作品的好壞。正如前文已述,在獲取優秀作品數據集方面,著作權制度的限制可能導致幾個問題。首先,由于著作權保護,許多優秀的作品可能無法被自由獲取和使用,這使得構建全面、豐富的數據集變得困難。其次,由于數據集的構建往往需要多個作品的整合,涉及多個著作權人的許可和合作,這也加大了收集作品的復雜度和法律風險。進而使得人工智能開發者必須采用“法律限制較少但帶有偏見的數據集”來訓練,這也是造成作者計算結果具有偏見的主要原因。①Amanda Levendowski,“How Copyright Law Can Fix‘Artificial Intelligence’s Implicit Bias Problem,”Washington Law Review,(2018):589.所以高質量的訓練數據集可以很大程度影響機器學習的效果,減少算法偏見。

三、化解的法律路徑

隨著新技術的發展,機器學習涉及的流程可能越來越復雜,牽涉的行為也越來越多,傳統的單項行為進一步復雜化,成為具有更多流程的行為。在數據輸入、創建數據集以及訓練數據的過程中,涉及的第三方著作權也會增多。從上述討論中,我們可以看到,為機器學習創設著作權的例外是機器學習特點所決定的,接下來我們應當討論如何設計該項著作權的例外。

在現代社會中,因為存在著著作權約束與反約束等現象,以及存在著創作者、使用者雙方在行使權利中一定的程序沖突,為促進文學藝術事業發展、保障作者及其他主體權利、促進社會公平,就必須統籌兼顧,平衡并協調一切可能彼此沖突的因素。通過比較不同的機器學習使用作品集的風險化解路徑,我們才能夠推動機器學習技術的進展,并使之對著作權人的影響減至最低。

(一)法定許可與合理使用

現行著作權法框架下,有三種使用尚在保護期內的作品的合法途徑,包括授權許可、法定許可與合理使用。針對這三種制度,為應對機器學習使用作品的需求,學者們有不同的選擇取向,并且每位學者對一種制度所能涵蓋的機器學習具體范圍給出了自己的定義。有學者認為機器學習去收集分散的權利成本過于高昂,因此應當允許機器學習援引著作權合理使用制度。有學者僅僅支持將為科學研究目的而進行的文本與數據挖掘的機器學習行為納入合理使用制度。①張惠彬、肖啟賢:《人工智能時代文本與數據挖掘的版權豁免規則建構》,《科技與法律(中英文)》2021 年第6期。有學者主張借鑒美國版權法體系下靈活、開放的合理使用制度②林秀芹:《人工智能時代著作權合理使用制度的重塑》,《法學研究》2021年第6期。,以應對未來可能出現的新技術,根據個案判斷是否構成合理使用。宣喆提議,在不排斥商業化合理使用目的基礎上,開展對人工智能創意知識產權領域內合理使用的制度構建。③宣喆:《論分類保護視角下人工智能創作的著作權合理使用》,《出版發行研究》2022年第3期。另一部分學者從最大程度保護著作權人的角度提出應當用“法定許可制度”滿足機器學習使用作品的需要。即機器學習系統沒有產生新的版權作品,只是用了數據集來訓練技術,不夠具有轉化性。并且機器學習的過程中復制了作品,因而侵犯了著作權人的專有權,對于版權作品的復制不能認為構成著作權合理使用制度,應當采取“法定許可”的解決之道④高陽、胡丹陽:《機器學習對著作權合理使用制度的挑戰與應對》,《電子知識產權》2020年第10期。。此外,也有意見認為通過成品征收補償金制度可以解決機器學習與作品保護制度之間的矛盾問題。⑤高陽、胡丹陽:《機器學習對著作權合理使用制度的挑戰與應對》,《電子知識產權》2020年第10期??梢钥偨Y得出:部分學者認為機器學習的過程侵犯了著作權人專有權,應當通過法定許可制度保護著作權人的利益;部分學者認為把機器學習納入合理使用制度將幫助技術自由發展,同時也滿足著作權法中鼓勵創新的目的。而由于機器學習使用作品的低密度化以及部分作品無權利主體等特點,授權許可無法實現。

筆者認為,從制度角度來看,法定許可與合理使用通常都被視為對著作權的限制。其區別可總結為,合理使用既無須征求著作權人同意,也無須支付著作權人相應報酬,而法定許可使用則雖無須征求著作權人同意,但需要支付著作權人相應報酬。所以接下來本文將討論機器學習對著作權人產生的影響以及是否需要對著作權人進行補償,從而確定選擇合理使用制度還是法定許可制度。

機器學習能夠運用的領域包括如音樂生成、文本生成、圖像生成這些容易引起著作權人反感的表達型領域,以及在圖像識別、論文查重、代碼錯誤識別等非表達型領域。目前已有的討論大多為非表達型的機器學習做出了肯定的答案,即構成轉換性的合理使用,但對于表達型領域的機器學習,還暫時沒有定論。接下來本文將主要針對表達型領域的機器學習對著作權人的影響進行深入討論。

過去的文獻認為表達型的機器學習使用作品將無需經過版權人的授權,也無需向版權人付費,將使得版權人無法控制對自己作品的使用。機器學習基于原作品獨創性表達生成的新創作物有可能取代原作品,侵占原作品版權人的市場,對著作權人造成負面影響。在判斷是否會對著作權人產生影響時,中國部分法院曾嘗試在維持合理使用制度必要限度的前提下,對著作權侵權糾紛中合理使用的抗辯理由進行適當的彈性認定,適當考慮利用行為的目的、所利用部分與整體在數量上的比例、被利用作品的性質、對潛在市場的影響等要素。這主要借鑒了美國的四要素檢測法,本文也將重點考察機器學習利用行為的目的以及被告對潛在市場的影響以及機器學習特點,并將考察結果用于分析表達型機器學習對于著作權人的影響以及是否應當對著作權人進行補償。

首先是機器學習利用行為的目的。有學者認為商業目的有時會弱化合理使用的色彩,但鑒于商業機構所能真正承擔相關數據挖掘成本的強大實力,和目前科研機構與商業機構合作開發的趨勢,商業目的在評定合理使用目的的正當與否所持比重較小。是否是具有生產性或者不同于原來的使用目的和方式、是否提供額外價值,才是用來評價機器學習使用目的正當更為重要的標準。美國法院認為,判斷某種情況是否構成合理使用的一個標準是:是否構成轉換性使用。在此種情況下,合理使用的其他要素考慮占比將會降低。這種轉換性體現在新創作的作品是否在原作品的基礎上,以具有創造性的或者不同的特征來優化原作品的表達、內容和信息。在我國司法實踐中,也存在借鑒創新性轉化來判斷合理使用行為。在王某與北京谷某信息技術有限公司案中,法院認為被告通過片段的方式展現圖書,是為了提供相關圖書檢索服務以及便利用戶。該種服務區別于平時的服務,是一種轉換性的使用,因而不構成侵權。由此可見,轉換性規則的運用,可以解決商業性使用作品的行為能否構成合理使用之難題。以Chatgpt 為例,在訓練其系統時,作品的中間復制是“非表達性的”。最終過程的目的是創造一個有用的生成式人工智能系統,這與人類消費作品時的目的有很大的不同,機器學習系統的訓練顯然是具有高度變革性的??梢哉fChatgpt 以其文本創造性輸出的方式改變了原作,所以不應當被認為是侵犯了原著作權人權利。

其次是對著作權人潛在市場的影響。一個典型的案例便是機器翻譯與翻譯作品、譯者語料之間可能存在的著作權沖突以及相互市場的影響。目前機器翻譯通過不斷提升優化自身的底層技術,從原來的主要采用詞典翻譯和規則翻譯,到利用大規模的語料庫和統計算法進行翻譯,到目前神經網絡翻譯階段,利用深度學習算法進行翻譯。機器翻譯的質量伴隨著技術的發展不斷提升,機器翻譯把譯者從機械、枯燥的翻譯工作中解放出來,讓譯者從事更富有創造性的工作。從這個角度可以說,機器學習非但沒有搶占原著作權人的市場,著作權人反而可以受益于機器學習相關技術的進步,在基礎的工作中節省精力,提升自己的效率。

最后,為機器學習創立合理使用類型并非對著作權人毫無保護。今天的大多數版權侵權分析也內含對機器學習技術的分析。比如YouTube 的侵權比對系統,YouTube 允許版權所有者向YouTube的內容ID 系統提交作品。當一件作品被上傳到YouTube 時,它將與內容ID 數據庫進行比較,如果該過程中使用作品,分析作品的行為被認定為侵權,將不利于保護著作權人的權益。

同時,機器學習最大的特征是需要使用海量的作品。支付單件作品的成本或許不高,但海量作品累積起來所形成的作品使用費卻很高昂,由此導致機器學習的成本巨大。支付高額的作品許可使用費所增加的成本最終也會反映到產品的售價上來。目前的機器學習技術尚處在發展初期,專業的作品授權市場還沒有建立,事先取得授權的方式存在交易成本昂貴且無法有效消解偏見的問題。雖然法定許可制度能夠在一定程度上保障著作人的權益,但其后續配套措施的落地還面臨一定的困難,法定許可中的報酬的分配也是個困難的工作,有效執行也面臨非常大的阻礙。①劉友華、魏遠山:《機器學習的著作權侵權問題及其解決》,《華東政法大學學報》2019年第2期。

正如前面所述,機器學習的低密度的特點給著作權的傳統許可方式帶來了巨大挑戰:法定許可的最大缺陷在于其無法解決市場失靈問題,同時法定許可因其仍需要與著作權人協商許可費,從根本上無法達到提升機器學習效率的目的。反觀合理使用制度,其可以消弭因市場失靈而出現的著作權人與作品使用者之間為了版權作品的使用進行協商的時刻。減少交易費用,提供經濟學上合理性的解釋。在沒有合理使用的前提下,使用著作權人的作品將受到一定限制,而此時引入合理使用規則就能夠從最大程度上解決交易成本過高的問題。在這一過程中,整個市場在著作權作品上的資源分配與共享也獲得了實現,也避免了訴訟爆炸及嚴重遏制機器學習科技進步的情況。①王文敏:《人工智能對著作權限制與例外規則的挑戰與應對》,《法律適用》2022年第11期。因此,相比于法定許可制度,合理使用制度更加適合為機器學習提供合法性依據,使用方式得當也不會損害著作權人的權利。

(二)機器學習合理使用的立法路徑與解釋路徑

為機器學習創設合理使用類型并非代表著對所有機器學習使用情形都予以保護。目前我國立法仍然會從三步檢驗法以及司法解釋的角度保護著作權人的合法權益。從立法角度來看,考慮到我國著作權法短時間內修改的可能性較小,如果需要為機器學習創設著作權法中的特例,則需要對《計算機軟件保護條例》《信息網絡傳播權保護條例》和《著作權法實施條例》等法律文件進行修改來增設權利類型。因此,在修改《著作權法實施條例》時引入專門的機器學習例外條款是最好的解決辦法。修改立法也有助于司法機關對機器學習樹立明確的態度,最大程度促進技術的發展?!吨鳈喾▽嵤l例》是行政法規,如果在其修訂草案中明確增設機器學習的合理使用情形,將有利于保障著作權例外情形下的穩定性。通過為機器學習制定新的行政立法,來達到合理或適當使用以增進社會利益的目的,沒有超越著作權人能夠預見的情形。

值得注意的是合理使用制度是一種對抗專有權利的制度,允許使用者在滿足條件的情況下對受版權保護的作品進行復制、傳播等形式的利用,但并不為使用者提供免費獲取作品的渠道。在歐盟國家和英國的版權例外規定中,也將“合法獲取”作為適用要件之一,以確保相關數據庫擁有合法訪問權限。②萬勇:《人工智能時代著作權法合理使用制度的困境與出路》,《社會科學輯刊》2021年第5期。我國立法時也應該引入“合法獲取”作為機器學習合理使用的要件。這樣做可以確保使用者在進行復制、傳播和利用數據時具備合法獲取這些數據的前提。

同時,我國著作權法第二十四條明確規定,合理使用范圍內,不得影響該作品的正常使用,不得不合理地損害著作權人的合法權益。即使將機器學習納入著作權合理使用的范圍,也需要通過三步檢驗法對技術公司使用作品的行為進行判斷,以避免對著作權人造成損害。將機器學習納入著作權合理使用的范圍仍然需要判斷該種使用行為是否對著作權人造成了經濟利益損害,產生了替代性的結果,繼而判斷使用作品行為是否構成合理使用。將機器學習技術納入合理使用范圍并不是意味著技術可以不加限制地侵害著作權人的利益,而是需要根據具體個案考察對于原著作權人的影響。

同時為應對實踐的需要,目前也需要考慮從法律解釋的角度入手,盡量將部分情形納入現有的合理使用立法文本之內。例如從我國著作權法中關于合理使用的法律、行政法規中規定“其他情形”進行詞義空間的擴大,從而使機器學習“有法可依”。

目前我國著作權法第二十四條列舉的“合理使用”的情形中,并沒有明文規定機器學習這一項,所以機器學習不能直接適用知識產權的例外規定。按照我國目前對著作權法第二十四條第(一)項的規定,“合理使用”制度主體要件為“個人學習、研究”。但機器學習的主體通常為公司。如果是公司的科研人員,其機器學習行為也很難僅限于“學習、研究”等非商業目的。但是如果通過對營利性主體所進行的“科研”做擴大解釋,可能可以作為機器學習中的作品使用行為應急之策。如若部分使用機器學習的公司提供了基礎性技術,如通過人臉識別技術為安全、國防等領域提供保障,可以作為其進行人臉學習研究的合法性依據。

同時根據我國目前的《著作權法》第二十四條第(二)項的規定,“為介紹評論某一作品或者說明某一問題,在作品中適當引用他人已經發表的作品”,可以不經著作權人許可亦無須支付報酬。根據法條文本內容,機器學習使用數據的目的如果是評論與說明,可以考慮通過此條為自身行為提供合法依據。但在機器學習中使用數據時,需要遵守“適當引用”的原則,即對于已有作品的使用必須符合一定的適當性要件,避免對著作權人的利益造成損害。適當引用的要求包括以下幾個方面。首先,被引用部分不能構成被引作品的主要部分或實質部分,即引用作品與被引作品應具有明顯的區別。這是為了確保引用作品不成為作品的“競爭者”,對著作權人的創作權益產生不利影響。其次,引用的數量應適度,不能超過合理的范圍。這意味著在機器學習中使用數據時,需要適度地引用著作權作品的內容,以避免超過適當的引用范圍。最后,引用的方式和目的應當符合合理的學術研究或創新需求,而不是為了商業化或直接替代原作品。

同時我國著作權法第二十四條第(六)項和第(八)項規定,以科學技術發展或是以文化遺產機構收藏為目的而利用作品的行為,都可能具有對計算機學習技術適用“合理使用”的余地。該情況下的科研機構如若也使用機器學習技術,可以從該角度為其提供合法依據。

機器學習使用作品的情形也可以在滿足三步檢驗法的角度下被解釋為合理使用的情形。司法實踐可以對我國著作權法第二十四條“法律、行政法規規定”等相關規定作出整體性解釋。使之不僅包括法律規定合理使用情況下的具體條款,也包括在法律規范功能原則下的規定應符合國際公約中的“特定、特殊情形”的具體條款。事實上,我國司法實踐早已突破了上述三步檢驗法的第一個環節中的限制,將部分行為視為合理使用,比如出于教學目的拍攝電影、為拍賣目的展示圖冊,以及網頁“快照”的使用行為。如若立法無法及時滿足實踐的需要,則可以考慮從法律解釋的角度入手,盡量將部分情形納入現有的合理使用立法文本之內,借此為合理使用制度創造更多空間。

結語

既然目前的技術發展和現有的法律制度存在沖突,為保障技術發展以及法律的適應性,我們討論當前話題仍然是有意義的。本文在第一部分明確了目前著作權法、著作權人與利用作品進行機器學習的科技公司主體之間的矛盾,在第二部分通過探討是否應當通過著作權例外來解決此矛盾,以及在第三部分探討具體運用著作權哪一種例外解決矛盾,并分析了不同手段可能帶來的潛在優勢與劣勢,以及為機器學習設定合理使用類型和司法解釋如何為機器學習掃平障礙進行了說明。

從域外的立法情況來看,為了便利機器學習和運用大數據分析,多國政府也曾多次修訂了其著作權法。比如日本在2018 年修訂著作權法后,將機器利用信息的研究領域范圍從“計算機信息分析”拓展為所有“提供新的知識和信息”領域。修訂后的法規擴大了侵權豁免的商業行為范圍,為盈利性活動也留下了適當空間。另外,為減少上面所列出的條款帶來的法律使用空間僵化,日本引入了柔性合理使用條款,具體為:日本著作權法第30 條之四非享受性使用條款、第47 條之四計算機附隨性使用條款以及第47 條之五信息處理輕微利用條款。①鄭重:《日本著作權法柔性合理使用條款及其啟示》,《知識產權》2022年第1期。2014 年的英國版權法、2016 年的法國著作權法、2017 年的意大利著作權法都規定可以對版權產品實施復制,雖然僅限于非商業性的研究目的。2016 年歐盟委員會制定的版權指令草案,明確了文本數據保存、挖掘方面的版權例外,適用對象主要是社會公益組織和科研機構,以非商業性目的作為潛在語境,也體現出了歐洲各國對謹慎立法的態度。2019 年,由歐盟委員會所制定的《單一數字市場版權指令》(Directive on Copyright in the Digital Singles Market,下稱《DSM 指令》)采取分類處理的辦法,即例外情形區分以科學研究為目的的文本與數據挖掘和不限目的的文本與數據挖掘?!禗SM 指令》為科學研究中的文本與數據挖掘提供了更大的自由度。①張惠彬、肖啟賢:《人工智能時代文本與數據挖掘的版權豁免規則建構》,《科技與法律(中英文)》2021 年第6期。美國的最高法院也有裁決,認為利用作品、使用數據的行為一旦能夠取得相應的社會公益效果,能夠經由合理使用而得以規范。②張潤、李勁松:《利益平衡視角下人工智能編創使用行為的法律定性與保護路徑研究》,《出版發行研究》2020 年11期。我們看到各國從“文本挖掘”,到“文本與數據挖掘”再到“提供新的知識和信息”,法律所允許的機器學習的材料與范圍在不斷擴大,除文本外,藝術作品也逐漸成為機器學習的內容,未來有可能涵蓋更多的作品類型。

盡管各國立法目前對于機器學習自由使用作品都較為保守,但各國對于著作權例外可能帶來的價值是有所認識的,這就體現在前述不斷修改的立法中。同時各國也認識到,機器學習技術所蘊含的重大社會意義,可以利用該項技術為國家經濟與社會的發展服務,例如歐洲經濟委員會曾表示:“伴隨著數字革命,機器學習已經成為日常生活的一部分。目前數據體量的不斷擴大,以及機器學習對于數據的依賴更深,對于數據廣度的要求也不斷加深?!雹勐摵蠂鴼W洲經濟委員會:機器學習為生成現代、高效的統計數據鋪平道路,https://news.un.org/zh/story/2021/04/1082222,最后訪問時間:2023年11月11日。這也說明機器學習的應用的確為社會發展帶來了機遇。柏林一家智庫墨卡托中國研究所的政治學家Kristin Shi-Kupfer表示,如果中國不能在機器學習方面取得真正的突破性研究進展,中國在人工智能領域很難取得突破性成果。④Sarah O'Meara:《中國的人工智能是否會在2030年領先世界》,https://news.sisuer.cn/wp-content/uploads/2020/06/Will-China-lead-the-world-in-AI-by-2030.pdf,最后訪問時間:2023年11月11日。這也從側面說明機器學習可以為各個領域的發展提供強大的數據分析和模式識別能力,有助于挖掘和利用海量數據中有價值的信息,推動科學研究和創新發展,如果中國重視機器學習技術,就將對中國人工智能領域起到積極推動作用。

可以設想,在中國機器學習科技高速成長的時期,我國法學界終將無法避免對機器學習的拷貝作品、分析作品、輸出表達等活動進行價值評判。如果認為機器學習不構成合理使用,就會導致很多正在開展人工智能研究項目的個人或者組織(尤其是企業)為大量使用著作付費,或者將獲得保護的著作全部清理出數據庫,這就大大增加了我國本土企業開發機器學習技術的成本,也妨礙了我國機器學習技術的正常發展。若將其定義為合理使用,則能夠為我國的人工智能領域的發展以及第四次信息技術工業革命中所涉及的整個產業提供一定的競爭性優勢,⑤張金平:《人工智能作品合理使用困境及其解決》,《環球法律評論》2019年第3期。是著作權制度中平衡著作權人、社會公共利益和使用者利益的有效措施。希望通過本文的討論,能夠促進這項制度的完成,為機器學習使用作品和數據提供法律依據,減少成本,促進新型行業的發展。

猜你喜歡
著作權人著作權法機器
著作權轉讓聲明
著作權轉讓聲明
新《著作權法》視域下視聽作品的界定
機器狗
機器狗
未來機器城
論版權轉讓登記的對抗效力——評著作權法修改草案(送審稿)第59條
論對“一臺戲”的法律保護——以《德國著作權法》為參照
無敵機器蛛
著作權許可聲明
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合