本文來自微信公眾號:Internet Law Review,作者:馬克 ·A· 萊姆 利,題圖來自:AI生成
試想,一位學生向生成式人工智能提問選題,并根據AI提示和回答撰寫了一篇論文,然而,他卻沒有發現,已經有相關學者在若干年前就提出了完全相同的論點,而這篇論文恰好包含在這一生成式AI的訓練數據集中。其原作者完全有理由對這種未經授權的抄襲行為感到惱火,然而,他們是否應該采取法律行動?
大量的司法訴訟和法律評論文章都在探討生成式人工智能系統是否侵犯了作者在模型訓練過程中大量吸收的作品的版權。但在我們的假設案例中,版權問題的答案很明確:AI的使用者僅僅使用了其他人的“思想”,而沒有使用他們的“表達方式”。思想本身不受版權保護。
然而,人工智能輸出的創意存在一個問題——抄襲。摘錄一整章作品并注明出處,你侵犯了版權,但并不構成抄襲;將他人的想法據為己有,你構成了抄襲,但并不構成侵權。這種區別至關重要。
許多機構都在努力規范基于人工智能的復制行為,因此思考人工智能輔助抄襲問題至關重要。本文旨在為這些新的治理方案如何應對抄襲問題提供路線圖,并厘清其中涉及的不同危害。
簡單來說,抄襲固然是一個問題,但它并非——也不應該是——法律問題。
一、打破 “引用鏈”:依賴AI無意中成為抄襲者
ChatGPT和其他生成式人工智能系統目前已被廣泛應用于學術寫作。在2024年春季對哈佛大學本科生進行的一項調查中,近90%的學生表示使用過生成式人工智能,超過50%的學生將這些工具用于寫作業,包括“構思”。
但生成式人工智能與鏈接到原始資料的研究工具有著本質區別。像 ChatGPT 這樣的大型語言模型 (LLM)生成文本,其結果是生成新內容的一種概率形式,使得我們難以甚至無法弄清楚任何給定輸出的生成原因,更不用說哪些訓練材料對其有所貢獻,或者輸出的核心“思想”是否與訓練來源中的思想相似。因此,人工智能的輸出可能隱含地包含來自訓練數據的事實或思想,但卻沒有注明出處。簡言之,它打破了傳統的引用鏈。
即使人工智能試圖將信息歸因于特定來源,它也經常出錯。幻覺問題早已被廣泛記錄,但它仍然時有發生,這可能是因為軟件會根據用戶查詢即時生成新內容,而幻覺本身就是軟件固有的缺陷。
但即使人工智能公司能夠以某種方式控制幻覺問題,或者用戶普遍學會在信任來源之前驗證其真實性,幻覺來源也掩蓋了一個更深層次的問題:人工智能自身生成的想法和文本的來源。
生成式人工智能會根據用戶創建的提示給出答案。從人工智能用戶的角度來看,這可能會造成一種原創性的錯覺,用戶會將最終源自訓練材料的想法誤認為是自己的見解。如果人們不使用人工智能,那么將這些想法當作自己的原創作品來呈現,那顯然是不恰當的。未經授權復制他人的觀點就是抄襲。但問題是,使用AI的作者往往難以意識到自己正在抄襲。
更重要的是,AI技術寫作輔助使得人們在認知上更難辨別想法的來源。作者可能不愿將計算機視為想法的創造者。在一項研究中,當參與者被告知明信片是由人工智能生成時,他們更有可能將明信片的所有權歸于自己,而不是在被告知明信片是由人類代筆人生成時。這很可能是一個“認知外化”的例子,在這種情況下,人工智能被簡單地視為一種減輕作者部分工作負擔的工具,而不是某種思想的來源。
結果是,學生提交的論文以及教授撰寫的文章中包含了他人首次提出的觀點和概念,但卻沒有注明出處。這是一種無意的抄襲,作者沒有注明思想的原創者,因為他們可能根本不知道有這樣的原創者。
二、法律與道德的邊界:版權訴訟混淆了補償和署名權
幾乎各個國家的版權法都禁止復制創意表達,但它并不禁止復制他人的想法,無論是否注明出處。相反,版權的目的在于鼓勵思想的傳播,允許不同的人以不同的方式表達這些思想。
生成式人工智能使用包含大量受版權保護內容的數據集進行訓練。但本文關注的是生成式人工智能的“輸出”。
AI的輸出通常不會侵犯版權,因為它與人工智能訓練所用的任何輸入中受保護的表達方式都不具有實質性相似性(當然也有例外)。但總的來說,如果你要求生成式人工智能生成一篇關于某個主題的論文,它不會生成任何與特定先前論文非常相似的內容。從版權角度來看,這應該就是問題的最終答案——這并非版權法上的侵權行為。
但現實中的訴訟常常伴隨著這樣的擔憂:作者不僅沒有獲得報酬,而且他們的作品被使用后也沒有得到署名。即使署名被使用,他們也常常會使用“抄襲”這個詞。內容創作者喜歡把生成式人工智能稱為“抄襲機器”。這些評論者援引“抄襲”一詞,通常并非意味著 人工智能涉及法律問題,而是在某些特定情況下應該受到道德譴責。他們認為這種論點要么是在版權侵權指控中增加了道德譴責,要么是擴大版權侵權范圍的理由,以涵蓋那些因為是抄襲而理應被視為非法的行為。還有一些人雖然不使用“抄襲”一詞,但他們明確提出應該擴大版權的適用范圍,以涵蓋署名權或人格權方面的損害,以及其他類型的損害。
并非只有普通民眾或行業協會才會將抄襲和版權侵權混淆。最高法院也曾錯誤地將版權侵權描述為抄襲。就連史上最著名的版權法學家之一,勒尼德·漢德法官也犯過同樣的錯誤。在1930年的“尼科爾斯訴環球影業案”(Nichols v. Universal Pictures)——版權侵權判定的主要判例——中,法官反復將涉嫌侵權者稱為“抄襲者”。漢德法官曾斷言“抄襲者不能通過證明自己作品中有多少內容并非盜版來為其錯誤開脫”,這一論斷已被包括最高法院在內的一百多起其他版權案件引用。甚至像理查德·波斯納法官這樣理解二者區別的著名法官,也常常利用抄襲這一概念來修改版權法,將抄襲者視為侵權者,而他們原本有權以合理使用為由進行抗辯。
三、區分版權侵權、抄襲和不良學術行為
但抄襲并非——也不應該——與侵犯版權混為一談。區分二者的概念界限至關重要。侵犯版權是對合法權利的侵犯,而抄襲本身并非法律訴訟的理由——它是一種違反倫理或學術規范的行為。另外還有一種“不良學術行為”或不合格的研究習慣,這些行為可能不構成抄襲,但仍然違反了學科嚴謹性的規范。
版權侵權所侵犯的是一種經濟權利,它要求復制受保護的表達形式。任何具有“最低限度創造性”的表達作品——書籍、詩歌、歌曲,甚至是計算機程序——一旦被“固定”即可獲得保護。但版權并非絕對。事實和思想本身不受版權保護,但事實或思想的特定表達方式則受版權保護。版權也有一定的期限,期限過后,作品進入公有領域,任何人都可以免費使用。
如果你的論文是基于他人的受版權保護的作品撰寫的,并且與他人受保護的表達方式存在“實質性相似”,則構成侵權,除非你的借用構成“合理使用”。侵權并不要求你將新材料冒充為自己的作品;即使注明出處,復制受保護的實質性表達方式也可能構成侵權。例如,如果你發表了一本受版權保護書籍中的完整章節,并注明了原作者,你仍然構成侵權——只是沒有抄襲而已。
抄襲通常被定義為未經充分注明出處而使用他人的語言、觀點或作品。誠實透明地說明論文中材料的來源至關重要,這不僅是為了對你所依賴的作者表示感謝,也是為了讓讀者真正理解和評價你的學術成果。在學術界、新聞界,抄襲是一種違反倫理的行為,可以通過社會制裁或機構紀律來糾正,但不能通過訴訟來追究責任。
布萊恩·弗萊對版權侵權和抄襲之間的區別做了精辟的總結:
版權侵權和抄襲的概念有所重疊,但并非完全一致。版權法禁止對受版權保護的作品進行某些未經授權的使用,無論是否注明出處;而關于抄襲的規范則禁止未經注明出處地復制某些表達方式、事實和觀點,無論這些內容是否受版權保護。使用受版權保護作品中的原創元素并注明出處可能構成版權侵權,但不構成抄襲;復制事實或觀點而未注明出處可能構成抄襲,但不構成版權侵權。
不良學術行為構成第三類,指的是違反嚴謹研究和寫作的學科規范。這些規范更具爭議性,更多地反映了對學術水平的主觀評價,而非學術誠信問題。
版權侵權、抄襲和不良學術行為這三類行為既有區別又相互重疊。下圖就展示了三者之間的關系。
所有形式的抄襲都是一種不良的學術行為,因為誠實地引用資料來源是學術研究的基石。但是,有很多不良的學術行為并不等同于抄襲,例如準確引用不可靠的來源,或者引用衍生來源卻不注明原創者。此外,還有一些抄襲或不良學術行為并不構成版權侵權,例如未經授權復制觀點、事實或公共領域文本。
四、署名權之爭:法律不應是解決學術誠信的工具
署名對創作者來說很重要。但美國法律沒有提供普遍的署名權。如上所述,某些未經授權的復制行為構成版權侵權;在這種情況下,版權所有者可以要求署名作為使用的條件。然而,一般來說,不署名本身并不構成法律上的違法行為。作者可能希望在多次使用其作品中不受保護的元素、使用已進入公有領域的作品或符合合理使用原則的行為時獲得署名,但根據版權法,他們無權提出此類要求。
一些學者提議設立新的署名權來填補這一空白,效仿歐洲等對精神權利保護更為嚴格的地區。但我們贊同麗貝卡·圖什內特的質疑:“合法署名權的主張過于多樣化且受具體語境影響,而版權法本身也過于復雜繁瑣”,因此,在沒有任何獨立法律損害的情況下,設立新的法律訴訟理由并不合理。一項涵蓋所有未經署名使用他人思想或文字行為的規則,很可能與知識產權法中關于經濟權利的諸多限制相沖突,并造成難以界定的界限問題。
需要澄清的是,我們的立場并非認為署名無關緊要,抄襲的確造成了聲譽和認知損害。但并非所有損害都構成法律上的錯誤。如果損害發生在學術界和其他知識生產群體內部,那么相應的補救措施也應在那里進行。
結論:版權不應擴展到監管抄襲
生成式人工智能很少輸出受保護的表達,但它經常會復述他人的想法,而且往往缺乏準確的出處。這本身并非版權問題。但在某些領域,尤其是在學術界,這卻構成了抄襲問題。
目前,關于人工智能在學生寫作或學術研究中的應用規范仍在發展完善中,人工智能助長的抄襲風險尚未得到廣泛認可。然而,這種風險真實存在,應該像其他抄襲問題一樣加以規范:通過在抄襲危害最為顯著的學術機構中制定清晰且可執行的標準。學校應該制定學生作業規則,要求明確披露人工智能生成的想法和文本,以便讀者了解論文中的想法和文本的來源。學者們更應該深入調查人工智能提出的想法和論斷,以找到其真正的出處。
人工智能已成為我們生活的一部分,并將長期存在。同樣不可或缺的還有學術界賴以積累知識的誠實、透明和信譽等價值觀。筆者認為,我們無需新的法律途徑來維護這些價值觀。相反,各學科領域的專家學者應該通過深思熟慮的教學方法、清晰的指導原則、規范的編輯流程和嚴謹的職業操守,堅持認為人工智能并不能免除作者的這些責任。
本文來自微信公眾號:Internet Law Review,作者:馬克 ·A· 萊姆 利
