□特約撰稿 陳宇超
人工智能快速發展也意味著其中存在更多已知與未知的風險,這對法律回應和規制方式提出了挑戰。應在法律層面對企業收集數據的技術應用及數據過濾保護機制進行更細致的規定與嚴格監管,并完善制度體系。
5月14日凌晨,美國人工智能OpenAI在官網發布了旗艦生成式人工智能模型“GPT-4o”,其中的“o”代表“omni”(全能),指的是該模型處理文本、語音和視頻的能力。和2022年11月上線的人工智能聊天機器人ChatGPT相比,它具有與人類相似的對話能力,具有幽默感,可以現場自拍,并提供描述,包括你的穿著,甚至伴隨著現實世界中幾乎所有的傾向,比如打斷、理解語氣等。此外,除響應速度更快外,GPT-4o似乎很容易捕捉到情緒,并根據用戶的要求調整語氣和風格,甚至還在回應中加入了音效、笑聲和歌聲。有媒體認為,這預示著強人工智能——生成式人工智能領域再次迎來了歷史性時刻,這引發了人們的廣泛關注、討論。
近年來,隨著人工智能技術的快速發展,它可以為人類社會提供極大便利,以ChatGPT為代表的強人工智能除可以實現傳統人工智能的功能外,還可以進行自我學習、撰寫論文、編寫代碼、起草法律意見書、智能診療等,應用場景廣泛,對社會發展變革產生了深刻影響。但是,機遇總是與挑戰并存,人工智能有如一把雙刃劍,其快速發展及更新換代必然也意味著其中存在更多已知與未知的風險,比如:潛在的數據隱私、“算法歧視”、知識產權等方面的法律風險等,這對法律回應和規制方式提出了挑戰。
強人工智能可能帶來的風險與挑戰
相比于傳統人工智能,強人工智能帶來的挑戰與風險可能更明顯。本文主要從數據隱私、“算法歧視”與知識產權三個方面對生成式人工智能可能引發的風險和爭議進行分析。
首先,數據安全問題。ChatGPT等生成式人工智能意味著相比傳統人工智能,其數據收集和爬取能力更強大,除使用者提供的數據外,網絡平臺本身的海量內容均可能被其收集讀取用于內容生成,從而可能引發數據侵權、泄露和侵犯隱私問題。ChatGPT等生成式人工智能的升級迭代需要大量數據支撐,這些數據通常來自公司購買或其自行采集和爬取。這兩種方式均存在數據侵權和隱私泄露風險,公司購買的第三方數據可能存在權屬不清問題;自行采集的數據,由于生成式人工智能用戶受眾十分廣泛,使用者涵蓋政務處理者、公司員工和個人用戶等,這使得其收集到的數據和信息十分龐大。其中,所儲備的數據一旦因不明攻擊等原因被泄露,則可能危害國家安全、泄露商業機密、侵犯個人隱私等。此外,在數據收集過程中,人工智能本身也可能存在不當收集的情況,如違規收集用戶未授權的數據,突破用戶知情同意原則自行爬取數據等。
其次,ChatGPT等生成式人工智能可能存在“算法歧視”。生成式人工智能往往基于海量數據和強大模型算力生成文本,其生成的內容受研發者和使用者提供的數據及模型多次訓練而形成,這使得其“算法歧視”更隱蔽。目前,生成式人工智能的訓練數據和語料庫多來自西方國家,與我國價值立場并不一致,因而在生成內容上可能潛藏價值歧視風險,比如主要傾向于西方國家的價值觀。同時,生成式人工智能的使用者少有社會弱勢群體用戶,如殘障人士、不會使用電子產品的老年人群體等。因此,生成式人工智能在收集數據及輸出數據時可能因“數據鴻溝”的存在而對這部分人群的權利形成歧視。
最后,強人工智能的快速發展給傳統知識產權保護體系帶來很大挑戰。和傳統簡單完成人類指令的“弱人工智能”不同,生成式人工智能基于數據讀取和模型訓練具有類人性的抽象思考能力及解決問題能力。從外觀上看,它似乎具有人類所擁有的自行“創作”能力,其生成的內容歸屬應當屬于使用者還是人工智能本身,這值得思考。此外,生成式人工智能輸出的內容均基于海量的數據收集和爬取,這之中可能存在未經授權的內容被人工智能讀取收集并用于文本內容的輸出,且并不標注出處,這是否侵害原數據作者的知識產權?現行法律法規該如何規制這種行為并制定保護措施呢?這些問題都對傳統知識產權保護體系帶來挑戰,需要現行法律和規范進行回應和規制。
強人工智能到來,法律如何應對
針對ChatGPT等生成式人工智能可能帶來的各類法律風險,世界各國大多表現出謹慎態度并積極制定法律法規進行引導和規制。如美國政府已開始研究是否需要對ChatGPT等人工智能工具進行審查;意大利、德國監管機構已發布ChatGPT禁令;近日,歐洲議會通過全球首個人工智能監管法案《人工智能法案》。2023年7月,我國國家網信辦聯合國家發展改革委、教育部、科技部、工信部、公安部等七部門發布并施行《生成式人工智能服務管理暫行辦法》(以下簡稱《辦法》),進一步規范生成式人工智能的發展。可見,世界各國對人工智能風險規避均十分重視。但要想更好地發揮強人工智能在人類社會中的作用,實現其最大程度合理應用,且規避潛在風險,還應以更加科學直接的法律方式進行治理。
首先,細化《辦法》規定,保護數據安全。盡管現行《辦法》確立了對數據的保護立場,如規定“使用具有合法來源的數據和基礎模型”,但具體性與可操作性有待進一步提升。對此,應在法律層面對企業收集數據的技術應用及數據過濾保護機制進行更細致的規定與嚴格監管。在數據收集方面,要求恪守用戶知情同意原則,禁止突破用戶的知情同意原則違法收集未授權信息。同時,規定在用戶使用生成式人工智能時,開發者須在軟件端明確告知其享有的信息自決權和刪除權等個人信息權益,使用戶提升個人隱私保護意識。在與國家安全、商業機密有關的數據上,要求人工智能開發者設置嚴格的過濾和保護機制,從而有效預防數據隱私泄露。需要注意的是,生成式人工智能在數據處理、應用形態上更復雜,相關立法部門要隨時關注技術演化走向,從而更好地制定與數據保護有關的規則。
其次,完善制度體系建設,避免“算法歧視”。《辦法》對防止人工智能“算法歧視”已有條款規定,比如在第四條第四項規定:“在算法設計、訓練數據選擇、模型生成和優化、提供服務等過程中,采取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業、健康等歧視。”但該規定與數據安全的相關規定一樣,較為原則,缺乏具體的規則引導和規制。避免“算法歧視”,應加強和完善反歧視的制度體系建設,這包括企業內部的倫理審查監督制度及監管部門和中立第三方的監督審查體系。法律應規定企業自身在算法設計時,將公正、平等的原則貫徹其中,在模型訓練時,要特別注意性別、年齡、職業、國別等可能產生歧視的因素。同時,制定監管部門以及外部中立組織定期抽查算法模型的規則,通過監管機構或中立第三方組織定期對生成式人工智能的算法進行審查,以監督是否存在“算法歧視”問題。
在對生成式人工智能涉及的知識產權爭議問題上,應當明確人工智能對數據使用的界限,保護知識產權。目前,大多數觀點并不認為生成式人工智能具有“獨立創作”能力,它與具有情感、價值判斷和思想的“人”創作的內容和過程并不相同。因此,由人工智能生成的文本仍應當由使用者享有其知識產權,并不能被看作獨立的創作者。在知識產權保護方面,為防止人工智能對未授權內容進行違規數據收集和爬取,侵犯原作者的知識產權,應在法律中明確生成式人工智能收集和讀取信息的邊界,對于挖掘未經權利人授權的數據和內容形成文本的,予以懲處。
(作者單位:上海社會科學院法學研究所)