国产伦久视频免费观看视频,国产精品情侣呻吟对白视频,国产精品爽爽VA在线观看无码,韩国三级HD中文字幕

人工智能的訓練數據制度——以“智能涌現”為觀察視角
發布日期:2024-08-08  來源:中國法學網  作者:姚佳

                

一、引言:智能何以“涌現”

 

人工智能尤其是生成式人工智能的出現,標志著人工智能進入一個變革時代,其在文本、圖像、音頻和合成數據的創建方面展現出前所未有的進步。通過數據、算法和算力之三大人工智能要素的疊加協同,在訓練參數和數據量達到一定閾值(threshold)之時,甚至可能會出現不可預測的涌現能力。這種“智能涌現”現象,十分值得關注。

“涌現現象”與“涌現論”在不同學科如哲學、生物學、物理學、系統科學、復雜科學、經濟學等領域都受到關注和系統研究。就“涌現論”(Emergentism)的研究而言,“劉易斯(George Henry Lewes)于1875年提出了‘涌現’一詞。他區分了涌現和結果。這種區分是從密爾(John Stuart Mill)那里學到的。密爾在其1843年的《邏輯體系》(System of Logic)一書中區分了‘原因的兩種聯合作用模式,即機械和化學’。根據密爾的觀點,當兩個或兩個以上的原因以機械方式結合在一起產生某種結果時,這種結果就是每個原因單獨作用時的結果的總和。”此后關于涌現的研究,經歷了從英國涌現主義學派的經典涌現論到以復雜性科學為標志的復雜系統涌現研究的發展。涌現研究重點關注的是由小的部分結合成的大系統(復雜系統)形成的整體現象,“總體大于部分之和”是其通俗的表述。

涌現與復雜系統緊密相關。“遺傳算法之父”霍蘭德(John H. Holland)認為,像涌現這么復雜的主題,不太可能用一個簡潔的定義來完整地解釋,當然也就無法給出這樣一個定義。但是霍蘭德也在反復證明,少數規則和規律就能產生極其錯綜復雜的系統。比如棋類游戲中多種多樣的棋局,或者遵循萬有引力定律的棒球、行星和星系的運行軌跡,都說明了這一點:少數規則或定律能夠產生復雜的系統,而且以不斷變化的形式引起恒新性(perpetual novelty)和新的涌現現象。實際上,在大多數情況下,我們只有理解了與系統相伴的涌現現象,才能真正理解這些復雜系統。涌現研究中的關鍵術語主要包括:機制(積木塊、生成器、主體)和恒新性(大量不斷生成的結構)、動態性和規律性(在生成的結構中,持續并重復出現的結構或模式)、分層組織(由生成器構成的構件成為更高層次組織的生成器)。但凡可能存在復雜系統,涌現現象就可能發生,而涌現的意義恰在于其出現了一種超乎人們想象的現象或結果,推進了人類的認知水平。

人工智能作為一個復雜系統,已體現出“涌現能力”。盡管人工智能何以出現涌現現象,以及“涌現”是否屬于大模型智能出現的標志,仍未有定論,但是人們至少就大量數據訓練、復雜算法以及超強算力的綜合應用能夠出現“智能涌現”現象,并成為一個值得研究的命題,則具有一定共識。本文擬擷取其中的數據維度,探討如何構建人工智能的訓練數據制度,以進一步回應并更好解釋“智能涌現”何以增強人們的認知能力和洞察力。當然,在問題分野上,人工智能的數據制度究竟應偏向于人工智能制度還是更相對聚焦于數據制度,實際上較難明確區分。就訓練數據本身而言,在規則和制度層面基本上偏向于數據制度,但是就如何更科學地建構訓練數據制度以及這一制度如何與人工智能的功能與價值等方面相互影響與匹配,則必然要切入人工智能的技術特性和宗旨目標。故此,二者無法作制度層面的區分。作為人工智能三大要素之一的數據制度,“無數據,不智能”,訓練數據制度之建構居于重要地位,如何從各向度研究訓練數據制度,是當下的重要且緊迫的任務之一。   

 

二、訓練的數據:合法采集規則

 

大型自然語言模型的訓練需要高量級的數據“喂養”。在可能出現“智能涌現”的大背景之下,如何盡可能在保障數據安全的基礎上將更多數據加以采集和利用,正是在“輸入端”的訓練數據制度中應當考慮的問題。以ChatGPT為例,人們總結其具有一系列特性,比如強交互性,能進行多輪對話,可以對過往聊天內容進行再學習,不斷改進輸出文本的質量;同時具有強理解能力,即能夠分析用戶模糊語言,理解用戶意圖,辨別對話中不正確的提問;還具有強生成能力,可以按照要求,生成用于不同場景、不同形式的文字,包括論文、郵件、圖文和代碼等。從某種意義上講,這種大力出奇跡的“暴力美學”,必然建立在大量數據輸入的基礎之上。當然,人們對于人工智能具有如此強大的分析能力也保持警惕,有論者認為,生成式人工智能亟需規制的安全風險分別是準備階段的數據安全風險、運算階段的算法偏見風險與生成階段的知識產權風險。在此意義上,就訓練數據而言,盡管可能存在一定數據安全風險,但是在符合現行數據法律制度的基礎之上,是否應在輸入端盡可能考慮構建一種以提升人工智能決策質效多重目標的訓練數據制度,尚值探討。

(一)數據采集的來源

數據的量級對于大模型訓練而言是一個十分重要的維度。對于“深度學習模型來講,訓練數據的不斷增加能夠帶來性能的提升”。大模型采集數據的來源較為廣泛,通常根據具體需求和場景選擇合適的數據源。根據需求、質量與可獲得性等主要影響因素,人工智能等大模型的數據來源大致分為以下幾個方面:

第一,企業自身所有、控制的數據。任何企業均有依據自身業務歷史積累的數據,即根據業務特性和場景積累的自身可以利用的一系列數據。

第二,公開渠道爬取的數據。由政府組織、科研學術機構或企業公開發布,涵蓋各種類型的數據,如圖像、文本、音頻、視頻等。例如,ImageNet是一個廣泛用于圖像識別任務的大規模圖像數據集;Common Crawl則提供了大量的網頁抓取數據以供自然語言處理模型訓練。另外,還有一些開源數據集如WikiQAEXEQ-300KArxiv等。

第三,數據資源共享。有一些機構、學者等擁有較為獨特的數據資源,并愿意以各種形式合作共享這些數據資源,支持不同領域的研究和應用,尤其是針對能夠共同提高人類福祉的一些領域。例如,在醫療領域,醫療機構通常會收集大量的醫療影像數據,這些數據可以用于訓練圖像分析或者特定疾病檢測等任務。

第四,互聯網上的公開資源。互聯網本身就承載大量信息和數據,如UGC平臺、社交媒體、論壇、新聞網站等,以及用戶發表的內容、回復、評論等等內容,都可以成為大模型訓練的數據源。

另外,在有的情形下,用戶使用生成式人工智能服務之時,用戶輸入的內容和服務提供者輸出的內容也是訓練數據的來源。在OpenAI官網的《使用協議》(Terms of Use)中約定,關于“您的內容。您可以向‘服務’提供‘輸入’,并根據輸入從‘服務’接收‘輸出’。輸入和輸出統稱為‘內容’。您對內容負責,包括確保其不違反任何適用法律或本條款。您聲明并保證您擁有向我們的‘服務’提供輸入所需的所有權利、許可證和權限”。同時用戶享有“選擇退出”的權利,該協議條款中約定,“如果您不希望我們使用您的內容來訓練我們的模型,您可以按照本幫助中心中的說明選擇退出。請注意,在某些情況下,這可能會限制我們的‘服務’更好地解決您的特定的使用案例的能力”。從選擇退出的條款中可知,服務提供者會利用用戶的對話內容訓練模型。但是在有一些生成式人工智能服務提供者的用戶協議中,對此卻并未明確約定,其是否利用用戶的對話內容來訓練模型,尚未可知。

(二)數據采集行為的合法性

訓練數據的來源多重,針對數據來源本身應具有合法性,相應采集行為應具有合法性。國家網信辦等七部委于20237月頒布的《生成式人工智能服務管理暫行辦法》第7條規定了生成式人工智能服務提供者的訓練數據處理活動要求,即:“生成式人工智能服務提供者(以下稱提供者)應當依法開展預訓練、優化訓練等訓練數據處理活動,遵守以下規定:(一)使用具有合法來源的數據和基礎模型;(二)涉及知識產權的,不得侵害他人依法享有的知識產權;(三)涉及個人信息的,應當取得個人同意或者符合法律、行政法規規定的其他情形;(四)采取有效措施提高訓練數據質量,增強訓練數據的真實性、準確性、客觀性、多樣性;(五)《中華人民共和國網絡安全法》、《中華人民共和國數據安全法》、《中華人民共和國個人信息保護法》等法律、行政法規的其他有關規定和有關主管部門的相關監管要求。”基于該條規定,訓練數據在來源上應具有合法性。涉及知識產權的,應在知識產權的法律制度框架內遵守相關規定;涉及個人信息的,應遵守個人信息保護相關規定。對于版權和個人信息保護而言,若違反合法性要求,則可能會承擔相應侵權責任。針對其中第(四)項提高數據質量而言,是否引致侵權責任則存在一定爭論。針對這幾個問題,如下分述之:

其一,未經許可使用相關作品版權作為訓練數據頗具爭議。美國近年來幾起訴訟,無論是針對OpenAIGitHub的集體訴訟,針對Stability AI,美國萬名作家簽署作家協會信函呼吁人工智能行業保護作者權益,還是《紐約時報》訴OpenAI,這些訴訟和事件均指向利用未經授權使用作品訓練人工智能產品或者在開源社區中可能侵害他人版權等問題。就訓練數據中能否使用公開的但未經授權的作品,討論頗多。美國《著作權法》第107條采取了“四要素分析法”,通過衡量使用目的和性質;被從事使用、具有著作權的作品性質;相對于被使用的作品整體,所使用的數量和程度以及其使用對受到著作權保護的作品的潛在市場或價值產生的影響等內容進行綜合判斷。贊成者認為以含有著作權的作品作為訓練數據應構成合理使用,而且只要其不是將特定作品的全部或相當部分原封不動地重新呈現,同樣構成合理使用;反對者則認為,這種“自我學習”并非合理使用,其仍然是對原作品進行“續寫”或“改編”,而非真正的轉化性使用,而且若令人工智能從事“仿真”之作,則會對消費者造成困擾,也與原作者構成直接競爭。亦有論者從機器學習的類型化角度出發,認為機器學習可分為非表達型、大眾表達型和個人表達型三種。非表達型機器學習,系指沒有表達性內容輸出的機器學習,即從作品中提取的有價值信息是非表達性的事實或思想,如從作品中提取出的人臉要素、場景要素等等,其對作品的使用屬于非作品性使用。而其他兩種機器學習,則要么符合受限制的合理使用規則,要么構成侵權。盡管上述分析視角和理論框架有所不同,但是在目前世界范圍之內的學術討論中,底層邏輯依然是——在訓練數據使用中,應尊重在先的著作權,不得侵害他人依法享有的著作權,除非其符合其他例外規則,由于這一問題關涉用戶是否享有人工智能生成物的著作權等問題,因此也并非僅靠前端的訓練數據就能解決,仍有待人工智能發展全貌下的綜合研判。

其二,個人信息作為訓練數據,應符合現行法對于個人信息保護的相關規定。在“告知—同意”規則的框架中,同意的性質已毋庸諱言,其僅為個人信息處理活動的合法性基礎,即合法根據或正當理由之一,而非個人授權他人使用自己的個人信息。大模型服務提供者也通常在隱私政策中就個人信息保護進行規定。對于已公開個人信息的使用,也應本著“采取對個人權益影響最小的方式”使用。總體上,作為訓練數據的個人信息,仍應在個人信息保護的基本框架下有限度使用。

其三,對于數據質量保障義務的違反,并不必然承擔侵權責任。有論者認為,即便要求生成式人工智能服務提供者對生成式人工智能的預訓練數據、優化訓練數據來源的合法性負責,保證數據的真實性、準確性、客觀性、多樣性,如此對于防范虛假信息能夠起到很好的作用。但是目前現有現有技術尚難以達到這一目的。故此,將防范虛假信息作為一種倡導性的行為是有意義的,但是作為一種嚴格的法定義務,要求在人工智能服務提供者違反該義務時科以侵權責任,則未免過于嚴苛,而可能不利于鼓勵技術創新。本文贊成此觀點,對于上述知識產權、個人信息保護相關義務的違反,服務提供者應承擔相應侵權責任,但是對于違反數據質量保障義務,顯然不能一概而論,本文容后再論。

(三)數據采集主體的法律義務

數據采集階段涉及不同采集主體的法律義務。通常而言,在數據采集階段涉及的主體包括人工智能開發者、云服務提供商、數據標注提供商以及數據經紀人或數據商。概括而言,這些主體均應承擔隱私保護、個人信息保護以及知識產權保護等義務,同時還應承擔一系列公法上的數據治理義務。就開發者而言,應承擔數據安全保障義務、數據質量保障義務、數據公平治理義務、數據透明義務和數據委托監督義務等。就云服務提供商而言,應承擔數據安全保障義務。就數據標注提供商(相對于開發者而獨立的主體)而言,應承擔數據質量保障義務。就數據經紀人或數據商而言,應承擔數據質量保障義務等等。不難發現,就訓練數據而言,其質量至關重要,因此各主體均應承擔相應的數據質量保障義務。因為有論者發現,在后續的開放領域對話系統中,對話數據有的從社交網絡中收集,不可避免地存在大量錯誤和噪音,高質量的對話數據相對缺乏。故此,對于高質量數據的需求,無論是就大模型自身服務的目標還是“智能涌現”的目標,其均比較重要。當然,此種數據質量保障義務更多是一種數據治理義務,與上文提及的是否承擔相應侵權責任,并不是一個問題。 

 

三、數據的訓練:“價值—技術”雙重視角下的數據利用規則

 

數據的訓練旨在實現人工智能最終可以更好為人類服務的目標。但是顯然人們也意識到了人工智能可能帶來的一些問題。202311月,中國、美國等28個國家和歐盟共同簽署了《布萊奇利宣言》(Bletchley Declaration),大家對一些問題達成共識,認為人工智能帶來發展機會的同時也帶來一定風險。諸如,由于內容操作或生成欺騙性內容的能力,可能會出現未預見的風險;由于可能的有意誤用或與人類意圖對齊的無意控制問題,可能會出現實質性的風險。這些問題部分是因為這些能力還沒有被完全理解,因此很難預測。同時,在諸如網絡安全和生物技術這樣的領域,以及前沿人工智能系統中,都可能產生被放大的風險,如假信息。如何應對這些問題,在數據訓練這個階段尤為重要。技術和認知視角的“智能涌現”顯然是需要更好的數據訓練,以及好數據能被更好利用。

(一)數據利用與訓練目標

“涌現最初是一種具有耦合性的相互作用的產物。在技術上,這些相互作用以及這些作用產生的系統都是非線性的:整個系統的行為不能通過對系統的各個組成部分進行簡單求和得到。”能否出現涌現,人們無從預判。但是當數據達到足夠體量,通過一定訓練之后,能夠出現人們意想不到的認知能力,這一點已具有共識。有論者亦認為,解析生成式人工智能的“涌現”現象,應在認知、行為和知識的互構之中理解知識生態系統下的涌現邏輯,以及知識生產將體現為“從暗知識到顯知識的涌現”的新模式。

數據訓練的關鍵在于選擇合適的訓練數據集、算法和模型。數據集應具有代表性,能夠充分反映出待解決問題的特征和規律。數據集的時效性偏差可能會引發可信度危機。算法選擇之時,則需要考慮問題的性質和數據的特點,以及算法本身的復雜度和效率。同時也需要考慮算力消耗之性價比的問題。只有既在宏觀上認識到數據訓練能增強人們的認知能力,又在微觀技術實踐中能夠實現預定目標,才能理解如何更好利用數據,以及如何更好實現人工智能應用之目標。

(二)價值嵌入與技術支撐

數據訓練之時,既存在傳統問題也存在新問題。有論者從新聞傳播角度進行實證研究后發現,人工智能開發者群體在日常生活與一線工作過程中觸達的風險邊緣類型主要包括數據泄露/冒用作假、隱私販賣/僥幸心理、算法偏見/個人主觀、干擾社會事務及心理傷害,但個人道德、協議約束、法律與媒介監督等因素警示人工智能開發者在使用訓練數據時對于數據邊界問題應保持清醒與冷靜。這些問題彼此交織,使得數據訓練只有在價值與技術融合維度之下,才能實現數據訓練的最終效果。

在個人信息利用之時,生成式人工智能的場景和問題更為復雜。個人信息保護是個傳統問題,但是隨著科技的發展,其也在不同時期呈現出不同問題。在歐盟《一般數據保護條例》之中,在數據收集限制方面,應遵循合法、公平、透明、最小化等原則,并且受目的限定原則等限制。我國《個人信息保護法》也確立了個人信息處理的合法、正當、必要和誠信原則,對個人權益影響最小等方式,遵循公開、透明原則以及保證數據質量等原則規則。

人工智能技術的應用,使得個人信息保護等問題變得更為復雜。信息的廣泛收集,可能會使非個人信息轉化為個人信息。這一問題在此前的諸多場景中就已存在。就敏感個人信息而言,比如,因網絡活動而產生的行為數據、從社交網站上搜集的數據、生活智能設備收集用戶行為而產生的數據、人工智能技術的運用而可能產生的可以關聯至個人的數據以及基于數據分析技術(比如撞庫)等,可能會不斷出現敏感個人信息,進而識別、關聯至具體個人。匿名化的個人信息可能會被重新識別以及機器學習可能超出人類可以控制的范圍。在此基礎上,生成式人工智能就會產生更多問題。本文致力于從“智能涌現”的角度觀察訓練數據問題,認為應盡可能實現大體量數據的運用,但是在價值上仍未有任何偏差,仍強調隱私保護等方面的基本要求。當技術發展至生成式人工智能之時,通過分析個人信息可能會產生新的虛假個人信息,產生“幻覺”(hallucination);由于強交互性,進入模型的信息都可能被輸出;訓練數據中因為包含大量個人信息,可能無法被刪除,并可能進一步產生數據泄露等數據安全風險。故此,如何防止“智能叛變”,將“有意識濫用”和“無意識控制”等問題放在同一場景、維度下考慮,顯然就變得更為重要。也即,如何從多向度在智能時代既保護個人信息,又能更好利用個人信息,就成為一個關鍵議題。

個人信息匿名化等技術的運用,是激活個人信息利用的密鑰。《個人信息保護法》明確規定,匿名化是指個人信息經過處理無法識別特定自然人且不能復原的過程。在信息化時代,對于信息安全的落實方式正經歷“簡單加密—算法加密—多元加密”的變化。與此相聯系,即便是個人信息在數據訓練中合法被使用,但其能否通過技術實現一種非明碼的使用,對于保護信息安全也十分重要。類比一個計算法學的原理,所謂的“不可計算”,只是證明我們還沒為這個系統建立完整的模型,在計算理論上只有當前算力、算法、數據尚無法承擔的計算任務,并沒有理論上不可計算的絕對任務。故此,在數據訓練過程中,應全程嵌入相應價值導向,同時亦應通過技術支撐而實現對個人權益的全方位保障。

(三)模型訓練主體的法律義務

在模型訓練階段,主體較為單一,但是義務卻呈現出全方位、體系化等特征。對于開發者主要是模型訓練者而言,應承擔隱私保護、個人信息保護等義務、數據安全保障義務、數據質量保障義務等等。通常而言,在模型訓練之前都會針對訓練數據進行預處理,這一階段的義務實則與前續采集和后續模型訓練之間都會產生一定關聯,居于“中間地帶”。由于其已在采集階段之后,故更接近于模型訓練之時對于數據的使用。就開發者的法律義務的具體定位而言,與前述數據采集主體的義務體系相類似,對于隱私保護、個人信息保護和知識產權保護等方面的義務,可能會直接引致侵權責任的承擔。但是對于其他一些義務,可能多為公法上的義務。

 

四、“好的數據”原則(Good Data Principle):人工智能治理的新范式

 

人工智能時代的治理極具復雜性,人們不僅要面對不同問題的橫截面,比如克服風險與驅動發展之間的關系,同時也需要面對“科學—技術—社會”的存在論情境而產生的問題。如英國技術哲學家科林格里奇(David Collingridge)從技術的社會控制角度揭示技術發展與社會之間的協同問題時提出的,“技術的社會后果是很難在技術發展的早期做出準確預測的”。因為“當技術的改變相對容易時,其影響卻是難以完全預見的;而當對技術需要變動的要求變得強烈時,這種改變卻已經變得非常昂貴、困難和費時了”。這一現象與理論即“技術控制的困境”(dilemma of control)。不同國家和地區都面對這些抽象出來的共同問題,同時又面對自身的具體問題,如何在自身制度體系框架內安排最適合自身發展的制度,顯然成為一道難題。囿于論題限制,本文并未聚焦探討人工智能治理這一問題,而是在人工智能治理這一框架之下探討訓練數據制度的問題。故此,針對訓練數據制度的建構,當然也是人工智能治理制度中的子制度或者至少有較多重疊交叉的部分。

(一)訓練數據制度的價值衡量

訓練數據的采集、輸入與利用規則,面對著一系列價值衡量。在數據質量、數據體量與外部治理之間似乎形成了一個彼此具有彈性縮脹、此消彼長的關系。數據質量在采集、輸入和利用全程都十分需要;數據體量也是高量級優于低量級,但相伴而生的則是可能虛假信息、錯誤信息也會影響數據質量。外部治理則在數據質量要求、負面風險或高風險方面予以治理。另外,有論者認為,針對訓練數據,應構建以“數據”為客體的數據財產權制度。從本文的分析框架可知,訓練數據通常涉及前端的數據采集規則以及中端的數據利用規則,較難涉及到后端輸出的數據集的權益歸屬判斷問題。若輸出的數據集已成為公開數據,可從公開渠道爬取,這就意味著其上很難分配和承載相應排他性權益。另外,OpenAI的《使用協議》中也約定,輸入和輸出的內容均歸用戶所有,但同時服務提供者也會將用戶對話內容用以訓練模型。故此,作為工具意義上的訓練大模型的數據,除在前端采集之時需具有合法性并應對相應權利沖突之外,其他并不會過多涉及需要在訓練數據之上設定財產權的問題,而更多還是在數據質量、體量與治理之間予以衡量。

技術往往伴隨著試錯的過程而逐步發展,若不試錯,可能也未必能出現極具偶然性的“智能涌現”。因而如何進行價值衡量并制定更為完善的制度,始終是一個重要議題。尤其是近年來,世界范圍內各國各地區都在倫理、技術、治理、經濟、社會等不同向度進行考量協調,也是考量各國各地區“治理平衡術”的歷史時刻。

(二)人工智能倫理準則

人工智能治理的總體準則之一即倫理準則。有論者認為,在技術層面,隨著平臺企業突破并擴展了原有邊界,從之前的單一資源整合者轉變為通過插件和應用程序接口實現多維度賦能的資源調配者,故而形成了基于API、基于插件和基于模型垂直部署三種模式的治理架構。在社會層面,當前階段,人工智能既承繼了之前信息技術的倫理問題,又因為深度學習等一些人工智能算法的不透明性、難解釋性、自適應性、運用廣泛等特征而具有新的特點,而可能在基本人權、社會秩序、國家安全等諸多方面產生一系列倫理風險。人工智能治理路徑選擇上主要有兩種理論:一是“對立論”,即著眼于人工智能技術與人類權利和福祉之間的對立沖突,進而建立相應的審查和規制制度;二是“系統論”,強調人工智能技術與人類、其他人工代理、法律、非智能基礎設施和社會規范之間的協調互動關系。我國主要以“系統論”為治理路徑,旨在逐漸形成多元主體參與、多維度、綜合性的治理體系。

在世界范圍內,各國各地區都試圖在倫理框架之下治理人工智能。《布萊奇利宣言》承諾以安全、以人為本、值得信賴和負責任的方式設計、開發、部署和使用人工智能。歐盟委員會于20214月提出《人工智能法案》提案,經過多輪討論,歐盟27國已于今年2月投票一致支持《人工智能法案》文本,標志著歐盟向立法監管人工智能邁出重要一步。美國近年來陸續推出《人工智能權利法案藍圖》《人工智能風險管理框架1.0》《關于安全、可靠和可信的人工智能行政令》等等。中國近年來發布陸續發布《新一代人工智能治理原則——發展負責任的人工智能》《新一代人工智能倫理規范》等,積極引導全社會負責任地開展人工智能研發和應用,同時發布《生成式人工智能服務管理暫行辦法》等,對生成式人工智能服務實行包容審慎和分類分級監管。這一系列倫理治理理念也將嵌入訓練數據制度之中。

(三)“好的數據”原則之提出

盡管人工智能倫理原則和框架在世界范圍內形成普遍共識,但也可在此基礎上有更多觀察維度和視角。尤其是針對訓練數據制度,可輸入更多視角,使一些原則超越抽象,更具可執行性。有論者提出,數據是人工智能的燃料,提供價值和力量。人工智能倫理原則往往以相同的價值觀(公平、問責、透明度、隱私等)為中心,不足以應對人工智能在社會中帶來的司法挑戰。在域外,人工智能的能力有時可能是由地位具有優勢的主體設計、資助、開發、部署和監管的(如果真的有),這些具有優勢地位的主體可能也正在推進利潤、權力和主導地位的價值觀。而希望提出“好數據”[21]這個概念,作為一個更廣泛的概念,以闡明人工智能的開發和部署以及其他數字技術的價值觀和相關權益。“好數據”應具有四大支柱:社區、權利、可用性和政治,它們是公正的數字社會和經濟的前沿。“好數據”是一個更廣泛的概念,旨在涵蓋“倫理”之內、外的實踐,以及圍繞數據產生的人權、環境和社會正義問題,這可能涉及到超越迄今為止對“人工智能倫理”的關注,以及對“人工智能法律”的關注,以解決“人工智能道德”的不足。這一觀點極具啟發性。或許在我們通常討論數據質量之時,已經輸入了“好的數據”之理念,這一原則與理念比具象意義上的數據質量涵蓋更廣,也更能補足抽象的倫理要求的不足。故此,在人工智能倫理的基礎上,尤其是在訓練數據制度建構方面,“好的數據”原則亦應成為人工智能治理中的一個重要切入視角與新范式。

 

五、結論

 

“科學—技術—社會—法律”的存在論情境,不斷給人們帶來跨越式發展,同時也帶來一系列難題。“智能涌現”作為人工智能時代可能相伴而生的一類新現象,如何認識以及如何從不同維度的制度層面促成“涌現智能”,成為人們十分關注的問題。訓練數據制度作為人工智能制度中的重要構成之一,在“訓練的數據”這一維度,應遵循合法采集規則,但同時為了充分實現“質—量—效”幾者的統一,應盡可能在合法性框架之下擴大數據采集范圍,如此才能為可能的“智能涌現”奠定基礎。對于“數據的訓練”這一維度,應當盡可能更好利用數據,通過價值嵌入和技術支撐,以實現訓練目標。從治理維度而言,在傳統的人工智能倫理準則維度和范式之下,“好的數據”原則更以其涵蓋廣、可執行性強而具有優勢。在數據、算法、算力三個基本要素的協同支撐下,人工智能才得以更好發展。但同時也給我們留下諸多未竟難題,比如“智能涌現”是否是大模型的特征之一,或者說是否所有的更高級別的人工智能發展都需要“涌現”而提升人們的認知;“好的數據”原則應以何種標準予以構造,凡此種種,都給我們留下更多討論空間。

 

作者:姚佳,中國社會科學院法學研究所編審,中國社會科學院大學教授,博士生導師。

來源:《貴州社會科學》2024年第2期。


責任編輯:譚則章
本站系非盈利性學術網站,所有文章均為學術研究用途,如有任何權利問題請與我們聯系。
^