ChatGPT火爆出圈后,國內(nèi)外各行業(yè)紛紛探索“AI+”等生成式人工智能產(chǎn)品,比如百度的“文心一言”、騰訊的“混元”AI大模型、華為的“盤古西里AI大模型”、微軟新版Bing&Edge。在此背景下,5月30日,北京市人民政府辦公廳印發(fā)《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施(2023-2025年)》(以下簡稱《若干措施》),分別從算力、數(shù)據(jù)要素、技術體系、應用場景創(chuàng)新、監(jiān)管模式等多個維度探索人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展方向,進一步發(fā)揮人工智能技術在數(shù)字市場中的引領和改革作用。
《若干措施》明確數(shù)據(jù)要素供給能力對人工智能產(chǎn)業(yè)發(fā)展的核心推動作用,聚焦通用人工智能發(fā)展,營造創(chuàng)新生態(tài),重視防范風險。現(xiàn)階段,國內(nèi)人工智能產(chǎn)業(yè)發(fā)展面臨的最大障礙是數(shù)據(jù)資源不充分、不全面。在技術原理層面,生成式人工智能產(chǎn)品的功能迭代依賴質(zhì)量高、規(guī)模大、內(nèi)容全的數(shù)據(jù)集合,經(jīng)由數(shù)據(jù)清洗、歸并、去噪等環(huán)節(jié),輸入至預設的算法模型,以此不斷調(diào)整輸出端的可靠性與準確性。
當然,實際的技術處理過程遠比這復雜得多。但毋庸置疑的是,人工智能產(chǎn)業(yè)的全球競賽在一定程度上也是高質(zhì)量數(shù)據(jù)資源的競爭。因此,《若干措施》直指產(chǎn)業(yè)創(chuàng)新痛點,貼合國家數(shù)據(jù)要素市場化配置的戰(zhàn)略目標,分別從高質(zhì)量的訓練數(shù)據(jù)集、國家級數(shù)據(jù)訓練基地以及精細化標注平臺三個方面明確提升數(shù)據(jù)要素供給能力。
人工智能產(chǎn)業(yè)需要滿足高質(zhì)量標準的訓練數(shù)據(jù)集。《若干措施》將高質(zhì)量的基礎訓練數(shù)據(jù)集歸納為三類表現(xiàn)形式,即合法性、多元性和效用性。所謂的合法性,是指訓練數(shù)據(jù)集的來源合法、處理方式合法。這是因為在實踐中存在部分數(shù)據(jù)處理者為了加速算法模型迭代升級速度,以非法方式獲取包含個人信息的訓練數(shù)據(jù)集或者違法抓取第三方數(shù)據(jù),這顯然與我國數(shù)據(jù)安全法所要求的數(shù)據(jù)處理者收集數(shù)據(jù)應當以“合法、正當?shù)姆绞健毕嚆!M瑫r,《若干措施》多次提及“合規(guī)安全”等表述,也是為了貫徹落實數(shù)據(jù)安全法的立法要求,即“保障數(shù)據(jù)安全,促進數(shù)據(jù)開發(fā)利用”。所謂的多元性,是指訓練數(shù)據(jù)集應當盡可能來自不同渠道,不同行業(yè)、不同領域的數(shù)據(jù)資源聚合往往可以產(chǎn)生更高的經(jīng)濟效益,也有助于更高效地提升算法模型的迭代升級速度。為此,《若干措施》強調(diào),以有條件的社會數(shù)據(jù)開放形式兼顧數(shù)據(jù)來源合法性與數(shù)據(jù)高質(zhì)量運用。所謂的效用性,是指訓練數(shù)據(jù)集應當能夠直接投入算法模型迭代優(yōu)化的處理流程,提升數(shù)據(jù)處理效率。客觀而言,以中文語料為主的訓練數(shù)據(jù)集往往需要經(jīng)過更為煩瑣的數(shù)據(jù)加工處理流程才能投入使用,這并不利于人工智能產(chǎn)業(yè)創(chuàng)新速度的提升,故而《若干措施》也提出“清洗中文預訓練數(shù)據(jù),形成安全合規(guī)的開放基礎訓練數(shù)據(jù)集”等發(fā)展策略。
人工智能產(chǎn)業(yè)需要規(guī)模化的數(shù)據(jù)資源優(yōu)勢。《若干措施》提出“加快建設數(shù)據(jù)基礎制度先行先試示范區(qū)”有助于打破目前社會數(shù)據(jù)資源跨行業(yè)傳輸不充分、規(guī)模效益難以實現(xiàn)的產(chǎn)業(yè)僵局。盡管我國已發(fā)布了《中共中央 國務院關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(以下簡稱“數(shù)據(jù)二十條”)等文件,但距離真正實現(xiàn)數(shù)據(jù)要素的高效市場化配置仍有一段路要走。大部分數(shù)據(jù)持有者為了避免承擔數(shù)據(jù)安全法律責任、鞏固自身數(shù)據(jù)資源市場競爭優(yōu)勢等,普遍缺乏跨行業(yè)開發(fā)利用數(shù)據(jù)資源的積極性,這導致行業(yè)數(shù)據(jù)遲遲未能充分發(fā)揮潛在的經(jīng)濟價值。此外,以ChatGPT為代表的生成式人工智能產(chǎn)品研發(fā)成功離不開規(guī)模化數(shù)據(jù)資源的支持,而這種規(guī)模化并不單純是指簡單的數(shù)量龐大,還包括種類龐大,即需要整合國家層面的高質(zhì)量數(shù)據(jù)進行算法模型訓練。加快建設數(shù)據(jù)基礎制度先行先試示范區(qū)的現(xiàn)實意義便是盡可能為符合安全標準的企業(yè)或科研機構提供單個市場主體無法獲取的訓練數(shù)據(jù)集,這恰恰也是“數(shù)據(jù)二十條”中“建立合規(guī)高效、場內(nèi)外結合的數(shù)據(jù)要素流通和交易制度”的具體實現(xiàn)路徑。值得注意的是,為了解決過去數(shù)據(jù)交易中心營利模式單一、數(shù)據(jù)交易單一等局限性,《若干措施》還鼓勵開展內(nèi)容信息服務的互聯(lián)網(wǎng)平臺提供高質(zhì)量語料數(shù)據(jù),供創(chuàng)新主體申請使用。探索基于數(shù)據(jù)貢獻、模型應用的商業(yè)化場景合作。
人工智能產(chǎn)業(yè)需要精細化標準服務支撐。數(shù)據(jù)標注是人工智能算法優(yōu)化的核心業(yè)務流程,其原理是通過人為地標注文本、圖像、視頻、聲音等數(shù)據(jù)的特征,以便讓計算機能夠理解不同數(shù)據(jù)的性質(zhì)、作用與真?zhèn)危M而達成自主識別數(shù)據(jù)的目標。換言之,人工智能產(chǎn)業(yè)創(chuàng)新不僅僅是算法模型等技術要素的創(chuàng)新,同時也包括數(shù)據(jù)標注的質(zhì)量提升。不同的服務提供者往往采用符合自身業(yè)務特征的數(shù)據(jù)標注體系,但伴隨著越來越精確的數(shù)據(jù)標注需求,僅憑研發(fā)企業(yè)自身難以有效支撐其業(yè)務發(fā)展需求,故而《若干措施》有的放矢地提出“精細化標注眾包服務平臺”。這里的眾包服務可以理解為服務提供者把數(shù)據(jù)標注任務有償?shù)剡M行分包,好處是能夠由不同行業(yè)的工作者對本行業(yè)數(shù)據(jù)設置更精確的標準,有利于降低企業(yè)運營的經(jīng)濟成本。更重要的是,精細化的數(shù)據(jù)標準結果能夠提升人工智能輸出端的準確性。當然,如果僅僅按照現(xiàn)有的數(shù)據(jù)標注服務模式遠遠不足以支撐我國人工智能產(chǎn)業(yè)走得更遠,而是需要更長久、更直接的經(jīng)濟激勵機制確保標注工作者能夠勤勉認真地完成高質(zhì)量的數(shù)據(jù)標準工作,比如對于貢獻者適當獎勵顯得尤為必要。
《若干措施》切實抓住了人工智能技術創(chuàng)新的三大關鍵要素,即數(shù)據(jù)、算力和算法。過去的產(chǎn)業(yè)政策中,大多是針對訓練數(shù)據(jù)的規(guī)模、類型、內(nèi)容提出具體要求,此次北京市選擇了更具操作性的政策實施方案,細化了訓練數(shù)據(jù)高質(zhì)量保障、規(guī)模化集聚以及數(shù)據(jù)標注質(zhì)量提升三個具體目標的實施步驟,這對完善數(shù)字時代人工智能產(chǎn)業(yè)發(fā)展的短板具有重要意義,對于我國搶占人工智能技術國際競爭高地將起到提速增效的重要作用。
(作者單位:北京航空航天大學)