DeepSeek技術(shù)應(yīng)用的侵權(quán)責(zé)任風(fēng)險(xiǎn)-法治前沿-中國(guó)法學(xué)創(chuàng)新網(wǎng)

　　近期，國(guó)產(chǎn)AI大模型DeepSeek受到了海內(nèi)外廣泛關(guān)注，它不僅在性能上可比肩ChatGPT等頭部AI大模型產(chǎn)品，而且訓(xùn)練成本相比傳統(tǒng)AI大模型節(jié)省了約96%。使用了中文語(yǔ)料進(jìn)行訓(xùn)練的DeepSeek不僅具備展現(xiàn)邏輯推理過(guò)程的“深度思考”模式，還加入了“聯(lián)網(wǎng)模式”以實(shí)時(shí)更新數(shù)據(jù)庫(kù)，使得生成內(nèi)容更智能、更準(zhǔn)確和更懂中文用戶。DeepSeek的創(chuàng)新技術(shù)和新型功能給AI行業(yè)帶來(lái)了驚喜，但也存在著相應(yīng)的侵權(quán)責(zé)任風(fēng)險(xiǎn)。

　　“蒸餾技術(shù)”引發(fā)的侵權(quán)責(zé)任挑戰(zhàn)

　　DeepSeek之所以能夠高效率和低成本地訓(xùn)練模型，一個(gè)重要原因是采取了模型“蒸餾技術(shù)”（Distillation）。“蒸餾”的過(guò)程通過(guò)從性能強(qiáng)大、數(shù)據(jù)豐富的教師模型中提取輸出數(shù)據(jù)樣本，由學(xué)生模型模仿教師模型的運(yùn)算邏輯，并利用監(jiān)督微調(diào)技術(shù)（SFT）、強(qiáng)化學(xué)習(xí)技術(shù)（RL）來(lái)不斷校準(zhǔn)和驗(yàn)證輸出結(jié)果、優(yōu)化計(jì)算結(jié)構(gòu)，最終使學(xué)生模型在參數(shù)量減少逾90%的情況下，仍能保留教師模型90%以上的性能表現(xiàn)。然而，“蒸餾技術(shù)”不僅顛覆了傳統(tǒng)大模型從零訓(xùn)練數(shù)據(jù)的原始方案，也與開(kāi)源替代、新增差異化模塊等簡(jiǎn)單“做加法”的方案存在很大的區(qū)別，“蒸餾”極為依賴教師模型，通俗來(lái)講就是對(duì)教師模型的優(yōu)化甚至“拷貝”。這不禁引起我們的思考：將他人研發(fā)的大模型用作自家大模型訓(xùn)練、輔助決策的工具，這究竟構(gòu)成合理使用還是侵權(quán)？

　　一方面，雖然“蒸餾”技術(shù)本身并不違法，但在某些情況下可能引發(fā)侵權(quán)糾紛。在未取得合法授權(quán)的情況下，學(xué)生模型優(yōu)化、改良教師模型的行為有可能構(gòu)成侵犯他人復(fù)制權(quán)、改編權(quán)等權(quán)利，還可能構(gòu)成《反不正當(dāng)競(jìng)爭(zhēng)法》中的“搭便車(chē)行為”以及侵犯他人商業(yè)秘密的行為。即使學(xué)生模型取得了教師模型的合法授權(quán)，由于“蒸餾技術(shù)”借助他人模型來(lái)輸出生成數(shù)據(jù)并開(kāi)展標(biāo)注作業(yè)，這意味著需依賴既有的教師模型來(lái)生成數(shù)據(jù)標(biāo)簽，此類(lèi)數(shù)據(jù)不再是原始數(shù)據(jù)而是衍生數(shù)據(jù)，若利用數(shù)據(jù)的行為超出了授權(quán)范圍，仍然可能會(huì)侵犯教師模型開(kāi)發(fā)者、提供者的一系列數(shù)據(jù)權(quán)益。當(dāng)然，目前沒(méi)有任何證據(jù)顯示DeepSeek存在“非法蒸餾”行為，并且OpenAI采取閉源策略，其推理過(guò)程是隱形的，指控DeepSeek通過(guò)蒸餾技術(shù)獲取其內(nèi)部數(shù)據(jù)純屬無(wú)稽之談。

　　另一方面，“蒸餾技術(shù)”還可能引發(fā)對(duì)外共同侵權(quán)中的責(zé)任承擔(dān)問(wèn)題。由于監(jiān)督微調(diào)技術(shù)并不需要洞悉教師模型的具體運(yùn)算過(guò)程，“蒸餾”過(guò)程中的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制具有不確定性，加上學(xué)生模型本身的誤差形成了“雙重黑箱”。因此，當(dāng)學(xué)生模型生成了虛假信息、有害信息等侵權(quán)內(nèi)容時(shí)，很難對(duì)侵權(quán)內(nèi)容的來(lái)源以及生成機(jī)理進(jìn)行追溯，究竟是學(xué)生模型學(xué)藝不精還是教師模型錯(cuò)誤教學(xué)導(dǎo)致侵權(quán)不得而知。此時(shí)，若要求教師模型與學(xué)生模型承擔(dān)連帶責(zé)任，對(duì)于教師模型而言肯定不公正，畢竟教師模型并未直接生成侵權(quán)內(nèi)容，否則有違自己責(zé)任的基本法理。對(duì)此，出于激勵(lì)技術(shù)改良和進(jìn)步的目的，并且依據(jù)侵權(quán)法中的“報(bào)償理論”，由學(xué)生算法對(duì)其輸出的侵權(quán)內(nèi)容單獨(dú)承擔(dān)責(zé)任更具有合理性。

　　聯(lián)網(wǎng)增強(qiáng)模式下的侵權(quán)責(zé)任風(fēng)險(xiǎn)

　　大數(shù)據(jù)模型分為純離線模式、聯(lián)網(wǎng)增強(qiáng)模式與混合架構(gòu)模式。此前，大多數(shù)主流的大模型如ChatGPT-4、Claude等默認(rèn)不具備實(shí)時(shí)聯(lián)網(wǎng)生成功能，它們的知識(shí)主要依賴訓(xùn)練時(shí)吸收的離線數(shù)據(jù)庫(kù)。而現(xiàn)在，DeepSeek、Kimi智能助手、文心一言等大模型均加入了自帶實(shí)時(shí)聯(lián)網(wǎng)生成功能，可以供用戶自主選擇，OpenAI也將訂閱才能支持的ChatGPT Search（聯(lián)網(wǎng)搜索）功能面向所有用戶開(kāi)放。然而，訓(xùn)練大模型所需要的大規(guī)模、高質(zhì)量、多模態(tài)數(shù)據(jù)集，通常是從各個(gè)領(lǐng)域和多個(gè)數(shù)據(jù)源收集的。這些數(shù)據(jù)來(lái)源繁雜且內(nèi)容混雜，如果不經(jīng)解析、清理和篩選，不僅會(huì)對(duì)模型性能的提升造成障礙，還有可能不分真假好壞地收集信息，更容易生成具有危害性的內(nèi)容，而實(shí)時(shí)聯(lián)網(wǎng)生成功能很難迅速、高效地過(guò)濾掉數(shù)據(jù)中的“雜質(zhì)”。

　　從性質(zhì)上看，DeepSeek等大模型提供者同時(shí)具有網(wǎng)絡(luò)服務(wù)提供者、網(wǎng)絡(luò)信息內(nèi)容生產(chǎn)者、大模型訓(xùn)練者、個(gè)人信息處理者等多重身份，既需要對(duì)前端訓(xùn)練數(shù)據(jù)的質(zhì)量和合法性負(fù)擔(dān)注意義務(wù)，也需要對(duì)后端生成內(nèi)容承擔(dān)信息治理義務(wù)。一方面，根據(jù)《生成式人工智能服務(wù)管理暫行辦法》規(guī)定，生成式人工智能服務(wù)提供者有義務(wù)使用具有合法來(lái)源的數(shù)據(jù)和基礎(chǔ)模型，采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量，增強(qiáng)訓(xùn)練數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性、多樣性，從前端確保生成內(nèi)容不違反法律法規(guī)的要求。DeepSeek自帶實(shí)時(shí)聯(lián)網(wǎng)生成功能供用戶選擇使用，在數(shù)據(jù)處理流程中對(duì)原始數(shù)據(jù)的清洗精度與廣度存在天然局限，難以確保完全剔除不良信息。此種背景下，DeepSeek作為大模型提供者有義務(wù)構(gòu)建一套可靠高效的數(shù)據(jù)實(shí)時(shí)過(guò)濾機(jī)制，保證實(shí)時(shí)聯(lián)網(wǎng)模式下大模型的穩(wěn)定性和可靠性。

　　另一方面，DeepSeek實(shí)時(shí)聯(lián)網(wǎng)生成功能依托在線網(wǎng)絡(luò)抓取信息，具備顯著的時(shí)效性和實(shí)用性優(yōu)勢(shì)，卻也陷入信息更新過(guò)快導(dǎo)致真實(shí)合法性受質(zhì)疑的泥沼。基于此，大模型提供者需承擔(dān)如下義務(wù)：一是鏈接義務(wù)，向用戶展示使用的所有搜索鏈接網(wǎng)頁(yè)，同時(shí)在生成內(nèi)容的各個(gè)部分附上對(duì)應(yīng)的鏈接，方便用戶知曉生成內(nèi)容的來(lái)源素材。二是提示義務(wù)，以醒目、突出的方式向用戶附上明晰、無(wú)歧義的免責(zé)聲明，提醒用戶利用該功能生成的內(nèi)容有潛在風(fēng)險(xiǎn)，可能存在敏感、虛假、有害等信息，以便共同預(yù)防和制止侵權(quán)行為的發(fā)生。三是救濟(jì)義務(wù)，大模型提供者還必須設(shè)立多元、便捷、暢通的反饋與投訴路徑，配套高效的響應(yīng)流程。一旦接獲侵權(quán)通知，應(yīng)當(dāng)及時(shí)對(duì)涉事侵權(quán)內(nèi)容采取停止生成、停止傳輸、消除、模型優(yōu)化訓(xùn)練等措施，確保大模型不再生成侵權(quán)內(nèi)容。

　　推理可視化功能帶來(lái)的侵權(quán)責(zé)任難題

　　深度思考模式是DeepSeek的重要技術(shù)特色之一，旨在通過(guò)模擬人類(lèi)認(rèn)知過(guò)程，提供更精準(zhǔn)、連貫且富有邏輯性的輸出，并且會(huì)向用戶展示大模型的邏輯推演過(guò)程。這使得DeepSeek更加智能和人性化，可降低算法不透明帶來(lái)的信任問(wèn)題，但也不可避免地引發(fā)一個(gè)傳統(tǒng)大模型未曾遭遇的困境，即在生成侵權(quán)內(nèi)容的情況下，這樣的推演過(guò)程可能會(huì)成為主動(dòng)暴露的侵權(quán)證據(jù)。

　　一方面，深度思考模式通過(guò)多層級(jí)推理生成更“擬人化”的輸出，其邏輯鏈條可能更接近人類(lèi)專家的表達(dá)方式，若訓(xùn)練數(shù)據(jù)中包含未授權(quán)的版權(quán)內(nèi)容（如書(shū)籍、論文、代碼、圖像等）或者其他侵權(quán)內(nèi)容，而生成內(nèi)容又恰好與之相似，無(wú)疑會(huì)增加侵權(quán)概率。與此同時(shí)，當(dāng)前對(duì)大模型生成內(nèi)容的權(quán)利歸屬仍存在爭(zhēng)議，若用戶基于暴露的邏輯推演過(guò)程二次創(chuàng)作衍生作品，可能引發(fā)權(quán)利鏈條斷裂。而根據(jù)《著作權(quán)法》等相關(guān)規(guī)定，獨(dú)創(chuàng)性判斷標(biāo)準(zhǔn)在人類(lèi)與人工智能協(xié)作場(chǎng)景下尚未明晰，大模型提供者還可能因“實(shí)質(zhì)性相似+接觸可能性”原則承擔(dān)共同侵權(quán)責(zé)任。這些以往很難被證明的內(nèi)容極易通過(guò)深度思考功能被展示得一覽無(wú)余，由此增加大模型提供者承擔(dān)侵權(quán)責(zé)任的風(fēng)險(xiǎn)。

　　另一方面，雖然深度思考下的推演過(guò)程屬于一種“中間結(jié)論”而非正式生成文本，但仍有可能被視為生成內(nèi)容的一部分，并且推演過(guò)程可能比最終生成內(nèi)容更詳細(xì)。因此，推演過(guò)程展示也應(yīng)當(dāng)構(gòu)成生成內(nèi)容，需要與最終結(jié)論承擔(dān)同樣的合規(guī)義務(wù)。不僅如此，相較于正式生成文本部分，深度思考模式在處理多源數(shù)據(jù)和展示推理過(guò)程時(shí)，可能更容易引用未經(jīng)授權(quán)的版權(quán)內(nèi)容或者其他侵權(quán)內(nèi)容，而且多模態(tài)支持可能涉及圖片、視頻等各類(lèi)素材的使用，進(jìn)而增加侵權(quán)風(fēng)險(xiǎn)的預(yù)防難度。因此，大模型提供者應(yīng)當(dāng)針對(duì)深度思考模式下的推理過(guò)程建立敏感信息實(shí)時(shí)過(guò)濾機(jī)制，對(duì)多模態(tài)輸入進(jìn)行合法性校驗(yàn)，避免推演過(guò)程引發(fā)侵權(quán)或成為證明侵權(quán)的直接證據(jù)。

　　（作者系西南政法大學(xué)民商法學(xué)院教授）

国产伦久视频免费观看视频,国产精品情侣呻吟对白视频,国产精品爽爽VA在线观看无码,韩国三级HD中文字幕