THE ALGORITHM SAYS YOU DID IT: THE USE OF BLACK BOX ALGORITHMS TO ANALYZE COMPLEX DNA EVIDENCE
作者:Katherine Kwong
刊載于:Harvard Journal of Law & Technology
刊載時間:Fall 2017
主要內容:DNA可作為判定一個人有罪或無罪的可靠證據。但當出現涉及多個人的DNA混合樣本時,該分析結果很大程度會出現錯誤。當前用于分析和解釋復雜DNA樣本的常用技術并不可靠,甚至會存在不當起訴或定罪的可能性。為了提高對復雜DNA樣本分析結果的準確性,許多公司與組織正在開發一種算法系統來解釋DNA分析的結果,但仍然引起人們對算法的科學有效性及透明度的擔憂,無法確定由其得出結論的準確性與可靠性。由此,本文建議法院應嚴格審查分析DNA樣本的算法系統是否進行科學驗證、要求證據提交方提供算法的源代碼與分析過程以及禁止大家對算法系統的源代碼進行二次公開/披露或不當公開/披露等方式來建立一個更加公正的刑事司法系統。
一、背景介紹
刑事司法系統中對DNA證據的使用得到了人們的普遍認可。通過當前技術分析單一來源或簡單的DNA樣本是可以直接得出結論的,但是分析一份含有多個未知身份的DNA樣本可能會出現問題。這些DNA樣本被稱為復雜混合物,包括混合血跡和多人遺留的DNA物質等。法醫一般采用主觀判斷和樣本處理技術相結合的方法來解釋對復雜DNA樣本的分析結果,但主觀判斷通常會帶入個人的偏見或認知錯誤,加之法醫缺少對案件細節的了解,由此對案件認定可能會產生不利影響。
許多公司試圖開發出一種算法來解決如何對DNA分析結果進行主觀判斷的問題。此類算法分析程序依賴一種“概率基因分型” 技術,該技術會加快對復雜DNA樣本的分析速度并具有較高準確率。當前使用較多的是TrueAllele程序,該程序得出的結論可直接用于確定犯罪嫌疑人從而無需我們進行主觀判斷,但該軟件提供的證據也面臨是否具有可靠性的爭論。因為TrueAllele程序并未公布其源代碼且法院也沒有強制要求其披露,所以我們無法獲知TrueAllele得出結論的過程,由此產生了對DNA證據真偽性的懷疑。
二、使用算法分析DNA樣本的問題
通過算法程序對DNA進行分析存在著一些問題,該方法的科學有效性并不明確,加之TrueAllele等拒絕公開其代碼,由此法官和陪審團只能依賴最終的結果進行審判而無法得知結果做出的過程,也無法質疑用于解釋結果的方法之優劣。
不同的程序在有關如何解釋樣本數據的算法中有不同的選擇,分析一份完全相同的DNA樣本可能會產生不同的結果,在確認樣本中存在多少個人的DNA時也可能會出現錯誤。當然,解釋復雜DNA樣本的算法也會存在一些代碼錯誤,STRmix就公開承認其源代碼中存在錯誤。TrueAllele的代碼也可能存在一些錯誤,只是由于其拒絕將源代碼提供給任何第三方,因此并未被知悉。電子隱私信息中心(EPIC)指出,由于算法透明度的重要性以及對開放政府和公平刑事司法系統的追求,我們應該獲悉TrueAllele的源代碼。同時,有學者認為獲取代碼本身對于全面評估TrueAllele是至關重要的。正如法院不會接受未被證明具有專家資格的證人的意見一樣,法院也不應該在未確定該技術是否有資格進行分析的情況下就接受“數字專家”的結論。
鑒于不同的DNA圖譜在解釋的選擇上具有差異性,如果算法缺乏透明度就可能會導致執法部門從不同的解釋程序中尋找一個對自己最有利的結果。有人認為,當前最大的問題就是沒有對TrueAllele等程序進行真正的獨立評估,對程序運行的優缺點是無從得知的。程序之中的差異性可能會導致執法機關對不同的程序進行測試直到他們獲得了支撐其案件的證據為止。由于這些問題可能會對認定犯罪嫌疑人產生潛在影響,甚至導致一些司法不公的事件,因此需要我們解決這些問題。
三、討論與回應
概率基因分型算法為司法系統的工作提供了很多便利,因此不能簡單地禁止使用該技術,我們需要解決的是該程序所面臨的缺乏科學有效性和透明度的問題。NIST于2017年宣布對涉及DNA分析的法醫學技術進行科學基礎審查,這便于我們確認算法分析DNA樣本的可靠性。同時,為保護憲法賦予被告人的辯護權以及維護正當程序,我們應要求公開用來分析DNA樣本的算法代碼。
復雜混合型DNA樣本帶來的挑戰意味著刑事司法系統需要對這類法醫證據進行更客觀的分析。概率基因分型算法最終可能為各種類型的DNA證據提供客觀、有效和可靠的結果。但就目前而言,由于分析DNA的算法缺乏經過獨立驗證的科學有效性證據及其代碼缺乏透明度,這導致概率基因分型算法得出的結論可能有誤。為解決這些問題,法院應嚴格審查某一特定算法系統是否得到了科學驗證,還應該考慮通過一項規則,即禁止將對復雜混合物進行算法分析的結果作為案件的證據,除非證據提交方向辯護團隊披露算法的源代碼和分析過程。同時,通過禁止二次公開/披露或不當公開/披露代碼的規則來保護公司的商業秘密和財產權,在維護司法公正的同時也保障公司的利益,以此建立一個更加公平公正的刑事司法系統。