大數據證據的法律審視及算法規制探析

2023-02-27 09:47陳曉璇呂澤華

遼寧公安司法管理干部學院學報 2023年6期

陳曉璇,呂澤華

(中國海洋大學,山東青島 226100)

上世紀50年代起,國外法學界開始出現人工智能介入司法庭審樣態(1)Lucien Mehl,Automation in the Legal World,Proceedings of conference on the Mechanisation of Thought Processes.Teddington,1958.的理論探索,實務界也出現了將汽車事件數據記錄系統數據(2)Commonwealth v.Safa,95 A.3d 304,308,309(Pa.Super.Ct.2014).、GPS坐標數據(3)United States v.Lizarraga-Tirado,789 F.3d1107,1109,1110(9th Cir.2015).等用作庭審證據的案例;上世紀90年代,國內也逐步開展了大數據證據的研究與應用。尤其是近年來,隨著多項法律政策的修改完善,大量的新興證據材料涌向法庭,大數據證據的理論研究與實踐探索方興未艾,各種相關的問題和挑戰也應運而生。本文擬通過分析算法的規制路徑及大數據證據在庭審各階段的功能,對當前大數據證據的定位以及面臨的困境作出回應,進而提出完善大數據算法規制的建議,以期為大數據證據的發展提供可行的思路導向。

一、“定位”:明晰大數據證據的審判角色

(一)大數據證據與電子數據證據之辨析

大數據助力刑事審判的核心問題與訴求在于其對證據體系的革新與作用(4)參見楊繼文,范彥英:《大數據證據的事實認定原理》,載《浙江社會科學》2021年第10期,第46-54頁。。大數據轉化為證據需要按序經過三個步驟:對海量數據信息進行匯總、分析,建構模型或算法,最后通過數據運算生成結論。在此基礎上,有學者對大數據證據定義為“基于海量電子數據形成的分析結果或報告”(5)參見劉品新:《論大數據證據》,載《環球法律評論》2019年第1期,第21-34頁。,其中所指的“電子數據”應當為證明案件的信息來源,也可以直接理解為電子數據證據,即《關于辦理刑事案件收集提取和審查判斷電子數據若干問題的規定》中對電子數據的定義:“電子數據,也稱電子證據,是指案件發生過程中形成的,以數字化形式存儲、處理、傳輸的,能夠證明案件事實的數據”。也有學者認為,大數據證據不同于運用電子數據分析形成的證據(6)參見鄭飛,馬國洋:《大數據證據適用的三重困境及出路》,載《重慶大學學報(社會科學版)》2022年第3期,第1-13頁。,因為后者在一定程度上仍然是對傳統證據的匯總,而現代意義上的大數據證據應當是對電子數據進行篩選、提煉形成的對裁判有實際效用的可采證據。

本文認為,上述觀點并不沖突。大數據之父舍恩伯格從證據的價值屬性出發,強調大數據證據需要以海量證據(包括電子數據)為基礎提取價值和服務(7)參見劉顯鵬:《電子證據認證規則研究——以三大訴訟法研究為背景》,北京:中國社會科學出版社2016年版,第25頁。,從而進一步對比和分析提煉涉案有效證據?？梢哉f,大數據既是一種形式,又是一種技術和方法,它既沒有改變數據的原始形態(8)參見王燃:《大數據偵查》,北京:《清華大學出版社》2017年版,第109-116頁。,又分析證成于客觀數據本身。

面對海量的數據材料,應當是“抱令守律”,將其因循全部歸納為案件線索和證據;還是應當“不落窠臼”,延展大數據作為進一步審判環節的可采證據,需要明晰大數據證據在證據體系中的功能與定位來加以斷定。

(二)大數據證據的功能與定位——輔助性

1.作為證據手段進行事實認定

大數據基于算法模型進行分析。由于事實認定是一個經驗推論過程(9)參見張保生:《事實、證據與事實認定》,載《中國社會科學》2017年第8期,第110-130+206頁。,司法工作人員僅憑對證據進行收集、匯總、提煉等人力勞動和理性經驗,難以完成對海量數據的提取以及規?；瘮祿治?。在這個過程中,大數據雖然不能對證據的資格和能力進行實質性的審查判斷,但是通過算法篩選,可以在海量非結構化的數據中提煉出有效、規律的集合,以便發現、找尋規律,對個案甚至類案的方向和結果作出預測。上述工作對判斷證據在形式上是否具備證據能力,或通過證據匯總進行案件細節的篩查和分析預測大有裨益(10)參見〔美〕Pamela S.Katz:《專家機器人:利用人工智能協助法官采納科學性專家證言》,載《證據科學》2017年第4期,第487-513頁。。大數據的判斷預測,應當遵循輔助參考、效率優先、安全限定等原則(11)參見宋靜:《人工智能在刑事案件證據審查中的應用路徑研究》,載《法制與經濟》2020年第1期,第106-107頁。,不能“越俎代庖”,完全取代司法機關及裁判者的法律地位。

2.大數據證據屬性的立場定位

目前,理論和實務界對于大數據證據的認識和定位未作統一明確。若按證據形式判斷,僅有電子數據和鑒定意見兩種大數據證據形式(12)參見鐘明曦:《論刑事訴訟大數據證據的效力》,載《鐵道警察學院學報》2018年第28期,第83-87頁。。劃分證據種類,反對大數據證據直接作為證據種類的學說并不多見,更多的是探討其能否獨立地成為某種證據種類,應歸為何種證據種類,以便在審判中發揮作用(13)參見林喜芬:《大數據證據在刑事司法中的運用初探》,載《法學論壇》2021年第31期,第27-36頁。。有學者根據“資金大數據分析結論”,將大數據證據歸并到鑒定意見種類中(14)參見何家弘等:《大數據偵查給證據法帶來的挑戰》,載《人民檢察》2018年第1期,第56頁。;也有學者提出,大數據證據本質上是一種電子證據,而且是電子證據的體現(15)參見楊繼文,范彥英:《大數據證據的事實認定原理》,載《浙江社會科學》2021年第10期,第46-54頁。。還有學者認為,大數據證據“綜合性”和“重方法”的特點,使其區別于其他證據,應當將其作為單獨的證據種類;或可以借鑒英美法系關于人證、物證、書證這一更具有開放性的證據分類方式(16)參見徐惠,李曉東:《大數據證據之證據屬性證成研究》,載《中國人民公安大學學報(社會科學版)》2020年第1期,第47-57頁。。司法實務中,傾向選擇將大數據證據歸入鑒定意見中使用(17)參見龍宗智:《司法改革與中國刑事證據制度的完善》,北京:中國民主法制出版社2016年版,第16-18頁。。

綜合考量大數據智能推理的邏輯形式,以及推理過程中可能出現的技術等因素,可以發現以下問題。首先,將大數據證據直接作為證據類型使用,會影響到“實體真實”的發現。證據搭建了主觀認識客觀的媒介(18)樊崇義:《客觀真實管見——兼論刑事訴訟證明標準》,《中國法學》,2000年第1期,第115～121頁。,當前大數據技術不成熟、黑箱化等因素,使得算法在推理過程中容易出現失誤、歧視等偏差。過分信賴大數據得出的分析、預測結論,會直接影響裁判結果。其次,大數據證據具有不同于其他證據形式的特點,如動態性、預測性和非結構性,現有各種法定證據種類的審查標準,并不完全適用于大數據證據。將大數據證據歸入某一證據種類,不僅會弱化大數據證據本身的證明力和證據能力,也會在一定程度上模糊這一證據種類的概念和性質。最后,若將大數據證據作為獨立的證據種類,極有可能顛覆現有的訴訟模式和體系,由原來對照式的、多主體多機關共同發現實體真實和證據,轉變為單一主體(人工智能)即可以發現實體真實的訴訟模式。

因此,理性的做法是不管在定罪程序還是量刑程序(量刑程序中,國內學者對大數據證據的輔助性定位意見趨向一致(19)劉笑寒:《論刑事審判中的大數據證據》,濟南:山東大學碩士學位論文,2020年。),都應將大數據看作一種“AI助手”,輔助裁判者進行理性決策,為司法審判提供偏向效率層面的幫助。有學者提出,“大數據分析是輔助事實認定過程中的重要進路”(20)周蔚:《大數據在事實認定中作用機制分析》,《中國政法大學學報》,2015年第6期,第64～82頁?！胺扇斯ぶ悄軕ㄎ挥谧鲚o助法律人決策的助手與參謀角色”(21)左衛民:《關于法律人工智能在中國運用前景的若干思考》,《清華法學》,2018年第12期,第108～124頁。,將其更多運用于技術層面的工作等。當未來算法技術顯著成熟時,可再行進一步探討大數據分析提煉的證據是否可作為證據種類直接在庭審中運用。

二、“迷霧”:大數據證據運用困境與難題

(一)司法適用層面——尚未形成系統的大數據證據規范

1.數據失真

一方面,大數據證據的真實性取決于生成該證據的機器學習程序代碼,但程序代碼需要根據算法設計者的指令運行(22)參見孫清白:《人工智能算法的“公共性”應用風險及其二元規制》,載《行政法學研究》2020年第4期,第58-66頁。;另一方面,由于人工智能機器運行的自動性,在整合數據時進行格式化處理或者再加工,可能使得原始數據失真(23)參見陳瑞華:《實物證據的鑒真問題》,載《法學研究》2012年第4期,第6頁。。筆者在北大法寶以及裁判文書網,以“大數據”“大數據證據”“真實性”為關鍵詞進行檢索,共收集到193件案例。以此為基礎進行數據分析,可以發現刑事審判中大數據證據的實踐現狀如下:

表1 大數據證據的真實性審查認定結果

可見,在刑事案件審判中,質疑數據真實性的案例過半。因此,在大數據證據的真實性審查環節,需要嚴格的準則和專業鑒真。在理論上,現有學說觀點并未落實到具體的大數據證據審查和算法規制路徑(24)參見吳才毓:《大數據公共安全治理的法治化路徑:算法倫理、數據隱私及大數據證據規則》,載《政法學刊》2020年第5期,第33-41頁。;立法實踐中,我國尚未確立大數據證據的審查規則;審判實務中,裁判者囿于經驗認知或專業受限等原因,也未對大數據證據進行細致、合理的全面審查。

2.取證受限

大數據證據取證環節中取證主體引發的問題主要表現在以下兩個方面。第一,取證主體各方的取證能力和訴訟地位不平等。一般而言,公訴方在大數據獲取和分析上占有支配性優勢,其不僅享有由國家匹配的各種數據庫等資源,而且也具備在必要時調取社會機構數據的權力。相比之下,辯護方在數據收集與處理方面的能力與公訴方存在一定差距。第二,取證主體的技術素養難以把握,甚至會侵犯公民個人隱私。在大數據時代,個人信息表現為“個人弱控制”與“產業強需求”,在《民法典》“人格權編”中被定位為“弱支配”程度的人格權益,亟須加強立法保護。有學者進一步提出,在犯罪確定前收集、分析個人信息,本身就是與無罪推定原則的沖突(25)參見林喜芬:《大數據證據在刑事司法中的運用初探》,載《法學論壇》2021年第3期,第27-36頁。。由此可見,大數據取證的環節引發的一系列問題,需要我們認真反思,并進一步探索合理完善的大數據證據規則。

3.質證低效

有學者提出,大數據證據的審查,應當聚焦于證據能力和證明力兩個層面,需要對證據內容的相關性和可靠性進行審查;有學者指出,裁判者在審查大數據證據時,需要進一步對證據屬于電子證據還是人工智能證據進行二次區分(26)參見馬國洋:《論刑事訴訟中人工智能證據的審查》,載《中國刑事法雜志》2021年第5期,第158-176頁。。當前,我國大數據質證環節的證據審查效率較低,開庭過程中,裁判者需要在大量卷宗材料中找到關聯信息并進行標注,影響庭審進度;大數據證據的編程代碼等無法進行有效的展示,極易漏掉關鍵質證意見,影響審判結果;庭審中,當事人與專業人員需要對專業性問題進行反復討論和解釋,影響審判流程;審查證據的完整性、關聯性、證明力強弱等問題時,鑒于上述對大數據證據的輔助性質和定位分析,那么大數據證據的證明力和法定證據形式的證明力何者更強,抑或具有同等的證明力,質證環節中仍有許多細節需要進一步準確界定。

(二)技術層面——算法淪為“算計”

除了大數據處理的證據真實性需要加以判斷審查外,還有一些實質性的問題需要深入探討。技術真實并不等同于法律真實,大數據在自主化決策過程中,存在許多不確定因素,使大數據證據的運用面臨著數據維度、算法維度和程序維度的風險[30]。一方面,大數據龐大的計算能力和儲備系統,使其在很多領域上超脫了人類決策,甚至比人類決策更有智慧、更難以控制。因此,大數據統計的結果有可能不為人類所理解和接受,設計算法的決策者有時也無法作出令人信服的解釋。另一方面,大數據證據可能具有建構性。司法的目的往往出于社會可接受性的需要,不僅會裁剪案件事實,甚至會故意偏離客觀真實,因此算法設計必定由數據決策者所追求的功能定位和價值目標、群體偏好以及利益衡量等多方面所共同決定(27)參見林鈺雄:《自由心證:真的很“自由”嗎》,載《臺灣本土法學雜志》,2001年第27卷。,有可能導致算法與結果偏離公平正義的軌道。

綜上所述,社會公眾甚至裁判者都無從知曉大數據分析證據的依據和原理,算法的決策者也不可能對簿公堂明示編程設計,會導致決策過程不透明,大數據系統有可能變成“黑箱”,進行政治經濟等方面的壟斷,成為少數人統治的工具。例如,廣受質疑的美國犯罪風險評估系統COMPAS算法(28)參見[美]約書亞·德雷勒斯、艾倫·C·邁克爾斯:《美國刑事訴訟法精解(第1卷)》,吳宏耀譯,北京:北京大學出版社2009年版,第98頁。,在對不同膚色人群進行犯罪統計并預估再犯率時,評估黑人再犯指數達到白人的兩倍,但實際結果卻截然相反。算法設計生成的統計結果將文化水平、犯罪前科等因素相關聯,這種無視法理邏輯,僅憑算法推理得出的結論,無疑違背了品格證據排除規則。設計者基于自身對某些群體的偏見,可能會在算法設計中加入歧視性因素。將這種算法大數據自主化決策形成的結果提交給法庭作為證據使用,無疑會對相關人群造成嚴重傷害。

人工智能大數據介入刑事司法證據體系,引發了一系列質疑:大數據證據是否能夠做到公正且不失偏頗;是否可以被量化、形式化;是否可以被翻譯成具有可操作性的通俗易懂的證據,在訴訟中直接使用;應當由何主體來保障大數據處理后,證據的公平性和透明性,等等。

三、“破冰”:多元視角下的規制路徑

與其他傳統證據大相徑庭,在缺乏監督約束的條件下,大數據證據的性質和作用往往是未知且無法控制的(29)參見孫清白:《人工智能算法的“公共性”應用風險及其二元規制》,載《行政法學研究》2020年第4期,第58-66頁。。如何在順應時代創新和發展要求的前提下,維護人類的基本法律權利和決策能力,將算法決策產生的風險控制在固定閾值或合理范圍內,本文擬在參考和評析以往學術經驗的基礎上,提出筆者的觀點。

(一)大數據證據的審查體系建構:“鑒——取——審”

1.證據“鑒真”

鑒真(authentication),是指證據提出者必須用證據充分證明,其所提出的特定證據確實是其所主張的證據,以規避“失真”作為大數據證據審查的前置步驟。鑒真不僅能夠對證據的真實性進行鑒別,同時也能保證證據之間的相關性(30)參見劉品新:《電子證據的鑒真問題:基于快播案的反思》,載《中外法學》2017年第1期,第89-103頁。。區別于其他傳統證據的鑒真模式,有學者認為,大數據證據應采用存儲介質和物質載體的雙重鑒真(31)參見吳同,周麗:《論刑事訴訟中電子證據的鑒真》,載《山東警察學院學報》2014年第1期,第73-81頁。。本文認為,“雙重鑒真”首先應審查大數據物質載體的真實性,著重審查證據的物質載體與介質是否完好無損,證據流轉的鏈條是否順暢連續,相關主體是否盡到保管義務等;其次,應對數據分析后的證據與原始證據對比審查,如果處理后的數據與原始數據的關鍵信息與內容無二致,那么基本可以確定,數據分析環節中沒有“失真”。

此外,完善大數據證據的鑒真規則和機制,需要對相關主體進行規制,以豐富鑒真的手段和方式。例如,運用 AI 技術,對人工智能算法加工的圖像進行鑒真(32)參見劉譯礬:《論電子數據的雙重鑒真》,載《當代法學》2018年第5期,第88-98頁。;嘗試引入自我鑒真規則,由政府機關收集的數據或認證的源代碼生成的大數據證據,或由獨立第三方評估過的程序代碼生成的大數據證據等,均可以納入自我鑒真的情形(33)參見郭金霞:《電子數據鑒真規則解構》,載《政法論壇》2019年第3期,第56-66頁。。此外,法官在對大數據證據進行審查時,不僅應依據辨認鑒真規則的要求審查,還應該起到 “守門人”的作用,確保鑒真工作建立在可靠的基礎之上。

2.取證設計

一方面,針對實踐中取證主體能力和訴訟地位不平等的問題,建議賦予公訴方、當事人同等的委托第三方專業機構搜集分析大數據的權利。接受委托的第三方專業機構必須是專業數據處理者,根據特定的適用人員和范圍,數據處理的目的、內容、方式,以及法律明確規定的權利、職責和義務,向訴訟主體提供專業服務,并自覺接受企業合規的約束。當事人自行調取數據證據程序復雜、成本高昂,需要接受較長的訴訟周期并承擔高額的訴訟費用。人民法院可以參考法律援助的標準,為當事人或辯護方申請專業機構提供相應的幫助。在當事人未委托專業機構的情況下,人民法院可以指定專業機構或人員進行證據鑒定和處理,并通過后續的制度設計,將社會大數據平臺接入司法機關證據平臺,確保數據證據助力司法辦案的機制良性運行(34)參見田晶林:《第三方存證平臺中電子數據證據效力研究》,上海:華東政法大學碩士學位論文,2019年。。

另一方面,針對侵犯個人隱私的情形,需要賦予當事人庭審前獲得、調取和分析大數據證據的申請權。在具體設計中,在《中華人民共和國網絡安全法》規定的執法協助義務的基礎上,進一步建立完善的大數據證據個人信息保護規則;采取信息的分類處置規則,借鑒國外的成功經驗和技術標準,將個人信息分為一般個人信息和個人敏感信息,大數據系統在取證階段,根據主體和范圍分類匯總不同敏感程度的信息,并對個人敏感信息重點標注、審慎使用,盡到合理提醒與保護義務。

3.質證提效

有學者提出,大數據證據的證據能力審查,應該能經受住相關性檢驗和科學可靠性檢驗。在證明力評價層面,應結合大數據應用的信息連接點選擇、邏輯架構合理性等,判斷大數據證據的可信性以及對待證事實的證明程度(35)參見程龍:《論大數據證據質證的形式化及其實質化路徑》,載《政治與法律》2022年第5期,第96-114頁。。

為避免影響庭審進度,對于通過規律性認識的數據報告或易引發爭議的證據,建議在法庭上慎用精用,以免陷入質證困境;為避免無效證據影響審判結果,可以吸納符合條件的專業人員作為人民陪審員,參與庭審共同解紛,以防遺漏關鍵信息和質證意見;為避免影響審判流程,應當僅就關鍵數據證據和爭議焦點信息展開質證,重復性同種類證據歸類解釋,非必要證據提交書面分析和討論即可。對于證據相關性可靠性等方面的質證,首先明確證據審查的順序。由于證據的相關性審查難度較小,應當采取“先相關性后可靠性”(36)參見馬國洋:《論刑事訴訟中人工智能證據的審查》,載《中國刑事法雜志》2021年第5期,第158-176頁。的次序,通過篩選后應直接過渡到可靠性審查,以利于精準審查范圍。對于證明力強弱等問題的界定,同時涉及到大數據證據對法官自由心證的影響,對證明力評價要遵循論理法則和經驗法則的內在約束(37)參見吳桐:《任意偵查視角下信息化偵查的規制進程》,載《貴州警官職業學院學報》2017年第4期,第62-69頁。。既然已經賦予大數據證據輔助性的定位,在審判過程中就不應高估其證明力,應當在斟酌數據本身邏輯合理性、結論穩健性等問題的基礎上,做出合理判斷。

(二)搭建數據信任的橋梁

1.厘定獲取大數據證據的有限“第三方理論”

通常情況下,公民明知個人信息數據會被第三方平臺留存而依然使用各類網絡服務,可以將其推定為符合任意偵查“自愿”與“同意”的主觀標準,偵查機關收集這類個人信息數據作證據不構成對公民權利的侵害(38)參見趙艷紅:《大數據監控措施的法律規制研究——以隱私權為中心的探討》,載《交大法學》2020年第4期,第132-148頁。。但是,社會公眾很難認識到這些留存的數據可能成為在日后訴訟中對自身不利的涉案證據,我國目前在對偵查行為的規制中,也無明確的“第三方理論”適用等問題。因此,偵查機關在辦案過程中提取證據,需要設置公民對隱私信息被公用的合理期待閾值,厘定“第三方理論”提取數據的界限和范圍。首先,在隱私告知中,聲明個人在使用平臺服務時,可以有選擇地將信息提交給第三方,以此甄別公民使用網絡服務而留存的數據是否屬于隱私權對象,可以作為證據調取;其次,通過醒目方式,提示公民未來偵查機關可能會對用戶提交的數據同步監控和辦案取證,達成用戶、偵查機關以及第三方信任的提前介入。

2.大數據證據的信息披露義務——特定指向的公開

我國法律并未明確禁止算法壟斷,因此,在社會需要或者公權力機關等主體需要獲取算法進行決策或審查時,要在合適范圍以及情形下,進行大數據內部分析證據的開示,或決策者以將數據轉化為通俗易懂的語言等方式,向社會公眾進行解釋(39)參見李婕:《壟斷抑或公開:算法規制的法經濟學分析》,載《理論視野》2019年第1期,第66-69頁。,盡可能公開和獲得反饋,以提高社會的接納度和信任度?？梢怨_特定的數據源代碼,以接受社會公眾的質疑和檢測(40)參見丁曉東:《論算法的法律規制》,載《中國社會科學》2020年第12期,第138-159頁。。公開應當在數據開發早期進行,以便更好地接受社會監督,避免發生算法壟斷的不利后果。

某些特殊情況下,例如公開數據系統可能會侵犯商業知識產權等利益時(41)參見《互聯網巨頭應設立倫理委員會》,載財新網,http://opnion.caixin.com/2018-01-12/101196908.html,最后訪問時間:2023年7月28日。,應當采取局部公開或小范圍公開披露的方式,進行適度合理的解釋和說明;同時,鼓勵數據設計者建立內部合規審查制度,在算法應用的各個階段進行審查并及時修正,并設置一定比例的人工復查要求,盡量將合規風險降到最低?？梢钥紤]成立算法倫理委員會,對采集證據的安全風險進行評估;設立專業審查機構,保證大數據分析的證據合法性與正當性(42)參見楊國榮:《道德系統中的德性》,載《中國社會科學》2000年第3期,第94頁。;設置統一的專業評議機構,對原始數據進行審查、評估和監督,將優化后的數據提交給法庭使用。

3.為算法信任設置正確導向

在大數據分析證據時,自然人(設計者、專業人員)的參與是否會讓公眾更加信任;當“算法歧視”“算法黑箱”等術語甚囂塵上,如何平衡對數據的依賴和懷疑;面對大數據時代的來臨,應當如何發現“數據之美”,構造安全、公平、透明、可問責的算法,從而邁向數據信任的社會,都是大數據介入證據體系所面臨的現實問題。

首先,應當強化數據算法的德性,對算法進行道德內化,將道德倫理外化于法律規制行為模式、法律后果等?！翱茖W技術發展既能促進倫理道德進步,也能導致道德退步”(43)參見謝澍:《人工智能如何“無偏見”地助力刑事司法——由“證據指引”轉向“證明輔助”》,載《法律科學(西北政法大學學報)》2020年第5期,第109-119頁。。因此,應當積極引導技術道德向良性發展,在充分認識分析數據的基礎上,輸入教育成分,防止算法異化。數據是理性客觀的,但操作數據是人為主觀的體現。將良好的道德觀融入數據設計、應用的全過程,不僅能夠使裁判者與其他訴訟參與人對庭審中證據的分析與使用更加信賴,而且有利于提升社會公眾對大數據證據、對庭審公開公正以及對整個司法工作的信任。

其次,應當摒棄對大數據分析決策的偏見,確保大數據能夠“無偏見”地助力司法審判。應當從形式意義上的證據指引轉向實質意義上的證明輔助,實現基于證據評價的概率測算(44)參見劉友華:《算法偏見及其規制路徑研究》,載《法學雜志》,2019年第6期,第55-66頁。,為算法提供更多無偏見色彩的、透明的訓練數據。裁判者根據大數據證據作出的決策,應受算法的支持而非支配;法官作為審判主體,在庭審中應保持中立裁判,避免因算法造成偏見和狹隘認知。

最后,建議以“目的/結果”為導向,擇優考量算法的內容。例如,“減少再犯率”是數據分析的目的,只要經過實踐驗證為更優的方法(成本合理、降低錯判率)即值得信任,無論數據分析過程中,是否有專業人員等介入因素影響算法決策。

四、“遠瞻”:大數據介入證據體系的未來圖景

(一)算法的規范改進

大數據首要考慮算法的準確度和科學性問題,因為“放在天平上的分量不是證據的數量,而是由證據產生的蓋然性以及案件的全部環境決定的”(45)參見沈達明:《英美證據法》,北京:中信出版社1996年版,第46頁。。美國參議員羅恩·懷登(Ron Wyden)、科里·布克(Cory Booker)等提出了《2022年算法責任法案》,這項法案為軟件、算法和其他自動化系統帶來更好的透明度和更新的監督方式。這些系統被用來對美國人生活的各個方面做出關鍵決定。算法決策者不能再對自動化系統的有害影響視而不見,無論是否有意為之。

我們必須確保算法為大數據分析證據提供中立而透明的幫助,而不是邊緣化和隔離。當前,亟需探索契合我國法律實踐的算法規范方案,以便迅速、有效地挖掘大數據的證據價值。一方面,應當提高專業準入的人才門檻,通過培養“法律+計算機”專業人才隊伍,強化對數據證據體系的深度融合理解,以便將數據分析的偏差降到最低(46)See Bennett Moses,Lyria and Chan,Janet,Using Big Data for Legal and Law Enforcement Decisions:Testing the New Tools.University of New South Wales Law Journal,Vol.37,No.2,2014,pp 643-678.;另一方面,大力推進算法技術的提升,在數據“開源”的基礎上挖掘革新,盡快落實算法設計者和操作者的責任機制,建立與大數據技術發展相關的法律規范體系,通過“數據的理性+人的解讀”,構造人與數據協同一體的證據體系。

(二)大數據證據在庭審各階段的價值運用

在對大數據證據功能定位分析的基礎上,應當進一步明確庭審前、庭審中、庭審后三個階段的證據價值運用。

庭前階段,大數據應當作為證據手段進行形式事實認定。主要目的是發現案件中證據的瑕疵、矛盾之處,以及判斷其是否滿足證據資格,但不應賦予其單個證據證明力或全案證據的判斷功能,以此為庭審舉證質證作鋪墊。不能以發現實體事實為主要目的,否則將削弱庭審程序的存在意義(47)參見縱博:《人工智能在刑事證據判斷中的運用問題探析》,載《法律科學(西北政法大學學報)》2019年第1期,第61-69頁。。

庭審過程中,由于庭審實質化對法官自由心證的要求,大數據容易影響裁判者,導致其“先入為主”,因此不能完全借助大數據進行證據分析判斷。此時,應當豐富創新大數據證據的庭審展示方式。根據大數據證據的輔助性質與功能定位,在證據展示時應當靈活結合,不拘泥于對號入座的形式,既可以將大數據證據作為其他證據的支持或反駁材料使用,也可以通過現場數據模擬和重演的方法,彌補分析報告或其他證據的證明力。

庭審結束后,裁判者可以借助大數據輔助心證的形成。庭審后,控辯雙方可以根據大數據分析的報告結論,進行充分的舉證和質證;法官在舉證質證和法庭辯論的基礎上,綜合案件全過程進行裁判,最后通過舉例說明和解釋判決結果。數據挖掘證據的過程較為晦澀難懂,庭審數據分析報告中,如果結合示例加以闡釋,能夠更充分有效地發揮數據證據的結果價值,不僅為控辯雙方理解和接受,也會為社會公眾普遍理解和接受。

在大力推進大數據技術在司法領域中的應用時,應當始終保持對大數據證據的高度審慎態度和開放包容的姿態,為數字化庭審構筑可持續上升空間。未來大數據在庭審中應當分階段、分情況介入和發揮作用,在最大化發揮大數據價值的同時,充分保障司法公正性和權威性在庭審各環節的實現。