?

“數據”概念史考略及“檔案數據”概念解析*

2023-03-22 03:47丁海斌
檔案與建設 2023年1期
關鍵詞:數據意蘊概念

吳 哲 丁海斌

(1.沈陽建筑大學馬克思主義學院,遼寧沈陽,110168;2.廣西民族大學管理學院,廣西南寧,530006; 3.廣西數字檔案管理研究所,廣西南寧,530006)

“數據”概念從學界對其進行察考或闡釋開始,常處于較為抽象之境地,難以有一個精準的、達成共識的概念界定。又因為數據時代之“數據”,已經成為社會熱點詞匯,被許多學科所關注與引入,又經過不同學科視角的研究,從而引申出若干內涵與外延。由于著眼點不同、學術進路不同、認知差異等多種因素影響,對于“數據”概念的闡釋呈現了百花齊放的態勢,至少存在數十種概念界定。在某種程度上,“數據”概念呈現出不確定性、多元性與歧義性。因此,形成這樣的判定并不是沒有原因的:“數據本身沒有確切的含義,其含義來源于背景語義?!保?]此外,在人文社會科學的一些學科領域(比如哲學),容易想當然地認為“數據”一詞,是由“數”而來,所以不乏“數—數據—大數據的歷史沿革”[2]這樣的討論。而計算機學科認為:“編碼都必須是計算機能夠接收的形式,因此,‘數據’一詞的最早來源就是指‘計算機數據’?!保?]既然“數據”一詞的歷史淵源、“數據”一詞的概念界定等都尚未完全厘清,那么,對“數據”進行一次概念史考察,或許可以消解某些歧義,提升我們對“數據”概念認識的明晰度。

1 “數”與“據”

1.1 何謂“數”

“數(數)”字始見于戰國文字,由“婁”而來,簡化字為“婁”?!皧洹弊殖鲇诮鹞?,古時即有“數”之涵義,段玉裁釋謂:“婁,亟也。亟者,數也?!保?]例如,戰國中期之郭店楚墓竹簡《語叢二》中,所謂“名婁”,即“名數”[5]也。后加“小擊也”之“攴”,乃造為專字“數”,其簡化字寫作“數”。

《說文解字》將“數”字之本義厘定為動詞“計算”,訓曰:“數,計也,從攴婁聲?!保?]作動詞時讀音為shǔ,如《道德經》:“善數,不用籌策?!保?]從動詞義計算,引申出名詞義“數目”,名詞讀音為shù,如《莊子·秋水》:“號物之數謂之萬?!保?]自漢代以后,盡管“數”的形容詞、副詞詞義仍然使用,如數百步、數見不鮮等,但其主要詞義“計算”“數目”已然相當穩固,此二義與今之“數據”概念存在著一定的關聯性。

1.2 常被忽略的“據”

現代人談論“數據”的概念時,其重心在于“數”“數字”“數字化”等,“據”字多被視為后綴,因此在概念闡釋時,“據”字常常為人所忽視。釋“數”者多,釋“據”者少,就像前文所述,有學者討論“數—數據”的歷史沿革,卻幾乎沒人會去討論“據—數據”的歷史沿革。以今審之,“數據”概念之涵義恐亦與“據”之動詞義“依托”、名詞義“憑證”有所關聯,絕非僅為后綴而已。如,我們日常使用“據研究表明”“據調查表明”,是可以的,但若說“據數據表明”,則有病句之嫌。

2 作為合成詞的“數據”

“數據”乃為“數”字與“據”字兩詞素相疊加之合成詞。所謂“數據”,取“據”之名詞義,則為“數字之憑據”;取“據”之動詞義,則為“據之以數”或“以數為據”。此二義其實一脈相循,互為呼應,即數據何以能成為“數字憑據”呢?在于“以數為據”是也;反之,若可以“以數為據”,則數據便可以成為“憑據”。

在中國歷史文化語境中,“數”與“據”連綴使用時,“據”字多為動詞依托、依據之義。自古統計數目,于數目后,常跟隨此種“以數為據”之義,即“某某數,據某某”。如“戶千六十七萬七千九百六十,此《通典》所載之數,據《東漢書》”。[11]但是古時“數”“據”二字連綴使用,尚非固化之雙音節合成詞,只是表達根據什么而來、以某某為依據之類的涵義。如,《春秋谷梁傳》:“今傳言公田什一者,舉其全數,據出稅言之”[12];《素問》:“守數據治,無失俞理”[13]等,此中所謂守數據治,即根據常規、規律而進行治療,實為“據數”之義。又如“臣不過據數而言,豈敢妄議是非?”[14]此中之“據”固為動詞,而“數”亦并非全是數目、數字的涵義,還有規律、術數等其他涵義。一如現代之“數據”概念,“數”亦并非只能指代數字,除數字外,文字、圖形、圖像、音頻、視頻等亦皆可稱“數據”。此外,將“數據”當作雙音合成詞來使用,出之甚晚。以現有資料考察,清代學者楊守敬所撰《日本訪書志》,其中《太平圣惠方》一百卷《目錄》一卷中,謂“計其所采方書,增于《外臺秘要》數據倍”。[15]其中所謂“數據倍”,結合前面“增于”二字,則此“倍”或為加倍之義,即“數據倍之”,故“數據”似當為合成詞。不過這種用法即使在近代,亦非常見。

3 與Data對譯的“數據”

關于Data的歷史溯源,最早可追溯至古希臘數學家、被稱為“幾何學之父”的歐幾里得。即,Data早期與數學具有較強的關聯性,此恐怕亦是Data在現代詞語涵義上等于“數據”之基礎與淵源所在。從歐幾里得時代到現代,以概念史視角來看,Data的涵義主旨似未發生顛覆式的變化,但其所指卻出現過數次微妙的調整。

3.1 強調“已知”意蘊的Data

Data概念源自數學(幾何)著作,因此,對于Data的優先譯介權也在數學史的領域里發生。據稱歐幾里得除《幾何原本》外,另有15部著作,不過基本都已散佚?!啊兑阎獥l件》(Data)……是唯一以希臘原文幸存至今的另一部著作”[16],這里面至少提供了兩個至關重要的信息:其一,早期的Data,涵義為“已知條件”;其二,學界現在廣泛流行的觀點認為“數據”一詞最早出現于“拉丁文”,或許可以商榷。這一著作中提出的若干涉及比例與圖形等眾多命題在數學史上的意義值得我們重視。因為這些意義在現代的“數據”概念里仍在延續。

數學家們并未執著于意義,只是指出“在已知圖形中某些部分或關系是已知時,其他部分或關系在這種或那種意義上也是已知的”這種解釋,正是《已知條件》(Data)這部著作的核心思想,而對于這種核心思想的最簡潔的內涵表達即是:Data。因此,或可將Data的原始意義做一次提煉,即,限于圖形范疇,若某些元素已知,則其他元素也可以成為已知。在此種意義上,現代“數據”之“以數為據”的概念與數學史上的“已知條件”相吻合。例如,在數據時代,若“已知”某人的每日出行軌跡,則該人的其他元素,如家庭住址與工作單位可“成為已知”等。因此,“數據”概念的原初涵義“已知條件”,在21世紀仍然成立?,F實生活中,所有互聯網服務商們之所以能夠對網民群體使用“自動推送”“精準投放”等手段,都是基于“部分已知,其他部分也已知”的底層邏輯。

3.2 強調“資料”意蘊的Data

如果說強調“已知”意蘊的Data,多存在于數學領域。那么,對于強調Data之“資料”意蘊的解讀,則較多地存在于歷史學領域(在這個意義上,“資料”“文獻”“檔案”等概念為近義詞甚至同義詞,??苫Q使用)。其中,雙方的研究重心不相同,數學領域中的“已知”,具有計算性、思辨性意義,歷史領域的“資料”,則更多的是Data的功能性意義。

強調“資料”意蘊的Data,其較早似可追溯至精于魏晉玄學、佛教史的近代歷史學家湯用彤先生。湯先生在論“科學推理之諸原則”之際,曾將Data界定為“算術之材料”。[17]民國時期,“史學即是史料學”“只要把材料整理好,則事實自然明顯”[18]等觀念頗為流行,以“史料”作為史學之起點與基礎,具有相當先進的意義。盡管湯用彤先生走的不是“史料學”一路,但其對于史料的重視是顯而易見的。而在史學家眼中,“數”“量”“數量”也好,“已知條件”也罷,恐怕皆為歷史之“材料”而已。此種歷史視角之界定,將“數據”指向“材料”“資料”意蘊的習慣,到了現代,似在史學界仍有所延續,例如,在《新史學之古代科學與現代文明》一書中,便將數學家眼中的《已知條件》(Data),明確釋譯為《資料集》(Data)。[19]

3.3 強調“依據”意蘊的Data

前文曾述,現代探討“數據”之概念,重心在于“數”“計算機”“數字化”等,“據”字多被視為后綴,常為人所忽略。然而,從“數據(Data)”的詞語內涵角度,無論是漢語還是外語,其“依據”意蘊都不應如此輕易地被摒棄或丟失。

盡管《英語同義詞辨析大詞典》將Data釋譯為“系(以事實、數字或統計為形式的)數據,資料”,但也明確提出了“Data的要件是dat=give提供”。[20]無論是“已知條件”,還是“材料”“資料”,都是名詞,而“提供”卻是動詞,那么“Data的要件是dat=give提供”之意蘊,只能由數據之“據”來表達。前述“據之以數”“以數為據”之“據”,其動詞義為“依托”“依據”,而“Data的要件是dat=give提供”中的“提供”,即為“依托”。

在強調Data詞語內涵的主旨為“依據”這一方向上,亦有學者提出:“數據(Data)這個詞來自拉丁語,指‘一些給定的東西’?!保?1]盡管認為“數據”一詞來自拉丁語尚待商榷,但是,這所謂“給定”的涵義,卻與“提供”“已知條件”頗有異曲同工之妙。而“給定”相比僅僅“提供”,在“據”之可為“依托”的方向上,似又更進一步。

總而言之,“數據”一詞的三種歷史涵義“已知條件”“資料”“依據”,各有其視角與著眼點,但這三種不同視角的意蘊闡釋,卻又可回環相通。其回環如下:“已知條件”,是可知的,所以當然可以成為“資料”(不可知的不能稱為資料,只能稱佚失或闕如了);而“資料”具有存儲或記錄之屬性,因此是可搜集、可整理、可提取的,若占據了“資料”,就順理成章可以成為某種“依據”或“憑證”;而“依據”或“憑證”,既然都以此為據、以此為憑了,便無法將其歸入“未知”,則顯然屬于“已知條件”。

4 “數據”即檔案

4.1 各學科對“數據”的借用與界定

數據時代,作為核心概念的“數據”一詞,早已經跨越了學科壁壘,被若干學科所關注并頻繁使用,各個學科也都曾對“數據”進行過概念解釋。理工學科大多從“工具價值”的角度使用“數據”;而人文社會科學學科則大多從向理工科“借用”“引用”的角度出發來使用“數據”。因為數據時代之所謂“數據”,與計算機、互聯網的發展密不可分,所以一個潛在的事實為:人文社會科學大體上默認“數據”概念的原始解釋權屬于理工科,而人文社會科學的不同學科在使用“數據”概念時,基本上要遵循理工科的定義、邊界與范式,至多小心翼翼地在理工科概念框架內增添一點該人文社會學科的特色語詞,將“數據”涵義進行某種嫁接式的“二次開發”。所以,在學術界若干學科里,其實都對“數據”概念進行過界定,只不過這數十種界定,由于過于對計算機學科“察言觀色”、小心翼翼,從而對于“數據”的概念界定紛紛走上了一條“不求有功,但求無過”的學術進路。甚至在“一切學科的基礎”之哲學領域里,對“數據”的釋義都難以觸摸本質,現在看來,似乎亦是“無過即是功”式的含糊其辭。例如,將“數據”界定為“人類認知活動的產物”“客觀事物的主觀反映”“對事物現象進行表征的一種邏輯語言”。[22]將“數據”定義為人類認知活動的產物、客觀事物的主觀反映,或許無過,但是“人類認知活動的產物,客觀事物的主觀反映”只是等于“數據”么?也即是說,“=”的左右兩邊其實并不對等。至于“一種邏輯語言”,則顯然是計算機學科對“數據”定義的某種借用,因為只有計算機視角,才能將數據界定為“語言”。所謂“計算機語言”,實在只是以人為主體視角中人類“語言”一詞的比喻、比擬而已。

4.2 “數據”——數字時代的“檔案”

在檔案界,“數據”一詞的應用與其他學科有所不同,因為數據就是數字時代的檔案,二者在數字時代實為一物。

(1)原因與根據

為什么說數據是數字時代的檔案呢?有以下原因與根據:

第一,從歷史角度講,檔案與數據從來就密不可分。從前面的論述可知,“數據”一詞的來源與本義,不論是漢語的“以數為據”,還是西文的“已知條件”“資料”“依據”,都具有檔案的含義。在計算機還未興起之前,“數據”就具有 “已知條件”“資料”“依據”等涵義,已經與“檔案”密不可分。第二,從定義角度講,檔案是人們有意識保存起來的原始符號記錄[23],而數據的屬性完全符合這個定義。數據時代,“數據”一詞在具有了計算機的內涵之后,與檔案的關系不疏反密。一方面,數據是人通過計算機有意識形成與保存的;另一方面,從原生態的數據而言,數據是原始符號(數字符號)記錄。從這一點看,它完全具備檔案的屬性,是一種稱為“數據”的檔案事物。第三,從實踐角度講,檔案是人類實踐活動的原始符號記錄,而絕大多數原生態的數據是具有這種屬性的,它們是網絡世界中人類活動的符號記錄,是數字實踐活動的檔案記錄,在屬性上屬于檔案事物是確定無疑的。我們不能因為它們中有一些目前不屬于檔案機構的管理范圍,而說它們不是檔案。第四,從功用角度看,對其他人文社會學科而言,“數據”只是本學科發展的輔助資料,其著眼點只在本學科關注的部分。而在檔案學界,就研究對象而言,“數據”并非只是“輔助”,而是“主體”“全部”,檔案學關注的不只是“小小一部分”,而是人類實踐活動中形成的“數據世界的整體”。不論哪個學科的“數據”,都可成為檔案;不論結構化數據還是非結構化數據,都具有檔案價值,都可成為檔案。

總之,檔案學界使用“數據”一詞,與其他人文社會學科有著巨大的區別。對檔案學而言,“數據”就是自己,是“主體”或“全部”,所以只是用“拿來主義”的態度來對待它是遠遠不夠的,必須用本學科的核心概念和理論來做出科學的解讀。

(2)形式與內涵

目前,“數據”與“檔案”的結合包括 “檔案數據”“數據檔案”“檔案大數據”等多種形式。其中“檔案數據”一詞最為流行,筆者以該詞為主進行分析。從20世紀90年代,計算機含義的“檔案數據”一詞產生以來,主要被理解為偏正結構,即“檔案”是“數據”的定語,起修飾、限定作用。但歸結起來,基于偏正結構,“檔案數據”一詞中的“檔案”,主要有兩種含義:“具備檔案性質的”或“關于檔案的”。

在數據形態的檔案世界中,我們可以把其存在形態分為兩種基本情形:一是基于局域網、行業網等的各種業務系統中的數據,它們一般為結構化數據,其檔案性質能夠較清晰地被人們意識到并較容易地被接受,其檔案管理機制也較容易地被建立起來;二是基于廣域網中的各種非業務系統中產生的數據,如社交系統中產生的數據,由于它們多數是非結構化數據,其檔案性質容易被人們忽略,或者說其檔案屬性不明顯,是否轉化為結構化數據是它們是否被認為是傳統意義上的“檔案”的關鍵。

各種業務系統上的數據被視為檔案管理起來,是目前檔案界要解決的較為直接與緊迫的工作,也是檔案界目前的“共識”,這些結構化數據被檔案界內外認可為檔案較容易,所以這些數據常常被稱為“檔案數據”。但同樣具有價值的非結構化數據,因其數量更大、形態更多,加上非結構化不利于管理,在實踐中成為傳統檔案機構的管理對象是一件很難的事情,所以,雖然它們在屬性上是檔案,但在管理行為上和思想認識上較難被接納為檔案,它們往往不會被稱為“檔案數據”,這是人們較難接受“數據即檔案”觀點的關鍵。數據時代的檔案工作,說到底可以分為兩個部分:一是將結構化數據科學管理起來;二是將非結構化數據轉化為結構化數據并科學地管理起來。后者一旦得以實現,人們就不會再說它們不是檔案了。

(3)兩條路徑與“檔案數據”的重新解讀

關于“檔案數據”的解讀,筆者將思路重點放在廣義與狹義的兩種解釋路徑上,即廣泛存在的具有“保存起來的原始符號記錄”屬性的數據和檔案界內的較傳統的解釋路徑(“關于檔案的數據”“檔案內容數據”等)。這兩種解釋路徑可以并存,且只是廣義與狹義之分,不是非此即彼、相互排斥的關系。

關于狹義的“檔案數據”,我們將其理解為一種偏正詞組結構,即“檔案的數據”。在這種“檔案數據”的偏正詞組結構認知中,“檔案數據”一詞的詞義相當復雜,會生發若干歧義。所謂的“檔案數據”,到底是“‘屬于檔案的’‘關于檔案的’‘檔案中的’‘檔案機構所有或管控的’‘檔案業務活動中形成的’‘檔案數據化后的’‘檔案化處理后的’‘歸檔或存檔的’還是‘具有檔案屬性的’等都無法厘清?!保?4]當然,以“檔案的數據”的偏正詞組而言,這些理解都是有思辨意義的。隨著社會信息化的發展,檔案界處于左右兩難的境地。向左,檔案即數據,檔案范圍擴大了,但界限模糊了,很多情況下檔案人會覺得自己似乎也消失在數據的海洋中了;向右,堅持“檔案數據是關于檔案的數據”,就會使檔案工作的范圍越來越窄,原有的領地也一步一步地被蠶食掉,會使自己處于一種非常尷尬的境地——將檔案管理與數據管理截然分開,自己只是歷史檔案的管理者,將檔案的現實實踐意義拱手讓給“數據工作者”。檔案工作與數據工作變成了兩個職業,檔案工作不是得到了發展,而是倒退了。

事實上,融合和發展是不可避免的,用傳統的觀念理解今天的檔案世界,已經是不可能的事情了。世界在改變,我們的思想和概念也必須發生改變,這是不以人的意志為轉移的客觀現實。概念的突破,詞匯的發展,說到底是思想上的突破與發展。這種思想上的突破與發展,要從事物的本質出發,從發展著的實踐出發,從歷史唯物主義的發展的角度出發。其中,傳統的檔案機構本身就是突破和發展的對象,傳統意義上的檔案機構即將發生改變,那么,“保存在檔案機構的原始符號記錄才是檔案”的思想自然也會被突破。同樣,我們也要突破“即時與歷時”的局限。在數字世界中,數據即生即存、形成與保存一體,即時與歷時已經沒有了明顯的界限。因此,我們不能因為它們的實時性而否認它們的檔案性質。當然,在辦公和業務系統中,電子文件與電子檔案在程序上的前后區分仍然存在。

關于廣義概念的“檔案數據”,我們可以有偏正結構和同義并列式復合詞(同義復詞)結構兩種理解方式。偏正結構方面,我們可以認為“檔案數據是具有檔案性質的數據”,而因為絕大多數數據都具有檔案性質,我們得出“數據即檔案”這種概略性的說法(數據有少部分不具有檔案性質,如圖書數據庫中的圖書數據。因此我們說“數據即檔案”是一種概略性的說法)。同義復詞結構方面,管理學有“管理數據”,考古學有“考古數據”等,“數據”作為一個熱詞,是被以“拿來主義”的方式使用,用來豐富本學科學術內容的,“檔案數據”當然也有這一層用意。在此意義上,所謂“檔案數據”與“管理數據”等名詞一樣,皆可為偏正關系詞組。但是除此之外,與其他學科不同的是,它還是一個并列關系詞組。因為在“資料”“依據”意義上,甚至在“已知條件”的意義上,數據與檔案是同義詞,因此,從這個角度而言,數據即檔案。

結合前述,從歷史溯源來看,在計算機尚未興起之前,“數據”與“檔案”已經密不可分,甚至某種程度上為同義詞。因此,我們似不必一定要以“計算機、數據化”的視角去解讀“檔案”與“數據”,從而將“檔案”與“數據”視為截然不同之二物;所謂“檔案數據”,亦不必一定得將其內涵默認為“檔案的數據”,進而因“到底什么是‘檔案的’?”而產生大量分歧。我們可以對它進行另外一種解讀,即將之理解為同義復詞“檔案和數據”(“數據”不過是對“檔案”的重申)。

從歷史淵源和同義復詞視角看“檔案數據”一詞,可以解除“屬于檔案的”“關于檔案的”“檔案中的”“檔案機構所有或管控的”等方面的爭議。此類爭議的特點在于全部都是以“的”結尾,這種闡釋模式下,即便暫時用“檔案數據”解釋得通,但未來仍存有較大之隱患,即“檔案”若是僅將自己定位成定語與修飾詞,那么,檔案或成為計算機或計算主義之附庸。因為在數據時代,強勢的計算機術語正在大量植入其他學科,并成為熱點詞匯,如云計算、共享池、虛擬化、區塊鏈、元宇宙、生態云,等等。如果我們將檔案僅當作數據的定語與修飾詞,那么,“檔案虛擬化”“檔案云計算”“檔案共享池”“檔案云”“檔案區塊鏈”等一旦成詞,則“檔案”復將一次次地成為“云計算、共享池、虛擬化、區塊鏈……”等無數計算機術語的定語與修飾詞。

前述檔案其實不像其他人文社會學科那樣只關注“小小一部分”數據,而是關注“數據世界整體”,因為所有不同學科的“資料”,都可成為檔案,因此,“數據”之于檔案學,應該與其他人文社會科學學科有所不同。那么,將“檔案”僅當作“數據”的定語與修飾詞,可以是其他視角,而不應該是檔案學的視角。事實上,在以檔案為主體的視角中,龐大的計算機、互聯網,也只不過是檔案的“工具”或者說具有“工具價值”罷了。在這種意義上,檔案自身在數據時代的主體意義才能得以確認。而且,檔案學界應該理直氣壯地確認檔案在信息社會的這種主體地位,而不必“茍且偷生”。

5 結 語

在對“數據”賦義的過程中,其概念界定呈現出不確定性、多元性與歧義性,學界存在多種定義與闡釋,代表著我們對“數據”的認識多立足于局部,尚未完全清晰,包括本文在內,學界每一次對“數據”進行的考察,都可視為厘清之努力。作為合成詞的“數據”,其主要來源是與Data進行的對譯,但是由于“數據”一詞已徹底融入中國語境,則對其漢語漢字之意蘊亦不可無視。尤其不應該選擇性地忽略“據(據)”字,將其僅視為語詞之后綴。在對“數據”概念進行界定之際,某些時候,“據”反而處于關鍵地位。

從歷史源流角度考察出的“數據”三種意蘊:“已知條件”“資料”“依據”,外在表象似乎不同,內里卻是相通的。并且,此三種意蘊不只是在歷史上成立,現代依然在運行。比如相對于“資料”“依據”而言較難理解的“已知”,現代互聯網的“數據推送”依然基于“部分已知——其他部分也已知”的底層邏輯?!皵祿钡娜N意蘊使得它與“檔案”具有一種天然的自始至終的密切聯系,而這種聯系是此前的學術研究所忽略的。

至于“檔案數據”,現代多將之理解為“檔案的數據”,實則“數據”與“檔案”為近義詞甚至在“資料”“依據”意義上為同義詞?!皺n案數據”是一種同義復詞,“數據”不過是對“檔案”的重申,因此,不應將“檔案”僅僅視為“數據”的定語與修飾詞。即便不以語詞詮釋的視角,只以現實應用的視角,若能夠認清檔案的“主體”地位,則計算機、互聯網以及存儲或傳送于其中的“數據”,亦只是具有“工具價值”。堅持檔案的“主體”地位,在未來才不至淪為計算機或計算主義之附庸。

猜你喜歡
數據意蘊概念
Birdie Cup Coffee豐盛里概念店
幾樣概念店
學習集合概念『四步走』
詠史詩的哲學意蘊(外三則)
聚焦集合的概念及應用
公路工程試驗檢測存在的問題及措施
一種借助數據處理構建的智能食堂管理系統
歷史課點評的意蘊
淺談計量自動化系統實現預購電管理應用
意蘊難求
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合