?

政策信息學視角下政策文本量化方法研究進展

2022-06-18 07:29曹玲靜張志強
圖書與情報 2022年6期
關鍵詞:文本分析

曹玲靜 張志強

摘? ?要:政策信息學是大數據科學范式下政策科學向大數據政策知識發現研究發展的跨學科研究方向,從該理論視角系統梳理政策文本量化的知識發現方法及最新研究進展,可以指導數據密集的政策文本分析實踐。文章基于政策信息學理論分析政策文本量化研究興起背景、概念內涵和研究框架,將現有研究歸納為面向政策結構特征的政策計量分析、面向政策內容特征的政策內容量化和面向政策語義特征的政策文本挖掘等三類研究方法,分別總結各類量化方法的研究流程、主要類型及優缺點,并系統論述政策文本量化知識發現研究進展。政策文本量化研究近年來發展迅速,集中體現在政策信息爆炸性增長、多領域方法交叉融合現象凸顯、政策分析需求復雜多樣。未來應重點關注:建設領域政策大數據庫、開發針對性的方法工具以及注重理論研究實踐落地。

關鍵詞:政策信息學;政策量化;政策計量;文本分析

中圖分類號:D035;G203? ?文獻標識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2022087

Research Progress on Quantitative Methods of Policy Texts from the Perspective of Policy Informatics

Abstract Policy Informatics is an interdisciplinary research direction developed from policy science to big data policy knowledge discovery research under the research paradigm of big data science. From this theoretical perspective, it systematically combs the current situation and latest progress of knowledge discovery research methods in policy text quantitative, which can guide the practice of policy text analysis of data density. This paper analyzes the background, concept connotation and research framework of quantitative research on policy text from the theory of Policy Informatics, and classifies the existing research into three types of research methods: policiometrics analysis based on policy structural features, policy content quantification based on policy content features, and policy text mining based on policy semantic features. It summarizes the research process, main types, advantages and disadvantages of various quantitative methods, and systematically discusses the research progress of knowledge discovery in policy text quantification. Knowledge discovery research on policy text quantification has developed rapidly in recent years, which is mainly reflected in the explosive growth of policy information, the prominent phenomenon of cross integration of multi domain methods, and the complex and diverse demand for policy analysis. In the future, we should focus on: building a large policy database in the field, developing targeted methods and tools, and paying attention to the implementation of theoretical research.

Key words policy informatics; policy quantification; policiometrics; text analysis

21世紀以來新一輪科技革命和產業變革加速演進,全球范圍內科技競爭加劇和國家創新體系建設重要性凸顯,世界各國進入了政策強供給時代,政策分析研究迎來了新的發展機遇。傳統的政策分析源于文本解讀,即依賴專家學者的學識儲備和經驗判斷來定性分析政策文本的核心思想和觀點,總結政策變遷規律并對政策發展趨勢進行預測與研判。然而,隨著政策數據指數級增長和政策相關議題愈發復雜,偏主觀的政策文本定性解讀無法滿足政界和學術界對理性、科學的需求,如何利用多學科的技術方法開展大數據驅動下政策信息的知識分析和發現變得日益重要,政策文本量化研究作為其關鍵環節開始萌芽與發展。近年來,情報學界關于政策文本的知識發現研究逐漸增多,政策文本成為情報學繼期刊論文、專利文獻之后的又一重要研究對象,這種趨勢契合了大數據時代“全樣本”數據分析的發展需求,也迎合了知識經濟時代學科交叉融合創新的發展邏輯。

政策文本主要包括國家各級行政機構頒布的法律、法規和規劃等官方政策文件;政策制定過程中因評估、咨詢、聽證和決議等形成的報告文檔;政策活動過程中因演講、辯論、報道、訪談、評論等形成的政策輿情文本??梢?,政策文本不同于期刊論文、專利文獻等結構化數據,具有來源渠道繁雜、數據類型多樣、文本結構各異等特征。目前,缺乏政策文本分析特有方法,學術界圍繞政策文本開展知識發現研究時多是借鑒參考其他學科的方法和工具,尚未形成系統的政策文本量化研究理論和框架。如黃萃將計量學方法應用到政策文本分析中,綜合利用數理統計學、文獻計量學、科學計量學和社會網絡分析等方法對政策文本的內外部特征屬性進行分析[1];付琳等通過編碼的方式將政策文本進行歸納、分類和人工標引,形成可量化統計的分析單元[2];Baker等使用基于字典的方法來構建政策不確定性的度量[3];Beauchamp、Laver等將政策文本視為數據,利用計算機科學的相關方法和技術,挖掘文本中的政策立場[4-5]。

政策信息學是政策科學在數據密集型科學范式下發展形成的跨學科研究領域,其研究內容是基于政策文件數據、科研文獻數據和社會媒體數據等政策相關的多源海量異構數據,利用數理統計學、文獻計量學、科學計量學和計算機科學等多學科的技術方法,圍繞政策科學研究的關鍵問題開展知識挖掘和知識發現研究[6]。從該視角全面梳理和總結政策文本量化研究的理論發展、方法體系和應用進展,能夠為當前多樣化的政策文本量化研究實踐提供系統的理論框架和規范的方法范式。因此,本文基于政策信息學理論從政策文本量化的緣起入手,梳理、總結和歸納政策文本量化的概念內涵和基本框架,整理政策文本量化主流研究方法的分析流程、方法工具和應用場景等,構建系統的依賴政策文本量化開展政策知識發現的研究體系,以期為今后學者開展政策分析相關研究提供參考和借鑒。

1? ?政策文本量化研究的理論發展

1.1? ? 政策文本量化研究的興起

1.1.1? ?政策文本數量激增提供了可用的數據基礎

隨著大數據和數字時代的到來,政策相關文本數據爆炸式增長,主要體現在政策信息來源復雜化、政策文本信息碎片化、文本數據類型多樣化。而開放政府、數字政府及電子政務的世界性發展趨勢為政策文本量化研究提供了信息獲取的機會和可能。如我國于2007年4月公布《中華人民共和國政府信息公開條例》(2008年5月1日起實施,2019年二次修訂),明確要求政府必須公開行政法規、國民經濟和社會發展規劃、專項規劃、區域規劃等規范性政府文件;2014年頒布《關于加強政府網站信息內容建設的意見》,明確指出各級政府要將政府網站作為政府信息公開的第一平臺。同時,政府信息管理系統的不斷豐富和完善為政策文本量化研究提供了大量可用的基礎性和結構化數據??梢?,大數據時代背景下政策文本的完備性、時效性、可獲取性、可計算性顯著提升。

1.1.2? ?方法技術快速發展使量化分析成為可能

海量政策文本的出現使得傳統的依靠定性解讀或手動編碼的政策分析方法不再適用,新興信息技術的快速發展為政策數據的復雜計算、政策知識的深度挖掘和政策規律的可視化呈現提供了新的解決方案。計算機技術、文本挖掘技術的日臻成熟和廣泛應用,使得公共管理、公共政策和其他社會科學的學者能夠處理大量政策文本,以發現挖掘其中的潛在關系;另一方面,情報學、數理統計學、社會科學等學科知識和方法的交叉融合為政策文本量化研究提供了方法源泉,文獻計量、內容分析和語義分析等成熟量化分析方法大大拓展了政策分析的研究邊界,主題模型、知識圖譜和可視化技術等擴展了對復雜政策過程的理解及向不同受眾解釋、傳播的能力。近年來,計算機科學技術發展日新月異、學科交叉融合趨勢愈發明顯,政策量化研究作為政策質性分析的有效補充蓬勃發展。

1.1.3? ?政界及學界對政策分析日益精細的需求

政策文本量化研究是數據驅動科學研究范式下政策分析科學化、合理化發展的必然結果,也是學科交叉融合背景下學術界針對海量政策數據開展政策分析的必然選擇。隨著政策分析樣本量的豐富性增長和多學科方法技術的成熟化發展,政策參與方(政策制定者與利益相關者)對政策分析提出了更高的要求。如何從多種類型的海量政策文本信息中提取知識,發現政策演化變遷規律、評估政府決策本身的效益或者預測相關領域發展走向?如何科學合理地運用相關工具和方法將政策文本量化為可復用的研究數據,使政策分析更加客觀、系統和高效,為政策制定提供有力的證據?基于此,政策管理制定已經從依賴經驗判斷走向數據驅動的循證決策,政策分析亟需從小樣本統計推斷轉向大樣本知識發現,政策研究關注重點應從相關關系探討轉向因果關系分析。

1.2? ? 政策文本量化研究內涵及特征

政策信息學視角下的政策文本知識發現研究并不局限于傳統政策解讀較為關注的規范性政策文本,更多關注大樣本量、半結構化或非結構化政策文本的量化分析。與之相關且較為被學術界所熟知的概念有“政策文獻計量”“政策文獻量化”和“政策文本計算”。政策文獻計量是將以“洛特卡定律”“布拉德福定律”與“齊夫定律”三大定律為理論基礎的文獻計量學方法遷移到政策量化分析的研究中[7],是參考論文結構屬性開展計量分析的政策文本量化方法。政策文獻量化是將內容分析法、文獻計量法、社會網絡分析法、知識圖譜等方法應用到政策分析過程中,圍繞政策文獻內外部結構要素特性進行的計量分析[8],本質上仍然是政策計量的范疇;政策文本計算主張運用政策文本與語詞之間的映射關系進行政策概念的自動識別和自動處理,構建從政策文本到政策語義的自動解析框架[9],偏重于利用計算機技術挖掘、呈現政策文本的語義信息[10]??梢?,這些概念是政策文本量化內容的不同側重,實際上均屬于政策文本量化研究的范疇,故本文將其統稱為政策文本量化。

實際上,政策信息學是一種理論框架和方法集成,也是一套系統完整的政策分析流程。政策文本量化是將政策信息學的研究對象聚焦到政策文本開展定量知識分析與發現的必備環節。其中,政策文本應該廣義地理解為是一種政策相關文本,包括:結構化的學術文本(圍繞政策問題、內容、過程形成的研究成果)、非結構化的媒體文本(新聞、評論等自然語言中存在一些政策主張)和半結構化的政策文本(最直接的政策信息來源)等多模態異構數據?;诖?,將政策文本量化定義為通過某種轉換方式將政策文本轉換成抽象化、特征化、可計算的結構化數據,再根據研究目標融合數理統計學、文獻計量學、科學計量學、計算機科學等多種方法對所得數據進行數學統計、主題建模、網絡構建、相似性計算等定量分析,并輔以研究人員依賴專業知識和經驗積累進行定性解讀的研究過程。

政策文本量化具有如下特征:(1)可統計性。政策文本量化的根本要義就是將用語言表述的政策轉化為可用“數量”統計的數據,通過對政策量化的分析,找出能夠反映政策過程、政策意圖、政策規律的特定要素以及易于計數的內外部特征,保證數據操作的可重復性和客觀性;(2)非精確性。政策文本量化是針對大量政策文本利用編碼處理或計算機語義降維的過程,實際上是一種損失精度的政策分析方法,在研究過程中需要與定性研究方法相結合[11],從而實現政策分析中宏觀與微觀、主觀與客觀的二元統一;(3)跨學科性。政策文本量化研究是融合統計學、情報學、公共政策學等多學科的理論基礎和方法技術開展的政策文本定量分析,近年來是情報學、政策學界以及計算機科學的熱門研究領域。

1.3? ? 政策文本量化研究框架

政策信息學的核心是針對政策全生命周期信息的大數據分析和知識發現研究,其三大支柱是:多來源異構海量數據、多學科數據分析方法、多目標知識應用場景[6]?;诖藢⒄呶谋玖炕芯窟^程分為政策文本獲取、政策文本處理和政策文本分析三個階段[12],構建政策文本知識發現研究的基本框架(見圖1)。其中,政策文本獲取的關鍵是構建適合研究目標的政策語料庫,目前主要有三種方式:利用現有的結構化政策數據庫(如北大法寶、美國政府出版局等)直接下載所需數據;人工收集或計算機技術爬取開源政策文本保存到本地自建數據庫;為保證獲取到符合研究目標的完備性數據,在實踐過程中往往將前兩種方法相結合形成特定的政策語料庫。政策文本處理在具體的政策文本量化方法中有不同的處理方式,本質上是將非結構化或半結構化的政策文本轉換成可計算或可量化的分析單元,是一種語義降維處理過程。政策本文分析的基本遵循是政策實踐需求驅動和政策研究問題導向,即根據政策目標和應用場景開展政策數據分析與知識發現研究。

2? ?政策文本量化的主要研究方法

按照政策文本分析的層次,政策文本量化研究可分為面向政策文本結構特征的政策計量分析、面向政策內容特征的政策內容量化分析和面向政策語義特征的政策文本挖掘三類典型研究方法(見圖2)。其中,政策計量分析是通過統計、計算或可視化政策文本的若干規范屬性對政策文本的演進、擴散及府際關系等開展研究;政策內容量化是按照一定的標引框架和量化標準對政策內容進行人工或者計算機輔助的編碼處理,提升政策內容解析的效度;政策文本挖掘是借助自然語言處理技術挖掘政策隱含內涵或政策語義關系,便于生成政策知識圖譜。為直觀展現政策分析結果,各類政策文本量化方法的最終步驟均是可視化呈現,按照類型的不同主要可以分為:基于數理統計的可視化、基于主題內容的可視化和基于語義關系的可視化。

2.1? ? 面向政策結構特征的計量分析方法

2.1.1? ?政策計量分析的內涵與流程

政策計量分析是將計量學的方法引入應用到政策對象,逐漸發展成為情報學和政策科學交叉的研究領域——政策計量[13],包括政策文獻計量、政策科學計量[14]和政策替代計量指標[15-17]等一系列概念。該方法的基本核心是通過現有政策數據庫下載或基于自建數據集將政策文本處理成類似論文文獻的結構化數據,分析政策文本在頒布機構、發布時間、主題分布、政策引用以及政策主體關系等內外部屬性要素進行計量分析,旨在揭示某個領域、某個主題或某個時段的政策分布特征、政策演化規律和政府合作關系等。政策文本計量分析方法流程(見圖3)主要有:①構建政策文本研究數據集;②結構化政策文本屬性要素;③統計分析、文獻計量和社會網絡分析;④結果可視化呈現及結果解讀。

2.1.2? ?政策計量分析的主要類型

政策計量分析很大程度上依賴于政策文本的結構化程度,基于政策文本數據集的不同可以分為三種類型:一是利用政策文本數據庫(如北大法寶和CNKI政府公報數據庫)自帶的字段信息開展計量分析,分析政策數量增長、機構合作、政策變化規律等。如盧小賓等、馮昌揚等利用北大法寶數據庫分別對我國信息公開政策、文化扶貧政策進行了計量分析[18-19];二是通過自建政策文本數據庫與語料庫形成新的統計字段。如清華大學科教政策研究中心搜集了中國1949年以來中央政府頒布的科技政策構建了政府文獻數據庫,并對政策類型統計分析形成了《中國科技政策要目概覽》[20];代欣玲等收集整理1996年以來創新培養人才政策,形成了發文機構、年份、地區、層級、文種類型、關鍵詞等字段,并將相關字段處理成文獻計量軟件Citespace所需格式,開展主題聚類、主題變遷、機構合作等分析[21];趙洪等通過公文的內容解構、主題標引、摘要生成等方法,構建了應用于大規模政府公文的知識發現與分析系統[22];三是利用替代計量學(Altermetrics)方法[23]對社會媒體(如新聞、微博、演講等)涉及的政策文本數據進行分析研究。如Somasundaran和Wiebe構建了政策辯論數據庫[24],并通過對其相關文本分析發現政策立場和政治意識[25];Proksch等使用自動語音識別系統生成政治演講文本,結合計算機處理技術可以對該文本語料庫開展計量研究[26]。

2.1.3? ?政策計量分析的優缺點

政策計量分析方法對數據的結構化要求程度比較高,現有的政策數據庫在開放性、完備性和結構化方面尚不能滿足政策計量分析的需求,反映政策文本內容的信息較少,如主題詞、政策摘要和引證關系等均無法從數據庫直接下載獲取,亟需構建類似文獻數據庫、專利數據庫的政策大數據平臺。文獻計量指標應用于政策對象時主要聚焦在對政策內外部屬性的宏觀分析,有助于發現政策整體的分布特征和長時間序列的發展規律,并不能滿足精細化的研究需求,對于政策文本細節、政策隱含語義、政策特色表征等的分析需要構建全面且個性化的分析指標。

2.2? ? 面向政策內容特征的內容量化方法

2.2.1? ?政策內容量化的內涵與流程

政策文本內容量化通過界定能反映政策語義與語詞之間映射關系的編碼標準和分析框架進行政策概念的識別和處理,是一種介于定性與定量之間的半定量研究方法。該方法的基本核心是建立合適的有價值的類目以分解政策文本內容,將政策文本中非量化的、非結構化的信息轉換為可分析的定量數據,以便為政策效果評價、政策效力分析和影響因素探討提供數據基礎。政策文本內容量化方法流程(見圖4)主要有:①構建政策文本數據集;②確定分析框架和分析維度;③定義分析單元與類目進行編碼;④信度與效度檢驗;⑤數理統計分析和結果解釋。

政策內容量化方法的關鍵在于分析維度的選擇,其中,政策工具維度是政策內容量化分析實踐中的必要組成部分。政策工具研究始于20世紀80年代,是為解決某一社會問題或達成一定政策目標所采用的手段和措施,實際上是一種調節政府行為的機制[27],其分類是定義分析單元分類標準和類目設置的重要依據。目前比較有代表性的政策工具分類有:Klein等根據政府資源類型將政策工具分為信息型、權威型、組織型和財政型[28];McDonnell 和Elmore根據政策效力的不同分為命令型、激勵型、能力建設型和系統變化型四種[29],Phhal類似地分為自愿型、強制型和混合型工具[30];Hoppmann等根據政策制定層次將工具分為戰略層、綜合層及基本層[31];陳振明將政策工具分為市場化工具、工商管理技術與社會化手段[32];Rothwell和Zegveld根據政策產生影響層面的不同分為供給型、需求型和環境型三種[33],這也是政策內容量化應用最為廣泛的分類標準。

2.2.2? ?政策內容量化的主要類型

政策內容量化分析實際上既包含了傳統意義上對政策信息的定性判斷,也包括了對政策內容的量化統計?;诖?,政策內容量化分析主要分為三種類型:一是對編碼處理后的政策文本研究類目的純定量分析,主要聚焦于政策目標、政策主體、政策客體以及政策工具維度等在時間序列上的變化特征。如李浩等構建“基于政策目標、政策工具和政策力度”的三維框架,對國家層面DRG(Diagnosis Related Group,疾病診斷相關組)政策條目進行多維分類和交叉對比統計分析[34];黃如花和溫芳芳利用Nvivo對國家層面政府數據開放共享政策文本進行編碼,利用Excel表格進行描述性統計,以反映政策文本的形式和內容[35];二是基于政策文本描述性量化分析結果,再運用PMC指數、AHP層次分析法、BP神經網絡綜合評價法、灰色關聯度分析法等對政策進行績效評價。如李煜華和張敬怡運用內容分析法對國家先進制造業發展政策文本進行整體性的“政策工具-產業發展要素”二維量化分析,在此基礎上引入神經網絡理論的自編碼技術構建先進制造業多維政策評價的PMC-AE指數模型評價典型先進制造業發展政策的優劣情況[36];李鵬紅對土壤污染治理政策文本進行編碼處理和質性分析,再運用AHP-熵權耦合方法對公眾參與政策工具集進行了綜合評價[37];三是對政策內容描述性定量分析與闡釋性、預測性定性分析的結合,通常是在政策結構屬性分布特征的基礎上對政策演變規律和發展趨勢進行研判和預測。如李梓涵昕和周晶宇分別從政策力度、政策工具、政策客體、孵化器生命周期四個維度對孵化器政策進行描述性統計分析,并結合中國孵化器發展階段,分析不同階段孵化器政策演變特點并預測了未來發展規律[38];李霞等構建基于“資源效用-技術結構-應用領域”的智慧城市政策工具分析框架,運用統計分析、政策網絡分析與多維尺度方法展示了我國智慧城市政策階段共現主題詞和政策演進脈絡[39]。

2.2.3? ?政策內容量化分析優缺點

政策內容量化分析沿襲了政治學中的政治話語研究和政治語詞解讀(政策主題歸納)的研究傳統,在研究樣本量較少、程序規則清楚、類目界定清晰的條件下能夠更為恰當且深度地解析政策文本。但由于其對政策文本進行概念抽取時主要依賴人工處理,人力成本與使用難度會隨著樣本量和分析角度的增加而增長,不適用于對海量政策文本分析處理。除了方法本身的局限性外,政策內容量化方法的研究過程完全依賴于最初所界定的分析維度和分析單元,最終結果將受限于研究者的政策認知水平、專業知識基礎以及對政策語言理解的能力。

2.3? ? 面向政策語義特征的文本挖掘方法

2.3.1? ?政策文本挖掘的內涵與流程

隨著計算機和大數據技術的蓬勃發展,政策文本挖掘方法逐漸成為提升政策文本量化成熟度的關鍵,為政策計量和內容量化等研究提供了堅實的數據處理基礎和分析工具支撐。政策文本挖掘方法是指在大規模政策文本集合中發現潛在信息和隱含知識的過程,包括機器學習、自然語言處理、深度學習、可視化技術、數據庫技術等多類技術方法[40]。該方法的基本核心是利用技術方法和機器效率完成對政策文本多種維度的特征識別和信息抽取,以便解讀和獲知政策立場、政策意見、政策行為、政策情感等深層的政策語義內涵。政策文本挖掘方法流程(見圖5)主要有:①獲取文本形成政策語料庫;②文本數據預處理;③政策文本表示;④根據研究目標選擇合適的模型;⑤結果可視化及模型評估。

政策文本挖掘方法的關鍵在于將政策文本處理成計算機容易處理和理解的數據,即政策文本表示。目前常用的文本表示方法主要有三種:第一種是詞袋模型(Bag of Words,BOW)[41],BOW模型是最原始的文本表示方法,其忽略政策文本中的詞序和語法,將單個文本看成若干獨立詞匯的集合,每個詞不依賴于其他詞是否出現;第二種是主題模型(Topic Model)[42],該模型假設每個文本是由一系列主題的概率分布表示而成,基于BOW模型做了降維處理,訓練得到詞和文檔的特征向量,有效避免了文本在特征空間中的稀疏性;第三種是詞向量模型(Word Embedding)[43],充分考慮了政策文本中詞匯出現的上下文語境和相互依賴關系,將文本表示成一個低維且連續的稠密向量。實質上是將文本中每個詞映射到一個向量空間中,而詞之間的關系也可以通過向量計算表示,彌補了僅依賴詞匯導致的語義不足問題。

2.3.2? ?政策文本挖掘的主要類型

政策文本挖掘注重在大量文本數據集合中探索深層或潛在語義關系、發現分類和聚類特征、挖掘隱形關聯知識或關系牽連。當前研究類型主要可分為三種:一是政策文本分類研究,如Zhitomirsky等實現了無需任何人工標注的政治文本全自動分類[44];沈自強等利用BERT深度學習模型對科技政策進行自動分類實驗,發現通過BERT模型,融合標題和TF-IDF政策關鍵詞的分類效果最佳[45];二是政策主題模型研究,其與政策文本聚類、政策主題演化等研究密切相關。如曲靖野等提出了一種以科技報告為載體數據源,基于LDA主題識別與K-means聚類方法相融合的科技報告文本聚類的文本挖掘新方法,從主題的視角對科技報告文本進行聚類研究[46];劉建華等基于政策文本中多維政策實體及實體之間的直接語義關系、直接共現關系、間接共現關系、關聯路徑衰減指數等,構建綜合計算科技政策實體關聯的多指標模型,并結合實體時間屬性,揭示科技政策演化路徑[47];三是政策情感識別研究,其在識別政策立場傾向、政策意見分析和選舉預測中應用較多。如Hopkins和King開發了一種自動非參數的文本數據分析方法,能夠分析博客、演講、報紙等非結構化文本中的政策傾向[48];Saremento等提出了一種自動創建政治參考語料庫的方法,定義并使用一組由大型情感詞典支持的人工制作的高精度規則識別相似文本語句,以挖掘用戶評論中的政治意見[49]。

2.3.3? ?政策文本挖掘的優缺點

政策文本挖掘方法顯著提高了處理大量政策文本的能力,一定程度上解決了大數據環境下政策計量和內容量化法分析效率較低、分析深度不夠等問題,為跨語料分析和實時政策文本分析提供了可能。這也決定了政策文本挖掘方法對宏觀政策問題和政策現象分析效果越好,在一些具體案例、細小問題、以及個別政策分析方面甚至不如定性分析來得準確。此外,應當注意到政策文本挖掘本質上是依賴計算機技術發展水平的衍生應用領域,要受到當前算法成熟度、系統誤差以及硬件計算能力等客觀水平的限制。

3? ?政策文本量化的知識發現應用研究

在計算機技術、信息通信技術和大數據技術蓬勃發展的時代,“方法技術不是難題”是社會科學研究的統一共識。政策信息學作為連接政策量化分析和政策問題求解的交叉學科,不僅僅是理想狀態下的問題求解,而是必須明確解決方案最終實現所需要的各種約束條件[50]。近年來,情報學、政治學和公共管理學等領域的學者在數據拓展、方法融合、實踐應用等方面進行了積極地探索,主要集中在以下幾個方面。

3.1? ? 政策分布特征和發展規律研究

多學科和多類型政策文本量化分析方法的應用極大程度上拓展了政策分析的精度和深度,突破了人工定性解讀和單純頻次計算的研究范疇,可以更加顯性化地挖掘政策間的關聯關系,揭示政策分布、政策變遷和政策擴散等政策發展規律。在政策分布方面,Isoaho等對歐盟委員會能源聯盟出臺的5000多份政策文件進行主題建模分析,發現能源聯盟的政策重點在于脫碳和能源效率,而氣候安全和氣候可負擔性政策存在政策趨同的信號[51];Prior等使用文本挖掘策略與語義網絡分析技術相結合的方法提煉政策文本的基本內容元素,了解了英國環境衛生領域的政策文件分布特征[52]。在政策變遷方面,Huang等利用文獻計量學方法分析了不同時期不同部門的政策出臺情況,梳理了中國科技創新政策體系的發展脈絡[53],并提出一種基于“政策目標-政策工具”模式政策主題變遷的方法,分析了中國核領域政策的演變過程[54];Arenal等結合文本挖掘技術、主題聚類分析和定性評估等方法,分析了歐盟創業政策的周期曲線和主題演變[55]。在政策擴散方面,江雨薇等運用統計分析和文本挖掘方法對破除“唯論文”政策的時空演進、發文機構及主題內容進行分析,總結政策在不同層級間的主題擴散特征,預判政策發展趨向[56]; 王芳等運用政策文本挖掘從擴散主題維度和政策擴散傾向性兩個方面分析了我國大數據政策擴散特征,利用可視化技術呈現從中央到省級、地市級政策擴散過程中的主題變遷,揭示了我國各級政府在政策擴散過程中的傾向性和特點[57]。

3.2? ? 政策作用過程和效果評估研究

政策評價是科技評價的重要組成部分,隨著經濟社會環境變化加快、政策議題日益復雜多樣和評價信息來源紛繁雜亂,大數據驅動下的政策信息學研究為政策評價工作帶來了新的發展機遇。政策量化評價研究當前主要圍繞政策文本特征和政策文本內容展開,為政策的制定、調整以及完善提供了重要的理論支撐和決策依據?;谡呶谋咎卣鞯牧炕u價研究,指的是從政策文本的多個維度設置變量分析政策優劣。具有代表性的方法是Estrada建立的PMC指數[58-59]。學者們分別圍繞科技服務業政策[60]、數字經濟政策[61]、人工智能政策[62]等開展了大量研究。有學者進一步將PMC指數與AE技術相結合構建PMC-AE指數模型,實現了對制造業創新政策[63]和軍民融合政策[64]的深入挖掘和量化評價研究?;谡呶谋緝热莸牧炕u價研究,指的是從政策本身出發對政策內容進行細分,設定量化標準以評價政策影響和政策效果,核心是政策工具理論。如Libecap為美國礦產權相關法規政策設定法律變革指數,選擇了15個范疇來計算政策得分,這是最早的政策量化評價研究[65]。彭紀生等則基于政策工具理論構建了“政策力度-政策措施-政策目標”三維評價指標體系[66],并形成了一套具體的政策量化標準操作手冊,被學術界廣泛應用[67-68]。

3.3? ? 政策立場研判和博弈關系研究

政策制定離不開政策主體之間的合作與博弈,政策文本作為政治思想觀點的直接載體,通過政策文本量化研究識別政策立場、解析政策情感和判斷政策傾向可以避免顯性的政策沖突,促進政策完善與創新,同時也能更好地跟蹤政策利益關系,精準預測政策未來發展走向。政策文本挖掘研究,尤其是政策情感分析廣泛應用于西方政黨選情預測和政策立場預判,核心在于通過收集開源的輿情文本,將公眾政策意見與政黨支持相關聯,進而做出政策預測。如Ceron 等使用情感分析方法監測分析社交媒體中選民的政策意圖,以判斷選在競選過程中投票傾向[69];Sudhahar 等利用文本挖掘的方法對 13萬余篇關于美國總統大選的新聞文章自動解析產生了一個由關鍵政治參與者和問題形成的網絡,可以自動提取和分析政治立場[70]。政策利益博弈研究是政策實施過程中多個利益者相互競爭或合作的結果,也是政策文本量化的重要應用領域。如Laver 等分析了法國政黨宣言和總統演講的內容分析,揭示了2002 年法國立法和總統選舉中的政策競爭關系[71];孫濤等和溫雪梅、陳宇等基于府際關系視角,對環境治理政策演變、政策行動和主體關系結構進行量化研究,分析了政府在區域環境政策執行過程中的利益博弈和行為偏差的產生機制[72-73];Sun和Cao從中國的創新政策文本中提取政府機構之間的結構關系,并利用社會網絡分析方法量化分析了中國創新政策網絡的演變過程,從政策議程、權力集中和異質性依賴等政策網絡特征揭示政策制定機構間競爭與合作關系[74]。

通過以上分析可以發現,隨著政策信息爆炸性增長、政策議題愈發復雜以及學科交叉現象凸顯,政策文本量化研究已經廣泛應用于政策制定咨詢、政策比較評估和政策走向預測等政治活動領域。綜合來看,在實際的政策分析研究開展過程中,多種量化方法的交叉融合使用為當前政策知識分析與發現提供了新的解決方案,有助于發現政策文本中隱藏的政策信息與內在邏輯、提升政策作用效果評估的效率和精細度、補充質化研究中察覺不到的演變軌跡并可視化呈現、驗證帶有主觀色彩的思想觀點輸出與規律性預判等。

4? ?未來發展

立足政策信息學理論對政策文本量化研究方法及其知識發現研究應用進展進行系統的梳理和總結,可以發現數據驅動環境下的政策文本量化豐富了政策知識分析發現的研究范圍和研究深度,極大程度上解密了政策制定“黑箱”、促進了政府科學決策。但同時基于結構化政策文本有限、文本量化方法寬泛等特點,當前學者大多集中在借助已有方法進行不同領域政策文本的知識分析發現實踐,呈現應用研究有余、深層次創新不足、與實際政策問題融合不夠的態勢?;诖?,本文提出以下發展建議。

4.1? ? 建設領域政策大數據庫及知識分析發現平臺

政策數據庫是政策文本量化分析的基礎,沒有規范化的政策領域大數據平臺,就不可能支撐政策信息學發展及其領域知識發現。當前我國已經形成眾多結構化政策數據平臺,如北大法寶、中國科學技術信息研究所研發的科技情報成果與服務共享平臺[75] 、中國科協創新戰略研究院的政策法規庫[76]、中國科學院文獻情報中心的“科技政策匯”數據庫平臺[77]以及延伸發展形成的科技政策分析服務平臺[78]等。但由于數據庫構建、維護和管理成本的限制,其完備性、時效性和針對性都有所欠缺,政策研究者在研究實踐中仍然需要自建數據庫和語料庫,在一定程度上會造成政策數據收集重復和冗余,以及人力和物力資源的浪費。因此,應當由國家機構進行宏觀組織協調或者建立一個政策聯盟,從上到下地進行宏觀統籌和規劃,將政策相關的全類信息匯總起來,促進數據整合與共享。特別是需要建設各個領域的政策大數據庫和語料庫,只有建設專業領域政策數據庫才能支撐開展專業化的政策知識分析發現,為政策的精細化分析研究提供源源不斷的知識供給。

4.2? ? 開發針對性專門化的政策知識分析方法工具

政策文本與期刊論文、專利文獻類似,具備基本結構要素和語義信息,但同時政策文本又有其自身獨特性。首先,政策文本發布具備周期性,通常具有更高的知識密度,擁有更加規范的話語體系;其次,政策文本之間的關系更加復雜,基于政策引用、擴散和更新活動可能呈現出連續、組合和互補的網絡結構;第三,政策文本基于其獨特的政治屬性,通常包含著豐富的語義信息,包括政治立場、政策傾向、政策價值、政策情感等?;谶@樣的特殊性,現有的分析技術方法和工具難以全面且恰當的應用于政策文本分析。這就需要注重政策分析的效度和信度檢驗,并在不斷借鑒其他學科方法的基礎上結合政策文本特點進行整合和創新,設計和開發出適用于政策文本研究的針對性技術方法模塊和數據分析工具包等,形成類似Citespace、VOSviewer類的開源軟件,促進政策規律的探索發現和政策知識的挖掘分析。

4.3? ? 開展領域政策問題研究與知識發現應用實踐

政策文本量化研究是與政策分析密切相關的方法類研究范式,也是與實際應用需求緊密結合的研究領域,已經廣泛應用于國際政策比較研究、智庫政策思想輸出和國家政策決策咨詢活動。但在實踐過程中,基于研究目標和身份角色的不同,政策分析者開展實踐研究的角度與決策制定者之間往往是相對割裂的,很難同時兼顧理論研究和應用需求的二元統一。如利用計算機技術進行政策文本量化分析呈現時,更加注重技術創新和方法突破,結果往往是抽象的或數據化的,只有結合相關的應用背景進行解讀才能完全理解。這說明政策文本量化研究絕不僅僅是利用一些新興的方法和技術單純的將政策文本作為研究樣本,也不僅僅是為完成一項任務、工作和項目,而要以需求為引領、以問題為導向將定性研究和定量研究相結合開展政策分析實踐,鼓勵政策研究者與政策制定者充分交流合作,從而產生一些針對性的思想建議,為相關政策決策咨詢提供服務和參考。

參考文獻:

[1]? 黃萃.政策文獻量化研究[M].北京:科學出版社,2016.

[2]? 付琳,張東雨,閆昊本,等.基于政策文本分析的中國碳減排政策工具研究[J/OL].科學學研究:1-19[2022-07-25].DOI:10.16192/j.cnki.1003-2053.20220627.001.

[3]? Baker S R,Bloom N,Davis S J.Measuring economic policy uncertainty[J].The quarterly journal of economics,2016,131(4):1593-1636.

[4]? Beauchamp N.Using text to scale legislatures with uninformative voting[J].New York University Mimeo,2011.

[5]? Laver M,Benoit K,Garry J.Extracting Policy Positions from Political Texts Using Words as Data[J].American Political Science Review,2003,97(2):311-331.

[6]? 曹玲靜,張志強.政策信息學的發展與前瞻[J].圖書情報工作,2021,65(21):38-50.

[7]? 李江,劉源浩,黃萃,等.用文獻計量研究重塑政策文本數據分析——政策文獻計量的起源、遷移與方法創新[J].公共管理學報,2015,12(2):138-144.

[8]? 黃萃,任弢,張劍.政策文獻量化研究:公共政策研究的新方向[J].公共管理學報,2015,12(2):129-137,158-159.

[9]? 裴雷,孫建軍,周兆韜.政策文本計算:一種新的政策文本解讀方式[J].圖書與情報,2016(6):47-55.

[10]? Wiedemann G.Computer-Assisted Text Analysis in the Social Sciences[M].Text Mining for Qualitative Data Analysis in the Social Sciences.Springer Fachmedien Wiesbaden,2016:17-53.

[11]? Hollibaugh G E.The use of text as data methods in public administration:A review and an application to agency priorities[J].Journal of Public Administration Research and Theory,2019,29(3):474-490.

[12]? Grimmer J,Stewart B M.Text as Data:The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts[J].Political Analysis,2013,21(3):267-297.

[13]? 馬海群,張斌.我國政策計量研究:方法與模型[J].數字圖書館論壇,2019(5):2-8.

[14]? 丁潔蘭,劉細文,楊立英,等.科學計量方法在科技政策研究中應用的實證研究[J].圖書情報工作,2017,61(24):77-86.

[15]? BORNMANN L,HAUNSCHILD R,MARX W.Policy documents as sources for measuring societal impact:how often is climate change research mentioned in policy-related documents?[J].Scientometrics,2016,109(3):1477-1495.

[16]? 余厚強,肖婷婷,王曰芬,等.政策文件替代計量指標分布特征研究[J].中國圖書館學報,2017,43(5):57-69.

[17]? 余厚強,李龍飛.政策文件替代計量指標影響因素研究[J].情報理論與實踐,2021,44(7):28-36.

[18]? 盧小賓,霍帆帆,霍朝光.我國信息公開政策計量分析:權力主體、法律淵源與政策工具[J].情報理論與實踐,2022,45(1):46-53.

[19]? 馮昌揚,張佩玲.政策計量視角下的我國文化扶貧政策分析[J/OL].圖書館建設:1-22[2022-08-03].http://kns.cnki.net/kcms/detail/23.1331.G2.20220105.1732.004.html.

[20]? 蘇竣,黃萃.中國科技政策要目概覽[M].北京:科學技術文獻出版社,2012.

[21]? 代欣玲,彭小兵,王京雷.中國情境下創新人才培養政策的文獻計量分析[J].科研管理,2022,43(3):27-36.

[22]? 趙洪,王芳,王曉宇,等.基于大規模政府公文智能處理的知識發現及應用研究[J].情報學報,2018,37(8):805-812.

[23]? Piwowar H.Altmetrics:Value all research products[J].Nature,2013,493(7431):159.

[24]? Somasundaran S,Wiebe J.Multi-Perspective Question Answer Opinion Corpus[EB/OL].[2022-07-20].http://mpqa.cs.pitt.edu/corpora/political_debates/.

[25]? Somasundaran S,Wiebe J.Recognizing stances in ideological on-line debates[C].Proceedings of the NAACL HLT 2010 workshop on computational approaches to analysis and generation of emotion in text.2010:116-124.

[26]? Proksch S O,Wratil C,W?ckerle J.Testing the Validity of Automatic Speech Recognition for Political Text Analysis[J].Political Analysis,2019,27(3):339-359.

[27]? Hughes O E.Public management and administration[M].London:Bloomsbury Publishing,2017.

[28]? KLEIN W R,LANKHUIZEN M,GILSING V.A system failure framework for innovation policy design[J].Technovation,2005,25(6):609-619.

[29]? McDonnell L M,Elmore R F.Getting the job done:Alternative policy instruments[J].Educational evaluation and policy analysis,1987,9(2):133-152.

[30]? PHAAL R,OSULLIVAN E,ROUTLEY M,et al.A framework for mapping industrial emergence[J].Technological Forecasting and Social Change,2011,78(2):217-230.

[31]? HOPPMANN J,PETERS M,SCHNEIDER M,et al.The two faces of market support how deployment policies affect technological exploration and exploitation in the solar photovoltaic industry[J].Research Policy,2013,42(4):989-1003.

[32]? 陳振明.政策科學:公共政策分析導論(第二版)[M].北京:中國人民大學出版社,2003.

[33]? ROTHWELL R,ZEGVELD W.Reindustrialization and technology[M].London:Longman Group Limited,1985:83-84.

[34]? 李浩,戴遙,陶紅兵.我國DRG政策的文本量化分析——基于政策目標、政策工具和政策力度的三維框架[J].中國衛生政策研究,2021,14(12):16-25.

[35]? 黃如花,溫芳芳.我國政府數據開放共享的政策框架與內容:國家層面政策文本的內容分析[J].圖書情報工作,2017,

61(20):12-25.

[36]? 李煜華,張敬怡.先進制造業發展政策量化評價與優化路徑[J].統計與決策,2022,38(10):175-179.

[37]? 李鵬紅.風險社會視角下公眾參與土壤污染治理的政策文本分析——基于AHP-熵權耦合的綜合評價[J].河北農業大學學報(社會科學版),2022,24(2):88-99.

[38]? 李梓涵昕,周晶宇.中國孵化器政策的演進特征、問題和對策——基于政策力度、政策工具、政策客體和孵化器生命周期的四維分析[J].科學學與科學技術管理,2020,41(9):20-34.

[39]? 李霞,陳琦,賈宏曼.中國智慧城市政策體系演化研究[J].科研管理,2022,43(7):1-10.

[40]? 郭金龍,許鑫,陸宇杰.人文社會科學研究中文本挖掘技術應用進展[J].圖書情報工作,2012,56(8):10-17.

[41]? Miller G A.WordNet:An electronic lexical database[M].Cambridge:MIT press,1998.

[42]? Ponte J M,Croft W B.A language modeling approach to information retrieval[C].ACM SIGIR Forum.New York,NY,USA:ACM,2017,51(2):202-208.

[43]? 鄭新曼,董瑜.政策文本量化研究的綜述與展望[J].現代情報,2021,41(2):168-177.

[44]? Zhitomirsky M,David E,Koppel M.Utilizing Overtly Political Texts for Fully Automatic Evaluation of Political Leaning of Online News Websites[J].Online Information Review,2016,40(3):362-379.

[45]? 沈自強,李曄,丁青艷,等.基于BERT模型的科技政策文本分類研究[J].數字圖書館論壇,2022(1):10-16.

[46]? 曲靖野,陳震,鄭彥寧.基于主題模型的科技報告文檔聚類方法研究[J].圖書情報工作,2018,62(4):113-120.

[47]? 劉建華,張智雄,張琴.基于多維政策實體及其關系的科技政策演化路徑揭示方法研究[J].數據分析與知識發現,2019,3(5):57-67.

[48]? Hopkins D J,King G.A Method of Automated Nonparametric Content Analysis for Social Science[J].American Journal of Political Science,2010,54(1):229-247.

[49]? Sarmento L,Carvalho P,Silva M J,et al.Automatic creation of a reference corpus for political opinion mining in user-generated content[C].Proceedings of the 1st international CIKM workshop on Topic-sentiment analysis for mass opinion.2009:29-36.

[50]? 張楠,馬寶君,孟慶國.政策信息學:大數據驅動的公共政策分析[M].北京:清華大學出版社,2019.

[51]? ISOAHO K,MOILANEN F,TOIKKA A.A big data view of the European energy union:shifting from a floating signifier to an active driver of decarbonisation?[J].Politics and Governance,2019,7(1):28-44.

[52]? PRIOR L,HUGHES D,PECKHAM S.The discursive turn in policy analysis and the validation of policy stories[J].Journal of Social Policy,2012,41:271-289.

[53]? HUANG C,SU J,XIE X,et al.A bibliometric study of Chinas science and technology policies:1949-2010[J].Scientometrics,2015,102(2):1521-1539.

[54]? HUANG C,YANG C,SU J.Policy change analysis based on“policy target-policy instrument”patterns:a case study of china's nuclear energy policy[J].Scientometrics,2018,117(2):1081-1114.

[55]? Arenal A,Feijoo C,Moreno A.Entrepreneurship Policy Agenda in the European Union:A Text Mining Perspective[J].Review Of Policy Research,2021,38(2):243-271.

[56]? 江雨薇,陳君沂,林麗嬌,等.政策計量視角下破除“唯論文”政策擴散的特征分析[J].情報理論與實踐,2022,45(6):89-97.

[57]? 王芳,徐路路.基于智能化公文主題分析的我國政策層級擴散傾向性研究[J].情報學報,2021,40(4):387-401.

[58]? Estrada M A R.The policy modeling research consistency index(PMC-Index)[J/OL].[2022-09-23].https://www.researchgate.net/publication/228302925_The_Policy_Modeling_Research_Consistency_Index_PMC-Index.

[59]? ESTRADA M A R.Policy modeling:definition,classification and evaluation[J].Journal of policy modeling,2011,33(4):523-536.

[60]? 杜寶貴,陳磊.基于PMC指數模型的科技服務業政策量化評價:遼寧及相關省市比較[J].科技進步與對策,2022,39(1):132-140.

[61]? 蔡冬松,柴藝琳,田志雄.基于PMC指數模型的吉林省數字經濟政策文本量化評價[J].情報科學,2021,39(12):139-145.

[62]? 任莎莎.基于PMC指數模型的北京市人工智能政策量化評價[J].全球科技經濟瞭望,2021,36(10):54-62.

[63]? 吳衛紅,盛麗瑩,唐方成,等.基于特征分析的制造業創新政策量化評價[J].科學學研究,2020,38(12):2246-2257.

[64]? 王進富,楊青云,張穎穎.基于PMC-AE指數模型的軍民融合政策量化評價[J].情報雜志,2019,38(4):66-73.

[65]? LIBECAP G D.Economic variables and the development of the law:the case of western mineral rights[J].The journal of economic history,1978,38(2):338-362.

[66]? 彭紀生,仲為國,孫文祥.政策測量、政策協同演變與經濟績效:基于創新政策的實證研究[J].管理世界,2008(9):25-36.

[67]? 程翔,鮑新中.科技金融政策效率研究——以京津冀地區為例[J].北京聯合大學學報(人文社會科學版),2018,16(3):116-124.

[68]? 王幫俊,朱榮.產學研協同創新政策效力與政策效果評估——基于中國2006-2016年政策文本的量化分析[J].軟科學,2019,33(3):30-35,44.

[69]? Ceron A,Curini L,Iacus S M.Using sentiment analysis to monitor electoral campaigns:Method matters—evidence from the United States and Italy[J].Social Science Computer Review,2015,33(1):3-20.

[70]? Sudhahar S,Veltri G A,Cristianini N.Automated analysis of the US presidential elections using Big Data and network analysis[J].Big Data&Society,2015,2(1):1-28.

[71]? Laver M,Benoit K,Sauger N.Policy competition in the 2002 French legislative and presidential elections[J].European Journal of Political Research,2006,45(4):667-697.

[72]? 孫濤,溫雪梅.府際關系視角下的區域環境治理——基于京津冀地區大氣治理政策文本的量化分析[J].城市發展研究,2017,24(12):45-53.

[73]? 陳宇,閆倩倩,王洛忠.府際關系視角下區域環境政策執行偏差研究——基于博弈模型的分析[J].北京理工大學學報(社會科學版),2019,21(5):56-64.

[74]? SUN Y,CAO C.The evolving relations between government agencies of innovation policymaking in emerging economies:a policy network approach and its application to the Chinese case[J].Research policy,2018,47(3):592-605.

[75]? 中國科學技術信息研究所.科技情報成果與服務共享平臺[EB/OL].[2022-07-24].https://www.chinainfo.org.cn/index.

[76]? 中國科協創新戰略研究院.政策法規庫[EB/OL].[2022-07-24].http://dev.anylangtech.com/cnais-policy-web/#/homePage.

[77]? 中國科學院文獻情報中心.科技政策匯[EB/OL].[2022-07-24].http://gopolicy.las.ac.cn/service.

[78]? 馬雨萌,黃金霞,王昉,等.基于政策文本量化研究的科技政策分析服務平臺建設[J/OL].情報科學:1-15[2022-07-27].http://kns.cnki.net/kcms/detail/22.1264.g2.20220617.1845.034.html.

作者簡介:曹玲靜,女,中國科學院成都文獻情報中心、中國科學院大學經濟與管理學院圖書情報與檔案管理系博士研究生;張志強,男,中國科學院成都文獻情報中心、中國科學院大學經濟與管理學院圖書情報與檔案管理系研究員,博士生導師。

猜你喜歡
文本分析
基于AntConc軟件對小說《黑駿馬》的文本分析
投資者情緒短期對股票市場的影響研究
維護正統還是觀念復辟?
文本情感計算系統“小菲”的設計及其在教育領域文本分析中的應用
我國地方紀錄片的出路研究
初中英語聽說課教學實踐探索
經合組織成員體教師隊伍現狀、特點及發展趨勢
以符號矩陣理論淺析《鬼魅丹青》
《化學:概念與應用》專題作業設計分析及啟示
我國高等教育質量政策價值取向研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合