?

基于LDA 模型的我國開放公共數據政策供給特征分析

2023-08-14 16:02馬海群張斌
現代情報 2023年8期
關鍵詞:政策分析模型

馬海群 張斌

摘 要: [目的/ 意義] 完善的公共數據開放政策是確保我國公共數據能夠有效開放的重要保障。從“供給側” 角度出發進行分析, 揭示我國開放公共數據政策供給特征, 為相關部門制定政策和公共數據高質量開放提供借鑒和參考。[方法/ 過程] 在“北大法寶” 和我國各級政府官方網站中檢索我國開放公共數據相關的政策文本, 然后進行人工二次篩選。之后運用LDA 模型方法對我國公共數據開放政策進行聚類量化分析, 進而歸納出我國開放公共數據政策供給特征。[結果/ 結論] 我國開放公共數據政策供給特征呈現出明顯的“ 差異性” 和“不均衡性”。即重視日常狀態下的開放而對于“應急狀態” 下的開放沒有給予足夠的重視; 同時也存在著公共數據開放的政策涉及“領域” 不均衡和“地域” 不均衡的特點, 欠缺構造一個涉及廣泛領域的開放公共數據政策網絡來促進公共數據中的價值得到有效釋放。

關鍵詞: 開放公共數據; 政策分析; 政策聚類; 政策供給特征; LDA 模型

DOI:10.3969 / j.issn.1008-0821.2023.08.004

〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 08-0035-10

在大數據時代, 政府作為社會數據的最大擁有者和掌握者, 把不涉及國家安全、商業機密以及個人隱私的數據開放出來, 滿足社會各界對于數據資源的需求, 是政府提升公眾滿意度、提升政府滿意程度的重要舉措[1] 。我國政府對公共數據開放工作高度重視, 2022 年, 國務院印發《“十四五” 數字經濟發展規劃》[2] , 要求“構建統一的國家公共數據開放平臺和開發利用端口, 提升公共數據開放水平”。2021 年, 在《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035 年遠景目標綱要》[3] 中提到, 要提升數字政府的建設水平, 加強公共數據開放共享。各個地方政府也積極響應, 出臺一系列相關的配套條例, 促進本行政區域內的公共數據開放工作??梢哉f, 從中央到地方, 對公共數據開放均給予了較高的重視程度。

但是目前而言, 大多數地方的公共數據開放僅僅是政府信息公開的“升級版”[4] , 沒有產生公共數據開放應有的效果, 地方政府對于如何對公共數據進行開放仍然沒有一個較為清晰的概念, 無法更好地釋放公共數據開放的紅利。因此, 深入分析我國公共數據開放政策文本內容, 探究其供給特征, 一方面為后續相關政策的完善提供借鑒和參考; 另一方面也更好地促進相關公共數據開放工作穩步推進。

1 相關研究述評

1 1 開放公共數據研究

從開源的視角出發, 公共數據開放可以追溯到20 世紀80 年代以自由開放操作系統為代表的開源運動[5] 。隨著大數據技術的發展, 開源運動從技術和系統領域逐步發展到數據領域, 公眾開始呼吁數據開放。特別是進入21 世紀以來, 美國[6] 、澳大利亞[7] 、加拿大[8] 以及巴西[9] 等國家(地區)先后對自身所掌握的公共數據進行了開放。雖然國內公共數據開放起步較晚, 但是也取得了相當數量的成果。陸敬筠等[10] 以上海市公共數據開放平臺的訪問數據為研究對象, 構建了上海市公共數據開放平臺的用戶畫像, 并分析了用戶的行為特征, 結合分析的結果提出了相應的優化策略; 高爭志[5] 分析了公共數據開放制度的價值定位以及實現路徑, 認為應當以價值目標為導向, 對公共數據開放的概念進行重新界定, 同時在此基礎上構建出不同類型的公共數據開放機制; 儲節旺等[11] 對公共數據開放的主體責任進行了研究, 提出可以從數據來源、平臺建設、消除數據孤島等方面優化政府的主體責任;鄭磊等[12] 以上海開放數據創新應用大賽為例, 對公共數據開放的產出與效果進行了研究, 指出公共數據開放具有巨大的潛在商業效益和社會效益; 蒲攀等[13] 通過內容分析、系統分析等方法, 構建了我國開放數據政策的S-R-P 理論模型。國外對于公共數據開放的研究重點側重于通過案例進行分析。

Pereira G V 等[14] 分析了里約熱內盧公共數據開放中心的案例, 認為公共數據的合理開放能夠為智慧城市運營提供數據支撐, 同時也提高了數字政府的運行效率; Lakomaa E 等[15] 學者以瑞典企業家為案例, 研究了他們對于公共數據開放的看法, 認為合理的政策支撐能夠確保公共數據得到有效開放, 并且能夠最大限度地激發其中所蘊含的價值; Verslu?is L 等[16] 爬取了若干個城市系統的開放公共數據流, 發現不同工作負載源、領域和領域之間的特征、屬性和工作流結構存在重大差異。

1 2 開放公共數據政策研究

公共數據開放運動在全球如火如荼展開以及國內外學者對公共數據開放給予較高關注度的同時,關于“開放公共數據政策” 的相關研究也開始越來越多地被學者們關注。特別是隨著“數據” 作為生產要素的地位在不斷地提升, 如何從政策的角度出發, 對規范公共數據開放行為, 更好地發揮其在國家治理、透明政府和公共服務方面的作用有重要的意義。王本剛等[17] 通過對國內外相關政策文件內容進行解讀, 對公共數據蘊含的“公共價值”進行了探討, 界定了公共數據的公共價值概念。孫瑞英等[18] 認為, 目前公共數據開放政策存在預測、引導作用不足, 忽視個人信息保護方面的內容, 政策目標和當地情況的協同程度有待提升的問題。因此, 馬海群等[19] 從關聯規則的角度出發, 對開放政府數據政策的協同性進行了分析, 為減少政策沖突、增強政策之間的兼容性提供了借鑒和參考, 付熙雯[20] 也從數字中國建設的角度出發, 提出了公共數據開放政策的優化策略。除此之外, 對于日本[21] 、美國[22] 、英國[23] 、丹麥[24] 和加拿大[25] 等國家(地區)的公共數據開放政策進行研究, 從中總結出能為我國所借鑒和采納的相關經驗, 也是我國學者所關注的研究方向之一。

而國外對于公共數據開放政策的研究或者是以具體國家為研究對象, 如Sumitomo T 等[26] 學者對于日本的開放公共數據政策進行了研究, 發現日本政府、學術界和企業三方在完善開放公共數據政策體系中發揮了主要的作用; Viscusi G 等[27] 和Jung K等[28] 分別從概念模型和語義網絡的角度出發, 指出“概念建?!?在激發公共數據潛在價值方面具有重要的作用, 并且更好地發揮“公共數據” 的“社會價值” 的作用, 并為將“公共數據” 的開放納入數字經濟生態體系提供了借鑒和理論支撐。

1 3 LDA 模型研究

LDA 主題模型是學者Blei D M 等[29] 于2003 年提出的一種文本分析模型, 該模型的提出有效彌補了PLSA(概率隱形語義分析模型)的缺陷, 提升了對深層次文本內容挖掘和語義分析的精準度與效率。LDA 主題模型認為, 每篇文檔包含若干個主題, 每個主題包含若干個詞語。從文檔到主題再到詞語, 三層之間是通過一定的概率進行選擇, 即每個文檔按照一定的概率選擇了某個主題, 某個主題再按照一定的概率選擇了某個詞語, 重復上述步驟得到了一整篇文檔[30] 。國內對于LDA 主題模型的研究一般集中在情感分析[31] 、主題挖掘[32] 、文本分類[33] 以及話題演化[34] 等方面, 或者是通過相關算法研究、推薦算法來實現對現有LDA 主題模型的改進[35] 。如池毛毛等[36] 對酒店用戶評論文本進行情感分析; 田園等對在線教學需求數據進行主題挖掘與分析; 吳江等[37] 采用LDA 模型對在線醫療社區的文本分類進行了研究; 孫玉潔等[38] 從LDA主題模型的角度出發, 提出一種新的多角度個性化微博推薦算法, 并實證了該算法的有效性; 王璟琦等[39] 利用LDA 模型對空間自相關背景下的網絡輿情話題演化時空規律進行了分析。國外采用LDA主題模型基本側重點在對主題模型進行深化以及不同領域的研究, 主要從協同過濾[40] 和個性化推薦[41] 、圖像分類標注與檢索[42] 等不同方面進行應用; 深化則主要集中在對“作者—主題模型”[43] 以及“分層狄利克雷過程”[44] 等拓展模型進行研究。

針對公共數據開放政策的相關研究雖然已經取得了一定數量的成果, 但是多就政策文本本身采用定量分析、定性比較或者總結歸納等方式進行研究, 多傾向于“需求側” 角度。但是公共數據政策是一個涉及“供給側” 和“需求側” 兩個方面的復雜系統, 只有“供給側” 和“需求側” 都彼此適配, 才能促進我國公共數據開放政策體系的完善, 保證我國的公共數據釋放出自身內部的價值。因此, 本文采用LDA 主題模型, 對開放公共數據政策文本進行挖掘, 從“供給側” 角度出發, 找到政策文本的側重點, 分析其中還有哪些需要補充和完善的地方, 嘗試為構建涉及不同層級單位、不同領域的全方位開放公共數據政策體系網絡提供學理支撐和參考, 也能夠與以往研究相呼應。

2 研究方法選擇與數據的獲取和預處理

2 1 研究方法

本文之所以選擇LDA 主題模型作為分析工具,主要原因有以下兩點: 第一, 該模型是一種無監督的經典學習方法, 且在分析不同領域和不同類型的政策方面都有著較好的實踐效果; 第二, 采用LDA主題模型能夠有效挖掘和分析政策文本內部潛在的主題, 更好地理解政策文本的內涵和精髓, 提高了政策文本分析的細粒度和精確度。而本文的研究目的是尋找公共數據開放政策供給的側重點, 需要透過政策表面來看政策文本內部之間的聯系, 符合應用LDA 主題模型的條件。而政策文件的主題詞是對一篇政策文件主要內容的闡釋, 而且為了保證政策文本在執行的時候能夠取得預期效果, 所以在詞語選擇上均經過深思熟慮, 以求避免相關政策產生二義性, 通過分析了解一篇政策文件的主題詞都有哪些, 以及每個主題詞出現的頻次的高低和共現情況,能夠有效地了解整篇政策文件的內容。所以本文從主題詞和LDA 主題模型兩方面出發, 對我國公共數據開放政策進行分析, 以期實現本文的研究目的。

2 2 數據獲取和預處理

本文研究的對象主要是我國地方政府發布的涉及公共數據開放的政策文本, 所以在“北大法寶”數據庫中進行檢索, 檢索步驟為: 首先在“北大法寶” 數據庫中選擇“高級檢索”, 在“法律法規”模塊中選擇“地方法規”, 全文中包含“公共數據開放”, 點擊“同篇”, 以政策發布日期為準, 共計得到地方性法規37 條, 地方政府規章13 條, 地方規范性文件266 條, 地方工作文件742 條, 初步將上述政策文件納入研究范圍之中(檢索時間為2023年3 月2 日)。

而國外對于公共數據開放政策的研究或者是以具體國家為研究對象, 如Sumitomo T 等[26] 學者對于日本的開放公共數據政策進行了研究, 發現日本政府、學術界和企業三方在完善開放公共數據政策體系中發揮了主要的作用; Viscusi G 等[27] 和Jung K等[28] 分別從概念模型和語義網絡的角度出發, 指出“概念建?!?在激發公共數據潛在價值方面具有重要的作用, 并且更好地發揮“公共數據” 的“社會價值” 的作用, 并為將“公共數據” 的開放納入數字經濟生態體系提供了借鑒和理論支撐。

1 3 LDA 模型研究

LDA 主題模型是學者Blei D M 等[29] 于2003 年提出的一種文本分析模型, 該模型的提出有效彌補了PLSA(概率隱形語義分析模型)的缺陷, 提升了對深層次文本內容挖掘和語義分析的精準度與效率。LDA 主題模型認為, 每篇文檔包含若干個主題, 每個主題包含若干個詞語。從文檔到主題再到詞語, 三層之間是通過一定的概率進行選擇, 即每個文檔按照一定的概率選擇了某個主題, 某個主題再按照一定的概率選擇了某個詞語, 重復上述步驟得到了一整篇文檔[30] 。國內對于LDA 主題模型的研究一般集中在情感分析[31] 、主題挖掘[32] 、文本分類[33] 以及話題演化[34] 等方面, 或者是通過相關算法研究、推薦算法來實現對現有LDA 主題模型的改進[35] 。如池毛毛等[36] 對酒店用戶評論文本進行情感分析; 田園等對在線教學需求數據進行主題挖掘與分析; 吳江等[37] 采用LDA 模型對在線醫療社區的文本分類進行了研究; 孫玉潔等[38] 從LDA主題模型的角度出發, 提出一種新的多角度個性化微博推薦算法, 并實證了該算法的有效性; 王璟琦等[39] 利用LDA 模型對空間自相關背景下的網絡輿情話題演化時空規律進行了分析。國外采用LDA主題模型基本側重點在對主題模型進行深化以及不同領域的研究, 主要從協同過濾[40] 和個性化推薦[41] 、圖像分類標注與檢索[42] 等不同方面進行應用; 深化則主要集中在對“作者—主題模型”[43] 以及“分層狄利克雷過程”[44] 等拓展模型進行研究。針對公共數據開放政策的相關研究雖然已經取得了一定數量的成果, 但是多就政策文本本身采用定量分析、定性比較或者總結歸納等方式進行研究, 多傾向于“需求側” 角度。但是公共數據政策是一個涉及“供給側” 和“需求側” 兩個方面的復雜系統, 只有“供給側” 和“需求側” 都彼此適配, 才能促進我國公共數據開放政策體系的完善, 保證我國的公共數據釋放出自身內部的價值。因此, 本文采用LDA 主題模型, 對開放公共數據政策文本進行挖掘, 從“供給側” 角度出發, 找到政策文本的側重點, 分析其中還有哪些需要補充和完善的地方, 嘗試為構建涉及不同層級單位、不同領域的全方位開放公共數據政策體系網絡提供學理支撐和參考, 也能夠與以往研究相呼應。

2 研究方法選擇與數據的獲取和預處理

2 1 研究方法

本文之所以選擇LDA 主題模型作為分析工具,主要原因有以下兩點: 第一, 該模型是一種無監督的經典學習方法, 且在分析不同領域和不同類型的政策方面都有著較好的實踐效果; 第二, 采用LDA主題模型能夠有效挖掘和分析政策文本內部潛在的主題, 更好地理解政策文本的內涵和精髓, 提高了政策文本分析的細粒度和精確度。而本文的研究目的是尋找公共數據開放政策供給的側重點, 需要透過政策表面來看政策文本內部之間的聯系, 符合應用LDA 主題模型的條件。而政策文件的主題詞是對一篇政策文件主要內容的闡釋, 而且為了保證政策文本在執行的時候能夠取得預期效果, 所以在詞語選擇上均經過深思熟慮, 以求避免相關政策產生二義性, 通過分析了解一篇政策文件的主題詞都有哪些, 以及每個主題詞出現的頻次的高低和共現情況,能夠有效地了解整篇政策文件的內容。所以本文從主題詞和LDA 主題模型兩方面出發, 對我國公共數據開放政策進行分析, 以期實現本文的研究目的。

2 2 數據獲取和預處理

本文研究的對象主要是我國地方政府發布的涉及公共數據開放的政策文本, 所以在“北大法寶”數據庫中進行檢索, 檢索步驟為: 首先在“北大法寶” 數據庫中選擇“高級檢索”, 在“法律法規”模塊中選擇“地方法規”, 全文中包含“公共數據開放”, 點擊“同篇”, 以政策發布日期為準, 共計得到地方性法規37 條, 地方政府規章13 條, 地方規范性文件266 條, 地方工作文件742 條, 初步將上述政策文件納入研究范圍之中(檢索時間為2023年3 月2 日)。

除此之外, 僅以“北大法寶” 作為數據庫, 不僅在數據來源上有局限性, 而且相關政策的收錄時間也存在一定的滯后性。因此, 同時在各?。ㄗ灾螀^、直轄市)政府網站以及全國人大法律法規數據庫中進行檢索作為補充數據來源。綜合上述, 兩個來源共計獲得初步納入本研究范圍的政策文件673篇。

對上述673 篇政策文件進行人工二次篩選, 剔除與本研究目的關聯性不強的政策文本, 如《北京市實施開放舉措行動方案》涉及“公共數據開放” 的內容僅僅是“加快推進公共數據開放, 制定本市公共數據管理制度”, 未涉及公共數據開放的領域和重點等, 與本研究的關聯性不強, 因此予以剔除。而根據相關學者的研究經驗, 相關技術標準也可以作為政策分析的一種對象納入進來, 所以此類標準文件予以保留。經過篩選, 最終將16 條地方政府規章、25 條地方性法規、197 條地方規范性文件、104 條地方工作文件以及1 條推薦性地方標準納入本研究的數據集之中, 共計343 篇政策文件, 部分政策文件的信息如表1 所示。

3 我國公共數據開放政策分析

3 1 描述性統計分析

1) 按政策效力區分。張濤等[45] 按照政策效力的高低將政策分為根政策、干政策和枝政策, 而表1 中提及的政策文件信息的5 種類別中, 地方政府規章效力低于地方性法規, 地方工作文件的效力低于地方規范性文件, 也低于地方政府規章。因此,借鑒張濤等[45] 學者的分類方法, 同時在與相關法學專家溝通的基礎上, 將地方性法規劃為“根政策”, 地方政府規章和地方規范性文件劃為“干政策”, 地方工作文件和推薦性地方標準劃為“枝政策”。

其中, “根政策” 共計25 篇, 約占比7%, “干政策” 共計213 篇, 約占比62%, “枝政策” 共計105 篇, 約占比31%。地方性法規的制定應當遵循本地具體情況和實際需要相一致的原則, 從而更好地促進黨和國家的相關法律、法規政策在本地區落地實施, 如《福建省大數據發展條例》[46] 的制定目的即推進數字福建建設, 促進大數據的有序健康發展, 并對相關公共數據的開放和利用作出了一定的規定。而地方政府規章和地方規范性文件則相當于地方政府相關部門在處理公共數據開放和使用過程中的細化, 如《山東省公共數據開放辦法》[47] 對公共數據的定義、開放原則、開放方式和組織機構等進行了明確的規定, 《廣東省公共數據管理辦法》從公共數據目錄管理, 公共數據的采集、核準與提供, 公共數據的共享和使用, 公共數據的開發和利用等若干方面對公共數據開放全過程進行了細化;《哈爾濱市公共數據開放管理暫行辦法》則提到了建立公共數據統一開放平臺保證公共數據開放的質量。地方工作文件相當于地方政府中對于公共數據開放管理政策的“末端”, 通過協調項目, 提出規劃, 或者舉辦公共數據開發利用比賽等手段激活公共數據的價值, 擴大公共數據開放的影響力。廣西提出通過開放公安、交運、市場監管、氣象、銀聯和通信行業等多類型的公共數據, 打造“一鍵游廣西” 項目; 上海市先后批準多批次的公共數據開發和利用項目, 涉及銀聯、不動產租賃、征信以及數字地圖可視化等領域??梢哉f, 不同地方政府結合當地的情況, 對本地區的開放公共數據作出了一定細化。

2) 按政策公布年限區分。對上述343 篇政策文件按照發文年度進行統計, 截至2023 年3 月5日, 各年度發布政策數目如圖1 所示。

從圖1 中可以看出, 我國公共數據開放相關政策出現于2014 年(2 部), 之后呈現出穩步上升的趨勢, 并先后在2017 年(68 部)和2021 年(83 部)達到較高的水平, 說明我國地方政府高度重視公共數據開放的問題。2014 年, 北京中關村科技園和武漢市人民政府分別發布《關于加快培育大數據產業集群推動產業轉型升級的意見》(以下簡稱《大數據意見》)和《武漢市大數據產業發展行動計劃(2014—2018 年)》(以下簡稱《行動計劃》)?!洞髷祿庖姟芬蟆白ズ霉矓祿_放環節” “探索公共數據開放機制”, 進而促進公共數據開放在工業化和信息化深度融合中發揮應有的作用; 武漢市則指出, 要建立“公共數據開放機制”, 除法律法規禁止開放的信息之外, 一律向社會公開。公共數據涉及公眾生活的方方面面, 遠比政府數據或者是政務數據涵蓋的范圍要廣, 對于公眾的影響也更加密切。因此, 結合各種自媒體終端的大量普及以及5G、物聯網等技術的快速發展, 打造公眾專屬的個人數據空間, 滿足市民的日常生活需要, 讓公共數據更好地發揮其自身應有的作用就顯得尤為重要。

3) 按政策發布的省級行政區域區分。對各個地方政策發布部門按照其所屬省級行政區域進行統計, 本研究涉及到的關于公共數據開放的政策文件, 共囊括我國除西藏、云南、臺灣、香港以及澳門之外的29 個省級行政區。其中, 政策發布數量較多的省級行政區域和政策數量分別為: 浙江(23篇)、江蘇(8 篇)、上海(15 篇)、山東(9 篇)、川渝地區(16 篇)和貴州(13 篇)。除貴州和川渝地區外, 基本都屬于我國東部沿海地區, 且經濟發展水平都較高。根據國家統計局公布的2021 年我國省級行政區域GDP 來看, 上述4 個東部沿海地區省級行政區域的經濟數據均位居全國前10 名, 表明經濟水平是影響我國公共數據開放政策發布的重要推動力[48] , 特別是將數字納入生產要素的范疇中之后, 數字已經成為促進地方經濟發展的重要生產資料。貴州雖然在2021 年的地區生產總值僅為19 586 42億元, 在全國排名第22 位, 但是貴州省地方政府積極重視公共數據開放的應用, 積極組織或者舉辦相關開放數據應用大賽, 以此為導向促進本地區公共數據開放進程, 也為評估公共數據開放的產出和效果提供了契機[49] 。而且, 內蒙古自治區積極響應國家關于數字經濟和“東數西算” 相關布局的政策; 川渝地區也成為了國家算力樞紐節點的中心, 充分發揮數字經濟時代“算力” 的“生產力” 作用, 說明了經濟發展水平的高低、積極響應國家政策以及推動公共數據開放的價值落地轉變為“生產力” 成為了提升當地公共數據開放水平的重要推動力。

3 2 基于LDA 主題模型的政策文本聚類分析

3 2 1 最優主題數目的獲取

對政策文本進行聚類, 首先要對其進行主題挖掘, 而確定涉及的政策文本中包含的主題數目是保證后續進行主題挖掘和聚類達到合理效果的關鍵因素。LDA 主題模型的提出者Blei D M 等[29] 、胡吉明等[33] 、王秀紅等[50] 、邱均平等[51] 學者認為, 采用困惑度來對主題數目進行衡量, 選取困惑度最小的模型確定主題的最優數目, 但是存在主題辨識、情報分析效率過低的現象; Griffiths T L 等[52] 認為,應用貝葉斯模型來確定最優主題數目, 但是該方法的計算復雜度較高, 且應用范圍有限, 因此還需要結合專家意見來進行最終判定。綜合上述各位學者提到的方法, 結合本研究的實際情況, 決定采用計算對數似然估計數值的方法來確定最優主題數目。

首先對上述納入研究范疇的文本在R 語言環境下進行數據清理和文本分詞, 從而確保后續相關主題數目獲取和政策文本分析的精確度與可靠性。使用R 環境中的Worker()函數以及Jieba 分詞工具,Worker()函數中, User 參數設定用戶自定義的詞庫,Stop_word 參數設定停用詞表路徑。將上述兩個參數的值按照本研究的實際需要來進行設置, 確保去掉相關數據噪聲。

在R 語言環境中設定主題范圍為2~100 的閉區間, 按照步長為5 依次測算不同主題數目所對應的似然估計數值, 將似然估計數值最大的時候所對應的主題數目確定為最優主題數目, 主要代碼為:fitted_many<-lapply(sequ,function(k) topicmodels::LDA(TDM,k =k,method =“Gibbs”,control =list(bur?nin=burnin,iter=iter,keep=keep)))。經過計算, 不同類型政策文本的最優主題數目如表2 所示, 以下所有分析均是在最優主題數目的環境下進行的。

3 2 2 政策文本識別使用Java 版LDA 主題模型軟件, 在表3 中各個政策類型文本的最優主題數目下, 對政策文本進行主題挖掘, 其中, 迭代次數為2 000次。每種政策類型的文件所識別出的部分主題及其每個主題下包含的排名前5 位的詞語如表3 所示。表3 中“政策類別” 按照政策效力作用范圍從大到小進行排列。從表3 內容中可以看出, 我國開放公共數據政策中對于數據的供給給予了較高的關注度, 特別是在“地方政府規章” 相關政策文件中, “供給” “提供” 等關鍵詞更是出現在每個主題排名前5 位的關鍵詞之內, 而且更加強調對于“開放平臺” 等數據供給措施的建設。同時隨著政策作用范圍越小, 對于開放公共數據的內容則更加具體。

3 2 3 政策文本聚類

使用Vosviewer, 對表3 中涉及的5 類政策識別出的各個主題包含的關鍵詞進行聚類, Resolution 的值設定為1, 分析方法選擇“Association Strength”(關聯強度方法), 目的是為了利用LDA 主題模型能夠從語義的角度分析政策文本主題詞關系的優點,得到基于LDA 模型的我國公共數據開放政策文本聚類情況, 如圖2 所示。

從圖2 中可以看出, 各個政策的內容可以劃分為9 類, 按照每一個聚類內部包含的信息, 可以將政策文本內容劃為如下4 個方面:

第一, 涉及開放公共數據中的個人信息保護問題。對于開放公共數據過程中如果涉及個人信息的問題, 數據的收集、保存和使用者應當遵循相應的技術規范和政府規章規制, 采取技術手段對數據進行清洗優化, 從而保障數據在既能夠發揮相關作用的前提下還能夠不泄露或者可能泄露相關人員的隱私, 特別是我國的《數據安全法》和《個人信息保護法》更是對此作出了明確的規定, 部分地方政府規章, 如《浙江省公共數據開放條例》等也結合本地區的實際經驗作出了相應的規范。

第二, 涉及公共數據開放的政府管理。公共數據合法、有效、高效地開放, 離不開政府部門的有效管理。特別是隨著智慧城市的建設以及地方政府數字化轉型的加快, 為了滿足科學化決策和精準化響應, 更加需要對公共數據的開放管理和使用實行高精度的管理。因此, 隨著2021 年發布的《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035 年遠景目標綱要》亦提及要“開展政府數據授權運營試點, 鼓勵第三方深化對公共數據的挖掘利用”[2-3] , 浙江、福建、海南等諸多省份紛紛對公共數據的管理、使用進行規范, 《海南省大數據開發應用條例》指出, 要將“公共數據納入國有資產管理”。同時還明確“市場主體可享有增值性利用產生的產品和收益”, 促進了第三方等主體積極投身于公共數據開放的應用領域之中[53] 。

第三, 涉及公共數據開放過程中的國家安全問題。對相關數據實行分級分類管理, 按照數據主體或者數據來源、數據屬性等相關標準進行分類。按照和國家安全聯系的遠近來分別采取不同的技術手段或者規章制度來分別確定不同類型的數據的使用方法和范疇, 在數據開放和保障國家安全之間作出平衡[54] 。

第四, 涉及公共數據開放過程中的技術問題。從加強公共數據開放的角度出發, 在公共數據從生成到使用再到最后的銷毀一系列過程中環節較多,例如可以通過相應的區塊鏈等技術手段, 讓每一個階段的數據處理和使用過程有跡可循; 或者通過技術手段來限制某一主體在一定范圍內和時間內對相關公共數據資源的訪問頻次, 進而實現數據機密性、完整性和可用性三者之間的有機結合[55] 。

4 結語與局限性

本文從主題詞和LDA 主題模型兩個角度出發,通過對文本主題詞的詞頻和不同主題詞之間的相互關系兩個維度入手, 對我國公共數據開放政策的文本進行了聚類分析, 可以發現我國公共數據開放政策供給特征有如下幾點:

第一, 從各個行政區域發布的政策數量來看,我國公共數據開放政策供給從東部地區到西部地區呈現出明顯的“階梯式” 下降的趨勢。主要原因在于東部地區由于區位優勢和經濟發展的需要, 對公共數據的需求量較大, 由此倒逼東部地方政府積極出臺相關政策來規范相關數據開放行為, 挖掘公共開放數據中的潛力, 從而讓數字經濟成為促進地區經濟發展的有力引擎。

第二, 我國公共數據開放政策供給領域不均衡?,F行的政策文本關注的主要是和公眾利益密切相關的領域, 如光電、城市醫療、公共交通等領域。雖然在客觀程度上反映了我國公共數據開放重視保護公眾的利益、保障公眾的知情權等, 但是公共數據涉及的領域很廣, 除了上述領域之外, 金融、科技、文化等領域的相關數據開放也應該在確保數據安全的前提下, 出臺相應的開放數據政策, 從而構造一個涉及各個領域的公共數據開放政策網絡。

第三, 突發緊急事件狀態下公共數據供給的力度還有待提高。目前而言, 大部分公共數據開放政策尚未涉及在突發緊急事件狀態下相關數據的開放和使用問題。而突發緊急事件下相關數據的正常公開、合法使用和精準流通往往是確保突發事件能夠高效解決的關鍵。但是各類政策文本對此卻鮮有涉及, 因此還需要相關部門結合歷次突發事件的特征和公共數據的特點, 制定突發緊急事件狀態下的公共數據開放法規。

本文存在部分局限性, 主要表現在由于對“公共數據” 的定義, 不同的學者還存在著不同的理解,因此在納入本研究范疇的政策文件選擇上還可以繼續斟酌, 以期兼顧政策文件的“查全率” 與“查準率”; 此外, 針對相關政策內容聚類和劃分時,對于各個主題的細粒度還可以進一步進行優化; 在總結主題標簽的過程中還可以結合本領域的專家意見或者相關文獻進行歸納, 以使得主題標簽的科學性更強。后續將圍繞解決上述不足進行進一步的深化研究。

參考文獻

[1] 何哲, 黃璜, 劉文宇. 等. 建設網絡強國、促進國家治理體系和治理能力現代化行動指南———《習近平在網絡安全和信息化工作座談會上的講話》精神學習體會[J]. 電子政務, 2016, (6):2-25.

[2] 新華網. (兩會授權發布)中華人民共和國國民經濟和社會發展第十四個五年規劃和2035 年遠景目標綱要[EB/ OL]. http:/ /www.xinhuanet.com/2021-03/13/ c_1127205564.htm, 2023-02-13.

[3] 中華人民共和國中央人民政府. 國務院關于印發“十四五”數字經濟發展規劃的通知[EB/ OL]. http:/ / www.gov.cn/ zhengce/content/2022-01/12/ content_5667817.htm?type=1, 2023-02-13.

[4] 胡業飛, 孫華?。?政府信息公開與數據開放的關聯及治理邏輯辨析———基于“政府—市場—社會” 關系變遷視角[J]. 中國行政管理, 2021, (2): 31-39.

[5] 高爭志. 公共數據開放制度的價值定位與實現路徑[ J]. 數字圖書館論壇, 2020, (1): 27-34.

[6] 東方, 鄧靈斌. 政府數據開放的法律規制: 美國立法與中國路徑———基于美國《開放政府數據法》(OGDA) 的思考[J]. 情報資料工作, 2021, 42 (5): 50-57.

[7] 陳美. 澳大利亞地方政府開放數據的保障機制研究———基于多元公共行政觀的視角[J]. 情報理論與實踐, 2017, 40 (12):139-144, 111.

[8] 黃如花, 王春迎, 范冰玥, 等. 加拿大圖書館開放政府數據服務實踐調查分析及對我國的啟示[ J]. 圖書館學研究, 2018,(13): 97-101.

[9] 冉連. 基于WOS 的國外公共部門大數據應用研究可視化分析[J]. 電子政務, 2018, (7): 90-99.

[10] 陸敬筠, 呂海艷. 上海市公共數據開放平臺用戶畫像構建與分析[J]. 數字圖書館論壇, 2021, (10): 54-59.

[11] 儲節旺, 楊雪. 公共數據開放的政府主體責任研究[ J]. 現代情報, 2019, 39 (10): 127-135.

[12] 鄭磊, 呂文增. 公共數據開放的產出與效果研究———以上海開放數據創新應用大賽為例[J]. 電子政務, 2017, (9): 2-10.

[13] 蒲攀, 馬海群. 大數據時代我國開放數據政策模型構建[ J].情報科學, 2017, 35 (2): 3-9.

[14] Pereira G V, Macadar M A, Luciano E M, et al. DeliveringPublic Value Through Open Government Data Initiatives in a SmartCity Context [J]. Information Systems Frontiers, 2017, 19 (2):213-229.

[15] Lakomaa E, Kallberg J. Open Data as a Foundation for Innova?tion: The Enabling Effect of Free Public Sector Information for En?trepreneurs [J]. IEEE Access, 2013, 1: 558-563.

[16] Versluis L, Mathá R, Talluri S, et al. The Workflow Trace Ar?chive: Open-Access Data from Public and Private Computing In?frastructures [ J]. IEEE Transactions on Parallel and DistributedSystems, 2020, 31 (9): 2170-2184.

[17] 王本剛, 馬海群. 公共數據的公共價值研究———以國內外相關政策和報告為核心的解讀[J]. 情報理論與實踐, 2022, 45(10): 1-10.

[18] 孫瑞英, 陳宜泓. 基于PMC 指數模型的我國公共數據開放政策評價研究[J/ OL]. 情報理論與實踐: 1-16 [2023-04-09].http:/ / kns.cnki.net/ kcms/ detail/11.1762.g3.20230322.1639.006.ht?ml.

[19] 馬海群, 劉興麗, 韓娜. 基于關聯規則的開放政府數據主題多政策協同性研究[J]. 情報科學, 2022, 40 (4): 3-8, 17.

[20] 付熙雯. 數字中國建設中政府數據開放利用政策的優化[ J].陜西師范大學學報(哲學社會科學版), 2022, 51 (4): 118-133.

[21] 黃雨婷, 傅文奇. 日本政府數據開放的政策保障及其啟示[J].數字圖書館論壇, 2020, (9): 9-17.

[22] 東方, 鄧靈斌. 政府數據開放的法律規制: 美國立法與中國路徑———基于美國《開放政府數據法》( OGDA) 的思考[ J].情報資料工作, 2021, 42 (5): 50-57.

[23] 黃如花, 劉龍. 英國政府數據開放的政策法規保障及對我國的啟示[J]. 圖書與情報, 2017, (1): 1-9.

[24] 黃雨婷, 黃如花. 丹麥政府數據開放的政策法規保障及對我國的啟示[J]. 圖書與情報, 2017, (1): 27-36.

[25] 曹雨佳. 政府開放數據生態鏈中的用戶參與機制———以加拿大政府數據開放實踐為例[J]. 情報理論與實踐, 2021, 44 (6):18-27.

[26] Sumitomo T, Koshizuka N. Progress and Initiatives for Open DataPolicy in Japan [J]. Computer, 2018, 51 (12): 14-23.

[27] Viscusi G, Batini C. Information Production and Social Value forPublic Policy: A Conceptual Modeling Perspective [J]. Policy &Internet, 2016, 8 (3): 334-353.

[28] Jung K, Park H W. A Semantic ( TRIZ) Network Analysis ofSouth Koreas “ Open Public Data” Policy [ J]. Government In?formation Quarterly, 2015.

[ 29] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J].Journal of Machine Learning Research, 2003, 3 (4/5): 993-1022.

[30] 張濤, 馬海群. 一種基于LDA 主題模型的政策文本聚類方法研究[J]. 數據分析與知識發現, 2018, 2 (9): 59-65.

[31] 黃仕靖, 吳川徽, 袁勤儉, 等. 基于情感分析的突發公共衛生事件輿情時空演化差異研究[J/ OL]. 情報科學: 1-11 [2023-02-13]. http: / / hfffg5fce84748f1d4cc2hxuwxpcpkunpc6pbv.fgfy. hlju.cwkeji.cn/ kcms/ detail/22.1264.G2.20220314.1057.012.html.

[32] 周健, 張杰, 屈冉, 等. 基于LDA 的國內外區塊鏈主題挖掘與演化分析[J]. 情報雜志, 2021, 40 (9): 161-169.

[33] 胡吉明, 付文麟, 錢瑋, 等. 融合主題模型和注意力機制的政策文本分類模型[J]. 情報理論與實踐, 2021, 44 (7): 159-165.

[34] 劉雅姝, 張海濤, 徐海玲, 等. 多維特征融合的網絡輿情突發事件演化話題圖譜研究[J]. 情報學報, 2019, 38 (8): 798-806.

[35] 姚潔, 孟小璐. 運用改進型LDA 算法的電商微博熱點話題研究[J]. 重慶理工大學學報(自然科學), 2019, 33 (12): 184-188.

[36] 池毛毛, 潘美鈺, 王偉軍. 共享住宿與酒店用戶評論文本的跨平臺比較研究: 基于LDA 的主題社會網絡和情感分析[ J].圖書情報工作, 2021, 65 (2): 107-116.

[37] 吳江, 侯紹新, 靳萌萌, 等. 基于LDA 模型特征選擇的在線醫療社區文本分類及用戶聚類研究[J]. 情報學報, 2017, 36(11): 1183-1191.

[38] 孫玉潔, 秦永彬. 基于LDA 模型的多角度個性化微博推薦算法[J]. 計算機工程, 2017, 43 (4): 177-182.

[39] 王璟琦, 李銳, 吳華意. 基于空間自相關的網絡輿情話題演化時空規律分析[J]. 數據分析與知識發現, 2018, 2 ( 2):64-73.

[40] Zhou X Z, Wu S X. Rating LDA Model for Collaborative Filtering[J]. Knowledge-Based Systems, 2016, 110 (15): 135-143.

[41] Chen S, Huang L, Lei Z, et al. Research on Personalized Rec?ommendation Hybrid Algorithm for Interactive Experience Equipment[J]. Computational Intelligence, 2020, 36 (3): 1348-1373.

[42] Yang L, Jing L P, Michael K N, et al. A Discriminative andSparse Topic Model for Image Classification and Annotation [ J].Image and Vision Computing, 2016, 51 (7): 22-35.

[43] Wang L. Automatic Annotation of Multispectral Satellite Images U?sing Author-Topic Model [J]. IEEE Geoscience & Remote Sens?ing Letters, 2012, 9 (4): 634-638.

[44] Beraha M, Guglielmi A, Quintana F A. The Semi-hierarchicalDirichlet Process and Its Application to Clustering Homogeneous Dis?tributions [J]. Bayesian Analysis, 2021, 16 (4): 1187-1219.

[45] 張濤, 馬海群. 我國大數據政策主題分析及發展動向研判[J].情報理論與實踐, 2022, 45 (3): 72-80.

[46] 中央網信辦. 《福建省大數據發展條例》公布[ EB/ OL]. ht?tp: / / www.cac. gov. cn/2021 - 12/28/ c_1642291459800235. htm,2023-02-13.

[47] 山東省人民政府. 山東省公共數據開放辦法[ EB/ OL]. ht?tp: / / www.shandong.gov.cn/ art/2022/2/9/ art_107851_117339.ht?ml, 2023-02-13.

[48] 門理想, 王叢虎, 門鈺璐. 公共價值視角下的政府數據開放———文獻述評與研究展望[J]. 情報雜志, 2021, 40 (8): 104-110.

[49] 鄭磊, 呂文增. 公共數據開放的產出與效果研究———以上海開放數據創新應用大賽為例[J]. 電子政務, 2017, (9): 2-10.

[50] 王秀紅, 高敏. 基于BERT-LDA 的關鍵技術識別方法及其實證研究———以農業機器人為例[J]. 圖書情報工作, 2021, 65(22): 114-125.

[51] 邱均平, 沈超. 基于LDA 模型的國內大數據研究熱點主題分析[J]. 現代情報, 2021, 41 (9): 22-31.

[52] Griffiths T L, Steyvers M. Finding Scientific Topics [ J]. Pro?ceedings of the National Academy of Sciences of the United States ofAmerica, 2004, 101 (1): 5228-5235.

[53] 袁千里, 張云翔. 基于信息技術的共同生產: 作用、影響因素和挑戰[J]. 公共行政評論, 2022, 15 (1): 171-195, 200.

[54] 新華網. 中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見[EB/ OL]. https:/ / xueqiu.com/6227555304/146559790?page=2, 2023-02-13.

[55] 胡吉明, 溫芳芳, 黃如花, 等. 中國政府數據開放研究的主題關聯結構與演化態勢[J]. 情報資料工作, 2019, 40 (4):56-68.

(責任編輯: 郭沫含)

猜你喜歡
政策分析模型
適用于BDS-3 PPP的隨機模型
p150Glued在帕金森病模型中的表達及分布
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在糾結中前行的網約車改革
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合