?

技術主題動態演化分析的一種新方法:DPL-BMM模型

2024-02-04 09:44凱,陳
情報學報 2024年1期
關鍵詞:文檔專利聚類

宋 凱,陳 悅

(大連理工大學科學學與科技管理研究所暨WISE實驗室,大連 116024)

0 引 言

新興技術在市場、技術和管理等方面不確定性的根源在于人的有限理性與認知風險,監測技術發展態勢和捕捉創新早期信號是提升認知和增加理性的重要活動,是減少新興技術不確定性的根本所在。盡管技術的發生與發展有不確定性,但宏觀的發展軌道和脈絡還是有勢可循的。揭示技術演化脈絡是把握技術發展規律的前提,基于專利信息的主題挖掘是基于技術發展微觀機制而呈現宏觀規律的重要研究內容,對技術超前布局和指導創新活動具有重大意義。

專家經驗是構建技術演變脈絡中不可忽視的知識[1-2],但新興技術的快速涌現使得專家意見的主觀傾向、時間和人力成本等局限性呈現出來。為突破這些局限,學界在實證定量方面進行了大量探索,尤其是基于專利文獻,已產生了引文分析、共現分析、文本挖掘和主題模型等多種方法用于揭示技術演化的特征及規律。譬如,文獻[3-5]通過特定的引文權重指標識別專利引文網絡的知識流動軌跡以繪制技術演化路徑,這種引文分析方法能在一定程度上刻畫技術發展的歷史脈絡,但因側重于高顯示度指標(如高被引)文獻而存在時滯性;基于專利分類號的時序統計分析和共現分析[6]可以改善這一不足,只是這種方法識別的技術主題粒度較粗,且難以識別新的技術主題。

與引文分析和共現分析相比,基于主題模型分析的文本挖掘側重于文本內容特征[7],不受引文時滯影響,能夠提升技術演化趨勢的精確性和即時性。在情報學領域,許多學者[8-12]結合LDA(latent Dirichlet allocation)模型及其各種改進模型識別技術主題及主題之間的關系,從而分析技術的演化趨勢,這些研究為基于主題模型開展技術演化分析提供了豐富的方法基礎,但尚未解決在時間序列下技術主題數目動態變化的問題,也疏忽了技術主題的標識工作。學者們更多關注的是如何選取最優主題數目,而這通常需要較多的人工干預和閾值判斷。事實上,技術在連續性、累積式的發展過程中,每個時間窗口的最佳技術主題數目具有動態變化的特性[13]。針對上述問題,本文以專利數據作為分析對象,提出了一種能夠自動提取標簽的技術主題動態演化分析方法,該方法能夠自動獲取時間序列下的技術主題數量和內容,并對技術主題進行標識,從而分析技術的動態演化趨勢。

1 基于DPL-BMM的技術主題動態演化模型構建

隨著新專利的不斷加入,技術主題會動態變化,某個技術主題下的單元技術也會存在時序變化。區別于靜態的LDA,增量主題模型更能夠反映技術主題隨時間的更替、增加和消失[14]。已有研究表明,增量主題模型DP-BMM(Dirichlet process bitermbased mixture model)[15]與k-means[16]、LDA[17]和其他改進模型相比,能夠提升主題探測效果。但是DP-BMM 模型無法自動標記文檔聚類,對于探測到的主題沒有明確的標簽列表說明。針對上述不足,本文構建了DPL-BMM (Dirichlet process bitermbased mixture model with labelling)模型,該模型不僅能識別動態主題,還可以自動獲取每個主題的表征詞列表。本文設計了基于DPL-BMM 的技術主題動態演化分析框架(圖1),包含3 個步驟:①數據預處理;②動態技術主題識別與標注;③技術主題熱度測度與可視化。其中,動態技術主題識別涉及DPLBMM 構建、文本數據特征表示、自動化文本聚類動態更新、技術主題標識等。

圖1 基于DPL-BMM的技術主題動態演化分析框架

1.1 動態技術主題識別的DPL-BMM模型

DPL-BMM 是一種自動標簽的、基于雙項的狄利克雷過程混合模型,是DP-BMM 的變體。該模型隨時間序列自動化生成主題聚類的數目,并對所生成的聚類主題進行標記,解決了以往主題模型需要預先設定聚類數量等問題,因此,更適用于動態技術主題識別。

1.1.1 專利文本特征表示

專利文本特征表示是將專利的標題和摘要信息轉化為特征向量的過程。為更好地反映專利特征,參照文獻[18]使用詞頻表示專利文檔特征的方法,本文使用集群特征(cluster feature,CF)向量表示集群特征。每個聚類簇z的CF 向量定義為一個元組其中表示聚類簇z中的詞共現列表,mz表示聚類簇z中的文檔數量,nz表示聚類簇z中的詞數量。從聚類簇z中增加或者刪減文檔d時,CF 向量可以實時更新,即

其中,d代表一篇文檔;b表示一篇文檔的詞對(雙項)集合;bwi和bwj分別表示單詞wi和單詞wj在一個詞對b中出現的頻次;和分別表示詞wi和詞wj在聚類簇z中出現的頻次;表示一篇文檔d中雙項集合的單詞總數。

1.1.2 專利技術主題生成

一篇文檔中的每個單詞通常是通過“以一定概率選擇了某個主題,并從這個主題中以一定的概率選擇某個詞語”的過程得到的,而DPL-BMM 主題模型依據這個原理反推每個專利文檔的技術主題分布,其主要過程包括:①對全局主題的比例分布進行采樣,G|γ~GEM(γ)[19];②對主題分布進行采樣,θ~DP(α,G);③對于每一個主題z∈{1,2,3,…},計算特定主題的詞分布?z~Dirichlet(β);④對于每一個文檔d∈{1,2,3,…},計算主題分布z~Multinomial(θ)和詞對分布b~Multinomial(?z)。據此,可以得到在聚類簇z中詞對-主題概率分布以及文檔-主題概率分布,公式分別為

其中,α和γ是狄利克雷過程中的超參數;β是狄利克雷分布中的參數;?z表示主題-單詞概率分布;p(wi|?z)和p(wj|?z)分別表示單詞wi和單詞wj在特定主題z的狄利克雷概率分布。

對于超參數α和β的設置,本文采用網格搜索方法找出平均性能最佳的參數。文檔-主題分布對應超參數α,α越大,表示主題差異越小,主題分布越均勻;詞對-主題分布對應超參數β,β越大,表示這個主題擁有的詞匯越多。在獲得每個專利文檔技術主題分布的基礎上,使用吉布斯采樣(Gibbs sampling)[15]統計每個詞和每篇文檔的最終主題。

此外,DPL-BMM 制定了新文檔與已形成聚類之間的概率分布,即每批或者每個新的專利文檔要么被添加到現有聚類集群z中,即

要么創建一個新的集群K+ 1,即

據此,可以捕捉新技術主題產生的信號。其中,mz,?d表示聚類簇z中剔除文檔d后剩余文檔數量;表示聚類簇z中剔除文檔d后詞對b中的單詞wi數量;D表示當前記錄文檔的總量;V表示當前記錄文檔中的單詞數量;αD表示新集群中文檔的偽計數量,γ=αD。

1.1.3 聚類主題的標識

已有研究中通常將出現概率較高的詞視為表征詞,再通過人工判讀來確定聚類的技術主題標簽[20],這些表征詞往往以單個詞匯而非詞組的形式出現,因此對判讀人員的技術專業程度要求很高,且當技術主題數量很多時,會消耗大量的人力和時間成本。為解決這個問題,本文提出一種自動化標記聚類主題的方法,即生成詞組形式的技術主題標簽,從而輔助人工對技術主題的研判和標識,如圖2 所示。首先,使用RAKE (rapid automatic key‐word extraction)算法[21]從每個聚類的專利文本中抽取技術主題候選詞組。其次,根據公式

圖2 聚類標簽表示流程

計算技術主題候選詞組的權重分值并排序,用于衡量每個候選詞組的重要程度。其中,Sk表示技術主題候選詞組k的權重分值;?z,w表示詞w的分布概率;n表示組成技術主題候選詞組k的單詞數量。最后,結合專家判讀從排名前20 位的技術主題候選詞組中挑選最能代表該聚類的技術主題標簽。

1.2 技術主題熱度量化與可視化

根據1.1 節可以得到專利數據集中的主題-文檔分布、主題-單詞分布和每個聚類的技術主題標簽,通過公式

測度每個技術主題z在第t個時間窗口的熱度H(zt)。其中,zt表示在時間切片t∈{1,2,…,T}中的技術主題z;nz,t表示在時間切片t中技術主題z所涉及的專利數量;Kt表示在時間切片t中的專利總數?;诖?,計算出整個時間序列的技術主題熱度。為了更加直觀地表達技術主題熱度隨時間的變化趨勢,本文使用主題河流圖[22]對其進行可視化。

2 實證案例:人工智能技術

人工智能作為第四次工業革命的引領性技術和顛覆性技術,正在釋放科技革命和產業變革積蓄的巨大能量,是世界各國競爭角逐的焦點技術。人工智能技術經過60 余年的發展,擁有大量的專利數據,具有技術主題更新迭代速度較快和應用領域不斷拓展的特點?;贒PL-BMM 的技術主題動態演化分析框架適用于識別和追溯這些快速發展的技術主題,進而為人工智能技術領域政策制定、產業布局以及技術創新發展提供決策支撐。因此,本文選擇人工智能技術領域作為實證研究對象。

2.1 數據收集和預處理

綜合考慮查全率與查準率,參照文獻[23],從德溫特專利數據庫中收集了98828 條人工智能專利數據作為實證分析對象①檢索式:TI = ("artificial intelligence*" OR "intelligence artificial*" OR "expert system*" OR "Deep learning*" OR "Machine learning*" OR"Human-computer interaction*" OR "emotion analysis*" OR "Natural language processing*" OR "Speech Recognition*" OR "Computer vision*" OR"Gesture control* "OR "smart robot*" OR "Video recognition*" OR "Voice translation*" OR "Image Recognition*" OR “Data mining*"),時間跨度為1965年至2021年。。提取所有專利的標題和摘要信息,依照表1 展示的數據預處理過程生成每一篇專利的詞對集合,使用公式(1)對詞對集合進行特征表示,構建專利文本的特征向量。

表1 專利數據預處理過程

2.2 人工智能技術主題的動態變化趨勢

技術是呈現體系化發展趨勢的,往往早期的初級技術數量較少,但隨著實踐需求的不斷出現,不同技術會組合或融合成新的技術,從而替代原有技術或獨立發展并更新迭代。為展示人工智能技術主題的動態演化趨勢,本文從技術主題數量年度變化和技術主題內容年度變化兩個方面進行探究。

2.2.1 人工智能技術主題數量動態變化趨勢

本文使用DPL-BMM 模型對1965—2021 年發表的人工智能專利文檔數據集進行技術主題提取,時間切片設置為1 年,在這一步驟中,嘗試研究超參數α和β對模型性能的影響,以期獲得最佳的參數設置;采用廣泛用于無監督文本聚類評價的主題連貫性指標對聚類結果進行評價。圖3 展示了具有不同α值和β值的DPL-BMM 的主題連貫度分數(coeffi‐cient of variance,CV),分數越高,模型的主題挖掘能力越好。因此,在模型中設定α= 0.6,β= 0.02。

圖3 超參數對DPL-BMM模型性能的影響

圖4 展示了人工智能技術主題數量和專利數量的年度變化趨勢。其中,專利數量從1965 年開始緩慢增長,從2010 年開始呈現指數增長態勢,大致可以劃分為3 個發展階段,即基于符號邏輯的推理證明階段(1965—1976 年)、基于人工規則的專家系統階段(1977—2006 年)和大數據驅動的深度神經網絡階段(2007—2021 年);技術主題數量總體呈現上升態勢,大致可以劃分為4 個發展階段,即緩慢增長期、快速增長期、短暫衰減期和爆發期。1965—1986 年,人工智能技術處于緩慢增長期,專利申請數量較少,技術主題的數量也很少;1987—2000 年,是人工智能技術的快速增長期,專利申請數量持續上升,盡管專利數量不多,但技術主題數量增長快速,這與前一階段的技術積累密不可分,“專家系統”(1980 年提出)得到了廣泛應用,同時人工智能相關的數學模型取得了一系列重大成果,如1986 年提出的“反向傳播算法”和1989 年提出的“卷積神經網絡”等,這些算法催生了“機器學習”;2001—2011 年,是短暫衰減期,每年申請的專利數量較為穩定,但技術主題的數量卻逐年減少,這與當時的硬件計算能力和數據資源有限息息相關;2012 年開始,進入爆發期,人工智能技術主題數量在動態波動后爆發至頂峰,特別是在2015 年之后呈現指數型增長趨勢。在這一時期,計算機硬件和大數據的發展促進了人工智能的加速發展,尤其是GPU(graphics processing unit) 在機器學習中的應用,計算機可以從海量的數據中學習各種數據特征,從而很好地完成人類分配的各種基本任務,人工智能強大的賦能性使其在不斷地與其他領域的技術發生滲透和融合。

圖4 人工智能技術主題數量和專利數量的年度變化趨勢

2.2.2 人工智能技術主題內容演化

依據“技術主題-文檔”概率分布,進一步統計每年的專利數據集聚類結果。聚類簇的數量即技術主題的數量,根據1.1.3 節所提出的自動標簽聚類的方法,使用河流圖的形式呈現人工智能領域的技術主題演變趨勢,探究隨時間變化每一個技術主題的出現、變遷和消亡的全過程。圖5 展示了1965—2021 年每年的技術主題熱度變化,對于超過10 個技術主題的年份,僅展示每年熱度排名前10 位的技術主題流動情況。在圖5 中,每一條色帶表征一個技術主題,其縱向寬度表征該技術主題在當年的熱度,與當年該分支領域的專利數量呈正相關關系;各技術主題在每一年份中按照其熱度進行排序,熱度越高的則越靠上。

圖5 人工智能技術發展趨勢(彩圖請見https://qbxb.istic.ac.cn)

綜合圖4 和圖5a 可以發現,人工智能技術主題的演變經歷了技術主題萌生、技術主題叢生和技術主題遞歸3 個發展階段。1965—1976 年,每年的人工智能技術主題相對單一,且具有差異性,即“點”狀發展,相互間關聯度低,這是人工智能技術的萌生階段。1977—2006 年,人工智能技術主題叢生,并表現出一定的連續性,這種叢生是域內技術主題與域外技術主題的融合或內部形成的分支,這時呈現“線”性演變狀態。2007 年至今,在大數據和深度神經網絡的驅動下,人工智能技術主題趨于遞歸,即主要技術的主導性增強,賦能于多種場景,具有“面”的特征,或許在醞釀著新一輪的技術主題叢生??傮w而言,人工智能技術經過60 多年的發展,經歷了從“點”到“線”再到“面”的技術主題演變過程。

(1)人工智能技術的萌生期(1965—1976 年)

這是人工智能發展的第一個黃金時期,科學家將符號方法引入統計方法中,解決了若干通用問題,初步萌芽了自然語言處理和人機對話技術,許多重要的基礎算法也在這一時期被提出,如深度學習模型的雛形貝爾曼公式。根據圖4 和圖5b可以看出,這一階段的專利申請量和技術主題的數量非常少,人工智能技術應用尚處于萌芽階段,最早興起于語音識別和圖像識別領域,信號處理、光柵轉換器、數字信息處理、語音信號編碼器等技術陸續得到應用,并促進了語音識別和圖像識別的發展。

(2)人工智能技術的叢生期(1977—2006 年)

這一時期是人工智能技術分支和技術應用迅速延伸的時期(圖5c)。在應用領域方面,人工智能技術逐漸在數字助理、汽車導航、飛機導航、計算機化醫療診斷、人臉識別和電子元件安裝等方向得到了廣泛應用;在硬件研究方面,傳感器、存儲器和中央處理器曾一度處于較高的技術熱度。

事實上,人工智能各種技術并不是孤立存在的,其中滲透性強、關聯度大的主導技術[24],如語音識別、圖像識別和專家系統,在人工智能技術主題共現圖譜(圖6)占據核心地位。與主導技術相配套的輔助技術,如與語音識別技術緊密關聯的自然語言處理技術、計算機程序技術和存儲技術等,以及用于存儲領域專家知識的知識庫、分析處理專家知識的數據挖掘技術等,也相繼涌現并發展起來。這些相互關聯的各種技術共同構成的技術體系不斷發展,應用需求導向也使各個行業產生變革,新技術替代舊技術。

圖6 人工智能技術主題共現圖譜(1977—2006年)

(3)人工智能技術的遞歸期(2007—2021 年)

2007—2021 年是人工智能的一個黃金時期,專利申請量急速上升,2017 年是一個顯著的拐點。人工智能的大發展主要得益于互聯網、社交媒體、移動設備和傳感器的大量普及,便攜式設備和移動通信在2006 年和2007 年成為熱點技術(圖5c、圖5d)。全球產生并存儲的數據量急劇增加,海量的數據為人工智能算法模型提供了源源不斷的素材,機器可以學習的數據越多,發現的規律越多,使得數據挖掘技術主題一直處于較高的熱度。為支撐大規模數據的處理和計算,數據存儲模塊、計算機可讀介質存儲程序和工業計算機是這一時期專利申請中重要的技術主題,與其他技術主題密切相關的人機交互技術主題也有新的突破。盡管語言識別和圖像識別的研究仍然占據主導地位,但神經網絡、機器學習和深度學習等算法主題日益突出,并與其他技術組合應用于多種場景。人工智能的又一次突破得益于深度卷積神經網絡模型的提出和發展,其中李飛飛及其舉辦的ImageNet 大賽為深度卷積神經網絡模型的應用做出了不可磨滅的貢獻,ImageNet 改變了以往只關注模型而忽視數據的人工智能研究思維[25]。2012 年,Hinton 與其兩名學生Alex 和Su‐tskever 提出了AlexNet 卷積神經網絡模型,借助Im‐ageNet 數據取得了令人矚目的結果,驅動了新一代人工智能的加速發展[26]。

進入21 世紀,海量化的數據、持續提升的運算力、不斷優化的算法模型以及結合多種場景的新應用已構成了相對完整的閉環,使許多先進的機器學習技術成功應用于經濟社會中的許多問題的解決,推動了新一代人工智能技術的發展。

2.3 模型評估

為了評估本文方法的聚類效果,在人工智能數據集上將DPL-BMM 模型與文檔聚類領域中的經典模型LDA 和DTM (dynamic topic models) 進行比較。關于主題挖掘能力的評估,使用主題連貫度指標(topic coherence,TC)[27]評估主題模型的性能,即一個技術主題中的主題詞應該具有密切的相關性,可以有效地描述一個研究方向。經實證檢驗,LDA 和DTM 的主題連貫度分數(CV)分別為0.27 和0.31,DPL-BMM 模型的CV 值為0.36,這證明了DPL-BMM 模型具有較好的主題挖掘能力。

3 結 語

建構特定領域技術體系的整體演化過程、把握技術發展的宏觀規律與微觀機制、捕捉新技術產生的早期信號,對于新技術布局和創新資源配置具有重要決策價值。

本文提出了一種能夠自動標簽的技術主題動態演化分析方法,即DPL-BMM 模型,該模型具有兩點特性。①解決了以往使用主題模型進行技術主題挖掘時需要預設固定數目的問題[12,20]。本文方法可以對專利信息實現高效的無監督聚類,快速挖掘時間序列下的技術主題分布,且可以有效標記每個聚類的技術主題,在科技情報分析工作中具有實際應用價值。②適用于動態數據流的處理,實現了數據處理效率和聚類結果性能之間的有效平衡。實證研究中使用一年作為時間窗口對專利進行劃分,DPLBMM 可以批量刪除上一個時間窗口的數據,只保留當前年份的數據內容,有效平衡數據規模龐大和計算存儲資源有限之間的問題。

實證研究結果表明,DPL-BMM 模型可以較好地實現對技術主題的挖掘和演化分析,人工智能技術發展在總體上呈現出技術由“單一性”到“連續性”再到“遞歸性”的發展特點,主導技術、輔助技術和支撐技術等構成的群體技術逐漸涌現,共同構筑了人工智能技術體系。

猜你喜歡
文檔專利聚類
專利
淺談Matlab與Word文檔的應用接口
有人一聲不吭向你扔了個文檔
發明與專利
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
基于RI碼計算的Word復制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
一種層次初始的聚類個數自適應的聚類方法研究
自適應確定K-means算法的聚類數:以遙感圖像聚類為例
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合