?

基于德溫特數據庫的關鍵共性技術分析

2016-12-19 09:15杜宏巍
中國市場 2016年31期

杜宏巍

[摘要]文章在界定關鍵共性技術概念的基礎上,以德溫特數據庫為數據來源,下載了鋼鐵產業的熱處理領域的相關數據。同時,開發了分詞系統及數據分類系統,并結合陳超美開發的Citespace軟件對相關數據進行了二次螺旋分析。經實驗驗證,數據分析速度快、結果準確,具有一定的應用及推廣價值。

[關鍵詞]關鍵共性技術;二次螺旋分析;共詞分析

[DOI]10.13939/j.cnki.zgsc.2016.31.273

重大關鍵共性技術在整個技術創新鏈條中處于基礎性地位,是跨產業部門的關鍵技術,能夠為多項其他技術的進步、產業的發展提供支撐,具有廣闊的應用前景,為眾多用戶所使用,規模效用明顯。[1]

1關鍵共性技術辨識系統的構建

由關鍵共性技術的內在構成要素及其相互關系展開的邏輯順序,可以把關鍵共性技術系統過程概括為3個階段。

1.1數據準備確定數據源

Derwent Innovations Index(DII)是美國科學情報所(ISI)最新推出的基于因特網環境的數據庫產品,該數據庫將Derwent World Patents Index(DWPI,德溫特世界專利索引)與Patents Citation Index(PCI,專利引文索引)加以整合,它收錄來自40多個專利機構授權的1000多萬基本發明、3000多萬個專利,數據每周更新并已回溯至1963年,為研究人員提供了世界范圍內的化學、電子與電氣以及工程技術領域內綜合全面的發明信息,是最為全面的國際專利信息數據庫。符合數據源篩選原則,因此確定數據源為德溫特世界專利索引數據庫。

1.2數據獲取

1.2.1特征詞的識別

抽取文本特征集的目的是通過將文本特征項(關鍵詞、標引詞等)的量化,將它們從一個無結構的原始文本轉化為結構化的計算機可以識別處理的信息。通過對文獻的回顧可以發現,抽取的文本特征項類型經歷了從單純選用標引詞擴展到全文中的自由詞匯這樣一個發展過程。

選擇標引詞作為文本特征集時,詞匯的使用很規范,也較能反映文獻的主題,一直是共現分析操作過程中首選的分析單元。選擇自由詞作為文本特征集時,需要選擇自由詞的抽取位置,從標題和摘要中抽取詞匯作為文本特征集時能夠直接從作者對文章的認識角度理解文本內容,提高對文本內容把握的準確性。從全文中抽詞的最大優點是能夠保留出現頻率不高但非常重要的詞匯,同時避免了更新詞表、標引文獻等不小的工作量。但由于涉及文本切分詞等處理,實現的復雜度較高。

總結起來,抽取文本特征集時必須做出兩重選擇,從何處抽?。梢赃x擇標題、關鍵詞、摘要、全文)和抽取哪種類型的詞。本研究對特征詞的識別包括標引詞匯和自由詞匯。

1.2.2特征詞的抽取

從關鍵詞、標題、摘要、全文中抽取,抽取詞匯的質量依次增高,操作的復雜程度也逐個增強。抽取標引詞時,用詞規范、詞匯間概念關系清晰,但存在可能出現標引偏差和丟失新興詞匯的缺陷。抽取自由詞匯時則與上述情況正好相反,該抽取方法能夠科學地反映文本內容、跟蹤新興詞匯的出現,但詞匯的“一詞多義”和“一義多詞”現象導致數據預處理困難,自由詞匯間復雜的語義關系影響分析結果的可解釋性。所以應該根據分析目標的不同做出合理選擇??梢?,詞匯抽取結果的有效性和實現的便捷性始終是相互矛盾的,它們互相制約,實際操作中必須找到兩者的平衡點,以便利用最簡便的方法取得最科學的結果。

綜上分析,本文特征詞的識別是根據具體的科技跟蹤需要,從下載的文本集合中利用我們開發的分詞軟件自動抽取“標引詞”和“自由詞”作為反映文獻內容的特征值,具體包括“標題”“關鍵詞”“標引詞”“作者信息”“引文”等。

1.2.3特征詞的選擇

詞是文獻中承載學術概念的最小單位。詞頻的波動與社會現象、情報現象之間具有內在的關系,一定的社會現象和情報現象必然引起相應的詞頻波動現象。[2]因此,通過統計關鍵詞、主題詞、篇名詞等核心詞匯在某一類學術文獻中所出現的頻次,可以判別該學術領域的研究熱點、知識結構和發展趨勢。

本研究特征詞的選擇,就是對數據庫中的文件進行詞頻統計分析,形成詞頻統計文件。借助分詞軟件將論文標題中使用的單詞按照出現的頻次由高到低進行降序排列,然后將一些不完整的單詞及沒有特殊意義的單詞從詞頻列表中刪除,同時刪除掉那些在科學研究中被普遍應用的、沒有代表性的單詞,如研究(study)、分析(analysis)等。[3]

當選擇確定的特征詞后,利用我們開發的數據分類軟件,根據特征詞將下載數據中包含特征詞的數據段落歸類,歸類后的數據段落作為一個完整的數據集合,可供Citespace軟件進行共詞聚類分析。

2共詞分析

從“技術方法”上看,國內外本階段共詞分析研究注重方法的系統化,將研究對象納入時空坐標,提高了其應用結果同實際情況的擬合度和置信度,為拓展共詞分析的應用范圍奠定了基礎。同時,運用該階段方法體系所揭示的信息和對象之間的關聯已向深層擴展,初步解決了某些利用相關文獻挖掘內隱知識的問題。

從“應用領域”上看,基于共詞分析的研究成果可以歸納為:揭示特定科技領域內的研究主題、主題的層級及其關系以及由研究主題所映射的具體研究方向之間的關系,區分科學子領域,確定學科結構;揭示研究主題接近所屬領域熱點問題的程度;考察特定領域內科學研究主題的變遷和可視化結果;從內聯和外聯的角度揭示特定領域內研究主題之間以及研究主題同其他主題之間的關系;通過科技環境分析,揭示科技主體的機會和威脅;揭示不同子領域的演化模式及其相互關系,勾畫出研究主題的生命周期。[5]

建議聚類分析采用軟件為由美國德雷賽爾大學信息科學與技術學院陳超美開發的Citespace。采用一種“突發詞檢測”算法來確定研究前沿中的概念,利用3個網絡(“研究前沿術語的共現”“知識基礎文章的同被引”和“研究前沿術語引用知識基礎文章”)隨著時間演變的情況來尋找研究熱點及趨勢,并以可視化的方式展示出來。

3結論

本研究依據德溫特數據庫的分類,并開發了分詞系統及數據分類系統,結合陳超美開發的Citespace軟件對相關數據進行了二次螺旋分析:利用分詞軟件進行特征詞的識別及抽取,特征詞的選擇,利用數據分類系統,以特征詞為依據進行數據的文本分類,利用Citespace軟件對分類后的文本進行共詞聚類分析,對得到的共詞進行二次文本分析及共詞聚類分析。經驗證,該研究方法的分析速度及準確度均較理想,可用于研究產業關鍵共性技術領域。

參考文獻:

[1]郭曉林.產業共性技術創新體系及共享機制研究[D].武漢:華中科技大學,2006.8:28.

[2]鄧珞華.詞頻分析[J].武漢大學學報:社會科學版,1987(1):46.

[3]郭衛東.技術預見理論方法及關鍵技術創新模式研究[D].北京:北京郵電大學,2007(6):64.

[4]呂一博,康宇航.基于共現分析的科技監測地圖繪制及實證研究[J].科學學研究,2010,28(10):1460.

[5]藍玲,胡煒,易法敏.產業共性技術創新與區域產業升級[J].科技管理研究,2009(7):36.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合