?

基于測繪期刊論文數據的可視分析

2016-07-15 05:10劉海硯
測繪通報 2016年6期
關鍵詞:文獻計量研究熱點統計

李 靜,劉海硯

(信息工程大學地理空間信息學院,河南 鄭州 450000)

?

基于測繪期刊論文數據的可視分析

李靜,劉海硯

(信息工程大學地理空間信息學院,河南 鄭州 450000)

摘要:結合文獻計量方法與可視化技術,以《測繪學報》《測繪通報》《測繪科學》《測繪工程》2003—2013年共收集的5863篇學術論文為數據源,進行了關鍵詞、論文作者及論文作者所在地3方面的統計分析,并將統計結果以統計圖表和地圖的形式展現,直觀地反映了我國測繪學科研究熱點的演變,以及活躍作者群的人數、核心研究區的地理分布。研究顯示,涉及大地測量、地理信息系統和地圖制圖3方面研究內容的論文占總論文數的59.9%,達一半以上;根據普賴斯定律確定的活躍作者群人數為131人;發文量排名前10的城市中,有90%為省會城市或直轄市。從研究結果可以得出,我國測繪學科的發展每年的研究熱點都不相同,其中大地測量、地理信息系統和地圖制圖的研究較為廣泛;測繪學科發展具有高質量的活躍作者群體,但學科的發展具有地域不均衡性。

關鍵詞:統計;可視化;研究熱點;文獻計量;普賴斯定律

《測繪學報》《測繪通報》《測繪科學》《測繪工程》是測繪科學領域具有重要影響力的期刊。其論文數據是科研成果原理與思想的展示,在一定程度上反映了我國測繪科技水平的發展及測繪領域的最新成果,促進了學者們的互相交流與學習。為實現對我國測繪科技發展狀況從定性到定量的分析,本文結合文獻計量學的方法,對《測繪學報》《測繪通報》《測繪科學》《測繪工程》2003—2013年的所出版的5863篇科技論文進行關鍵詞、作者及發文地等方面的統計和分析,并采用可視化技術將統計結果進行直觀展現,便于從繁多的數據中找出數據所蘊藏的信息,進而分析得出我國測繪學科研究內容的變化情況,確定出活躍作者群的人數,以及核心研究區的分布情況。

文獻計量學原理為本文中所進行知識梳理和科學研究提供了理論基礎。所謂文獻計量學,即用數學和統計學的方法定量地分析一切知識載體的交叉科學。它是集數學、統計學、文獻學為一體,注重量化的綜合性知識體系。其計量對象主要是:文獻量(各種出版物,尤以期刊論文和引文居多)、作者數 (個人集體或團體)、詞匯數(各種文獻標識,其中以敘詞居多),文獻計量學最本質的特征在于其輸出的是“量”[1]。其中,普賴斯定律是文獻計量學方法中一個比較著名的定律,它是由被譽為“科學計量學”之父的普賴斯于1963年提出的。普賴斯認為:“全部論文的一半系由該領域中全部作者的平方根的那些人所撰?!焙笥盅a充道:“如果設所發表的全部論文為n篇,可以發現其中低產作者論文總數相當于少量高產作者論文總數,在這種簡單的情況下,對稱性可能表明作者數量是符合平方根定律的?!痹摾碚摲从沉俗髡吲c發文數量之間的數學關系,從而為本文中進行活躍作者群的確定提供了數學方法和依據。

一、可視分析

1. 研究熱點演變

期刊論文數據不同于一般的文本數據,它屬于半結構化數據,具有一定的結構和要素。文獻中的關鍵詞在一定程度上反映了該篇論文的研究內容。本文根據期刊論文數據特有的關鍵詞要素,以年為單位,采用武漢大學開發的ROST詞頻統計軟件對其進行統計,從而反映研究內容在時間上的變化情況;并根據論文的題目、摘要、關鍵詞等要素信息對論文進行整體分類,從而突出測繪研究內容上的差異。

(1) 關鍵詞統計

表1中表示的是剔除掉無用詞后,2003—2013年間每年出現頻率最高的關鍵詞。從中可以看出,每年詞頻最高的關鍵詞都各不相同,這反映出11年來測繪科學每年的研究熱點都各不相同。其中詞頻的均值為9.7,最高的為13,即2005年的“地圖綜合”。從關鍵詞內容上可以看出,2003—2007年,主要屬于GIS和地圖制圖范疇。

表1 2003—2013年最高詞頻關鍵詞統計

圖1是關鍵詞隨時間變化的統計圖,折線表示詞頻,條形圖表示該詞所占當年所有關鍵詞的比例。從圖上可以看出,2003—2007年關鍵詞的詞頻與其所占比例基本上呈正相關關系,即該關鍵詞詞頻越高,其所占的比例越大,從而可以說明該詞具有一定代表性,可以反映當年的研究熱點。2008—2013年,每年的關鍵詞總數增多,最高詞頻下降,最高詞頻關鍵詞所占比例也較之前明顯下降,這說明這幾年的研究內容相比之下比較分散,更加多元化。

圖1 2003—2013年最高詞頻關鍵詞隨時間變化圖

(2) 論文內容分類

本文根據論文的題目、關鍵詞、摘要對其進行分類。表2表示2003—2013年間論文內容分類的統計結果。從表2可以看出,近11年間,發文數量最高的為大地測量方面,共1407篇,占論文總數量的24%;第2位為GIS,占論文總數量的19.6%;第3位為地圖制圖,占論文總數量的16.3%,僅關于大地測量、GIS和地圖制圖方面的研究總和達到59.9%。這說明,在測繪領域的研究中,大地測量、GIS和地圖制圖等內容被廣泛研究和發展。另一方面,對其他方面的研究也在不斷深入,從各個方面充實著測繪科技的發展。

圖2是根據UGGIS于2006年提出的地理信息科學與技術知識體系8個方面的內容對論文進行分類后所繪制的漏斗圖和玫瑰圖。從圖中可以看出,測繪領域研究主要是建立在對地理空間數據上的,地理空間數據是整個測繪學科研究的基礎,地理空間數據的概念與獲取占有重要地位。從總體上看,數據建模、分析方法、地理計算、地圖與可視化主要涉及方法的研究與探索,其論文數量占到多數;其次設計問題、地理信息科學與技術主要涉及地理信息的應用與服務,而其論文數量相對較少。這說明研究者更多地致力于對規律的探索、模型的建立、合理算法與研究方法的探尋。

表2 論文內容分類統計

圖2 論文內容分類統計

2. 論文作者分析

(1) 作者發文量統計

測繪期刊在2003—2013年間共刊登了5822篇署名作者的文章,共3652名作者以第一作者身份發表文章,其中單個作者發文量最高的為45篇,最低為1篇,平均發文量為1.59篇。

表3反映了不同發文量的作者數及不同發文量占總文章數的比例。其中發文量為1篇的作者數最多,且總發文量達到總文章數的45%,這說明四大期刊有豐富的作者資源。發文量大于3篇的比例總計為23.9%,這說明四大期刊有著權威的作者隊伍,實力雄厚,支持著整個測繪領域的發展。

(2) 活躍作者群的確定

所謂活躍作者群,是指在某一領域發表論文數量較多,且影響力較大的作者的集合。本文對11年間論文作者的發文量進行了統計分析,并結合普賴斯定律確定在測繪領域的活躍作者群,現將發表論文數以N表示,單位為篇,計算公式如下

N=0.749×(Z)1/2

(1)

式中,Z為發文量最多的作者所發的文章數。根據表3可知Z為45篇,從而計算出N。

N=0.749×451/2≈5.024≈5

(2)

因此,根據普賴斯定律將活躍作者群的發文量確定為5篇和5篇以上,得到活躍作者群的總數為131人,占作者總數的3.6%,其活躍作者群所發表的論文占論文總數的17.3%,這說明在測繪領域有著穩定的作者群,他們實力雄厚,基礎扎實,雖然所占總人數的比例較小,但是具有較高的發文量,支撐著測繪事業的發展。

表4統計了發文量大于10篇的作者信息??梢园l現,發文量大于10篇的作者總共有20人,其中發文量最多為45篇且只有一人。如圖3所示,發文量大于10篇的作者有45%分布在北京各個科研院校,15%分布在武漢,10%分布在西安。

表4 發文量大于10篇的作者情況統計

注:①按照第一作者進行統計;②作者所在地指該作者最新發表的論文中其所在單位。

圖3 發文量大于10篇的作者單位分布統計

3. 核心研究區分布

一個地區發文量的高低在一定程度上反映了該地區的師資力量和科研水平。本文根據發文量多少來確定測繪學科核心研究區的分布情況。

根據第一作者單位所在地,本文對發文地點進行統計。表5羅列了發文量排在前10位的城市??梢钥闯?,第1位為北京,發文量占總論文數量比例為18.7%;第2位為武漢;第3位為鄭州。前10位城市發文量總和占到總論文數量的70%。研究發現,排名前10位的城市,北京、上海為直轄市,除徐州外,其余均為省會城市。這說明,在經濟發達和人口眾多的地區,教育資源豐富,師資力量雄厚,學術交流便利,是測繪領域研究的核心區域。

表5 發文量排名前10位的城市統計

本文以5篇發文量為節點,將發文量高于5篇的地區稱為高發文區,低于5篇且大于0篇的地區稱為低發文區。據統計,高發文地區主要集中分布在中東部地區,且主要為省會、直轄市等大型城市;而低發文區分布在中東部地區和東南沿海城市,這些城市規模相對較小??傮w來看,無論高發文區或低發文區都主要分布在中東部地區,城市規模的大小、經濟水平的高低直接影響該區域科研水平與師資力量。

二、結論

從以上的統計分析可以表明,期刊論文數據具有非常高的研究價值,能夠定量描述某一學科的研究狀況及其發展。本文通過研究測繪期刊論文數據統計圖表及可視化圖形,可以得出以下結論:

1) 測繪學科研究熱點從時間上看,每年的研究熱點都有所不同,且研究內容從2008年起更加豐富、多元化。2003—2007年間,測繪領域研究熱點主要集中在GIS與地圖制圖方面。

2) 測繪學科從研究內容分類上看,大地測量、GIS和地圖制圖等內容被廣泛研究和發展;而地理空間數據是整個測繪學科的研究基礎;對于研究者來說,他們更致力于對科學方法的尋求及對規律的探索。

3) 測繪學科擁有一大批實踐經驗豐富、理論水平較高的作者隊伍。雖然所占總人數的比例較小,但是實力雄厚,基礎扎實,支撐著測繪事業的發展。

4) 測繪學科主要分布在經濟發達和人口眾多的中東部地區,可以看出我國測繪學科的發展具有地域不均衡性。主要有以下原因:一是測繪領域科研高校主要集中在北京、武漢、鄭州等幾個城市,從而造成作者主要來自于這幾個地區。二是每個省市測繪地理信息局都可能會有自己的側重點,側重點為理論研究的可能就有較高的發文量,而注重實用性的地區發文量就較低。這表明,在注重實踐的同時,同樣應當注重理論研究的創新。三是偏遠地區通信交通都較為不便,也在一定程度影響了該區域的發文量。

參考文獻:

[1]溫克勒.基于科學計量學指標的科研評價[M].馬崢,譯.北京:科學技術文獻出版社,2014.

[2]唐家渝, 劉知遠, 孫茂松. 文本可視化研究綜述[J]. 計算機輔助設計與圖形學學報, 2013, 25(3): 273-285.

[3]劉海硯, 孫群, 肖強, 等. 數字地圖制圖中多源數據 (資料) 的綜合應用[J]. 測繪科學技術學報, 2006, 23(3): 161-164.

[4]蔣穎.人文社會科學領域文獻計量學研究[M].北京:社會科學文獻出版社,2013.

[5]周炤, 劉海硯, 李少梅, 等. 現代地圖語言[J]. 測繪工程, 2008, 17(2): 6-8.

[6]陳生,曾行吉,梁軍. 基于GIS的統計數據可視化研究[J]. 計算機工程與設計, 2008, 29(14): 3757-3759.

[7]王曰芬. 文獻計量法與內容分析法的綜合研究 [D]. 南京:南京理工大學, 2007.

[8]王凱. 新聞文本集可視化模型研究[D]. 北京:中國地質大學 (北京), 2013.

[9]林鴻飛, 高天. 中文文本的可視化表示[J]. 東北大學學報(自然科學版), 2000, 21(5): 501-504.

[10]鐘文娟. 基于普賴斯定律與綜合指數法的核心作者測評——以《 圖書館建設》 為例[J]. 科技管理研究, 2012, 32(2): 57-60.

[11]趙紅,趙良英.《測繪學報》論文及作者的統計分析[J]. 測繪學報,1998,27(3):88-95.

[12]羅玲,王文福. 《測繪科學》在中國知網的文獻計量分析[J]. 測繪科學,2013(4):209-212.

[13]普賴斯,張季婭.洛特卡定律與普賴斯定律[J]. 科學學與科學技術管理,1984(9):17-22.

[14]KEIMDA,MANSMANNF,SCHNEIDEWINDJ,etal.VisualAnalytics:ScopeandChallenges[J].LectureNotesinComputerScience, 2008(4404): 76-90.

[15]THOMASJJ,COOKKA.IlluminatingthePath:TheResearchandDevelopmentAgendaforVisualAnalytics[M].Piscataway:IEEEComputerSocietyPress, 2005.

[16]JIANP,ZENGCR,WUWW.Multi-grainHierarchicalTopicExtractionAlgorithmforTextMining[J].ExpertSystemswithApplications,2010(37):3202-3208.

[17]洪文學,王金甲.可視化和可視化分析學[J]. 燕山大學學報,2010(2):95-99,105.

[18]姜春林,劉盛博,丁堃.《中國科技期刊研究》研究熱點及其演進知識圖譜[J]. 中國科技期刊研究,2008(6):954-958.

[19]劉紅紅. 基于復雜網絡的報告文本可視化模型研究[D].北京:中國地質大學(北京),2012.

Visual Analysis of Paper Data from Surveying and Mapping Journals

LI Jing,LIU Haiyan

收稿日期:2016-01-15

基金項目:地理信息工程國家重點實驗室開放基金(SKLGIE-M-4-3);國家自然科學基金(41501446;41471387)

作者簡介:李靜(1990—),女,碩士生,主要從事數據挖掘與文本可視化研究。E-mail:brandy12367@sina.cn

中圖分類號:C82

文獻標識碼:B

文章編號:0494-0911(2016)06-0050-05

引文格式: 李靜,劉海硯. 基于測繪期刊論文數據的可視分析[J].測繪通報,2016(6):50-54.DOI:10.13474/j.cnki.11-2246.2016.0188.

猜你喜歡
文獻計量研究熱點統計
我國醫學數字圖書館研究的文獻計量分析
近五年我國職業教育研究熱點綜析及未來展望
國內外智庫研究態勢知識圖譜對比分析
國內外政府信息公開研究的脈絡、流派與趨勢
基于文獻計量分析我國生物科學素養研究狀況(2001~2016年)
基于知識圖譜的智慧教育研究熱點與趨勢分析
2008—2015我國健美操科研論文的統計與分析
自閉癥譜系障礙兒童的教育干預
山東省交通運輸投資計劃管理信息系統的設計
基于社會網絡分析的我國微課研究探析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合