?

基于知識圖譜的國內外醫學數據挖掘研究可視化探析

2017-07-18 11:21石習敏楊均雪趙文龍
中國全科醫學 2017年21期
關鍵詞:熱點圖譜數據挖掘

石習敏,陳 娟,楊均雪,趙文龍

·數據研究分享·

基于知識圖譜的國內外醫學數據挖掘研究可視化探析

石習敏,陳 娟,楊均雪,趙文龍*

采用文獻計量學方法和知識圖譜方法,以CNKI和Web of ScienceTM數據庫中1998—2016年收錄的醫學領域數據挖掘相關文獻為分析樣本,從論文數量、核心作者和研究機構分布、研究熱點前沿等方面進行定量定性分析,探討國內外醫學數據挖掘研究熱點及發展前沿,對比國內外醫學領域發展中的異同點,以期促進我國醫學領域數據挖掘研究的進一步應用和發展。

文獻計量學;知識圖譜;數據挖掘;臨床醫學;可視化

石習敏,陳娟,楊均雪,等.基于知識圖譜的國內外醫學數據挖掘研究可視化探析[J].中國全科醫學,2017,20(21):2623-2628.[www.chinagp.net]

SHI X M,CHEN J,YANG J X,et al.Visualization of domestic and abroad medical data mining based on knowledge mapping[J].Chinese General Practice,2017,20(21):2623-2628.

科技部2014年度重點支持方向之一即為大數據應用研發與基礎研究[1],在科技高速發展的帶動下,醫院信息化建設日臻完善,如何有效地運用數據分析方法挖掘海量醫學數據中蘊含的高價值信息,進而實現知識發現,服務于醫院的科學決策[2],是目前醫學領域數據挖掘研究關注的重要課題。本文利用文獻計量學方法和科學知識圖譜分析工具——Citespace Ⅲ,從CNKI和Web of ScienceTM數據庫分別選取國內外醫學領域有關數據挖掘技術應用的文獻進行分析,探討國際醫學大數據挖掘領域發展動態,對比國內外研究熱點和研究前沿的異同,剖析數據挖掘技術在醫學領域應用現狀和特點,以促進數據挖掘技術在我國醫學領域中更廣泛、更深入的應用。

1 數據來源與研究方法

1.1 數據來源 國內外數據庫檢索時間均為2016-05-04。

本研究背景及創新點:

醫院信息化逐步完善,醫學數據存儲量越來越龐大,如何有效地運用數據分析方法挖掘海量醫學數據中蘊含的高價值信息,進而實現知識發現,服務于醫院的科學決策,是目前醫學領域數據挖掘研究熱切關注的重要課題。本研究對國內外醫學領域數據挖掘研究相關文獻進行梳理,分析該領域發展現狀及研究熱點、前沿。

本研究使用了科學知識圖譜分析工具——Citespace Ⅲ,從CNKI和Web of ScienceTM數據庫分別選取國內外醫學領域有關數據挖掘技術應用的文獻進行分析,探討國際醫學大數據挖掘領域發展動態,對比國內外研究熱點和研究前沿的異同。

在CNKI中,限定文獻類型為期刊后進行高級檢索,檢索策略:中圖分類號為“R”并且主題為“數據挖掘”,采用CNKI默認的回溯期,第1篇醫學數據挖掘文獻出現在1998年。同樣,限定時間為1998—2016年,在Web of ScienceTM數據庫(Web of ScienceTM核心合集、BIOSIS Previews?、MEDLINE?、SciELO Citation Index)限定文獻類型為“ARTICLE”后進行主題檢索,檢索策略:“data mining”AND“medical*”。下載全部文獻題錄數據并以txt格式保存作為樣本集。

1.2 研究方法 采用文獻計量學方法對國內外醫學領域數據挖掘研究進行分析,并用Citespace Ⅲ繪制科學知識圖譜。文獻計量學方法是通過分析科學文獻的增長和分布,評價學者研究成果的影響力,運用普萊斯定律,即相同主題中論文數量的一半是由具有較高生產力的作者群體所寫,并且該作者集合的數量約等于所有作者總數的平方根[3]。

Citespace Ⅲ被廣泛應用于學科領域發展趨勢和研究前沿的文獻分析[4],通過設置閾值,Timespan選擇1996—2016年(Slice Length=1),設定文獻被引頻次(C)、兩篇文獻共引頻次(CC)、文獻共引系數(CCV)的閾值分別為(2,2,20)、(4,3,20)、(4,3,20),將醫學領域數據挖掘研究發展規律繪制成知識圖譜,對知識網絡中的節點疏密度進行可視化展示,顯示科學知識發展進程與結構關系[5],以掌握國內外醫學領域數據挖掘研究熱點及研究前沿等最新發展動態。

1.3 檢索結果 依據檢索條件,剔除會議通知、征稿啟事等與主題無關的信息,從CNKI索出2 541條文獻,國內醫學領域數據挖掘研究呈現多學科融合發展態勢,截至目前已涵蓋延伸至36個學科領域,發文量逐年上升;從Web of ScienceTM數據庫檢索出2 621條文獻,國外該領域發文量整體呈增長趨勢。

2 國內醫學領域數據挖掘研究現狀與熱點分析

2.1 時間序列發文量 CNKI檢索出醫學領域數據挖掘方面的學術論文2 541篇,從時間序列上來看,1998—2016年,國內醫學領域數據挖掘研究發文量整體呈增長趨勢;1998—2003年該領域發文量增長緩慢,原因為國內數據挖掘技術在醫學領域的應用處于起步階段;2003年以后,該領域發文量增長速度較快,以2011年為拐點,之后發文量增長迅速,在2015年達到499篇,增長率為35.2%(見圖1)。學科領域的發文量在一定程度上可以反映該學科的發展程度和研究水平,該數據表明,國內數據挖掘研究在醫學領域正處于較快發展階段,大數據研究已引起了相關研究者的關注。

注:檢索數據截止時間2016-05-04

圖1 1998—2016年CNKI中醫學領域數據挖掘研究的論文數量

Figure 1 Number of articles about medical data mining in CNKI from 1998 to 2016

圖2 CNKI中高產作者的共現圖譜

Figure 2 Knowledge mapping of prolific authors in medical data mining in CNKI

圖3 CNKI中醫學領域數據挖掘研究中前10位高產作者及其發文量

Figure 3 Ten prolific authors with the largest number of articles about medical data mining indexed in CNKI

我國醫學領域數據挖掘研究目前主要集中在中醫類高校及研究所,這與中醫類高校及研究所的科研氛圍濃厚、學術水平較高存在一定關聯。其中,北京中醫藥大學發文量最多(見圖4),說明該研究機構對醫學領域數據挖掘研究較為重視,科研力量較為強大;其次是山東中醫藥大學、中國中醫科學院廣安門醫院、中國中醫科學院中醫藥信息研究所、成都中醫藥大學、南京中醫藥大學等。

圖4 CNKI中醫學領域數據挖掘研究機構的共現圖譜

Figure 4 Knowledge mapping of institutions that the authors published articles about medical data mining from in CNKI

2.3 研究熱點和研究前沿分析 研究熱點和研究前沿常來源于新的科學發現或學科進展,是科學研究中最先進、最有發展潛力的研究主題或研究領域[6]。關鍵詞詞頻共現可揭示文獻所屬領域研究主題的熱點分布并揭示其內在聯系和演進規律[7]。Citespace Ⅲ可應用于研究文獻的識別,繪制關鍵詞共現圖譜,進而顯示醫學領域數據挖掘研究發展新趨勢和新動態,設置Citespace Ⅲ相應閾值,并選擇最小生成樹(MST)算法,共形成94個節點,102條連線(見圖5)。

關鍵詞共現圖譜中字體大小及圓圈顏色可客觀反映醫學領域數據挖掘研究在不同時期的研究熱度[8]。由于本文分析的是數據挖掘相關研究,所以在分析時剔除了頻次最高的關鍵詞“數據挖掘”。從圖5可看到,“關聯規則”“配伍規律”“數據倉庫”“中醫傳承輔助系統”“聚類分析”等詞匯圓圈較大且有紫色外圈,且顯現出“醫案”“方劑”“中藥”“針灸”圓圈稍小的熱點詞匯,反映了國內醫學領域數據挖掘研究范疇較廣,目前研究熱點主要在于探索中醫用藥規律的數據挖掘研究。

3 國際醫學數據挖掘研究現狀與熱點分析

3.1 時間序列發文量 Web of ScienceTM數據庫中檢索出醫學領域數據挖掘方面的學術論文2 621篇。從時間序列上來看,1998—2016年,國外醫學領域數據挖掘研究發文量整體呈增長趨勢(見圖6),該數據表明,國外數據挖掘技術在醫學領域的應用正處于發展較快階段。

3.2 高產作者和研究機構分布 對高產作者進行統計,從Citespace Ⅲ中提取數據,排名第一的是TSUMOTO S,發表論文60篇。依據普萊斯定律計算結果為5.8篇,即為6篇。發文量在6篇以上的核心作者58位,共發表論文503篇,占所有論文總數的19.19%,可以看出醫學領域數據挖掘研究中高產作者的帶頭作用還未形成(未達到50%)。表1中列出排名前10位的高產作者及其發文量,共計發表論文170篇。設置Citespace Ⅲ相關屬性,構建該領域研究者研究機構的共現圖譜(見圖7),并進行統計分析,其中,Shimane Univ發文量最多,其次是Stanford Univ、Harvard Univ、Shimane Med Univ、US FDA、Univ Iowa等。

圖5 CNKI中醫學領域數據挖掘研究關鍵詞的共現圖譜

Figure 5 Key words co-appearance mapping of medical data mining in CNKI

注:檢索數據截止時間2016-05-04

圖6 1998—2016年Web of ScienceTM數據庫醫學領域數據挖掘文獻數量

Figure 6 Number of articles about medical data mining included in the Web of ScienceTMfrom 1998 to 2016

3.3 研究熱點和研究前沿分析 以“key words”作為節點,選擇“citation burst”,設置Citespace Ⅲ相關屬性,得到關鍵詞共現圖譜[9],共形成172個節點,399條連線(見圖8),從中可以看到classification(分類)、system(系統)、databases(數據庫)、algorithm(算法)、information(信息)、diagnosis(診斷)、prediction(預測)、text mining(文本挖掘)、knowledge discovery(知識發現)、medical informatics(醫學信息學)10個熱點詞匯,顯示當前國外醫學數據挖掘研究已經延伸到了技術應用的深層次領域。

表1 Web of ScienceTM數據庫中醫學領域數據挖掘研究前10位高產作者及其發文量統計(n=2 621)

Table 1 Top 10 prolific authors and the number of their published articles in medical data mining included in the Web of ScienceTM

作者發文數量(篇)相對數(%)TSUMOTOS602.289HIRANOS271.030BEUSCARTR110.420IWATAH110.420SHAHNH110.420ZHANGJ110.420LIUBY100.382REINERBI100.382ZHOUXZ100.382KUSIAKA90.343合計1706.488

圖7 Web of ScienceTM數據庫中醫學領域數據挖掘研究者研究機構的共現圖譜

Figure 7 Knowledge mapping of the researchers and institutions engaging in medical data mining included in the Web of ScienceTM

圖8 Web of ScienceTM數據庫中醫學領域數據挖掘研究關鍵詞的共現圖譜

Figure 8 Key words co-appearance mapping of the medical data mining in the Web of ScienceTM

4 國內研究熱點與國際研究前沿的對比分析

在學科研究熱點及前沿分析中,中心度和關鍵詞頻次可用來衡量不同節點在知識網絡中的重要性,以分析學科領域的研究熱點[4]。通過對Citespace Ⅲ后臺數據近5年出現頻次不少于3次的關鍵詞及相應中心度進行統計,并結合突顯詞和關鍵詞圖譜分析發現:

(1)在技術研究層面,數據挖掘研究技術在國內外醫學領域均得到進一步發展。從表2、表3中可看出,國內外該領域逐漸出現了“支持向量機”“R語言”“決策支持系統”等名詞。由此可見,隨著科學技術的發展,醫學領域數據挖掘方法也呈現出多樣化發展趨勢。

(2)在研究內容方面,國內外有關藥品信息的研究一直處于熱點,但側重點不同。國內外相關研究文獻關鍵詞共現分析發現,近5年均出現了“藥物不良反應”等藥物相關詞匯(見表2、表3),但國內偏向于“組方規律”“證候要素”“選穴規律”等中醫用藥的規律研究。

(3)國內醫學領域數據挖掘研究有國際化走向趨勢,國外學者研究了“gene(基因)”“systems biology(系統生物學)”“genome-wide association(全基因組關聯)”,國內研究相繼出現了“全基因組關聯研究”“生物醫學”,雖然頻次相對較少,但也說明國內醫學領域數據挖掘研究范疇正逐漸擴大,生物信息學相關研究正成為國內外醫學數據挖掘領域新的發展前沿。

(4)國內數據挖掘研究關鍵詞出現頻次最高的為中醫輔助傳承系統(76次),其次為組方規律(61次),以及證候要素、醫案、中藥、名老中醫、糖尿病等,說明目前國內醫學領域數據挖掘研究前沿主要側重于中醫領域,慢性病研究居多,并逐漸應用于醫院管理決策層面。而國際上研究范疇較廣,就研究內容而言,重視技術與方法研究,側重于電子病歷臨床數據挖掘技術的研究,并應用于臨床實踐,諸如自然語言處理、電子健康檔案、文本挖掘、預測、診斷等高頻詞(見表3、圖8)。YAMADA等[10]分析了血清清蛋白水平對乙型肝炎病毒非相關肝細胞癌的數據挖掘研究,SUDARSHAN等[11]研究了數據挖掘的框架在超聲心肌梗死階段的識別,TEIMOURI等[12]使用數據挖掘工具和技術檢測疾病醫療處方。

5 結語

本研究借助文獻計量學方法和Citespace Ⅲ可視化功能,對1998—2016年CNKI和Web of ScienceTM數據庫中收錄的、以“數據挖掘”為主題的研究文獻,從發表時間、作者機構及前沿熱點視角進行統計分析,探討國內外醫學領域發展中的異同點,得出結論如下:第一,從時間序列上看,大數據挖掘研究已引起國內外廣泛關注,該領域內研究文獻發文量均呈增長趨勢;第二,新的數據挖掘方法逐漸得以應用,已經形成了多個熱點研究主題。通過知識圖譜對比分析后發現,藥品信息、生物醫學領域是國內外共同關注的研究熱點,區別是國內側重中醫用藥規律、慢性病研究,并應用于醫院管理決策。國際上側重電子健康檔案、文本挖掘等臨床數據研究,并將知識發現應用于臨床實踐;第三,從高產作者和研究機構來看,核心作者的群體帶頭作用暫未形成,依據普萊斯定律,國內該領域研究高產作者群體帶頭作用有望形成(科研成果已達44.39%,接近50.00%)。數據挖掘研究成果較為突出的機構主要集中在中醫藥大學等高校及研究所,表明其在中醫領域有了較好的發展。CNKI中醫學領域數據挖掘研究關鍵詞的共現圖譜(見圖5)顯示“中醫傳承輔助系統”,查閱相應節點文獻分析得知,中國中醫科學院研發了中醫傳承數據挖掘系統,在一定程度上推動了中醫藥領域數據挖掘的應用發展,而對數據同樣豐富的臨床醫學來說,國內臨床醫學數據挖掘研究成果與國外相比存在一定差距,需探索積極新的研究方向并深化研究,進而推動我國醫學科學研究的全面發展。

表2 CNKI中近5年醫學領域數據挖掘關鍵詞和中心度統計分析

Table 2 Analysis of the key words and centrality of the medical data mining from CNKI from 2010 to 2015

年度關鍵詞頻次中心度2015生物醫學150.05慢性萎縮性胃炎120.13組方用藥規律90.06R語言30.042014糖尿病260.00醫院管理160.01選穴規律130.03全基因組關聯研究50.092013決策支持210.03文本挖掘200.30針灸療法180.02藥物警戒180.08信息化170.012012中醫輔助傳承系統760.53組方規律610.20失眠120.042011醫案500.06中藥410.162010證候要素600.15名老中醫380.04藥品不良反應200.04

表3 Web of ScienceTM數據庫中近5年醫學領域數據挖掘關鍵詞和中心度統計分析

Table 3 Analysis of the key words and centrality of the medical data mining from Web of ScienceTMfrom 2010 to 2015

年度關鍵詞頻次中心度2015risk-factors(危險因子)160.00electronicmedicalrecords(電子病歷)100.00adversedrugreaction(藥物不良反應)40.02immunizationsafetydata(免疫安全數據)40.012014decisionsupportsystems(決策支持系統)80.02ionizing-radiation(電離輻射)30.01outlierdetection(孤立點檢測)80.002013genome-wideassociation(全基因組關聯)50.01cardiology(心臟病學)30.02medical-records(醫學記錄)120.032012systemsbiology(系統生物學)90.00supportvectormachine(支持向量機)80.03imagemining(圖像挖掘)60.01adverseevents(不良反應事件)50.02clinical-practice(臨床實踐)30.01dataintegration(數據集成)80.002011biomarkers(生物標記)40.01radiologyreporting(放射學報告)30.00naturallanguageprocessing(自然語言處理)210.012010electronichealthrecords(電子健康檔案)200.05gene(基因)40.02

作者貢獻:石習敏進行文章的構思與設計、數據收集與整理、結果分析與解釋、撰寫論文;石習敏、陳娟、楊均雪進行研究的實施與可行性分析;石習敏、陳娟進行論文修訂;趙文龍負責文章的質量控制及審校,對文章整體負責,監督管理。

本文無利益沖突。

本文研究不足之處:

本文外文數據庫僅選用了Web of ScienceTM數據庫,后期文章可嘗試選用PubMed數據庫進行綜合分析。

[1]中華人民共和國科學技術部.科技部基礎司組織召開大數據科學問題研討會[EB/OL].(2014-09-01)[2016-05-24].http://www.most.gov.cn/kjbgz/201408/t20140829_115309.htm. Ministry of Science and Technology of the People′s Republic of China.A large data science seminar organized by department of science and technology foundation [EB/OL].(2014-09-01)[2016-05-24].http://www.most.gov.cn/kjbgz/201408/t20140829_115309.htm.

[2]孫向東,黃曉琴,朱春倫,等.基于循證醫學的海量醫學數據挖掘分析方法研究[J].醫學信息學雜志,2015,36(3):11-16.DOI:10.3969/j.issn.1673-6036.2015.03.03. SUN X D,HUANG X Q,ZHU C L,et al.Research on massive medical data mining analysis method based on evidence-based medicine[J].Journal of Medical Intelligence,2015,36(3):11-16.DOI:10.3969/j.issn.1673-6036.2015.03.03.

[3]D·普賴斯.小科學·大科學[M].宋劍耕,戴振飛,譯.北京:世界知識出版社,1982:10-25. PRYSE D.Little science and big science[M].SONG J G,DAI Z F,translate.Beijing:World Knowledge Press,1982:10-25.

[4]CHEN C.Cite SpaceⅡ:detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.DOI:10.1002/asi.20317.

[5]CHEN C,CHEN Y,HOROWITZ M,et al.Towards an explanatory and computational theory of scientific discovery [J].Journal of Informetrics,2009,3(3):191-209.DOI:10.1016/j.joi.2009. 03.004.

[6]陳仕吉.科學研究前沿探測方法綜述[J].現代圖書情報技術,2009,25(9):28-33.DOI:10.11925/infotech.1003-3513.2009.09.05. CHEN S J.Survey of approaches to research front detection[J].New Technology of Library and Information Service,2009,25(9):28-33.DOI:10.11925/infotech.1003-3513.2009.09.05.

[7]孫雨生,陳衛.我國網格服務研究進展——基于CNKI(2003—2012)的文獻計量與知識圖譜分析[J].現代情報,2013,33(7):102-111.DOI:10.3969/j.issn.1008-0821.2013.07.024. SUN Y S,CHEN W.Research development of grid service in China——bibliometric and mapping knowledge domains analysis based on CNKI from 2003 to 2012[J].Modern Information,2013,33(7):102-111.DOI:10.3969/j.issn.1008-0821.2013.07.024.

[8]曾麗.國內元數據研究的文獻計量分析[J].情報探索,2016,1(4):130-134.DOI:10.3969/j.issn.1005-8095.2016.04. 029. ZENG L.Bibliometric analysis of metadata researhes in China[J].Information Research,2016,1(4):130-134.DOI:10.3969/j.issn.1005-8095.2016.04.029.

[9]侯劍華,陳悅.戰略管理學前沿演進可視化研究[J].科學學研究,2007,25(z1):15-21.DOI:10.3969/j.issn.1003-2053.2007.z1.005. HOU J H,CHEN Y.Research on visualization of the evolution of strategic management front[J].Studies in Science of Science,2007,25(z1):15-21.DOI:10.3969/j.issn.1003-2053.2007.z1.005.

[10]YAMADA S,KAWAGUCHI A,KAWAGUCHI T,et al.Serum albumin level is a notable profiling factor for non-B,non-C hepatitis virus-related hepatocellular carcinoma:a data-mining analysis[J].Hepatology Research,2014,44(8):837-845.DOI:10.1111/hepr.12192.

[11]SUDARSHAN V K,ACHARYA U R,NG E Y,et al.Data mining framework for identification of myocardial infarction stages in ultrasound:a hybrid feature extraction paradigm(PART 2)[J].Comput Biol Med,2016,71:241-251.DOI:10.1016/j.compbiomed.2016.01.029.

[12]TEIMOURI M,FARZADFAR F,SOUDI ALAMDARI M,et al.Detecting diseases in medical prescriptions using data mining tools and combining techniques[J].Iran J Pharm Res,2016,15(Suppl):113-123.

(本文編輯:毛亞敏)

Visualization of Domestic and Abroad Medical Data Mining Based on Knowledge Mapping

SHIXi-min,CHENJuan,YANGJun-xue,ZHAOWen-long*

CollegeofMedicalInformatics,ChongqingMedicalUniversity,Chongqing400016,China

*Correspondingauthor:ZHAOWen-long,Professor;E-mail:cqzhaowl@163.com

In order to promote the development and application of medical data mining in China,we made a comparative analysis of the similarities and differences between the domestic and abroad researches based on quantitatively and qualitatively analyzing the articles about medical data mining included in CNKI and Web of ScienceTMfrom 1998 to 2016 using bibliometrics and knowledge mapping from the aspects of number of articles,core authors and research institutions,and the hotspot and research frontier.

Bibliometrics;Knowledge mapping;Data mining;Clinical medicine;Visualization

國家社會科學規劃項目(13BTQ004);重慶市自然科學規劃項目(cstc2015shmszx10004)——基于臨床大數據的醫療行為分析系統開發與研究

R-05

A

10.3969/j.issn.1007-9572.2017.04.y14

2017-01-22;

2017-03-27)

400016重慶市,重慶醫科大學醫學信息學院

*通信作者:趙文龍,教授;E-mail:cqzhaowl@163.com

猜你喜歡
熱點圖譜數據挖掘
高清大腦皮層發育新圖譜繪成
熱點
改進支持向量機在特征數據挖掘中的智能應用
中醫藥知識圖譜應用現狀分析及癡呆痰瘀互結證知識圖譜構建探索
探討人工智能與數據挖掘發展趨勢
繪一張成長圖譜
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
熱點
結合熱點做演講
軟件工程領域中的異常數據挖掘算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合