?

面向文本的標簽云可視化度量模型的研究

2018-06-14 07:15馬明明
軟件 2018年5期
關鍵詞:彩信認知度度量

馬明明,胡 俊

(北京交通大學,計算機與信息技術學院,北京 100044)

0 引言

文本是數據傳播和存儲的主要形式之一。如何快速理解文本的主要內容及不同文本之間的關系是可視化技術應用研究的一個重要方向。隨著可視化技術的發展,研究者提出了許多有效的文本可視化技術,如標簽云可視化技術[1-2]與文本語義結構樹[3]等,這些技術在方法、適用對象,以及實現方式等方面均具有不同的特點。如何建立可視化技術應用效果的評價模型,從多維度指標對文本可視化技術進行有效的評測,是可視化研究領域的熱點之一。

標簽云可視化技術是一種根據字體大小、顏色及深淺等方式對文本中關鍵詞進行展現的一種可視化方法。通過度量指標對文本的標簽云可視化技術進行有效合理的定量評測[4-5],既有助于確定技術應用的效果,也有助于可視化技術[6]應用方法的研究。

可以看出,目前對可視化方法的研究主要在技術的建立,以及對技術的分析與改進等方面,對技術應用評測[7]方面的研究還處于發展階段,具體到文本[8-9]的標簽云可視化技術應用,也缺乏有效的評價方法[10-11]。本文工作重點是針對標簽云可視化技術提出三級指標度量模型,運用模糊層次分析方法[12]確定各級指標權重,并根據計算出的指標值對可視化效果進行量化分析。

1 基于文本的標簽云度量模型

針對文本的標簽云技術應用的度量模型的基本組成部分是根據標簽云應用特點提出的三級度量指標。

1.1 數據規模指標

數據規模[4]是其它指標提取與量化的基礎,標簽云可視化通過單詞的頻度從大到小展現在屏幕中,它是衡量標簽云可視化效果的一個重要指標。

定義1:文本中單詞的集合為 U = { a1, a2,… ,an},其中 ai( i = 1 ,2,… ,n )代表某個單詞,單詞在文本中的出現個數用 n ( ai)表示。文本中多次出現且對文本主題影響小的停止詞集合為 S = { b1, b2,… ,bm}。如英文文本中的介詞與代詞等可屬于停止詞。

(1)彩信詞的篩選

確定區域中能夠展示的單詞數是有限的,在對文本進行可視化前需要將文本中的單詞進行篩選,選取的單詞稱作文本的采信詞??梢愿鶕谋镜膯卧~集與停止詞集對文本進行過濾,得到文本的單詞集合U-S,通過計算得到集合U-S中的單詞在文本中出現的頻數,在選取一個適當的頻數閾值h后,可以通過篩選得到采信詞集 D = { a1, a2,… ,an1},其中對任意的 x ∈ D, n ( x ) ≥ h 。

(2)彩信詞密度

根據定義 1,可以得到文本中單詞總數為,采信詞集D中單詞a的密度可定義為p( a ) = n( a ) /N,a∈D,則文本的采信詞的密度可以表示為:

1.2 認知復雜度指標

用戶認知復雜度[12]可以用來衡量可視化技術是否能讓用戶便捷觀察、搜索原數據信息及隱含模式,標簽云可視化認知復雜度是由彩信詞方度及方向認知度構成。

(1)彩信詞方度

標簽云可視化技術實現中是將每個單詞轉換成圖片并放置到展現區中,采信詞方度用于近似描述單詞可視化區域的長寬比,定義為:

其中length和width分別對應單個單詞圖片的長和寬,其值與單詞包含的符號數相關。采信詞集D中全部單詞的方度均值定義為文本的采信詞方度,即為:

單詞字體的大小取決于該單詞在文本中的權重。權重大的字體從視覺上引人注目,然而某些權重較小但單詞長度較大的單詞,如“antidisestablishmentarianism”,其采信詞方度較大,同樣也會引起關注。

(2)方向認知度

標簽云中詞云角度增加,則其認知復雜度相應提高,認知復雜度與角度成正比。角度的變化范圍通??稍O定為[0, 90 °],若單詞 ai的可視化展現出的角度為αi度,則該單詞的方向認知度和可視化展現出的方向認知度(Direction Recognition)可分別定義如下:

顯然,此時方向認知度的取值范圍是[0,1]。方向認知度的值越大,認知復雜度越高。

1.3 視覺表現及效果指標

視覺表現及效果[12]可以用來衡量呈現圖像的辨識度及視覺效果。度量標簽云可視化視覺表現及效果的指標是由色彩比重及空間利用度構成。

(1)色彩比重

標簽云中的每個單詞顯示不同顏色,顏色種類的多少影響視覺效果。采信詞的數目是1n,顏色的種類數目是 c,色彩的種類越多,視覺效果越差,色彩比重(Ration of Color)表示為:

(2)空間利用度

展現區域是指文本可視化的區域。將文本的彩信詞進行可視化時,會出現未被利用的空白區域,空間利用度可以用于衡量展現區域的利用程度。單詞ai( i = 1 ,2,… ,n1)所占區域面積為 si,展現區域的寬和長分別為WIDTH和LENGTH,其面積 S= W IDTH×LENGTH,則空間利用度(Space Utilization)可定義為:

標簽云可視化技術應用中將進行碰撞檢測,可以通過對空白區域進行填充來充分利用展示空間。

1.4 度量模型指標的權重計算

可以根據定義的指標來建立三級層次度量模型,其中不同層級指標的依賴關系:一級指標包括總評分;二級指標包括數據規模、認知復雜度、視覺效果及表現,其中數據規模包含三級指標彩信詞密度,認知復雜度包含三級指標彩信詞方度、方向認知度,視覺效果及表現包含三級指標色彩比重、空間利用度。

根據度量模型的特點采用模糊層次分析方法確立度量模型各級權值。對二級指標中的元素運用指標比較數量標度進行兩兩對比,構造出3*3模糊互補矩陣 B = ( bij)3×3,同時根據模糊一致判斷矩陣的計算方法,將模糊互補矩陣 B = ( bij)3×3變成模糊一致判斷矩陣(i = 1 ,2,… ,n )。B和R矩陣如下所示:

根據方根法得到“數據規?!?、“用戶認知復雜度”和“視覺表現及效果”對一級指標影響的權重是 w = ( 0.3 1 62,0.4199,0.2639)。利用模糊層次分析法對二級指標對應的三級指標進行層次單排序并計算它們的權重。各自的權重如下表1所示。

根據上述的二級和三級指標的層次單排序,對“采信詞密度”、“采信詞方度”、“方向認知度”、“色彩比重”及“空間利用度”評價指標進行層次總排序,結果如下表2所示。

表2 層次總排序Tab.2 To tal sort weight

2 評價分數計算

本文建立的指標的量綱和數量級不同,需要對各個指標進行無量綱化處理。這里采用最大最小正規化法,計算方法如下:

其中,Xi表示指標 i的原始值,Yi表示Xi的無量綱化值,Ximin與Ximax分別為指標i的最小值與最大值。

2.1 評價分數算法模型

根據評價模型和相應指標的計算公式,設計出文本頻次分析的算法流程并用Java編程語言實現,整體流程分為文本處理、可視化圖片展示以及指標計算三個過程,算法流程如下:

(1)初始化待處理文本的可視化參數,包括需要展示的單詞數量與顏色數量、展示單詞圖片的背景顏色與大小、字體最大最小值及單詞最小長度等。

(2)計算文本總單詞數量。

(3)根據過濾條件,包括單詞長度過濾,停止詞過濾和頻數大小過濾等,從文本單詞集中獲得選定文本需要展示的單詞集合,即采信詞集合。

(4)根據設置參數計算需要返回單詞的詳細信息,包括字體大小、顏色個數等。

(5)初始化圖片畫布的相關信息和單詞的相關信息,將單詞渲染到畫布上進行展示。

(6)統計展示單詞所占畫布總面積的比率,統計各個方向的長寬比例之和。

(7)根據計算公式,獲得彩信詞密度、方向認知度、色彩比重、方度平均值、方度最大值和空間利用度等用于度量分析的指標值。

2.2 實驗樣本數據計算結果

實驗中,從百度學術下載關于 BP與數據可視化等相關英文論文,運用標簽云可視化技術對其可視化,并進行指標計算與度量分析。針對源于某篇論文進行采信詞選取及可視化,共得出300多條數據,其中一個的可視化結果如圖1所示。

圖1 文本的標簽云可視化結果Fig.1 The result of tag cloud visualization

計算出彩信詞密度為 0.1118,方向認知度為0.63,色彩比重為 0.15,彩信詞方度為 2.0929,空間利用度為 1.7112。此處需要對彩信詞方度以及空間利用度進行無量綱化,通過300條數據得到的彩信詞方度以及空間利用度的最大值最小值如下表 3所示。無量綱化處理后,得到最終的彩信詞方度為0.2616,空間利用度為0.1711。

表3 無量綱化最大最小值Tab.3 Nondimensionalization about maximum and minimum

按照度量模型層次關系依次計算各級指標的評分以及總評分。

“數據對象規?!庇伞安尚旁~密度”表示,可按0.1118*100計算,即得11.18分?!坝脩粽J知復雜度”與“采信詞方度”和“方向認知度”正相關,計算表達式為 0.6044*采信詞方度+0.3956*方向認知度,計算結果為0.4073*100,即得40.73分?!耙曈X效果及其表現”與“色彩比重”正相關同時與“空間利用度”負相關,計算公式為 0.5505*色彩比重+0.4495*(1-空間利用度),計算結果為0.4552*100,即得 45.52分。標簽云可視化度量模型與“數據規?!焙汀坝脩粽J知復雜度”負相關,與“視覺效果及其表現”正相關,因此標簽云可視化度量模型總評分的計算公式為 0.3162*(1-數據對象規模)+0.4199*(1-用戶認知復雜度)+0.2639*視覺效果及其表現,計算結果為0.6498*100,即得64.98分。

3 實驗及其結果分析

可以針對單個文本、多個文本,以及特殊文本來調整算法中輸入的彩信詞數量與色彩種類數目等來進行可視化度量指標分析。

運用多維度折線圖進行數據分析,由于數據的范圍變化不同,為使各個數據在同一范圍顯示出趨勢,對數據同樣進行無量綱化處理,進行相應的擴展或縮小,例如:彩信詞密度范圍基本在[0,1],總評分在[1,100],將彩信詞密度擴展 100倍;同樣的,方向認知度、色彩比重擴大100倍;方度平均值、空間利用度擴大10倍;彩信詞數量縮小2倍。實驗中分析的單文本論文是An Interactive System for Set Reconstructi- on from Multiple Input Sources,簡稱AISSRMIS。

(1)單文本彩信詞密度對各個數據結果影響

針對AISSRMIS文本,控制色彩比重不變,控制彩信詞的數量逐步遞增 5個,即彩信詞密度遞增,利用評價分數算法實現的編程獲得100組實驗數據。對所獲得的結果數據根據度量模型及相應的指標進行度量分析,得到圖2的彩信詞指標變化折線圖。

根據折線圖可知,隨著單詞的遞增(即彩信詞密度的增加),因為標簽中的單詞放置的方向是隨機產生的,所以方向認知度基本上保持在50%左右上下波動;方度的最大值呈現梯度上升趨勢且逐漸趨于平穩;空間利用度隨著彩信詞數量的遞增而增加,最終趨于一個穩定值;根據度量模型計算的評價總分數穩步遞減,視覺表現及效果變差。

(2)單文本色彩比重對數據結果及視覺表現的影響

針對 AISSRMIS文本,控制彩信詞數量不變(200個),單詞顏色種類以5開始增加5種顏色,最大顏色種類數是200種,根據評價分數算法程序獲得40組實驗數據,得出圖2中色彩比重指標折線圖。

根據折線圖所示,當彩信詞數量不變時(即彩信詞密度不變),方向認知度是隨機產生,所以變化幅度很??;隨著色彩比重的增加,總評分逐漸提高,相應的視覺表現及效果增加。

(3)單文本方向認知度對數據結果及視覺表現的影響

針對AISSRMIS文本,控制彩信詞數量和顏色種類數量不變(彩信詞數量200,顏色種類20),根據評價分數算法程序隨機產生大量實驗數據,獲得了10000條數據,對方向認知度相同的數據進行去重獲得100組不重復的實驗數據,得出圖3中的方向認知度指標折線圖。根據折線圖所示,可以得出隨著方向認知度數據的增大,最終的總評分越來越小,相應的視覺效果越來越差。

圖2 彩信詞與色彩比重指標折線圖Fig.2 Word and color weight index line charts

圖3 方向認知度指標與多文本數據變化折線圖Fig.3 Direction recognition index and multi - text data change line charts

(4)多文本數據之間的關系

從百度學術上搜索ACM以及SCI的相關英文論文,控制彩信詞數量為200個,色彩種類為50種。利用評價分數算法程序對150篇英文文本進行分析獲得150條實驗數據,得到圖3中的多文本數據變化折線圖。

根據折線圖所示,有個別文本彩信詞數量比設定的彩信詞數量少,空間利用度以及方度平均值無明顯規律變化且相差不大且總評分也無明顯變化,這說明各個文本之間的各個指標數據無明顯關系,現有的度量模型沒有針對多文本之間的關系進行分析。

(5)特殊文本的數據變化

根據上述(4)的多文本情況,找出輸入200彩信詞最終結果顯示小于200彩信詞的一個英文文本Keeping Apace with Progress in Natural Language Processing,同時將彩信詞數量由5逐步遞增至160,根據評價分數算法程序得到實驗數據并對其各個數據變化規律進行分析,得到圖4中的特殊文本數據變化折線圖。

根據折線圖可知,該英文文本最多能夠在展現區顯示出151個彩信詞,之后趨于一致,同時其方度平均值、方度最大值以及空間利用度均趨于一致。

(6)不同類型英文文本數據對比

從 ScienceDirect eBooks-Mathematics-journals中找出三組(Advances in Accounting、biology和physics)類別的英文論文,控制彩信詞的數量為200,顏色種類為50,根據評價分數算法程序得到實驗數據,得到如圖4所示的三種類型文本指標折線圖。由圖所示不同類型總評分相差無幾,也就是說數據的總評分和英文文本類型幾乎無關聯。

4 總結

圖4 特殊文本數據與三種類型文本指標折線圖Fig.4 Special text data and three types of text index line charts

本文給出了一組針對標簽云可視化結果進行度量分析的指標,并運用模糊層次分析方法得出各指標影響標簽云可視化結果的權重。通過使用算法實現,計算出針對文本的標簽云可視化結果的指標值,以此進行有關文本的標簽云可視化效果的分析。所做實驗標明,針對同一篇英文文本,隨著彩信詞密度的增加,方度最大值和空間利用度會相應地增加;總評分減少,視覺表現效果顯示會變差;總評分與色彩比重呈反比關系;對于特殊文本的可視化,當彩信詞數量在一定范圍內時,方度平均值、方度最大值,以及空間利用度均趨于一致。針對多文本的可視化結果分析也可以看出,設計的指標之間是相互獨立。

[1] Jin Xu, Yubo Tao, Hai Lin. Semantic word cloud generation based on word embeddings[J]. IEEE Pacific Visualization Symposium, 2016: 239-243.

[2] 任磊, 杜一, 馬帥, 等. 大數據可視分析綜述[J]. 軟件學報, 2014, 25(9): 1909-1936.

[3] H. Paul Zellweger ArborWay Labs, Rochester MN. Tree Visualizations in Structured Data Recursively Defined by the Aleph Data Relation[J]. IEEE Conference Publications, 2016:21-26.

[4] 曾晶. Radviz可視化技術度量模型的研究[D]. 北京: 北京交通大學圖書館, 2011.

[5] 高芳. 平行坐標可視化的度量模型研究[D]. 北京: 北京交通大學圖書館, 2009.

[6] 岳鋼, 王楠. 網絡學習中知識可視化效率研究[J]. 軟件,2015, 36(2): 92-96.

[7] Jimmy Johansson, Camilla Forsell. Evaluation of Parallel Coordinates: Overview, Categorization and Guidelines for FutureResearch[J]. IEEE Transactions on Visualization and Computer Graphics, 2016, 22(1): 579-588.

[8] 陳海紅. 多核SVM 文本分類研究[J]. 軟件, 2015, 36(5): 7-10.

[9] 謝子超. 非結構化文本的自動分類檢索平臺的研究與實現[J].軟件, 2015, 36(11): 112-114.

[10] Florian Heimerl, Steffen Lohmann, Simon Lange, et al. Word Cloud Explorer: Text Analytics based on Word Clouds[J].IEEE Conference Publications, 2014: 1833-1842.

[11] Rita Oliveira, Telmo Silva, Jorge Ferraz de Abreu. Development and evaluation of Clouds4All interface: A tag clouds reader for visually impaired users[J]. IEEE Conference Publications,2015: 1-6.

[12] 雷瑩. 基于Web的可視化數據挖掘分析平臺及可視化度量模型的研究與實現——樹圖可視化技術的度量模型研究[D]. 北京: 北京交通大學圖書館, 2014.

猜你喜歡
彩信認知度度量
鮑文慧《度量空間之一》
模糊度量空間的強嵌入
迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
彩信的巔峰與隕落
托幼園所教師衛生保健知識認知度的研究分析
PICC置管患者置管認知度及影響因素的研究
地質異常的奇異性度量與隱伏源致礦異常識別
綜合護理干預改善未婚人流術患者避孕知識認知度效果觀察
一種基于IP的彩信收發模塊設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合