?

融合多維情境信息的移動讀者畫像研究

2024-01-09 16:54習海旭
江蘇理工學院學報 2023年6期
關鍵詞:畫像圖書館融合

習海旭

(1.江蘇理工學院計算機工程學院,江蘇常州 213001;2.南京理工大學經濟管理學院,江蘇南京 210094)

隨著移動互聯網的深入發展,讀者借助于手機和平板為代表的移動智能終端可隨時隨地、高效便捷地獲取豐富多樣的圖書資源,享受更適應信息和互動需求與偏好的圖書館移動服務。為了提升圖書館移動服務的個性化和人性化水平,對移動讀者信息需求與偏好進行建模的移動讀者畫像技術值得深入研究。移動圖書館用戶畫像簡稱移動讀者畫像,目的是抽取移動圖書館用戶的各種數據,生成描述用戶的標簽集合[1]。通過移動讀者畫像,能夠準確地掌握移動讀者的信息需求和行為偏好,為其提供易用、滿意的圖書館移動服務以及個性化的推薦服務。

大多數的移動讀者畫像研究主要通過用戶自然屬性、歷史訪問、交互行為和社會交往等信息來定義和表示需求與偏好模型[2-3]。隨著研究的深入,研究者發現在移動環境下,讀者的需求偏好會隨著情境因素而動態變化[4],借助移動智能終端豐富的硬件資源和強大的計算資源,實時捕獲讀者在使用圖書館服務時的狀態信息,進行特定情形下的情境信息建模,從而引起學術界廣泛的研究興趣。例如,習海旭等[5]使用本體表示方法構建包含位置、環境光線等信息的情境模型,實現借閱、閱讀、發現和監控等移動圖書館的情境感知服務;程秀峰等[6]設計包含自然、偏好、情境和社交4 個維度的標簽體系,構建基于用戶畫像的智慧參考咨詢服務;李亞梅[7]分析了科學研究過程中的情境要素,構建了一個通用的科研情境模型,生成帶行為權值的情境化主題偏好,并推薦了科技文獻。

面對復雜、多維、動態和易變的讀者個性化信息需求[8],基于情境信息的移動讀者畫像存在兩大問題:一是針對不同的應用如何選擇畫像時所需考慮的情境信息;二是如何對所獲取的不同情境信息進行權重融合,以構建精確的用戶模型。已有研究基于各類圖書館移動服務的不同特點,構建了相應的融入情境信息的用戶畫像模型。但大多數研究只對不同的感知數據賦予主觀權重以確定情境狀態,而對不同類別情境信息之間的融合權重考慮不多,未形成一種成熟和完善的、基于多維情境信息融合的移動讀者畫像方法,無法充分體現圖書館的個性化移動服務。本研究在全面考慮不同應用服務中移動智能設備感知信息的基礎上,深入探討移動讀者畫像方法,嘗試構建一種多維度情境信息融合的移動讀者畫像模型。

1 基于情境的移動讀者畫像屬性

移動圖書館要提供多樣化的移動服務和內容推薦,以滿足不同用戶的圖書館服務需求;需要描述具備哪些基本屬性的用戶傾向于使用什么樣的方式獲取哪些圖書館服務,且在信息閱讀時有哪些閱讀行為習慣。在此基礎上,刻畫不同情境信息對服務偏好和資源偏好的影響,形成融入多樣化情境的移動圖書館用戶動態畫像。

1.1 移動讀者畫像屬性的分類

如圖1 所示,移動讀者畫像屬性主要分為3類:第1 類是讀者基本屬性,包括年齡、性別、地域、職業和教育程度等,反映了讀者的基本需求。第2 類是讀者偏好屬性,包括讀者在圖書館服務類型、圖書館資源內容上的不同喜好。移動讀者一般通過主動和被動2 種方式獲得數字資源、在線參考咨詢、空間預定、學術、活動、小組支持以及信息素養提升等圖書館服務;以不同的閱讀習慣,使用不同學科、主題或關鍵詞分類下的數字資源內容。第3 類是讀者情境信息。廣義上,與移動讀者相關的情境信息包括讀者基本屬性、身心狀態、歷史行為,圖書館資源與服務,物理環境與社會文化環境相關的多維度信息;狹義上,情境信息是用戶狀態以及周圍環境對用戶需求與偏好產生影響的補充信息,主要包括物理情境和虛擬情境兩類[9]。用戶狀態包括用戶姿態運動等身體狀態和人格特質等心理狀態;周圍環境包括物理條件、服務條件和活動、事件以及社交與文化環境等。

圖1 融入情境的移動讀者畫像屬性

這3類讀者畫像屬性之間相互關聯,影響著移動讀者的圖書資源與服務需求。一方面,不同基本屬性的讀者存在不同的資源和服務需求。例如,不同研究方向的學者關注的是相應主題的學術文獻;年輕人傾向看書,而老年人傾向于聽書。另一方面,不同的情境信息會對移動讀者的資源與服務偏好產生不同程度的影響。例如,因喜歡某個圖書館App 的閱讀休息提示功能,而選擇使用該App;在新冠疫情期間,有關個人衛生保健的書籍被大量閱讀等。再一方面,移動讀者在若干典型的服務或閱讀場景下,會有不同的信息和服務偏好,而這些應用場景往往又是情境信息的不同組合。例如,在研究工作場景下,人們傾向于主動獲取學術領域的圖書資源和學術支持服務,且閱讀的專注時間較長;旅途閑暇場景下,人們傾向于碎片化閱讀小說和被動地獲取相關推薦資訊。

1.2 多源畫像屬性集成的技術架構

移動讀者畫像屬性的類別多樣,數據來源及其獲取與處理方法存在一定差異。首先,不同類型屬性數據的主要提取方法存在一定差異;其次,不同類型屬性數據分布在各類圖書館服務應用系統中,需選擇合適的多源異構數據集成方法進行融合處理;最后,不同圖書館服務應用采用在線或離線的方式提取和處理畫像屬性,以滿足不同響應速度的需要。

如圖2 所示,多源畫像屬性融合技術架構包括數據提取方法、集成方法和統一分析平臺3 個部分。

圖2 多源畫像屬性集成的技術架構

1.2.1 數據提取方法

移動讀者基本屬性的提取一般在正則表達式匹配定位信息標簽后,解析其屬性值,并使用數據接口工具,對不同業務管理系統中的服務和資源信息進行抽取、清洗和同步;移動讀者偏好屬性來源于用戶使用圖書館服務的顯性歷史記錄和隱性操作交互,主要采用自定義數據采集應用程序或使用第三方SDK,對讀者的行為操作和記錄進行數據采點;采集移動讀者情境信息時,采用基于ACQUA和Jigsaw框架的數據采集程序在低能耗和低資源的情況下持續采集傳感器數據。

1.2.2 數據集成方法

針對不同結構的數據,采用不同的數據集成方法。在結構化數據集成中,周期性地將關系型數據批量進行分析、轉換和裝載,形成統一完備的Hadoop數據;在非結構數據的集成中,實時收集日志數據,緩沖寫入Hadoop數據中。

1.2.3 數據統一分析平臺

使用HDFS儲存方案,將轉換后的各類數據存儲在大數據系統Hadoop中,分別使用Hive分布式數據庫進行離線數據處理和Hbase 分布式數據庫進行在線數據處理,即時數據也可以使用消息隊列(Kafka)進行實時流處理和分析。其中,離線數據處理使用MapReduce 任務完成,在線數據使用Spark/Flink框架實時處理。

2 移動讀者多維度情境信息融合

2.1 情境信息的融合類型

按照不同的層次,移動讀者多維度情境信息融合包括3種類型:數據層次的傳感器數據融合,用于確定讀者與環境狀態;信息層次的情境信息推理融合,用于確定讀者高級情境與圖書館服務場景;應用層次的情境信息權重融合,用于確定情境信息影響移動讀者偏好的重要程度。

2.1.1 確定讀者與環境狀態的數據融合

分別融合移動智能終端的傳感器數據以及服務應用系統中的相關數據,消除基于單個傳感器數據進行決策的不確定性,獲得感知對象和環境當前狀態的全面且連貫的統一描述[10],如表1所示。

表1 通過情境數據融合獲得讀者與環境的狀態

由表1 可知:通過融合GPS、加速度計、藍牙、NFC、接近傳感器等傳感器數據,獲得移動讀者室內外、短距離和接近位置等的地點信息;通過陀螺儀、磁力計等傳感器數據獲得讀者身體姿態信息;通過融合光傳感器、麥克風和攝像頭等傳感器數據,獲得讀者環境條件信息等。與讀者相關的虛擬環境情境信息大多直接集成相關數據,而不需要融合。

2.1.2 確定讀者服務場景的推理融合

通過對一定持續時間范圍內讀者與環境狀態的情境信息分析,能夠推理出讀者或環境狀態的高級情境信息[11],即讀者使用圖書館服務時所處的當前應用場景。例如,讀者以恒定速度持續發生位置變化,可推理出讀者正在行走等。如表2所示,通過不同類型的情境信息的融合推理,可以刻畫出讀者使用圖書館移動服務時,讀者身心狀態、所處物理環境和虛擬環境狀態3個方面的應用場景。

表2 通過情境信息融合獲得讀者當前應用場景

2.1.3 高級情境信息的權重融合

讀者在使用圖書館移動服務時,需求與偏好受到多維度的情境信息或應用場景的影響,但不同情境信息對其產生的影響程度存在一定的差異。例如,相對于研究者,大學生讀者對學術論文的偏好程度與時間階段情境信息關系較大,而受其他情境信息的影響不大,如大學生在畢業設計期間對學術論文的需求激增。因此,圍繞不同讀者的特定需求與偏好,定義相關情境信息對不同讀者特定需求與偏好的影響,按照不同權重融合情境信息,刻畫讀者對不同情境信息的感知度,從而為讀者提供精準的信息與服務推薦。

2.2 情境信息的融合方法

不同類型的情境信息融合,使用不同抽象層次的情境信息,采用不同的融合方法分別實現數據融合、融合分類和融合決策等功能[12]。

2.2.1 傳感器數據的融合方法

多傳感器數據融合直接對同質的傳感器原始數據進行了融合。首先,對數據進行清洗、時間對齊和空間對齊。其中,數據清洗主要使用中位值平均濾波法如公式(1)和(2)所示,消除異常與噪聲數據;時間對齊是同步具有不同采樣率和時間延遲的各類傳感器數據;空間對齊是對齊具有不同空間位置或方向的各類傳感器數據。接著,使用卡爾曼濾波算法,將不同傳感器測量的同一參數的不同值進行融合。

其中:yi是某時刻的傳感器測量值,i=0,1,…,N; max( )yi?yi;min(yi)?yi。

2.2.2 高級情境信息推理的融合方法

多傳感器的融合分類是對多源異質傳感器數據進行特征提取,通過模式識別、推理,獲得讀者或環境相關的高級情境信息。包括:傳統的模板方法、聚類算法、分類模型以及神經網絡方法和深度學習方法,其中決策樹、SVM以及LSTM、CNN是深度學習方法的典型代表。傳統機器學習方法中特征提取方法和分類模型是影響高級情境信息推理有效性和精確度的兩個關鍵因素。深度學習方法主要由模型自動提取特征并進行融合推理分類,是目前的主流方法,例如多層LSTM模型[13]、基于多頭注意力機制的卷積神經網絡模型[14]和基于GCN的神經網絡模型[15]。

2.2.3 情境感知服務的融合方法

面向圖書館移動情境感知服務的融合決策是對多種明確的讀者及其環境狀態進行信息融合,以合適的方式提供符合當前情境下的資源和功能服務;包括加權決策法、貝葉斯推理法和信任函數理論等。其中,加權決策是對不同情境信息的影響力賦予權重系數后,進行算數平均;貝葉斯推理首先賦予不同的先驗信念,通過訓練集得到各自的條件概率,然后融合得到總體的后念概率分布,最后得到觀測數據的融合結果;信任函數理論通過信度函數描述情境信息與決策之間的關系,通過似然度函數描述情境信息的可靠性和權重,通過似然度函數和信任函數的乘積,得到證據的證據權重,合成多個證據的證據權重可得到決策的證據權重。證據合成如公式2所示:

3 融合情境信息的移動讀者畫像

融合情境信息的移動讀者畫像可全面刻畫移動讀者的特征、需求與偏好及其當前狀態和環境,以更好地理解讀者并提供滿足其個性化需求的圖書館移動情境感知服務。畫像過程是在對不同類型的屬性數據進行采集、處理、集成和分析融合的基礎上,構建細粒度的讀者、資源和服務標簽,并通過可視化工具展示出移動讀者的畫像模型。

3.1 移動讀者屬性標簽化

采用不同的方式對讀者、服務與資源的屬性進行標簽化處理,主要包括屬性值直接轉換、統計分段標簽和數據挖掘分類3種方法。如圖3所示,讀者年齡分段標簽為兒童、少年、中青年和老年;讀者性別、職業、功能服務和閱讀平臺等屬性值直接作為標簽;資源內容分類可分別使用主題分析方法和實體抽取方法抽取關鍵詞后,作為標簽或直接使用中圖分類進行標識;服務方式偏好按照用戶是否檢索轉化為主動、被動兩類;按照樣本統計結果,根據閱讀頻率、時間和時長劃分成涉獵型讀者、專業型讀者,根據閱讀方式劃分為泛讀讀者、精讀讀者,根據交互閱讀劃分為活躍用戶、沉默用戶等;前述方法融合而得的各層級情境信息按讀者狀態、物理環境和虛擬環境3類,標注其取值對服務內容和使用習慣等偏好的影響程度,表示為<情境屬性、情境信息值、功能內容/方式習慣、偏好概率>。

圖3 融合情境信息的移動讀者畫像標簽體系

3.2 畫像模型表示與可視化

使用向量的形式表示移動讀者畫像模型,以方便基于畫像的情境感知服務應用中移動讀者相似度的計算,向量表示為<基礎信息,功能偏好,方式偏好,內容偏好,習慣偏好,情境信息對偏好的影響向量>。為了可視化畫像模型,可使用Tag-Cloud等開源標簽可視化工具,以不同權重大小的方式呈現讀者標簽;為了詳細展示閱讀時長,可采用柱狀圖;展示內容偏好,可采用雷達圖;展示情境信息對偏好的影響,可使用echarts插件,以堆積圖的形式表示等。

4 移動讀者的情境信息融合畫像實證研究

本文選擇高校讀者對象進行融合情境信息的移動閱讀行為畫像實證研究,詳細展現了讀者畫像結果的表現形式,并對畫像質量進行問卷調查評價。

4.1 移動讀者情境信息的數據來源

由于讀者畫像涉及用戶隱私數據采集,開展面向大規模移動讀者,尤其是公眾讀者的實證研究會遇到各種現實條件限制,操作難度較大。因此,本研究以小范圍內的高校讀者為對象,驗證本文提出的基于情境信息融合的移動讀者畫像研究方法。征得36位讀者(20位數字媒體技術專業本科生,10 位機電產品檢測與智能控制專業碩士,6位計算機專業大學教師)的授權,在他們手機和電腦上安裝了系統數據采集工具和傳感器數據采集工具,實時采集他們在2022年1月15日至2023年2月1日期間,使用微信讀書應用時的行為數據以及活動和環境狀態數據,這些數據通過因特網實時傳輸并保存到Hadoop大數據系統中。

4.2 移動讀者情境信息統計示例

選擇某個高校教師讀者的基本信息、移動閱讀內容偏好、習慣偏好數據以及對偏好有影響的高級情境信息進行數據統計,展現了移動讀者畫像中多維情境信息的詳細內容。

4.2.1 讀者基本信息

該移動讀者性別男,地址江蘇常州,會員注冊時間為2019年3月12日,職業是高校教師,教育程度為博士研究生。

4.2.2 讀者閱讀內容偏好

在近一年內,該讀者閱讀過36本書籍,書籍題材從中圖法分類來看,涉及歷史小說、經濟理財和電子技術;從主題分類來看,涉及明清歷史、人物傳記、股票基金、Web技術、深度學習;從內容實體分類來看,涉及“當年明月”等作者實體、“鄧小平”等主人公實體、“三體”等科技實體、“SpringCloud”和“圖神經網絡”等方法實體。

4.2.3 讀者閱讀習慣偏好

近一年內,該讀者大部分是使用APP 閱讀軟件,有時使用平板和電腦,總共閱讀時長4 031 h 31 min,閱讀天數168 d,按照最新國民閱讀統計報告,該讀者屬于閱讀愛好者。該讀者閱讀筆記共有423 條,分布在大多數書籍中,屬于精讀讀者。讀者讀完29本書,完成率較高,且專業書籍閱讀時長最長,屬于專業型讀者;訂閱數只有2本,大部分是查詢和檢索獲得圖書,屬于主動閱讀者;關注讀者數3人,贊過的書籍和內容數量都小于平均數,屬于沉默用戶。

4.2.4 高級情境信息的影響

近一年內,該讀者看書時間一般集中在非工作日,一天內看書的時間主要集中在午間和睡前時間,工作時間看書較少且主要看電子技術類書籍;躺著和通勤狀態下看的書大多是歷史、小說類,工作狀態下看經濟、電子技術類書籍的概率較大,在行走時幾乎不看書;在2022 年7 月~12月,看過新冠病毒預防與保健相關書籍。由此,分別計算出躺著、通勤狀態下對歷史小說主題的偏好影響概率分別為0.83 和0.81,工作狀態下對電子技術類書籍的偏好影響概率為0.78,經濟類書籍的為0.12,特定事件情境對內容偏好的影響概率為0.89。此外,用戶活動狀態對閱讀時長的影響概率為0.81,對交互閱讀方式的影響概率為0.73。讀者所處時間階段(開學、課題申報等時段)對閱讀頻率影響概率為0.87。文字大小、屏幕尺寸、網絡環境、環境光線等情境信息對自動橫屏、自動亮度等閱讀輔助功能的偏好影響概率為0.79,而位置和社交對閱讀內容和方式的影響不大。

4.3 移動讀者情境信息融合畫像示例

綜合上述畫像數據,繪制了該高校教師可視化畫像。如圖4所示,圖4(b)、4(c)的取值都按照統計值進行了歸一化處理。由圖4(d)可知,假定在Covid-19 公共衛生事件發生期間,為該讀者推薦Covid-19 相關圖書和其它(Others)相關圖書的概率計算過程,見公式(4)和(5)所示:

4.4 移動讀者調查問卷的數據分析

本文采用調查問卷的形式對36位高校讀者畫像質量進行人工評價。

4.4.1 問卷設計

在繪制了所有移動讀者的畫像之后,要求讀者對各自畫像中閱讀內容、習慣偏好和高級情境對偏好影響等信息進行評分。問卷共有12 道題,每題采用Likert五分量表法計分。每類信息包含4道題,分別衡量該類信息的易理解與一致性兩個方面,每個方面含一組正向題目和反向題目。所有正反向題目都將順序打亂,避免同類正反向題目之間相互影響。

4.4.2 畫像質量的調查結果

對不同題項的主觀評分進行統計計算,得出如圖5 所示的箱形圖,轉換后得到百分制,平均分為80.96分,且95%的置信區的評分誤差為3.43,即在95%的置信度下,畫像結果得分在79.246 和82.676之間。

圖5 高校讀者畫像質量問卷得分

進一步分析發現,讀者對閱讀內容畫像評分普遍高于其他兩類信息;碩士生和高校教師讀者對畫像的自我認識一致性較高,而本科生則普遍認為閱讀習慣方面的標簽吻合度有一定的差異,情境信息對偏好的影響與畫像吻合度較高。

5 結語

本文劃分了不同類別情境信息之間的融合類型,提出了一種結合信任函數理論和情境感知影響力的多維情境信息融合方法。在此基礎上,對移動讀者畫像的屬性構成、屬性數據的采集和集成技術框架進行了探討,最終系統地構建了一種基于多維情境信息融合的移動讀者畫像方法,為移動圖書館的個性化服務奠定了技術基礎。由于數據隱私的限制,本研究沒有采集大量讀者的閱讀行為數據,只以幾個用戶為例進行了畫像實證,但也能夠在一定程度上體現本方法的有效性,后續在條件允許的情況下可以進一步增加數據量,進行方法有效性的可靠性研究。本研究實證只涉及使用頻率教高的移動閱讀服務,沒有對其他圖書館移動服務的畫像服務研究,雖然不同服務類型受不同的情境感知信息影響,但畫像方法和服務類型的變化關系很小。此外,基于情境信息融合的用戶畫像的圖書館移動服務個性化推薦值得進一步研究。

猜你喜歡
畫像圖書館融合
威猛的畫像
村企黨建聯建融合共贏
融合菜
從創新出發,與高考數列相遇、融合
“00后”畫像
畫像
《融合》
圖書館
去圖書館
潛行與畫像
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合