?

基于RBFNN-FDA模型對塑料拖鞋鞋底的拉曼光譜研究

2022-08-29 10:59田陸川
上海塑料 2022年4期
關鍵詞:拉曼鞋底拖鞋

田陸川, 楊 俊, 姜 紅

(中國人民公安大學 偵查學院, 北京 100038)

0 前言

塑料拖鞋鞋底是案件現場常見物證之一,通過分析現場殘留的塑料拖鞋鞋底或殘渣,并與已知來源樣品比對,可以推斷拖鞋的產地等信息,為獲取偵查線索、開拓偵查思路提供幫助。目前,法庭科學檢驗塑料的方法有:紅外光譜法[1]、拉曼光譜法[2]、X射線熒光光譜法[3]、掃描電鏡/能譜法[4]、薄層色譜法、熱分析法、裂解氣相色譜法等。其中,拉曼光譜法具有操作簡單、靈敏度高、無需前處理等優點,因此被廣泛應用于司法鑒定中。

塑料拖鞋是最常見的拖鞋種類,一般由樹脂及塑料助劑(增塑劑、阻燃劑等)制成。由于不同拖鞋的用途與使用場景不同,生產廠家所選擇的主要成分和填料也不盡相同,相同成分的配比也可能不同,這種差異導致了不同拖鞋對應拉曼光譜圖的峰數和峰位的不同,為檢驗區分拖鞋鞋底種類和材質提供了依據。筆者創新性地將統計學方法應用到了拉曼數據解析中,利用主成分分析對拉曼數據降維,將提取到的3個主成分代替原有數據進行系統聚類,將收集到的43個樣本分為4類,再利用徑向基函數神經網絡(RBFNN)與Fisher判別分析(FDA)建立基于系統聚類結果的預測模型(簡稱RBFNN-FDA模型),經驗證后FDA的準確率為97.7%,RBFNN的準確率為100%,效果顯著。

1 實驗部分

1.1 實驗儀器及條件

實驗儀器:FinderVista顯微共聚焦激光拉曼光譜儀,北京卓立漢光儀器有限公司。

實驗條件:激光光源為785 nm,激光功率為20 mW,積分時間為50 s,波數為190~2 900 cm-1,掃描次數為5,點掃描方式。

1.2 實驗樣本

不同來源、不同廠家的塑料拖鞋鞋底樣本43個(樣本表略)。

1.3 譜圖采集

將樣本用酒精棉簽擦拭晾干,放在激光頭下待測,反復調節激光頭高度使光點最小;在20 mW下積分50 s,重復掃描5次,將得到的譜圖進行比較,選擇其中雜峰數量較少的拉曼光譜圖進行保存。

1.4 實驗原理

1.4.1 主成分分析

主成分分析是一種因子提取的降維方式[5-6],通過某種正交變換從原始高維數據中提取出一個或多個與原變量線性不相關的重要變量,克服原始數據的線性相關關系。

1.4.2 系統聚類

系統聚類又稱分層聚類或凝聚性層次聚類,其主要思想是將每個研究對象視為獨立的一個簇,根據某種標準不斷合并相似度最高的兩個簇成為新簇,直到所有研究對象都被歸為一個簇[7]。聚類分析要求不同組間的差異較大,個體的差異距離通常用距離來表示。筆者采用平方歐式距離進行聚類分析,其數學定義式為:

(1)

式中:dxy為平方歐式距離;xi、yi為i點的坐標;n為樣點數量。

1.4.3 FDA

FDA是將未知分類的個體并入已有分類進行預測的一種多元統計分析方法[8],其分析過程為:根據已知分類的樣本中的某些指標,按照一定的判別準則建立起一個或多個判別函數,利用樣本的大量數據確定判別函數系數,并計算判別指標。對于一個未知分類的新樣本,只需將其代入到判別函數中即可確定其分類歸屬。

FDA利用了投影的思想,使高維問題在一維空間中處理,通過判別函數得出變量在各個典型變量上的坐標,同時得出樣本與類中心的距離,從而作為分類依據[9]。

1.4.4 RBFNN

徑向基函數(RBF)是以函數逼近為基礎的前反饋神經網絡,相較多層感知器,RBF只有一個隱層。其主要思想是用在RBF的隱藏層內將原本的低維數據轉化到高維空間中,使得原本不可分的變量在高維空間內可分[10-11]。目前最常用的RBF是高斯核函數,其公式為:

(2)

式中:k(·)為高斯核函數;ac為中心點坐標;a為待分類的坐標;σ為可調平滑程度參數。相較于BP神經網絡,RBFNN的結構簡單,訓練簡潔,學習收斂速度快,廣泛應用于分類預測,系統控制等領域[12]。

2 結果與討論

2.1 譜圖解析與區分

將收集到的譜圖與標準拉曼特征峰進行對照,即可得知樣本所含物質。常見塑料及填料的標準拉曼特征峰見表1[13-14]。

表1 常見塑料及填料的標準拉曼特征峰

隨機選取6#與37#樣本進行分析比較,結果見圖1。由圖1可以看出:6#樣本有11個特征峰,37#樣本有13個特征峰,樣本的峰數不同;6#樣本在640 cm-1、1 165 cm-1、1 290 cm-1、1 424 cm-1處有特征峰,說明6#樣本主要成分為聚氯乙烯,可能含有二氧化硅;37#樣本在440 cm-1、637 cm-1、1 185 cm-1、1 600 cm-1處有特征峰,說明樣本主要成分為聚碳酸酯,可能含有二氧化鈦。根據以上不同即可實現對樣本的區分。

(a) 6#樣本

(b) 37#樣本

2.2 主成分分析

拉曼數據是由拉曼位移及拉曼強度構成的高維數據,故需要對數據進行降維提取主成分替換原始數據,以消除原始高維數據間可能存在的線性關系,提高聚類分析準確度。

在提取主成分時,一般要求所提取的主成分累計方差貢獻率大于85%[15]。從43個樣本中提取到了3個主成分,累計方差貢獻率達到了96.283%(見表2),可以充分解釋原始數據。

表2 主成分累計方差貢獻率

2.3 系統聚類

系統聚類是一種無監督式的統計方法,廣泛應用于數據分類與醫學統計上。常用的聚類方法有組間聯接法、組內聯接法、最近鄰元素法、ward法等。筆者采用ward法,以平方歐式距離作為區間進行系統聚類,系統聚類譜系圖見圖2。

由圖2可以看出:當并類距離為1時,樣本被分為6類;當并類距離為3時,樣本被分為4類;當并類距離為5時,樣本被分為3類;當并類距離為25時,凝聚停止,所有樣本被歸為1類。

2.4 FDA

FDA是一種常用的有監督機器學習,可以對樣本的分類進行預測[16],將系統聚類的結果作為判別模型的分組,定義變量范圍1~4,以提取到的主成分作為自變量建立判別函數,其判別函數系數見表3。

圖2 樣本的系統聚類譜系圖

表3 判別函數系數

FDA將高維數據轉化到低維空間中進行區分,根據樣本間在Fisher判別函數分布圖的投影位置來確定分類歸屬,4個分組的組質心位置見表4。

表4 4個類的組質心位置

建立起的判別函數并不都能較好地實現對樣本分類歸屬的預測,故對3個判別函數的特征值進行分析(見表5),方差百分比代表函數對樣本分類解釋能力的強弱。由表5可以看出:第一、第二、第三判別函數的方差百分比分別為88.3%、11.4%和0.2%,第一、第二判別函數顯著優于第三判別函數,且第一、第二判別函數的累計百分比達到了99.8%,可以較好地對樣本分類歸屬進行預測,故考慮舍棄第三判別函數。

表5 判別函數特征值

為進一步驗證上述方法的可行性,引入威爾克Lambda值(見表6)對判別函數進一步討論,威爾克Lambda值越小,函數影響力越大。

表6 威爾克Lambda值摘要

一般認為當概率小于顯著性水平0.05時,認為當前判別函數整體的判別能力較強。由表6可以看出:第三判別函數的顯著性水平為0.124,大于0.05,故可以舍棄[17]。以第一、第二判別函數建立聯合分布圖,見圖3。

圖3 樣本的聯合分布圖

由圖3可以看出:樣本在函數1方向區分明顯,說明第一判別函數的效果更好,故可以使用第一判別函數對塑料拖鞋鞋底進行分類預測。經交叉驗證后,模型的準確率為97.7%,效果較好。

2.5 RBFNN

為消除樣本間的量綱關系,首先對已經降維的3個主成分進行標準化,將分組作為因變量,將43個樣品以80%和20%的比例隨機分配分成訓練集和測試集以避免人工分類的誤差。輸入層神經元為3,輸出層神經元為3,隱含層設置為10,激活函數為Softmax,訓練次數為3 000。各節點間線段的粗細表示神經元之間相互連接的權重的大小,權重由輸入層的3個主成分訓練得出。RBFNN結構圖見圖4,繪制的操作特性曲線見圖5。

圖4 RBFNN結構示意圖

圖5 模型操作特性曲線曲線

操作特性曲線又稱受試工作特征曲線[18],用以驗證某分類器模型性能。對于給出的模型,輸入正負類的一組數據,與待測模型對數據的預測進行比對,從而對模型性能進行評估。操作特性曲線的線下面積(AUC)是操作特性曲線的量化指標,AUC越大,分類效果越好。由圖5可以得出,4組樣品的AUC均為1,診斷準確率高,誤判率低。測試集和訓練集的準確率為100%,證明可以在已知分類的樣品上建立RBFNN模型,對位置樣品的歸屬進行預測。

3 結語

利用顯微共聚焦激光拉曼光譜儀對塑料拖鞋鞋底樣本進行了區分檢驗,根據樣本間的特征峰不同,可以實現對樣本的區分。建立了基于系統聚類的RBFNN-FDA模型,最終樣本被分為4組,且達到了對樣本100%和97.7%的分類準確率。對于未知歸屬的樣本,只需將其代入判別函數及神經網絡中即可得知其分類。

未來可以通過搜集足夠多樣本建立起塑料拖鞋鞋底數據庫,通過大量反復訓練使模型更加準確可靠,從而實現更好的區分效果。所建立的模型可以可以為縮小偵查范圍、獲取偵查線索、打擊犯罪等提供一定幫助。

猜你喜歡
拉曼鞋底拖鞋
拖鞋
拖鞋
館藏高句麗鐵器的顯微共聚焦激光拉曼光譜分析
黑磷的多聲子共振拉曼散射*
畫與理
一種全自動鞋底清潔機的設計
“鞋底墊厚點,也能走得快”——貧困戶崔普選和他的“夢中夢”
一只棉拖鞋
拖鞋
吹奏千年的巴拉曼
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合