?

基于人工智能嗅覺技術和化學計量學的白及飲片真偽鑒別*

2024-03-04 13:04桂新景李涵王艷麗范雪花李海洋侯富國姚靜張璐施鈞瀚劉瑞新李學林
醫藥導報 2024年3期
關鍵詞:白及電子鼻黃花

桂新景,李涵,王艷麗,范雪花,李海洋,侯富國,姚靜,張璐,施鈞瀚,劉瑞新,3,4,5,李學林,3,4,5

(1.河南中醫藥大學第一附屬醫院藥學部,鄭州 450000;2.河南中醫藥大學藥學院,鄭州 450046;3.河南省中藥臨床應用、評價與轉化工程研究中心,鄭州 450000;4.河南中醫藥大學呼吸疾病中醫藥防治省部共建協同創新中心,鄭州 450046;5.河南省中藥臨床藥學中醫藥重點實驗室,鄭州 450000)

白及為蘭科植物白及Bletillastriata(Thunb.)Reichb.f.的干燥塊莖,始載于《神農本草經》[1]。該藥性微寒,味苦、甘、澀,具有收斂止血、消腫生肌功效,主要用于咯血、吐血、外傷出血、瘡瘍腫毒、皮膚皸裂等[2],是中醫藥治療胃肺出血的經典藥物。白及主產于四川、貴州、湖南等地[3],除具有較高的藥用價值外,還可用于化妝品[4-5]、工業制膠[6-7]及食品行業[8]。因過度采挖和繁育困難,近年來白及野生資源急劇減少[9],產量難以滿足市場需求,導致市場上白及飲片品質良莠不齊、摻偽摻假現象時有發生[10]。白及常見的摻偽品是外觀較類似的黃花白及、天麻、玉竹等[11-12]。偽品的流通嚴重影響白及飲片質量、療效和用藥安全。為保證白及飲片質量,建立快速高效的白及真偽鑒別方法迫在眉睫。

白及的鑒別方法主要分為傳統鑒別法和現代儀器分析法兩類。傳統鑒別法即通過眼觀、手摸、鼻聞、口嘗、耳聽等方式結合經驗進行鑒別[13],其優點是快速、簡便,但該法主觀性強,依賴經驗;現代儀器分析法即性狀、顯微、薄層、含量測定[14-19]、分子鑒別[20]等,這類方法能夠通過定性或定量鑒別白及飲片,存在較好的重復性,但存在操作繁瑣、耗時較長等問題。因此,探索建立一種快速準確的白及飲片鑒別新方法是目前亟需解決的問題。人工智能嗅覺技術是模擬人體嗅覺的一類仿生學技術[21],又稱電子鼻技術,該技術起源于20世紀80年代[22]。其原理與人的嗅覺感知模式類似,即通過氣敏傳感器將待測樣品氣味物質的物理信號轉化為電信號,通過對信號進行處理和模式識別,從而獲取待測樣品的完整氣味信息。目前該技術在中藥材產地區分[23-24]、中藥鑒定[25-28]、中藥炮制[29-30]等方面已得到廣泛應用,有望為白及飲片的質量評價開拓新的思路和方法。

筆者在本實驗選取白及飲片及其3種常見摻偽品為研究載體,基于電子鼻獲得4類樣本嗅覺感官數據,使用化學計量學方法分別建立二分類和四分類辨識模型,以模型交互驗證正判率為指標,探討基于人工智能嗅覺技術建立白及飲片真偽快速鑒別方法的可行性,同時為其他飲片的快速鑒別提供參考。

1 儀器與試藥

1.1儀器 α-FOX4000電子鼻(法國Alpha MOS公司18根傳感器電子鼻-氣味分析系統),傳感器及其敏感物質見表1;FW-100型高速萬能粉碎機(北京科偉永興儀器有限公司,規格:60~180目);四號藥典篩(浙江上虞市道墟五四儀器廠,篩孔內徑0.25 μm);BSA2245-CW型電子天平(德國Sartorius公司,感量:0.1 mg);XS105型電子分析天平(瑞士METTLER TOLEDO公司,感量:0.01 mg);HK250型超聲波清洗器(上??茖С晝x器有限公司);LEICA DM1000型電子顯微鏡(上海LAS V4.0系統);TLC ViSuALi ZER2型薄層成像儀(瑞士卡瑪公司);GZX-9146MBE型電熱鼓風干燥箱(上海博迅實業有限公司醫療設備廠);HHS電熱恒溫水浴鍋(北京科偉永興儀器有限公司);4-13型高溫箱型電阻爐(沈陽市節能電爐廠)。

表1 α-FOX4000電子鼻18根傳感器敏感物質

1.2材料 Militarine(1,4-二[4-(葡萄糖氧)芐基]-2-異丁基蘋果酸酯)(上海源葉生物科技有限公司,批號:K18O9B72711,含量≥98%);天麻素(中國食品藥品檢定研究院,批號:110807-201809,含量:96.7%);白及對照藥材(中國食品藥品檢定研究院,批號:121261-201706);稀甘油(南昌白云藥業有限公司,批號:20180708);水為超純水;甲醇、乙腈、磷酸均為色譜純,其他試劑為分析純。實驗用白及45批、天麻30批、玉竹30批和黃花白及29批,分別購自河南中醫藥大學第一附屬醫院、河南中醫藥大學第三附屬醫院等單位,樣品具體信息見表2。

表2 白及、天麻、玉竹、黃花白及樣品信息

2 方法

2.1樣本的辨識

2.1.1藥典辨識 參照2020年版《中華人民共和國藥典》(一部)白及項下性狀、顯微、薄層鑒別、水分、灰分檢查方法,對134個樣本進行鑒別和測定;并結合2015年版《四川省中藥飲片炮制規范》[31]所載黃花白及項下的性狀鑒定方法,對4種飲片進行鑒別。

2.1.2電子鼻信號采集 取1-134號樣本粉碎后過6號篩[篩孔內徑(150±6.6) μm],精密稱取樣本粉末1 g于樣品瓶中,程序參數設定為進樣量500 μL,進樣量速率500 μL·s-1,進樣溫度35 ℃,獲取時間120 s,進樣周期1 s,進樣時間720 s,沖洗時間120 s,以空氣為載氣,氣體流速500 μL·s-1,進樣針溫度45 ℃,每個樣品采集3次,取平均值,得到18根傳感器嗅覺信息矩陣X(18×134)。

2.4模型(潛變量)與嗅覺傳感器對分類貢獻度的追蹤

2.4.1基于Wilk's Lambda值變異度的分析與排序 以電子鼻的18根傳感器為原始變量,通過構建Wilk's Lambda柱狀圖可以深入分析各傳感器攜帶的變異信息,從而追蹤各傳感器對模型分類的貢獻度大小。

2.4.2最優模型潛變量載荷圖追蹤 根據“2.2節”和“2.3節”下二分類及四分類的最優模型,分別建立其模型潛變量載荷圖,同時結合各傳感器Wilk's Lambda值,找到對模型分類結果貢獻度較大的傳感器。

3 結果

3.1基于藥典的鑒別結果 根據性狀、顯微、薄層鑒別以及水分、灰分檢查的綜合結果,45批白及飲片符合2020年版《中華人民共和國藥典》(一部)白及項下標準,同時不符合2015年版《四川省中藥飲片炮制規范》、2009年版《甘肅省中藥炮制規范》[32]和2009年版《甘肅省中藥材標準》[33]黃花白及項下標準。30批天麻飲片和30批玉竹飲片經河南中醫藥大學第一附屬醫院陳天朝主任藥師鑒定為正品天麻和玉竹飲片。29批黃花白及飲片與白及對照藥材薄層色譜極為相似,難以區別;性狀特征和顯微特征方面,106-120號黃花白及樣本均和白及較為相似,但其顯微背景較白及渾濁,不易區分,121-134號黃花白及樣本與白及相比,木化嚴重,質感有明顯差異,性狀特征與白及不同,符合地方標準中規定的黃花白及項下標準。由此可見,僅靠《中華人民共和國藥典》(2020年版)及地方標準,部分黃花白及飲片不易鑒別。

3.2二分類模型辨識結果

3.2.1PCA-DA二分類辨識模型及交互驗證正判率 PCA-DA最優辨識模型參數為主成分選擇17個,此時這些主成分能夠解釋樣本>99%的信息。樣品判別結果見表3,45個白及樣本中有5個被誤分類,非白及樣本中有1個被誤分類,模型交互驗證正判率為95.52%。模型主成分得分圖見圖1(A),兩類樣本在二維空間有重疊,但該模型區分度高,辨識結果中沒有未分類樣本,因此基本可將白及與非白及飲片區分開來。

A.PCA-DA二分類辨識模型主成分得分圖;B.PLS-DA二分類辨識模型潛變量得分圖。

表3 PCA-DA留一法交互驗證模型判別結果

3.2.2PLS-DA二分類辨識模型及交互驗證正判率 當潛變量個數優選為15時模型性能最優,所選15個潛變量能夠解釋>99%的自變量變異信息。樣品判別結果見表4:45個白及飲片中1個被誤分類,89個非白及飲片中3個被誤分類,模型交互驗證正判率為97.01%。模型潛變量得分圖見圖1B,兩類樣本在二維空間有部分重疊,表明白及飲片與非白及飲片在前兩個潛變量上有相似之處。該模型區分度好,辨識結果中沒有未分類樣本,因此該模型可用作白及飲片與非白及飲片的辨識。

表4 PLS-DA留一法交互驗證模型判別結果

3.2.3SVM判別模型及交互驗證結果 由于樣本的原始響應數值較小,因此在建模之前對數據進行“標準正態變換(standard normal variation,SNV)”的行預處理,列預處理方法選擇“autoscaling”,核函數選擇徑向基核函數(radial basis function,RBF),經預試后,核參數初始值設為9,cost values初始值設為1 000,主成分個數應用選擇“自動(automatic)”,然后按照此參數設置優選核參數及cost values值,優選結果見圖2。

圖2 白及SVM二分類辨識模型參數優選

由參數優選的等高線圖可知,當cost values值為1 000、核參數為0.8時,模型錯誤率最小,為0.1。此時模型判別結果混淆矩陣如表5,正判率為91.79%,7、26、33、35、39、43、44號白及被誤判為非白及,46、65、69和73號天麻被誤判為白及,圖3顯示了支持向量的個數,為88,紅色虛線是SVM模型構造的分類“超平面”,“1”和“-1”線上的樣本稱為“支持向量”,由圖可知,該SVM模型構建的分類超平面能夠將兩類樣本分開。

圖3 白及SVM二分類辨識模型分類超平面及支持向量

表5 SVM二分類辨識模型留一法交互驗證判別結果混淆矩陣

3.2.4BP-NN判別模型及交互驗證結果 反向傳播神經網絡模型無法優選參數,因此需逐個嘗試參數,最終優化結果如下:隱藏層個數(hidden layers):4, 每層的神經元個數(neurons per layer):10,學習率(learning rate):0.01, 動量項(alpha):0.9,迭代次數(iterations):500。由圖4可知,當訓練的迭代次數為500時,模型錯誤率達到0。此時模型留一法交互驗證判別結果及混淆矩陣如表6,白及中36、37、40、44號樣本被誤分類,46、52、53、56、57、59、61、66、72、74號天麻被誤分為白及,67、69號天麻,76、77、78、86號玉竹,127號天麻未分類。模型正判率為84.33%。

圖4 白及BP-NN二分類辨識模型迭代次數及錯誤率

表6 BP-NN二分類辨識模型留一法交互驗證判別結果混淆矩陣

3.3四分類模型辨識結果

3.3.1PCA-DA四分類辨識模型及交互驗證正判率 模型性能最優時主成分個數為17,這些主成分能夠解釋樣本>99%的變異信息。樣品判別結果見表7,經留一法交互驗證后,45個白及飲片、30個天麻飲片、30個玉竹飲片中分別有5、1、6個被誤分類,正判率為91.04%。誤分類情況具體如下:白及樣品38、40、42、43、45號被誤分為天麻;天麻樣品50號被誤判為玉竹;玉竹樣品77、78、85、97、99號被誤判為天麻,84號被誤判為黃花白及;黃花白及無誤分類。模型主成分得分圖見圖5(A),4類樣本在二維空間中有相互重疊現象,說明在前2個主成分所表征的氣味信息上,4類樣本有一定的相似性。該PCA-DA模型辨識結果中無未分類樣本,因此,該數學建模方法基本可用于4類飲片的分類辨識。

A.PCA-DA四分類辨識模型主成分得分圖;B.PLS-DA四分類辨識模型潛變量得分圖。

表7 PCA-DA留一法交互驗證模型判別結果

3.3.2PLS-DA四分類辨識模型及交互驗證正判率模型性能最優時潛變量15個,所選15個潛變量可解釋>99%自變量差異信息和約50%因變量差異信息。樣品判別結果見表8,經留一法交互驗證后,45個白及飲片中有1個被誤分類為天麻飲片,5個未分類;30個天麻飲片中有1個被誤分類,4個未分類;30個玉竹飲片中有2個被誤分類,2個未分類;29個黃花白及飲片中有1個未分類,將未分類樣本看作模型判錯樣本,PLS-DA模型正判率為88.06%。誤分類情況具體如下:白及樣品26、38、42、43、44號未分類,45號誤判為天麻;天麻樣品46、48、50、72號未分類,53號被誤判為白及;玉竹樣品78、84號未分類,77、85號被誤判為天麻;黃花白及124號未分類。模型潛變量得分圖見圖5B,白及飲片與黃花白及飲片在二維空間中無重疊現象,與天麻飲片重疊較多,表明白及飲片與天麻飲片在前兩個潛變量所表征的氣味信息方面有一定的相似性,這也是1個白及飲片被誤分類為天麻飲片的原因??紤]到該模型辨識結果中存在未分類樣本,因此用作4類飲片的辨識時其性能還需改進。

表8 PLS -DA留一法交互驗證模型判別結果

3.3.3LS-SVM判別模型及交互驗證結果 樣品判別結果見表9。經留一法交互驗證后,45個白及飲片中有4個被誤分類為天麻飲片;30個天麻飲片中有3個被誤分類為白及,1個未分類;30個玉竹飲片中有4個被誤分類為天麻,1個未分類;黃花白及無誤分類。所建立LS-SVM留一法交互驗證判別準確率為89.55%。

表9 LS-SVM留一法交互驗證模型判別結果

3.3.4BP-NN判別模型及交互驗證結果 參數設置:隱藏層個數(hidden layers):2, 每層的神經元個數(neurons per layer):10, 學習率(learning rate):0.01, 動量項(alpha):0.5, 迭代次數(iterations):1 000,此時模型錯誤率最小,見圖6。此時模型交互驗證判別結果及混淆矩陣見表10。判別結果:6、33、36、38、40、43號白及被誤分為天麻;46、59、72、73號天麻被誤分類為白及;77、78號玉竹被誤分類為天麻;107、124號黃花白及被誤分為玉竹。30、37、41號白及,47、66號天麻,86號玉竹和123、130號黃花白及未分類,正判率為82.84%。圖7為BP-NN模型在迭代1 000次后對每類樣本的輸出值,為避免梯度消失或梯度爆炸導致模型不穩定,梯度下降函數將BP-NN算法中權值和閾值設置在0~1,因此,每類樣本輸出值在該區間內;圖中紅色線條為可視化類別輸出的α值,可以看出BP-NN經學習后對每一類樣本的輸出值都明顯不同于其他3類樣本,分類性能良好;在玉竹類別的輸出中,有一個樣本的輸出值顯著小于其余玉竹樣本的輸出值,表明該BP-NN模型在對玉竹類別樣本區分時,性能還有待提高。

圖6 白及樣本BP-NN四分類辨識模型迭代次數及錯誤率

圖7 樣本BP-NN四分類辨識模型各類別輸出值

表10 BP-NN四分類辨識模型留一法交互驗證判別結果混淆矩陣

3.4電子鼻各嗅覺傳感器對模型貢獻度分析 二分類辨識選擇PLS-DA模型,四分類選擇PCA-DA模型。α-FOX4000型電子鼻共有18根傳感器,每根傳感器攜帶變異信息值見圖8和圖9。

A.Wilk's Lambda柱狀圖;B.PLS-DA二分類辨識模型變量載荷圖。

A.Wilk's Lambda柱狀圖;B.PCA-DA四分類辨識模型變量載荷圖。

由圖8(A)可知,相較于其他13根傳感器,12、6、15、1、16號傳感器所攜帶變異信息較多,對樣本二分類貢獻度較大,11、5、13號傳感器攜帶變異信息較少。結合圖8(B)中各傳感器變量在模型第一、第二潛變量上的載荷圖,12、15、1、16號傳感器為正相關變量,6號傳感器為負相關變量,5號傳感器在原點附近,說明其特征波動對樣本分類影響較小,結合傳感器Wilk's Lambda值可知,13號傳感器所攜帶變異信息也較少,但其距離原點較遠,這是因為每個變量解釋的變異信息是由PLS-DA模型的所有潛變量決定的,而二維圖只展現了前兩個潛變量所解釋的變異,若要反映傳感器攜帶的全部樣本變異信息,則需要三維甚至多維的潛變量載荷圖來實現。

圖9(A)顯示,在四分類辨識模型中,7、12、15、16、10號傳感器攜帶樣本變異信息較多,對134個樣本四分類的辨識貢獻度較大,3、2、5、4號傳感器攜帶變異信息較少。結合PCA-DA模型變量載荷圖,7、12、15、16、10號傳感器均為負相關變量,3、2、5、4號變量距離原點較近,解釋變異較小。

4 討論

4.1電子鼻嗅覺信息數據的確定 由于每個樣本的電子鼻原始數據量較大,α-FOX4000型電子鼻中包含每個樣本120 s內的傳感器響應值,因此需進行電子鼻

嗅覺信息數據的選取。嗅覺信息數據包括以下內容:每個傳感器在特定時間點的響應值,每個傳感器響應的平均值,每個傳感器響應的最大值,每個傳感器響應值的方差等。通過多次實驗,筆者最終確定選擇電子鼻各傳感器的響應平均值作為嗅覺信息數據來建模。

4.2電子鼻不同傳感器對樣品響應分析 通過分析電子鼻不同傳感器對4類樣品響應均值發現,傳感器LY/LG、T30/1、P10/1、P10/2、P40/1、T70/2、PA/2、P30/1、P40/2、P30/2、T40/2、T40/1、TA/2響應值為正值,其中PA/2響應值最大,LY2/LG響應值最小;P30/2等8個傳感器對黃花白及響應高于其他飲片,P10/2等5個傳感器對白及響應高于其他飲片;整體而言傳感器響應值:天麻<玉竹<白及<黃花白及,黃花白及和白及同屬白及屬植物,因此其化學成分比較接近,這與電子鼻傳感器響應情況也是吻合的,多數傳感器對黃花白及響應高于白及說明黃花白及中揮發性成分含量相對較高。傳感器LY/G、LY/AA、LY/GH、LY/gCTL、LY/gCT響應值為負值,且響應值均<0.005,根據傳感器響應特點判斷這幾根傳感器對應的化學成分在4類樣品中含量較少。同一傳感器對同一類樣品的響應也會有一定程度的變化,這是由于中藥飲片本身是非標準品,不同批次樣品之間氣味成分存在差異。

4.3傳感器對應敏感成分分析 由“3.4節”可知,對白及及其他3類飲片分類貢獻度較大的傳感器是LY/LG、LY/gCT、PA/2、P30/2、T30/1、P40/1、T40/2,這些傳感器對應的敏感物質分別為乙醇、氨、胺類化合物,丙烷、丁烷,有機化合物,氯、氟、氮氧化合物,氧化能力較強的氣體,這些敏感物質與筆者所在課題組前期所做的白及、黃花白及和玉竹中的揮發性成分醇、醛、酯、酮、酸類、烷烴類、烯烴類、吡嗪類等成分有一定的聯系。

4.4不同建模方法模型分類性能分析 筆者在本實驗采用α-FOX4000型電子鼻對白及、天麻、玉竹、黃花白及4類共134個飲片采集氣味信息,并基于PCA-DA和PLS-DA模型對樣本進行定性分類辨識。對樣本二分類辨識結果中,2個模型的正判率分別為95.52%、97.01%,以PLS-DA模型最優;樣本四分類辨識結果中,兩者正判率分別為91.04%和88.06%,PCA-DA模型較優。本研究發現,在樣本二分類的辨識中兩種判別模型都沒有未分類情況,且PLS-DA模型分類結果較優。然而在四分類辨識中,PCA-DA模型無未分類樣本,PLS-DA模型有12個未分類樣本,因此就四分類而言顯示PLS-DA分類能力相對較差。筆者推測這與模型的判別機制有關,相較于兩種類別,將標桿信息劃分為4種類別會使PLS-DA模型的辨識標準更加嚴苛,從而導致模型無法區分某些特征性不強的樣本。PCA-DA四分類模型正判率低于其二分類模型,可以看出PCA-DA模型性能受樣本分類的標桿信息影響,當標桿信息值越多時其分類難度增大,正判率會隨之降低。PCA-DA和PLS-DA分別是基于主成分回歸與PLS回歸的判別分析方法,其中PCA-DA能夠簡化多維數據中相互重疊的樣本信息,因此其對于多分類情況中某些成分影響較小的分類更適用;PLS-DA受其線性關系的影響,對多分類樣本的辨識有一定局限性。

4.5誤分類及未分類樣品分析 通過分析4種建模方法分類結果,在二分類辨識中僅有BP-NN模型有未分類樣本,其余3種模型均無未分類樣本;而四分類辨識中除PCA-DA外,其余3種模型均有未分類樣本,且誤分類樣本數PLS-DA(12個)>BP-NN(9個)>LS-SVM(2個)。誤分類及未分類樣本存在的原因可能是這些樣本與其他同類樣本的組內或組間差異較大,導致模型判錯或未分類。

4.6基于智能嗅覺技術的中藥飲片鑒別方法可行性分析 “辨狀論質”是中藥材傳統經驗的總結,是鑒定中藥品質真偽優劣的重要方法。中藥具有的特征性氣味是評價其質量的主要依據之一,也是其真偽鑒別的重要依據。電子鼻作為模擬人工嗅覺系統的機器,相比傳統GC、GC-MS 等技術而言具有整體性、快捷、環保、樣品預處理簡單等優點,基于辨狀論質思維采用電子鼻技術用于中藥飲片鑒別方面可行性已有多名學者開展研究。楊詩龍[34]采用電子鼻技術結合PCA等化學計量學分析方法,可實現浙貝母、平貝母、川貝母和伊貝母粉末快速準確鑒別;劉紅秀等[35]通過電子鼻建立了八角、白豆蔻、砂仁等7種中藥材鑒別方法,鑒別準確率100%;王蔚昕[36]采用電子鼻技術,結合PCA等多元統計方法可以對正品防風、北柴胡及其地方習用品準確進行鑒別。本研究采用電子鼻對白及飲片及其摻偽品進行鑒別的最佳二分類和四分類模型正判率分別為97.01%和91.04%,均取得較優鑒別結果,故基于智能嗅覺技術的中藥飲片鑒別在方法上是可行的。分析本研究未能達到100%正判率的原因是選擇的研究載體白及、黃花白及、玉竹、天麻性狀描述均為氣微,其氣味特征均不明顯,容易導致難以辨識其氣味特征而出現誤分類或者未分類情況。此外,人工智能技術還包含了電子眼、電子舌等,可以考慮融合多種感官信息數據,有利于提高信息維數,對于提高模型正判率會有所幫助。

基于智能嗅覺技術(α-FOX4000電子鼻)所建立的白及真偽二分類最優辨識模型為PLS-DA模型,四分類最優辨識模型分別為PCA-DA模型。上述兩種模型均具有良好的預測能力,可以用于白及飲片的真偽鑒別??傮w而言,本研究所建立的方法可準確、快速地鑒別白及及其近似飲片,為中藥飲片氣味客觀化表達及真偽鑒別提供了新思路和新方法。

猜你喜歡
白及電子鼻黃花
黃花白及中1個新的芐酯苷類化合物及促凝血活性
云小萱:助大同黃花飄香
三利黃花:三代人專注59年
黃花梁啊黃花香
路邊種黃花“一種三得”
電子鼻咽喉鏡在腔鏡甲狀腺手術前的應用
白及SSR-PCR擴增體系的優化
近紅外光譜技術鑒別白及粉及其混偽品
飛到火星去“聞味兒”——神奇的電子鼻
三七白及治上消化道出血
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合