?

基于CART 和聚類分析的古代玻璃分類預測模型研究

2024-03-01 08:39邵光明夏賢齊殷何杰
通化師范學院學報 2024年2期
關鍵詞:玻璃制品決策樹文物

邵光明,夏賢齊,殷何杰

隨著考古工作的不斷深入,我國已出土了數以千計的古代玻璃制品,并且這些玻璃制品主要出土于古代絲綢之路沿線,這從側面反映了絲綢之路是我國古代重要的貿易之路,也是重要的中西文明交流之路[1].我國最早的玻璃類型主要有鉛鋇硅酸鹽玻璃和鉀硅酸鹽玻璃等,但是由于年代久遠,玻璃埋在土中(如古墓內的葬品)會受到環境影響而風化[2],玻璃風化后往往風化產物會堆積在玻璃表面形成白色斑點或大片的霧狀物從而影響其化學成分比例,進而影響對其類別的鑒別,這對我國玻璃制品化學成分的研究及玻璃文物類別鑒定造成了較大困難.

目前,關于古代玻璃制品的研究部分集中在其出土地或者其制造技術的起源[3],部分集中在文物的歷史發展或者是古代玻璃制品的特點[4],還有部分集中在分析其成分特點或制造工藝[5],鮮有文章關注其化學成分鑒別和分析.由于風化程度的不同,不同古代玻璃制品鑒別的困難程度也有所不同.玻璃制品的研究還可使用回歸分析、主成分分析[6]、機器學習[7]、X 射線[8]等方法,這些方法可以鑒別玻璃制品的成分,但是大部分文獻沒有涉及對未知化學成分的預測分析.本文構建了CART 和聚類分析預測模型,使用聚類分析模型對不同化學成分進行比例分析,進而通過不斷迭代得出最優的聚類中心點,即選取合適的化學成分,利用CART 模型,將未知玻璃制品的化學成分放入模型中訓練,最后對其類別進行正確的分類.

1 模型構建

1.1 聚類分析

①系統聚類.系統聚類是將每個樣本獨立化,按照距離,將最近的兩個樣本合為新類,計算新類與其他類的距離,重復此過程,直到所有樣本都在一個大類中.最后繪制聚類圖,確定類的個數.

②K?means 聚類.K?means 的核心思想是首先從數據集中隨機選取k個初始聚類中心Ci(1 ≤i≤k),計算其余數據對象與聚類中心Ci的歐氏距離,找出離目標數據對象最近的聚類中心Ci,并將數據對象分配到聚類中心Ci所對應的簇中,然后計算每個簇中數據對象的平均值作為新的聚類中心,進行下一次迭代,直到聚類中心不再變化,迭代停止[9].

1.2 主成分分析

主成分分析法是Pearson 于1901 年首次提出的,通過研究指標體系的內在結構關系,把多指標轉化成少數幾個互相獨立而且包含原有指標大部分信息的綜合指標的多元統計方法,其優點是此方法確定的權數是基于數據分析而得到的指標之間的內在結構關系,而且得到的綜合指標(主成分)之間彼此獨立,這使得分析評價結果具有客觀性和可確定性[10].其步驟如下:

①按列計算均值和標準差,得出標準化矩陣.

②計算協方差矩陣R的特征向量和特征值λ1≥λ2≥…≥λp≥0(R是半正定矩陣).

③通過式(1)和式(2)分別計算貢獻率和累計貢獻率,其中累計貢獻率越大,說明其成分包含的信息量越多.

1.3 決策樹模型

決策樹[11]本質上是一種樹形結構,其中每個內部節點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別[12].使用決策樹前,先進行選擇,判斷哪一個特征確定了樹的功能,并進行子表劃分.CART 算法常采用基尼系數來劃分特征.基尼系數即一個樣本被分錯的概率.在樣本數量為d的樣本集D,k為種類個數,每個種類對應的樣本數量為Ck時,計算公式如下:

式中:p(Xi)表示樣本種類為i時被選中的概率,計算公式為

2 結果與討論

2.1 數據處理

數據來源于2022 年全國大學生數學建模競賽官網提供的古代玻璃制品的相關數據.現已知這些文物樣品的化學成分比例和玻璃類型為高鉀玻璃和鉛鋇玻璃.由于檢測手段等原因可能導致成分比例的累加為非100%的情況,因此,規定在85%~105%之間才視為有效數據.將數據進行求和會發現15 號和17號的累加不在范圍之內需剔除.數據存在空白值,不屬于缺失值,將其設為0,以此方便后面模型的計算.對數據進行標準化,本文采用Z 標準化方法.

2.2 結果分析

①聚類分析結果.針對玻璃種類是否風化進行分析,將系統聚類的結果與實際值進行比較,從而判斷分類標準劃分的合理性,將檢測到的主要成分指標通過SPSS 25.0 軟件進行系統聚類,聚類結果譜系圖如圖1 所示.

圖1 玻璃類型高鉀與鉛鋇系統聚類結果譜系

從圖1 可以看出,當距離大于20 時,其呈現明顯的兩大趨勢.聚類結果的兩個大類可以反映不同風化程度的玻璃樣本.即距離小于20 的樣本在某種程度上具有相似的風化特征,而距離大于20 的樣本則表現出更大的差異性.

K?means 聚類之后對分類數目進行敏感性檢驗得到的結果如表1 所示.

表1 敏感性檢驗結果

從表1 可以看出,分類數目與準確率不成正比,當分類數目為3 時,準確率最高為89.71%.然而,在其他分類數目下,準確率存在波動性且有下降趨勢,表明過多或過少的分類數目可能導致分類結果的不準確.由此可以看出,從獲得的數據中將古代玻璃類別分為高鉀類和鉛鋇類兩大類和三個亞類是最佳選擇.

此分類方案可為文物研究和管理提供重要的分類依據,有助于深入理解文物的特征和更為精確的分類關系.為確保該分類方案的有效性和可靠性,仍需要進一步研究與驗證.

②主成分分析結果.由于本文指標較多可能導致高維度數據,且部分指標存在大量的零值.為降低維度減少數據的復雜性和數據的稀疏性,本文利用主成分分析法,將所收集到的玻璃文物數量作為樣本,14 個化學成分作為指標,建立矩陣,運用SPSS 25.0 軟件計算相關矩陣和特征值等.主成分分析的特征根如圖2 所示.

圖2 主成分分析的特征根

從圖2 可以看出不同特征根的特征值大小.當提取的因子小于6 個時,特征值變化較大,這表明新增的因子對解釋原有變量的貢獻較大.當提取的因子大于6 個時,特征值變化較小,增加特征值對原有變量貢獻相對較小,由此可知,提取前六個因子對原有變量有顯著作用.

③CART 決策樹預測.根據化學成分的比例大小,對被分為高鉀和鉛鋇的兩類玻璃文物,通過使用Python 進行訓練,得到一個決策樹模型,如圖3 所示.

圖3 決策樹模型結構

從圖3 可以看出,沿著決策樹不同的分支路徑進入可以幫助其對玻璃文物進行分類和識別.這種基于決策樹模型的分類和識別方法可以為玻璃文物研究和鑒定提供有力的支持.

將未知文物的化學成分數據作為測試集,并通過已建立的CART 決策樹模型進行預測.模型根據輸入A1~A8 的特征值,對每個未知文物進行玻璃類型的預測,預測結果如表2所示.

表2 未知文物預測結果

從表2 可以看出,基于決策樹模型根據訓練數據中的特征值和對應的已知玻璃類型進行學習,得出的預測結果為高鉀類或鉛鋇類.例如,A1、A6 和A7 被預測為高鉀類,而A2、A3、A4、A5 和A8 被預測為鉛鋇類.

3 結語

文章使用Python 和SPSS 軟件,構建CRAT決策樹分類預測模型,對古代玻璃制品進行分類預測,采用系統聚類和K?means 聚類方法對古代玻璃制品進行分類,從而提高了模型的合理性和準確性.

本研究存在的局限性:一是模型預測結果需要進一步驗證,以確保結果的精確性與模型的穩定性;二是由于不同時期和地區的古代玻璃制品存在差異性,可能需要更多的樣本數據和特征信息,以改進分類預測的效果.后續將針對這些局限性進行認證.

猜你喜歡
玻璃制品決策樹文物
文物的棲息之地
食品用玻璃制品生產原料的安全風險
文物的逝去
一種針對不均衡數據集的SVM決策樹算法
文物超有料
基于中國風的跨文化玻璃制品設計研究
2018年玻璃制品制造業利潤總額同比增長6.1%
決策樹和隨機森林方法在管理決策中的應用
我國玻璃制品出口問題及對策研究
基于決策樹的出租車乘客出行目的識別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合