?

基于改進PCA-RFR算法的汽油辛烷值損失預測模型的構建與分析

2022-01-13 00:25佟國香
石油學報(石油加工) 2022年1期
關鍵詞:辛烷值硫含量催化裂化

蔣 偉,佟國香

(上海理工大學 光電信息與計算機工程學院,上海 200000)

研究法辛烷值(RON)是反映汽油燃燒性能的最重要指標。按照車用汽油國家標準,車用汽油RON應分別達到89/92/95。中國現有技術在對催化裂化汽油進行脫硫和降烯烴過程中,普遍降低了汽油辛烷值,每降低一個單位的辛烷值約相當于損失150 CNY/t[1-4]。為了盡可能減少汽油催化裂化過程中辛烷值的損失,需要建立化工過程模型對RON損失進行預測[5-8]。由于煉油工藝過程的復雜性以及設備的多樣性,催化裂化中涉及到的操作變量之間具有高度非線性和相互強偶聯的關系;且傳統的數據關聯模型中變量相對較少、機理建模對原料的分析要求較高,對過程優化的響應不及時,也很難全面地描述工藝過程,所以建模的效果并不理想[9-15]??捉鹕萚16]對催化裂化數據進行了預處理并建立了粗汽油終餾點的神經網絡模型,4.7%的樣本誤差小于±1 ℃、98.3%的樣本誤差小于±2 ℃、樣本均方差為0.7379 ℃、絕對誤差的平均值為0.5779 ℃,結果證明該模型具有較高的預測能力。楊帆等[17]基于某石化企業的LIMS及DCS中的工業生產數據,利用GBDT模型預測汽油收率,模型預測準確率為98.9%,平均絕對誤差為0.531%。張忠洋等[18]以某煉油廠催化裂化反應-再生系統為研究對象,用遺傳算法優化了已建立的6-11-1結構的BP神經網絡,成功將汽油產率預測均方誤差從5.16%降低到4.92%。上述研究都是通過神經網絡、遺傳算法等人工智能算法對工業經驗中已知的影響催化裂化產品收率的指標進行分析,并構建催化裂化汽油收率預測模型,實現相應的汽油產率預測。通過建立化工過程模型,基于數據挖掘技術,對重要指標的相關數據進行分析,尋找優化方案,最終實現催化裂化裝置經濟效益的提升。但是基于神經網絡的預測模型的解釋性較差,基于遺傳算法的預測模型無法處理大規模復雜問題且其自身存在局部最優性。因此,筆者將使用主成分分析算法對數據進行降維,降低算法的計算開銷,結合具有較好解釋性的樹類隨機森林模型進行預測。

為了優化汽油精制處理過程,實現最大化經濟效益,對裝置運行積累的數據進行分析,利用隨機森林回歸模型進行預測,并在實際生產中指導生產,及時優化操作變量。筆者以霍尼韋爾(PHD)實時數據庫及實驗室信息管理系統(LIMS)數據庫的數據為基礎,基于改進主成分分析的隨機森林回歸PCA-RFR模型,對操作變量進行篩選,構建了汽油辛烷值損失預測模型。

1 數據預處理

1.1 數據格式統一

筆者使用的原始數據來自于中國石化上海高橋分公司催化裂化汽油精制脫硫裝置的PHD實時數據庫及LIMS實驗數據庫。通過PHD及LIMS數據庫采集到原料、產品和催化劑等相關數據,其采集頻率為2次/周。為了采集到足夠多的數據,并保證實驗的準確性和有效率,LIMS數據分別采集了從2017年4月至2019年9月和2019年10月至2020年5月2個時間段,共約3年。通過PHD數據庫可采集到操作變量數據,第一時間段數據采集頻次為3 min/次,第二時間段數據采集頻次為6 min/次。原始數據包括7個原料性質、2個待生吸附劑性質、2個再生吸附劑性質、2個產品性質等不可操作變量以及另外354個操作變量(共計367個變量),將所有的數據按照時間戳降序排列,以方便系統化的數據處理和分析。再對數據進行如下處理:

(1)數據格式統一。第二個字段為Timestand類型,不符合Float類型,直接將此列刪除。

(2)缺失數據填充。刪除缺失率大于20%的數據列,對于缺失率小于20%的數據列,使用其前后2 h數據的平均值進行替代填充。

(3)噪聲處理。根據工藝要求與操作經驗,總結出原始數據變量的操作范圍,刪除不在該范圍的數據。

(4)根據拉依達準則(3σ準則)去除異常值。3σ準則:對被測量變量進行等精度測量,得到x1,x2,……,xn,計算其算術平均值x及剩余誤差vi=xi-x(i=1,2,…,n),利用按貝塞爾公式計算標準誤差σ,若某個測量值xb的剩余誤差vb(1≤b≤n)滿足|vb|=|xb-x|>3σ,則認為xb是含有粗大誤差值的壞值,應予剔除。貝塞爾公式如式(1)所示。

(1)

1.2 模型變量篩選

數據中含有354個操作變量,如果將所有操作變量都考慮進去,不但會增加計算的復雜度,并且由于樣本數量太少,導致過擬合,從而影響模型準確性。由于煉油工藝過程的操作變量之間具有高度非線性和相互強偶聯的關系,考慮采用改進PCA算法對處理后的數據進行降維,篩選出相關性較高的30個操作變量作為預測模型的輸入,改進PCA算法執行過程如下:

(1)對數變換。傳統的主成分分析是一種線性的降維方法,為了實現對高度非線性數據的高效處理,采用對數變化來改變數據的分布使其接近假設的模型[19]。設格式統一后的數據矩陣如式(2)所示。

X=(xij)n×p

(2)

令yij=lnxij,則對數變換后矩陣如式(3)所示。

Y=(yij)n×p

(3)

(2)數據標準化。為了消除樣本不同屬性具有不同量級的影響,需要對對數變換后的數據進行標準化處理,使結果值映射到[0~1]之間,轉換公式如式(4)所示。

(4)

式中:X*為標準化后的數據,X為原始數據,Xmax為樣本數據的最大值,Xmin為樣本數據的最小值。

(3)協方差矩陣。協方差矩陣表示一組隨機變量之間的兩兩相關性。根據標準化矩陣,計算其協方差矩陣。

(4)主成分特征值得分及其對應貢獻率。對協方差矩陣進行奇異值分解求出所有的特征值得分,并從大到小排列。表1為所有特征值中排名前30的得分情況。

表1 排名前30主成分的特征值得分Table 1 The top 30 principal component characteristics

根據所有的主成分特征值的得分,求出所有主成分的特征值得分占比,以貢獻率(Φ)表示,提取貢獻率前30對應的主成分及其貢獻率。前m個主成分的貢獻率(Φ)如式(5)所示。

(5)

式中:λi為第i個主成分特征值的得分情況;m為1~30。

采用改進PCA算法對所有操作變量進行分析和篩選,得出與RON損失相關性較高的操作變量及其特征值得分和相應貢獻率。如圖1所示。

D-109,D-110,D-113,D-114,D-121,D-122,D-123,D-124,D-125,D-201,D-202 are the serial number of feed liquid storage tanks of S Zorb adsorption desulfurization unit.圖1 主要操作變量及其貢獻率和綜合得分Fig.1 Main operating variables and their contribution rate and comprehensive score

2 模型構建

筆者采用改進主成分分析-隨機森林回歸算法PCA-RFR建模。改進PCA-RFR模型結構如圖2所示,包含輸入層、隱藏層、輸出層。RFR從輸入數據中隨機抽樣,并訓練得到若干棵決策樹,再將測試集輸入模型中,由各決策樹預測值的平均值決定最終的預測結果,模型的輸出即為對汽油辛烷值損失的預測值。

圖2 改進PCA-RFR模型結構示意圖Fig.2 Improved structure diagram of PCA-RFR model

算法的執行步驟如下:

輸入:篩選出的主要操作變量的數據。

Step 1:初始化RFR隨機森林回歸模型,建立訓練集和測試集。

Step 2:從訓練樣本集S中每次隨機取出m個樣本點,得到n個子訓練集。

Step 3:選擇第j個變量和其取值s,作為切分變量和切分點,將每個子訓練集D遞歸地劃分為2個子區域D1和D2,構建二叉決策(回歸)樹。劃分方法如式(6)~式(9)所示。

D1(j,s)=(x,y)∈D|A(x)≤s

(6)

D2(j,s)=(x,y)∈D|A(x)>s

(7)

c1=average(yi|xi∈D1(j,s))

(8)

c2=average(yi|xi∈D2(j,s))

(9)

式(8)~式(9)中:c1為D1的樣本輸出均值;c2為D2的樣本輸出均值。

Step 4:然后尋找最優的切分變量以及最優的切分點,選擇使式(10)達到最小值的(j,s)。

(10)

Step 5:對2個子區域重復1和2步驟,直到滿足停止條件。

Step 6:將輸入空間劃分為M個區域R1,R2,……,Rm,生成多棵CART回歸樹Tm,組成隨機森林。劃分方法如公式(11)所示。

(11)

Step 7:將測試集樣本輸入隨機森林回歸模型中,隨機森林最終的預測結果即為所有CART回歸樹預測結果的均值。

3 結果與討論

筆者所使用的數據共有450組,其中,2018年1月1日至2020年5月26日期間的315組數據作為訓練集,2017年4月17日至12月29日期間的135組數據作為驗證集。通過實驗,分別獲得筆者建立模型PCA-RFR與BP神經網絡模型BP-NN和隨機森林模型Random Forest在測試集上的評估標準值,如表2所示。

由表2可以發現,PCA-RFR模型預測的誤差最小,準確率最高,且R2值接近1,表明該模型非常擬合訓練數據。

表2 3種模型的實驗結果對比Table 2 The experimental results of the three models

在相同的測試集上,分別使用3種模型對汽油辛烷值損失進行預測,并將預測結果和實際數據進行比較,3種模型的汽油辛烷值損失預測值和實際值對比,如圖3所示。由圖3可以看出:BP神經網絡模型中的整體預測值在實際值附近上下波動,對汽油辛烷值損失預測有一定的偏離,可以大致地擬合出汽油RON損失的變化趨勢。隨機森林模型對汽油RON損失預測較為平穩,大部分預測值與實際值偏差不大,但是模型的預測值變化幅度較小,無法對汽油RON損失的突然變化進行預測。改進PCA-RFR模型對汽油RON損失預測結果基本與實際值相符,且可以預測出汽油RON損失曲線的突變。對比3種模型對汽油RON損失的預測結果,改進PCA-RFR模型的預測更加準確。

圖3 3種模型對汽油辛烷值損失預測值和實際值對比Fig.3 The predicted and actual octane loss values of three models(a)Back propagation-neural network (BP-NN);(b)Random forest;(c)Principal component analysis-random forest model (PCA-RFR)

根據3種訓練模型樣本的實際值和模型的預測值構建散點圖,如圖4所示。由圖4可以看出:BP神經網絡的回歸樣本呈區域集中,實際值與預測值差距較大;隨機森林和改進PCA-RFR回歸樣本分布均勻,但后者的預測值與實際值更為接近。

最后,對訓練模型中的450組樣本中硫含量數據進行微調:原數據加上一個由random函數隨機生成的0~1之間的數,將調整后的數據放入模型的數據庫中,通過已建立的PCA-RFR汽油辛烷值預測模型訓練新的數據,得出改變硫含量后的汽油RON損失預測,如圖5所示??梢钥闯?,筆者所建立的PCA-RFR預測模型在對操作變量進行優化的過程中,能夠非常直觀地展示汽油RON損失值的變化情況,及時為生產控制提供分析數據,有效地解決化工過程RON損失預測建模問題。

圖5 硫含量變化后汽油辛烷值損失預測圖Fig.5 Prediction chart of the octane loss after sulfur content change

優化過程中主要操作變量調整后,對應的汽油辛烷值損失和硫含量的相對值變化軌跡,如圖6所示。圖中,汽油辛烷值損失是由參數調整后模型的出的結果與原數據模型得出的結果做差得到的,硫含量的值也是調整后硫含量的值與原硫含量的值做差得到的??梢钥闯?,硫含量變化與RON損失變化呈一定的線性相關性,部分點數值變化幅度過大,分析數據存在一定的波動,但仍在重復性標準要求范圍之內。

圖6 汽油RON損失值與硫含量變化軌跡圖Fig.6 Track diagram of the gasoline RON loss and sulfur content change

4 結 論

筆者基于PHD實時數據庫及LIMS實驗數據庫,通過改進PCA算法,分析各操作變量與實際催化裂化汽油精制處理過程中汽油辛烷值損失的相關性,篩選出了30個潛在影響辛烷值損失的關鍵操作變量作為預測模型的輸入,利用RFR模型預測催化裂化汽油辛烷值的損失,并將模型對汽油辛烷值損失的預測效果作為基準。結果表明,由改進PCA-RFR構建的汽油辛烷值損失預測模型預測結果的準確率為99.13%,R2為0.983,均方根誤差為3.2169×10-4。模型對真實汽油辛烷值損失的擬合效果非常接近,有助于在實際生產中優化操作條件,減少辛烷值的損失,提高生產經濟效益。開發高辛烷值汽油技術仍然是未來催化裂化發展的主題,下一步工作考慮采用NSGA-Ⅱ多目標參數優化算法[20],分析各個操作變量的支配強度Pareto等級和擁擠度,最終找到減少汽油辛烷值損失的Pareto最優解集。

猜你喜歡
辛烷值硫含量催化裂化
高頻紅外吸收光譜法測定硅碳球中硫含量
吉林省旱地土壤有效硫含量及其與土壤有機質和全氮的關系
催化裂化再生器殼體關鍵制造技術
高硫硅鋼的硫化物析出行為及其微觀組織和電磁性能變化
重石腦油硫含量超標的原因分析及對策
質量比改變壓縮比的辛烷值測定機
多參數協同優化方法在催化裂化裝置中的應用
中科煉化420 萬噸/年重油催化裂化裝置一次開車成功
PNNL開發車載分離技術將乙醇從汽油中分離出來使辛烷值隨需變化
車用汽油辛烷值測定準確度相關影響因素探究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合