?

基于重建輔助的壓縮學習圖像分類

2023-11-10 07:03李衛馬駿辛蕾李峰
航天返回與遙感 2023年5期
關鍵詞:分支投影尺寸

李衛 馬駿 辛蕾 李峰,*

基于重建輔助的壓縮學習圖像分類

李衛1,2馬駿1辛蕾2李峰2,*

(1 河南大學軟件學院,開封 475100)(2 中國空間技術研究院錢學森空間技術實驗室,北京 100094)

壓縮感知理論認為可以從少量測量中重建稀疏信號,盡管壓縮感知能夠實現低成本采樣,但其重建過程需要高昂的代價。已有的研究工作成果表明,圖像分類可以在測量域進行,而無需重建信號,但目前直接從壓縮測量中推理難以提取到深層次特征,無法獲得較好的分類效果,針對此問題,為了進一步提升分類結果,文章提出了一種帶有重建輔助的深度學習框架直接從圖像的壓縮測量中推斷分類。該框架在分類網絡中加入了重建分支作為輔助,聯合重建損失與分類損失組合成一個新的加權損失函數調整網絡參數,幫助網絡提取深層次特征。重建分支只在訓練階段使用來調整網絡參數,在訓練完成后,重建分支將被舍棄,在實際使用中將不會增加分類任務的時間成本,并保護了數據的隱私。在MNIST和CIFAR-10數據集上進行了實驗,結果表明,相比現有方法,所提出的方法在不增加使用成本的情況下有效提高了分類準確度,在兩數據集上最高分別提升了1.19個百分點和17.69個百分點,為基于壓縮測量的直接推理研究提供了新思路。

壓縮感知 深度學習 圖像分類 圖像重建 輔助任務 壓縮學習 遙感應用

0 引言

在對大量信號進行采樣且需要節約傳輸與存儲成本的實際應用中,通常需要對原始數字信號壓縮,消除冗余信息。但傳統高速采樣再壓縮的方式在采樣和壓縮階段都浪費了大量資源。壓縮感知(Compressed Sensing,CS)理論的提出打破了這種現狀[1-5]。該理論認為如果信號本身具有稀疏性或在某個變換域是稀疏的,那么它可由遠低于奈奎斯特采樣定理要求的觀測值數量重構原信號。CS將采樣與壓縮融合,在采樣時便完成了壓縮,規避了以往方法的缺點。對CS采樣信號重構往往不是最終目標,人們更關注對采樣信號本身所包含信息的處理,如檢測、分類等。壓縮感知框架下的采樣信號的處理工作通常需要兩個階段,第一階段對信號進行重構,第二階段對重構信號進行推理。然而CS重構算法往往有著較高的計算成本。因此,直接從壓縮測量中推理就變得相當重要。

近年來,關于CS測量直接推斷的研究已經取得了一些進展。Haupt等人基于M-ary假設檢驗研究了CS投影觀測在信號分類的應用[6];Davenport等人研究了直接在壓縮感知測量上進行推斷的問題,提供了一些理論邊界和實驗結果[7];Davenport等人提出了粉碎濾波器[8],表明如果滿足Johnson-Lindenstrauss引理[9],可以在CS中執行分類任務。之后,不同版本的粉碎濾波器又被研究用于人臉、動作識別[10-11]。Calderbank等人在工作中引入了“壓縮學習”(Compressive Learning,CL)一詞代表直接在測量領域進行學習而無需付出將數據恢復到高維數據域的代價,其研究在理論上表明,在壓縮域上運行的線性支持向量機分類器的性能與在原始信號空間上運行的最佳線性分類器幾乎一樣好[12]。

深度神經網絡近年來發展迅速[13],Lohit等人首次將神經網絡用于從CS測量中直接提取非線性特征[14]。該方法使用觀測矩陣獲取圖像壓縮測量值,并通過一個簡單的投影操作產生一個原尺寸代理圖像作為卷積神經網絡(Convolutional Neural Networks,CNN)的輸入執行分類推理任務。還提出了兩種投影方法,一種是使用轉置后的觀測矩陣,另一種是使用一個帶有可學習參數的全連接層(Fully Connected Layer,FC)。Adler等人提出了一種聯合可學習的觀測矩陣與推理任務的方法[15]。其使用兩個FC分別表示觀測矩陣與投影操作,通過聯合后續CNN執行分類任務。Xuan等人針對文獻[15]的網絡結構進行了一些更新,包括激活函數的選擇、投影FC的調整以及一個正則化的損失函數等[16]。文獻[17]則是在上述工作[14-15]中產生的代理圖像上通過一種基于離散余弦變換的方法從中提取二進制特征,并與CNN所提取的特征進行融合執行分類任務,在較低采樣量下取得了不錯的結果。

這些CL方法都致力于跳過重建階段,直接從壓縮測量中提取特征執行推理任務,來降低計算復雜度與處理時間,同時保護數據的隱私,但相比重建后的數據,直接從壓縮測量中進行推理是非常具有挑戰性的。目前對于復雜圖像壓縮測量的分類任務仍然存在準確度較低的問題。是否存在一種折中方案,在保留CL優點的同時加入重建?基于這樣的思考,本文提出了一種基于深度學習帶有重建輔助的CL框架用于圖像分類,該框架在執行分類任務的深度網絡中加入了一個重建分支作為分類任務的輔助任務,聯合重建損失與分類損失組合成一個新的加權損失函數,通過重建與分類任務共同調整網絡參數,幫助網絡提取深層次特征。重建分支只在訓練過程中使用來調整網絡參數,在訓練完成后,重建分支將被舍棄,在實際使用中將不會增加網絡分類任務的時間成本,且并無實際重建內容的產生,保護了數據的隱私。在MNIST[18]和CIFAR-10[19]數據集上測試了所提出的方法。結果表明,所提出的方法在保留CL優點的同時有效提高了分類準確度。

1 本文方法

本文所提方法在現有框架[14-16]的基礎上,加入了重建分支作為輔助任務,在框架結構上與現有方法的區別如圖1所示。

圖1 基于深度學習的壓縮學習圖像分類框架

1.1 壓縮與投影

壓縮與投影模塊主要用于壓縮圖像數據,以及在進入分類網絡前將壓縮數據投影回壓縮前數據量形成一張代理圖像。投影可以看作是替代重建的操作,跳過復雜的重建過程,用一個簡單的投影操作來生成一個偽重建圖像。其結構如圖2所示。

圖2 壓縮與投影模塊的結構

為了驗證本文方法的效果,在實驗中采用了四種壓縮與投影方法。分別將其命名為CP-1[14]、CP-2[14]、CP-3[15]、CP-4。前三種是現有CL方法所采用的壓縮與投影方法,CP-4是本文基于CP-3的修改,意在探究代理圖像尺寸對本文方法的影響。四種方法如圖3所示。

圖3 四種壓縮與投影方法

CP-1與CP-2在數據獲取上采用的觀測矩陣是固定的,其優點在于與后續分類網絡是分離的,可應用于多種場景,在星上任務中有著較為靈活、廣泛的應用。CP-2通過將投影過程可學習化提高了與分類網絡的配合,在較少采樣數據下取得了比CP-1更好的效果,但在較多采樣數據下存在過擬合的問題,相較于CP-1效果差。CP-3通過將觀測矩陣與投影過程可學習化,在較少采樣數據下取得了比CP-2更好的結果,但在較多采樣數據下同樣因過擬合問題相較于CP-1效果差,且由于觀測矩陣的可學習化,在不同場景需要學習不同的觀測矩陣,在星上應用將會受到較大限制。提出CP-4探究尺寸影響是因為較小的代理圖像尺寸將會在訓練與使用時花費更少的時間成本,具有一定研究價值。以上這些結果差異均來自現有CL方法。

在本文實驗中,CP-1和CP-2中的與T使用noiselet[21-22]變換域下的隨機采樣作為觀測矩陣,對采樣數據的逆變換作T。

1.2 分類網絡

第二部分是分類網絡,本文采用較為先進的分類網絡之一,寬殘差網絡(Wide Residual Network,WRN)[23]。WRN是ResNet[24]的一種擴展,比ResNet更注重于縮減長度而加大寬度。網絡結構如圖4所示。

圖4 WRN結構

1.3 重建分支

為了使分類網絡具有重建能力,將重建分支加入分類網絡中。用于圖像分類的卷積神經網絡通常會通過一系列的池化層來逐步降低特征圖的尺寸[23-27]以實現降維與減少計算量,而重建任務最終得到的是一張與真實圖像同尺寸的圖像。進入重建分支的特征圖尺寸是小于原圖尺寸的,重建分支用于提升特征圖的尺寸到原圖尺寸,并對通道降維得到一張圖像,最終以真實圖像計算損失來調整網絡參數。

本文采用亞像素卷積(PixelShuffle)[28]進行上采樣操作,PixelShuffle通過對特征圖多通道重組來提升圖像尺寸,即將多個通道上的特征圖拼接在一起,以降低通道數為代價來提升圖像尺寸。圖5給出了重建分支的具體結構。

圖5 重建分支結構

1.4 聯合損失函數

現有基于深度學習的CL方法主要通過計算預測標簽與真實類別標簽之間的損失來求解如下的優化問題進行網絡參數的學習。

(2)

本文方法框架中的參數分布與正向計算流程,如圖6所示。

圖6 參數分布與正向計算流程

在本文方法中,額外加入了重建分支,整體網絡的最終輸出變為兩部分,且將會計算兩個損失,預測標簽與真實標簽計算損失loss1,重建圖像與真實圖像計算損失loss2,兩個損失的計算可表示為:

組織蛋白、酸性磷酸酶(ACP)、堿性磷酸酶(AKP)、溶菌酶(LSZ)試劑盒均購買于南京建成生物工程研究院。水蛭素活性測定采用《中國藥典》2010版規定的測定方法及陳華友等[12]提供的方法(數據體現時,在相應標號前增加指標英文縮寫,如“LSZss”代表配合飼料組嗉囊組織中溶菌酶的活力)。

2 實驗

2.1 實驗設置

實驗平臺為搭載Ubuntu 18.04.6 LTS系統的計算機。硬件配置:Quadro RTX 5000顯卡、IntelRXeon(R) Gold 5218處理器、128GB內存。采用Pytorch深度學習框架。軟件配置:Pytorch 1.11.0、Torchvision 0.12.0、CUDA Version:11.4。

實驗使用MNIST和CIFAR-10數據集作為實驗數據集。訓練網絡時使用Adam優化器來更新網絡參數。批次大小設置為128??倲祿柧毜?50輪,初始學習率設置為0.005,每迭代50輪學習率衰減一次,即當前學習率乘以0.1。

實驗中分類結果使用準確度作為評測指標,重建結果使用峰值信噪比(PSNR)作為評測指標。準確度為正確分類數與樣本總數的比值。PSNR用來計算真實圖像與重建圖像之間的像素誤差,單位為dB,數值越大表明圖像重建效果越好。

2.2 數據集與預處理

MNIST數據集是一個手寫數字圖像數據集,分為10類別,即0到9數字。包含60 000個訓練樣本和10 000個測試樣本,所有圖像尺寸為28像素×28像素,且為灰度圖像。實驗從60 000個訓練樣本每個類別中隨機抽取1 000個樣本,共計10 000樣本作為驗證集,剩余50 000樣本作為訓練集,原測試樣本作為測試集。對原圖像采用雙三次插值方法上采樣到32像素×32像素尺寸用于實驗。

2.3 實驗結果與分析

實驗采用1.1章節中的四種壓縮與投影方式,以及兩種壓縮率壓縮數據,分別將數據壓縮為原數據量的1/4和1/16,即4倍壓縮與16倍壓縮,并與WRN結合執行分類任務,對比了現有CL方法在重建分支加入前后的分類準確度。表1和表2分別展示了在MNIST和CIFAR-10數據集上的實驗結果。

表1 在MNIST數據集上的分類結果

Tab.1 Classification results on the MNIST dataset

表2 在CIFAR-10數據集上的分類結果

Tab.2 Classification results on CIFAR-10 dataset

可以看到,無論在哪種情況下,重建分支的加入都提升了分類準確度。在MNIST上,4倍壓縮下最高獲得了1.05個百分點的提升,16倍壓縮下最高獲得了1.19個百分點的提升。在CIFAR-10上,4倍壓縮下最高獲得了17.69個百分點的提升,16倍壓縮下最高獲得了10.3個百分點的提升。這些結果充分說明了重建分支優秀的輔助能力,驗證了本文方法的有效性。

在兩個數據集上,壓縮與投影方法若采用FC,則重建分支所帶來的提升往往較高,這是因為FC本身具有可學習參數,隨著網絡優化進行調整,可以與后續網絡形成配合,更好地采樣數據并從中提取適合網絡任務的特征。

對比CP-3和CP-4的結果可以看出,在代理圖像尺寸小于原始圖像時,重建分支的加入對分類結果都有提升效果。對于簡單數據(MNIST),較小的代理圖像與重建分支的結合所帶來的提升比原始尺寸更高,而對于復雜數據(CIFAR-10),其情況則是相反的。這些結果表明了雖然不同尺寸的代理圖像對于重建分支的輔助性能有所影響,但重建分支對于代理圖像的尺寸并沒有硬性要求,即使尺寸不同也可以發揮出不錯的輔助性能。

2.4 損失權重的影響

圖7 分類準確度與重建圖像平均PSNR隨超參數變化的曲線圖

3 結束語

本文提出了一種基于深度學習帶有重建輔助的CL框架,在現有方法框架的基礎上,通過加入重建分支來輔助分類任務,并通過一個聯合損失函數來優化網絡。在MNIST和CIFAR-10兩個數據集上進行分類任務實驗,結果表明與現有的CL框架相比,在沒有增加使用階段時間成本以及破壞數據隱私性的情況下,本文所提方法提高了分類結果,適合實際應用,也證明了重建分支提取深層次特征的能力。在以后的工作中,如何將重建任務以無成本、低成本的方式加入將會是一個不錯的思考方向。

[1] CANDES E J. Compressive Sampling[C]//The International Congress of Mathematicians, Aug 22-23, 2006, Madrid, Spain. 2006: 1433-1452.

[2] CANDES E J, WAKIN M B. An Introduction to Compressive Sampling[J]. IEEE Signal Processing Magazine, 2008, 25(2): 21-30.

[3] DONOHO D L. Compressed Sensing[J]. IEEE Transactions on Information Theory, 2006, 52(4): 1289-1306.

[4] CANDES E, ROMBERG J. Sparsity and Incoherence in Compressive Sampling[J]. Inverse Problems, 2007, 23(3): 969.

[5] CANDES E J, ROMBERG J, TAO T. Robust Uncertainty Principles: Exact Signal Reconstruction from Highly Incomplete Frequency Information[J]. IEEE Transactions on Information Theory, 2006, 52(2): 489-509.

[6] HAUPT J, CASTRO R, NOWAK R, et al. Compressive Sampling for Signal Classification[C]//2006 Fortieth Asilomar Conference on Signals, Systems and Computers, October 9-November 1, 2006, Pacific Grove, CA, USA. IEEE, 2006: 1430-1434.

[7] DAVENPORT M A, BOUFOUNOS P T, WAKIN M B, et al. Signal Processing with Compressive Measurements[J]. IEEE Journal of Selected Topics in Signal Processing, 2010, 4(2): 445-460.

[8] DAVENPORT M A, DUARTE M F, WAKIN M B, et al. The Smashed Filter for Compressive Classification and Target Recognition[C]//Proceedings of SPIE—The International Society for Optical Engineering, 2007, 6498: 142-153.

[9] JOHNSON W B, LINDENSTRAUSS J. Extensions of Lipschitz Mappings into a Hilbert Space[J]. Contemp Math, 1984, 26: 189-206.

[10] LOHIT S, KULKARNI K, TURAGA P, et al. Reconstruction-Free Inference on Compressive Measurements[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 7-12, 2015, Boston, MA, USA. IEEE, 2015: 16-24.

[11] KULKARNI K, TURAGA P. Reconstruction-Free Action Inference from Compressive Imagers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(4): 772-784.

[12] CALDERBANK R, JAFARPOUR S, SCHAPIRE R. Compressed Learning: Universal Sparse Dimensionality Reduction and Learning in the Measurement Domain[EB/OL]. [2022-09-06]. https://www.researchgate.net/publication/228364241.

[13] 張春曉, 鮑云飛, 馬中祺, 等. 基于卷積神經網絡的光學遙感目標檢測研究進展[J]. 航天返回與遙感, 2020, 41(6): 45-55. ZHANG Chunxiao, BAO Yunfei, MA Zhongqi, et al. Research Progress on Optical Remote Sensing Object Detection Based on CNN[J]. Spacecraft Recovery & Remote Sensing, 2020, 41(6): 45-55. (in Chinese)

[14] LOHIT S, KULKARNI K, TURAGA P. Direct Inference on Compressive Measurements Using Convolutional Neural Networks[C]//IEEE International Conference on Image Processing (ICIP), September 25-28, 2016,Phoenix, AZ, USA. IEEE, 2016: 1913-1917.

[15] ADLER A, ELAD M, ZIBULEVSKY M. Compressed Learning: A Deep Neural Network Approach[EB/OL]. [2022-09-06]. https://arxiv.org/pdf/1610.09615.pdf.

[16] XUAN V N, LOFFELD O. A Deep Learning Framework for Compressed Learning and Signal Reconstruction[C]//5th International Workshop on Compressed Sensing Applied to Radar, Multimodal Sensing, and Imaging (CoSeRa), September 10-13, 2018, University of Siegen, Germany. 2018: 1-5.

[17] DEGERLI A, ASLAN S, YAMAC M, et al. Compressively Sensed Image Recognition[C]//7th European Workshop on Visual Information Processing (EUVIP), November 26-28, 2018, Tampere, Finland. IEEE, 2018: 1-6.

[18] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-Based Learning Applied to Document Recognition[J]. Proceedings of The IEEE, 1998, 86(11): 2278-2324.

[19] KRIZHEVSKY A, NAIR V, HINTON G. The CIFAR-10 Dataset[EB/OL]. [2022-09-06]. http://www.cs.toronto.edu/~ kriz/cifar.html.

[20] GLOROT X, BORDES A, BENGIO Y. Deep Sparse Rectifier Neural Networks[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, 2011, 15: 315-323.

[21] WEN J, CHEN Z, HAN Y, et al. A Compressive Sensing Image Compression Algorithm Using Quantized DCT and Noiselet Information[C]//Proceedings of the 2010 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), March 14-19, 2010, Dallas, TX, USA. IEEE, 2010: 1294-1297.

[22] PASTUSZCZAK A, SZCZYGIEL B, MIKOLAJCZYK M, et al. Modified Noiselet Transform and Its Application to Compressive Sensing with Optical Single-Pixel Detectors[C]//18th International Conference on Transparent Optical Networks (ICTON), July 10-14, 2016, Trento, Italy. IEEE, 2016: 1-4.

[23] ZAGORUYKO S, KOMODAKIS N. Wide Residual Networks[EB/OL]. [2022-09-06]. https://arxiv.org/pdf/1605.07146.pdf.

[24] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 770-778.

[25] HUANG G, LIU Z, MAATEN L V D, et al. Densely Connected Convolutional Networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 2261-2269.

[26] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[27] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL]. [2022-09-06]. https://arxiv.org/pdf/1409.1556.pdf.

[28] SHI W, CABALLERO J, HUSZAR F, et al. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 1874-1883.

Image Classification Based on Reconstruction Assisted Compressive Learning

LI Wei1,2MA Jun1XIN Lei2LI Feng2,*

(1 College of Software, Henan University, Kaifeng 475100, China)(2 Qian Xuesen Space Technology Laboratory, China Academy of Space Technology, Beijing 100094, China)

Compressive sensing theory suggests that sparse signals can be reconstructed from a small number of measurements. Although compressive sensing enables low cost sampling, its reconstruction process is costly. Recent work has shown that image classification can be performed in the measurement domain without reconstruction of the signal, but it is currently difficult to extract deep features for better classification by inference directly from compressed measurements. To address this problem and to further improve the classification results, the article proposes a deep learning framework with reconstruction assistance to infer classification directly from compressed measurements of images. The framework adds a reconstruction branch to the classification network as an aid, and the joint reconstruction and classification losses are combined into a new weighted loss function to adjust the network parameters. The reconstruction branch is only used during the training phase to adjust the network parameters, and is discarded after training is complete, which in practice will not increase the time cost of the classification task and protects the privacy of the data. Experiments were conducted on the MNIST and CIFAR-10 datasets, and the results show that the proposed method effectively improves the classification accuracy without increasing the cost of use, by up to 1.19 and 17.69 percentage points on the two datasets respectively, providing a new idea for direct inference studies based on compressed measurements.

compressive sensing; deep learning; image classification; image reconstruction; auxiliary task; compressive learning; remote sensing application

TP75

A

1009-8518(2023)05-0105-11

10.3969/j.issn.1009-8518.2023.05.012

李衛,男,1995年生,2018年獲河南大學軟件工程專業學士學位,現在河南大學電子信息專業攻讀碩士學位。主要研究方向為壓縮學習、圖像分類。E-mail:lwei@henu.edu.cn。

2022-09-06

科技部重點研發計劃(2020YFA0714100)

李衛, 馬駿, 辛蕾, 等. 基于重建輔助的壓縮學習圖像分類[J]. 航天返回與遙感, 2023, 44(5): 105-115.

LI Wei, MA Jun, XIN Lei, et al. Image Classification Based on Reconstruction Assisted Compressive Learning[J]. Spacecraft Recovery & Remote Sensing, 2023, 44(5): 105-115. (in Chinese)

(編輯:龐冰)

猜你喜歡
分支投影尺寸
尺寸
CIIE Shows Positive Energy of Chinese Economy
解變分不等式的一種二次投影算法
基于最大相關熵的簇稀疏仿射投影算法
巧分支與枝
找投影
找投影
一類擬齊次多項式中心的極限環分支
D90:全尺寸硬派SUV
佳石選賞
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合