樣本_參考網

基于自然最近鄰的不平衡數據欠采樣方法

衡數據是指各類別樣本的數量有巨大差異的數據集，其廣泛存在于金融欺詐檢測、醫療診斷、故障預測等實際應用中。在將支持向量機、貝葉斯分類器、神經網絡等傳統的分類模型用于不平衡數據的分類時，分類器傾向于學習多數類樣本的特征而忽略了少數類，容易將少數類樣本識別為多數類，無法保證少數類樣本的分類準確率。而由于少數類樣本往往具有重要價值，因此其類別的誤判會造成嚴重的損失。以保險欺詐檢測為例，欺詐行為的數量遠遠小于正常交易的數量，如果不能檢測出欺詐活動，那么將會造成機構資

統計與決策 2023年15期2023-08-23

噪聲主觀評價中的白噪聲標準樣本法及其應用

時,選取確定的聲樣本作為參考聲樣本能得到一致性更高的結果,因此人們更多地采用參考評分法[7-9]。使用該方法時,一般會在全體待評價聲樣本中選取感知特性適中的待評價樣本作為參考聲樣本,因而被稱為待測樣本法。在評價過程中,如果參考樣本與待評價樣本類型相同,可比性強,則被試評分一致性高,可得到準確的評價值。但不同實驗中選取的參考樣本往往不同,使得實驗結果之間不具可比性。為此,Nilsson[10]提出將每個實驗聲樣本的煩惱度表示為粉紅噪聲等效聲級,即用具有相同煩

西北工業大學學報 2022年4期2022-09-09

采用雙層優選策略的主動學習算法及其應用

的限制，采集到的樣本中通常無標簽樣本占比大，有標簽樣本占比少。為充分利用這些樣本信息，半監督學習和主動學習算法相繼提出并應用于圖像分類[1-2]、故障檢測[3-4]、工業過程建模[5-6]等領域。傳統的半監督學習算法通過對無標簽樣本進行標記以擴大有標簽樣本集，以此達到提升模型精度的目的[7-10]。區別于半監督學習算法僅利用無標簽樣本來提升模型性能，主動學習借助專家知識，對優選出的無標簽樣本進行人工標記[11-12]，獲取其真實標簽，并將標記后的樣本加入有

智能系統學報 2022年4期2022-08-19

一種改進的不平衡數據過采樣算法BN-SMOTE?

不同類別之間數據樣本的不均衡分布，其中大多數樣本屬于某種類別，而剩余的樣本屬于其它類別。許多實際的應用領域中都存在不均衡數據集的分類問題，例如醫療診斷［1］、信息檢索系統［2］、欺詐性電話的檢測［3］、直升機故障檢測［4］等。傳統的分類方法傾向于對多數類有較高的識別率，對于少數類的識別率卻很低。因此不均衡數據集的分類問題的研究需要尋求新的分類方法和判別準則。目前最流行的處理不平衡學習問題的方法多是基于過采樣方法來延伸的。在本文中，首先介紹了SMOTE 算法

計算機與數字工程 2020年9期2020-11-02

不平衡分類的數據采樣方法綜述

]中，在幾百萬個樣本基因里可能僅有一個基因是癌癥基因；電信通訊中只有少數通訊是具有欺詐行為的通訊記錄[4-5]；軟件檢測中也只有不到10%的軟件是具有缺陷的[6]。不平衡數據普遍存在于人類生活的方方面面，不僅數據分布廣泛，而且數據比例不均衡。在不平衡數據中數量多的樣本稱為負樣本，數量少的樣本稱為正樣本。正負樣本擁有較大的比例差距，例如：全國1年中雷電天氣(正樣本)天數占全年天數的比例不到10%；新生體檢中患肺結核疾病的學生人數占比不到1‰。在數據分類評價指

重慶理工大學學報(自然科學) 2019年7期2019-08-17

一種基于混合采樣的非均衡數據集分類算法

數據,是指某一類樣本的數量明顯少于另一類樣本的數量,即多數類(負類)和少數類(正類)存在比例失衡[5].在非均衡數據集中少數類可能比多數類包含著更多有價值的信息,在這種情況下,正確識別少數類比正確識別多數類更加重要.隨機森林[6]通過自助采樣[7]獲取樣本集,從而構建決策樹得到很好的分類預測效果,常被用于數據集分類研究[8,9]中.但在實際應用中,因為所獲得的數據常常表現為非均衡數據[10],所以在數據處理方面經常引入欠采樣和過采樣方法,對于非均衡數據集的

小型微型計算機系統 2019年6期2019-06-06

中國生物樣本庫資源管理與應用現狀分析

090）探討生物樣本庫的管理與應用，首先需要明確生物樣本的定義，生物樣本是指從生物個體獲得的物質，生物資源是指融合生物樣本實體、生物分子信息及生物樣本表型數據的綜合資源［1］。生物樣本庫是指所有涉及生物資源收集、處理、保存和使用的機構，包括人類生物樣本庫、動物樣本庫、植物樣本庫和微生物樣本庫。人類生物樣本庫是針對人類生物資源收集、處理、保存和使用的機構，人類生物樣本包括原始樣本如：血液、組織、尿液、唾液、糞便、毛發和皮屑等，還有很多衍生樣本，如細胞、DNA

實用器官移植電子雜志 2017年6期2017-09-10

基于核方法的虛擬樣本構造

基于核方法的虛擬樣本構造劉鵬飛，何良華(同濟大學 電子與信息工程學院，上海 201804)樣本不平衡問題已經成為機器學習領域的研究熱門。虛擬樣本生成方法是一種重要的解決樣本不平衡問題的方法，它通過線性生成少數類樣本來實現。在以往的大多數研究工作中，虛擬樣本的生成是在原始的特征空間中進行的，樣本通常處于線性不可分的狀態，將會導致生成的虛擬樣本丟失幾何特性。因此，文章提出了一種基于核方法的虛擬樣本構造方法，虛擬樣本在線性可分的核空間中生成。樣本不平衡；支持向量

網絡安全與數據管理 2017年3期2017-02-22