數據分布_參考網

面向異構場景的智能運維聯邦學習算法

同訓練節點的數據分布往往是異構的,訓練速度也不同,甚至不同任務的訓練目標也有區別.面對上述情況,基本的模型聚合算法無法保障聯邦學習的訓練速度和模型性能.為了解決這些問題,現有研究工作已經開始嘗試各種聯邦學習的改進方法.例如,文獻[13]基于受限的局部更新進行研究,通過將全局模型拆分為多個僅更新自己部分的參數的局部模型以實現降低通信和計算成本的目標.文獻[14]基于設備分組的方式將參與聯邦學習的設備劃分為不同的組進行本地模型訓練和參數交換以降低通信需求.同時

空間控制技術與應用 2023年4期2023-08-31

箱線圖的識與思:何其形?何由來?何以識?何所教?*

線圖作為呈現數據分布特征的可視化技術,為初中生開展數據分析活動提供了一種簡單而直觀的工具．由于箱線圖是《標準2022》中新增的內容,所以絕大多數一線教師對其并不熟悉．為此,本文將依循箱線圖有何形式、從何而來、如何認識、如何教學的邏輯線索展開分析:首先介紹箱線圖的呈現形式;再對箱線圖的起源與發展進行說明;然后從“數”“形”兩個角度討論箱線圖,加深認識;最后提出關于箱線圖的教學思考．1 何其形:箱線圖的呈現形式《標準2022》中出現的箱線圖,也可稱為盒須圖,緣

中學數學月刊 2023年8期2023-08-15

制動時方向盤抖動問題的研究

動盤端面跳動數據分布直方圖如圖1所示。依據動盤SRO數據及擬合參數，可以判定制動盤端面跳動滿足設計要求，不是影響抖動的根本原因。表1 制動盤上下制動面SRO測量結果 單位:μm圖1 制動盤端面跳動數據分布直方圖3.4 制動盤厚度差分析DTV設計目標：周向厚度差不超過0.007 mm，徑向厚度差不超過0.05 mm。利用千分表測量制動盤厚度差，結果見表2，制動盤厚度差數據分布直方圖如圖2所示。結果顯示，數據分布為偏向型，DTV均值為0.091 mm，大于目標

汽車零部件 2023年1期2023-02-14

基于多通道一維卷積神經網絡的刀具磨損動態預測模型

，采集的信號數據分布存在差異[12]。因此用歷史數據訓練的預測模型在識別另一把刀具的磨損數據時會引起歷史模型失效、泛化性差等問題。針對不同刀具磨損數據分布不一致造成的歷史模型失效問題，本文利用一維卷積神經網絡可自適應提取特征的特點，提出了一種基于多通道一維卷積神經網絡(1D-convolutional neural networks, 1D-CNN)的刀具磨損動態預測模型。首先，通過歷史刀具磨損數據建立初始的一維卷積神經網絡刀具磨損預測歷史模型。在此基礎上

振動與沖擊 2023年2期2023-01-31

關注數據分布，把握統計量本質

力。一、通過數據分布獲得中位數與眾數例1某校根據九年級學生期末考試成績在年級中的位次，從高到低把學生成績評定為5個等第：A+、A、B、C、D，各等第人數分布的扇形統計圖如下。某校九年級期末考試各等第人數分布扇形統計圖（1）由圖可知，這次考試成績的中位數應被評定為______等第；（2）這次考試成績的眾數一定被評定為B或C等第嗎？說明理由?！痉治觥勘绢}結合扇形統計圖考查中位數和眾數的概念。從本題的扇形統計圖中，我們不能獲取每個學生的等第這個精確數據，只能獲取

初中生世界 2022年43期2022-11-29

高能醫用直線加速器的感生放射性輻射場特點及其防護措施探討

生放射場強度數據分布，按照0.5 min、1 min、2 min，直至10 min，統計200 MU/min、400 MU/min、600 MU/min 的感生放射場強度數據。②不同照射時長條件下不同照射面積的感生放射場強度數據分布，不同照射時長條件下不同照射面積（10 cm×10 cm、20 cm×20 cm、30 cm×30 cm、40 cm×40 cm）的感生放射場強度數據分布。③不同照射時長條件下不同部位的感生放射場強度數據分布，設照射中心為地點A

中國醫學工程 2022年9期2022-10-11

基于域適應神經網絡與聯合分布自適應的無監督故障診斷方法

練數據與測試數據分布相同的假設上。然而，當訓練數據與測試數據的數據分布不同時，傳統機器學習方法往往表現不佳[13]。實際生產過程中，機械設備的工作狀態與條件往往是動態變化的，設備所產生的故障診斷數據分布也會隨之改變。另外，在故障診斷中，高質量的帶標簽的數據通常較少，這給故障診斷帶來了較大的挑戰。為了解決故障診斷數據不足的問題，無監督的故障診斷方法受到了廣泛關注，LIU等[14]提出一種分類對抗自編碼器(Categorical Adversarial Aut

計算機集成制造系統 2022年8期2022-09-05

一種結構化道路環境的障礙物檢測方法*

出了一種基于數據分布密度的加權RANSAC（Random Sample Consensus）直線檢測算法以及一種基于動態閾值的DBSCAN（Dynamic Threshold Density-Based Spatial Clustering of Applications with Noise，DT-DBSCAN）聚類算法。實驗表明，本文方法可以滿足無人駕駛系統實時性的要求，經過改進后提高了檢測的魯棒性和準確率。2 感興趣區域提取在結構化道路場景中，無人駕

計算機與數字工程 2022年7期2022-08-26

概念漂移檢測算法綜述

移描述了流式數據分布隨統計時間而發生不可預見的變化.研究概念漂移檢測，有助于提高實際生活中決策和管理模型的預知性，預測和預警模型的準確度.在移動互聯網時代，大量的流式數據涌入人們的生活，不同于傳統的靜態數據，流式數據具有數據量大，實時可變性強的特點.流式數據分為穩定的數據流和動態的數據流，穩定的數據流獨立同分布，而動態數據流不獨立同分布，容易出現概念漂移.因此迫切需要高效的數據分析和機器學習技術支持我們作出預測和決策.隨著產品的更新發展，市場的激烈競爭，顧

伊犁師范大學學報(自然科學版) 2022年1期2022-07-06

基于數據分布一致性的處理器硬件性能計數器復用估計方法

提出一種基于數據分布一致性的估計算法：輪廓線估計法(outline estimation, OLE).具體地，本文貢獻有3個方面：1) 通過柯爾莫戈洛夫-斯米諾夫正態性檢驗(Kolmogorov-Smirnov, KS)[15]，我們發現針對同一硬件事件，同一代碼在單計數器記錄單事件(one counter one event, OCOE)模式與MPX模式下，存在數據分布一致性規律；2) 基于此規律，我們提出輪廓線估計法OLE，通過逆向累積分布實現估計插值

計算機研究與發展 2022年6期2022-06-09

關注數據分布，把握統計量本質

力。一、通過數據分布獲得中位數與眾數例1 某校根據九年級學生期末考試成績在年級中的位次，從高到低把學生成績評定為5個等第：A+、A、B、C、D，各等第人數分布的扇形統計圖如下。某校九年級期末考試各等第人數分布（1）由圖可知，這次考試成績的中位數應被評定為______等第；（2）這次考試成績的眾數一定被評定為B或C等第嗎？說明理由?！痉治觥勘绢}結合扇形統計圖考查中位數和眾數的概念。從本題的扇形統計圖中，我們不能獲取每個學生的等第這個精確數據，只能獲取不同等第

初中生世界·九年級 2022年11期2022-05-30

基于分段邊緣擬合的測風多普勒差分干涉儀成像熱漂移監測方法*

擬合所用各項數據分布特征參數誤差對邊緣檢測的影響,結果表明,邊緣檢測精度主要受數據信噪比和條紋頻率參數準確性的制約,當擬合用條紋頻率參數誤差小于0.5%而其他數據分布特征參數誤差在1%以內,數據信噪比在約35 倍以上時,本文算法可以實現高于0.05 像元的檢測精度.1 引言中高層大氣風場信息可以為建立中間層、低熱層和電離層之間的動量和能量的耦合提供參考,為中長期的天氣預報提供數據支持,為軍事和航天活動的順利開展提供可靠保障[1?7].多普勒差分干涉儀是近年

物理學報 2022年8期2022-04-27

高職學生心理測評一級心理問題數據探析

，多項指標值數據分布的峰度偏離較大。以一級心理問題測評數據為總體。以民族為分組變量，共計6個指標值數據分布相較正態分布平緩，11個指標值數據分布相較正態分布陡峭；以生源地為分組變量，共計16個指標值數據分布相較正態分布平緩，13個指標值數據分布相較正態分布陡峭；以是否獨生為分組變量，共計3個指標值數據分布相較正態分布平緩，4個指標值數據分布相較正態分布陡峭；以性別為分組變量，共計3個指標值數據分布相較正態分布平緩，4個指標值數據分布相較正態分布陡峭；以院系

華東紙業 2022年12期2022-03-12

基于度量學習的無監督域適應方法及其在死亡風險預測上的應用

的困難：整體數據分布偏移、類別之間的數據分布偏移以及時序數據的多樣性和復雜性.其中整體數據分布偏移與類別之間的數據分布偏移如圖1所示：Fig. 1 Data distribution shift圖1 數據分布偏移整體數據分布偏移指的是源域和目的域整體的數據分布往往不相同.例如，在重癥監護室內收集到的數據中可能老年人占據大多數.圖1中老年患者A與青年患者B的生命體征不相類似，表示以老年患者為主體的源域和以青年患者為主體的目的域的數據分布是有差異的.以醫療領域

計算機研究與發展 2022年3期2022-03-09

動車組受電弓可靠性數據分析

可靠性、故障數據分布函數、失效率、可靠度等可靠性指標都通過可靠性數據分析獲得?？煽啃詳祿治龅牧鞒倘鐖D1所示。圖1 可靠性數據分析的流程2.2 數據分布類型對產品進行可靠性數據分析，需要了解失效數據的分布類型，根據分布類型得到可靠性指標。常見的數據分布有正態分布、指數分布、威布爾分布等[9]，其中，威布爾分布對各種失效數據的處理能力很強，可以描述早期失效、偶然失效和耗損失效這3種類型[1]。威布爾分布函數如式（1）所示。其中，t為故障時間；m為形狀參數；η

鐵路計算機應用 2021年12期2022-01-04

分布式數據庫系統的數據分布策略分析

數據庫系統的數據分布策略，研究中選擇以分布式數據庫系統架構為切入點，給出數據分布的具體策略，最后結合實際情況給出分布式數據庫系統的安全管理措施。關鍵詞：分布式數據庫;數據分布;安全控制中圖分類號：TP311? ? ? ? 文獻標識碼：A文章編號：1009-3044（2021）20-0036-02云計算網絡是互聯網信息技術發展的重要產物，主要是利用現代計算機系統，以互聯網為媒介對數據進行收集、整合和分析，為用戶提供更具針對性的服務。由于網絡媒介的存在，人們獲

電腦知識與技術 2021年20期2021-09-26

基于熵的過采樣框架

用于重新平衡數據分布，使標準算法以用戶的目標為中心[8]。特別地，數據級方法可以分為欠采樣多數類實例[9]和過采樣少數類實例[10]兩種方案。欠采樣方法通過減少多數類實例的數量來創建原始不平衡數據集的平衡子集。過采樣方法通過增加少數類數據實例的個數來平衡數據集。Chawla 等人[11]提出一種基于線性插值的過采樣算法SMOTE。SMOTE 算法的主要思想是隨機選取一些少數類實例作為種子，并選取種子的k個最近鄰中的一個或多個少數類實例，與其結合為鄰居對適應

計算機工程與應用 2021年13期2021-07-14

基于生成對抗網絡的空中目標圖像生成算法研究

距離衡量真實數據分布和生成數據分布的距離，能夠在任何情況下為生成器提供梯度信息以更新參數。目前，生成對抗網絡在圖像生成、圖像轉換、圖像超分辨率等［6］領域取得了巨大的成功?？罩心繕朔N類繁多，并且各種機型姿態各異，公開的數據集較少，因此針對空中目標圖像生成的難度較大。本文基于DCGAN架構，通過優化判別器損失函數，提高了模型訓練穩定性，同時提高了生成圖像的質量。1 基于DCGAN模型的圖像生成算法DCGAN 首次將GAN 和卷積神經網絡結合起來，同時設計了一

空天防御 2021年2期2021-06-24

不同替代計量數據庫數據政策與數據數值的比較研究*

數據庫傾斜的數據分布則表明，這個數據庫總是比其他數據庫提供更多或更少的替代計量事件。2 不同替代計量數據庫數據政策的對比分析結果NISO從透明性、可重復性和準確性三個方面，提出了替代計量數據質量的建議性規范和標準[3]，替代計量數據庫服務商分別應對NISO標準做出了回應和調整，建立了相關數據政策，對數據庫的數據處理方式、數據質量的保障方法、數據庫信息等進行公示，這為對比不同替代計量數據庫數據政策，提供了依據和數據支撐。2.1不同替代計量數據庫保障透明性數據

情報雜志 2021年5期2021-05-29

基于RFID的智能化教室座位占空感知系統設計與實現*

到的數據進行數據分布圖繪制，數據分布情況如圖3所示。從數據分布情況來看，采集到的數據分布比較穩定，且大部分數據處于64～69 dBm之間。圖3 無人情況下的RSSI數據分布第二組采集的數據結果如表2所示，采集時讀寫天線距離應答電子標簽4 m，電子標簽布置在一個座位的靠背上，并且有一個人端坐在座位上，采集1 000個數據。繪制的數據分布如圖4所示，大部分數據處于47～51 dBm之間。表2 有人情況下的RSSI數據統計圖4 有人情況下的RSSI數據分布對采集

中國教育技術裝備 2021年12期2021-03-24

用于蘋果葉病分類的領域自適應方法研究*

像有著不同的數據分布。對某種數據分布的樣本識別效果良好的網絡模型，用于其他數據分布的數據識別時準確率可能會嚴重降低。為了解決該問題，領域自適應方法應運而生，該方法是一種遷移學習方法，目的是將在源域上學到的分類識別能力遷移到目標域上。領域自適應方法根據數據分布的不同將訓練數據集分為帶標簽的源域和帶少量或不帶標簽的目標域。領域自適應的思想就是將不同領域數據集映射到同一個特征空間，使其特征分布盡可能相近，從而可以將源域數據集的識別能力遷移到目標域數據集上?；陬I

智慧農業導刊 2021年12期2021-03-12

Ceph云存儲中基于強化學習的QoS優化

如何將海量的數據分布在不同的存儲節點上，且盡可能分布均衡，解決這個問題的關鍵就是要設計一個好的數據分布策略，其對云存儲系統的QoS性能起著至關重要的作用。以一個具體的云存儲系統為基礎展開研究，Ceph作為最近幾年熱門研究的云存儲系統，不僅具有高擴展性、高性能和高可靠性的特點，而且實現了集群真正意義上的無中心節點。但是，Ceph的數據分布算法CRUSH(controlled replication under scalable hashing)存在數據在設備

計算機工程與設計 2021年2期2021-02-25

軸承尺寸檢測數據的異常值檢測與數據處理研究*

行實驗。檢測數據分布與頻率分布直方圖，如圖4所示。圖4 檢測數據分布與頻率分布直方圖根據圖4，通過計算可得到檢測數據的均值μ=150.947 0和標準差σ=0.942 2，則正態分布的概率密度曲線f(x)為：(12)檢測數據箱型圖和概率密度曲線f(x)如圖5所示。圖5 檢測數據箱型圖和概率密度曲線f(x)當傳感器檢測到卡盤處時，會得到如圖4(a)中的上部異常數據。由圖5(a)觀察可知，箱型圖可以檢測出這類異常數據以及其他原因所造成的異常值。由圖4(b)與圖

機電工程 2021年2期2021-02-25

商品條碼實驗室能力驗證統計方法應用分析

目以及不同的數據分布，需要考慮相關的標準和要求，選擇合適的能力驗證處理方法，否則會造成結果不準確、將“滿意”結果誤判成“不滿意”等問題。能力驗證能力評定方法常用的能力驗證統計方法為Z比分數法，本文采用此方法對不同數據進行分析，其目的是依據能力評定準則將數據的偏離進行定量分析，且此統計方法不需要做任何處理與變換。Z比分數定量結果計算如下：式中：Z為Z比分數值；x為參加能力驗證實驗室結果；X為數據指定值；σ為能力評定標準差。使用Z比分數對參加實驗室進行能力評定

中國自動識別技術 2021年6期2021-02-14

基于WGAN的不均衡太赫茲光譜識別

數據符合真實數據分布，并且能有效增加數據量。針對目前太赫茲光譜數據庫中各物質數據量不均衡問題，本文提出一種基于WGAN的不均衡太赫茲光譜識別方法。首先利用生成對抗網絡學習真實太赫茲光譜數據分布，在WGAN達到納什均衡后用生成數據擴展太赫茲光譜數據集，使之達到類別均衡，最后采用多分類支持向量機對太赫茲光譜數據進行分類識別。1 基于WGAN的太赫茲光譜識別方法1.1 基礎理論太赫茲光譜數據為實數值，采用GAN訓練數據，模型會出現梯度不穩定和多樣性不足等問題[1

光譜學與光譜分析 2021年2期2021-02-03

改進的云存儲系統數據分布策略

進袁承儲系統數據分布策略。關鍵詞：云存儲;數據分布;策略;分析中圖分類號：TP333?? 文獻標識碼：A?? 文章編號：1672-9129（2020）16-0048-01隨著計算機技術、信息技術等的快速發展，以及人們生活水平的大幅度提升，互聯網在我國迅速普及，已經深入千家萬戶，對人們日常生產生活有著極為深刻的影響，而現代存儲技術的快速發展，網絡存儲系統的進一步優化，有利于網絡新型技術的進一步發展。云存儲系統主要是以傳統的分布式存儲技術為前提與基礎，再充分利

數碼設計 2020年16期2020-12-08

基于暫態零序電流偏度特征的小電流接地系統單相接地故障區段定位

態零序電流的數據分布偏度特征分析暫態零序電流是由線路電容放電引起的.事實上，暫態零序電流放電過程迅速，呈現高頻特性.在高頻暫態零序電流分析中可以忽略消弧線圈的補償作用[16-17].故障區段兩端的數據分布偏度特征，如圖2所示.由圖2可知，在故障點上游網絡中，故障區段左側檢測點暫態零序電流流向母線，其正常線路的暫態零序電流離開母線.在故障點下游網絡中，故障線路的暫態零序電流是離開母線.因此，故障區段兩側檢測裝置的暫態零序電流具有相反的極性.健全區段兩側檢測裝

東北電力大學學報 2020年4期2020-10-16

自適應稀疏表示引導的無監督降維

常以保持某種數據分布信息(如幾何信息和統計信息等)為準則[8]．然而，在高維場景中，如何有效挖掘數據分布信息是非常困難的．因此，相比其他兩種降維方法，無監督降維更具挑戰性．根據保持的數據分布信息的不同，無監督降維又可分為保持數據分布的局部信息降維和保持數據分布的全局信息降維兩種．經典的保持數據分布局部信息的無監督降維方法有局部線性嵌入(locally linear embedding, LLE)[9]和局部保持投影(locality preserving 

深圳大學學報（理工版） 2020年4期2020-07-17

數據分布特性對空調系統能耗預測的影響

相互獨立，即數據分布服從正態分布[14]。事實上，由于數據之間本身具有相關性，數據的分布往往并不服從正態分布，如果未對數據進行任何處理，直接作為能耗預測的輸入條件，則能耗預測的結果會存在一定的誤差。相關方面在當前的研究中鮮有提及。從數據的分布特性出發，對不服從正態分布特性的原始數據進行適當的數據變換處理，作為提升能耗預測效果的重要技術手段。對實際的空調系統能耗進行預測，發現數據的分布特性對能耗預測影響巨大，合適的數據變換能大幅提升機器學習算法能耗預測的效果

科學技術與工程 2020年14期2020-06-23

HDFS數據動態分布設計與實現

對HDFS的數據分布進行優化、提高HDFS的數據存取速度具有重要意義。論文根據數據被讀寫的頻率確定數據應存放的存儲介質，解決數據在不同讀寫性能的存儲介質間的分布與其熱度無關的問題，期望能為大數據在高效存取與處理、多種數據及多種應用并存且并發服務等方面提供一些解決方案。在對數據分布策略進行優化之前將分析各類數據的時間和空間訪問特征，將其與多種特性的存儲設備關聯，達到將數據存儲在最合適的位置的目的，使之能夠被快速地獲取和存儲?；谪撦d訪問的數據管理策略在發揮S

綠色科技 2020年6期2020-06-15

不平衡數據的下采樣方法研究?

其根本問題是數據分布不均衡導致很多傳統機器學習的分類算法性能大大減弱。因為大多數分類算法事先假設訓練集具有相等的誤分類代價或平衡的數據分布［5］，所以這些算法在面對相對復雜的不平衡數據集時便不能有效地反應出數據的分布特征。如此一來，當這些傳統分類算法在樣本不平衡的數據集上訓練時，經常會出現分類面偏倚的現象，使得最終無法獲得令人滿意的分類效果，甚至會出現模型完全失效的糟糕情況［6～7］。不平衡學習因其重大研究意義而在機器學習和數據挖掘領域備受矚目，多個業內主

計算機與數字工程 2019年9期2019-10-08

基于Hi-c數據的酵母染色體三維結構重構

色體Hi-c數據分布擬合函數模型首先，需要對根據酵母染色體交互數據建立統計分布模型，為此，分別對酵母16條染色體的Hi-c數據分布情況進行高斯擬合，對每條染色體的數據我們都分別與高斯8個線性組合核函數進行擬合，再最終選取出擬合指標SSE,RMSE,R-square最優的高斯核函數，最終選取核函數的擬合指標結果如表1所示。表1 16條染色體擬合情況表Table 1 Fitting of 16 chromosomes在最終確定了每條染色體擬合出對應的高斯核函數

生物信息學 2019年3期2019-09-04

基于馬氏距離的重采樣方法在流量識別中的應用?

現網絡流量中數據分布的不均衡問題會嚴重影響流量識別的準確率。這種不均衡通常會導致機器學習算法偏向于流量數據中多數類的流量樣本。例如：文獻[3]指出網絡流量數據中HTTP流量的數量通常會遠遠超過P2P和VoIP流量的數量，而機器學習算法通常會將所有流量識別為HTTP流量以實現高準確率。在這種情況下，機器學習算法對于少數類流量的識別準確率非常低。然而，在許多情況下這些少數類流量(例如P2P和VoIP流量)卻是人們更加關心的。目前，解決數據分布不均衡問題的方法可

中國海洋大學學報（自然科學版） 2019年8期2019-06-15

數學能力月月賽（12）

0的樣本,其數據分布在2,18[ ]內,將樣本數據分為四組：2,6[ ),6,10[ ),10,14[ ),14,18[ ],得到頻率分布直方圖如圖1所示,則下列說法不正確的是( )。A.樣本數據分布在6,10[ )的頻率為0.32B.樣本數據分布在10,14[ )的頻數為40C.樣本數據分布在2,10[ )的頻數為40D.估計總體數據大約有10%分布在10,14[ )4.有一個容量為45的樣本數據,分組后各組的頻數如下：[12.5,15.5],3;(15

中學生數理化·高一版 2019年12期2019-01-11

基于馬氏距離的重采樣方法在流量識別中的應用?

現網絡流量中數據分布的不均衡問題會嚴重影響流量識別的準確率。這種不均衡通常會導致機器學習算法偏向于流量數據中多數類的流量樣本。例如：文獻[3]指出網絡流量數據中HTTP流量的數量通常會遠遠超過P2P和VoIP流量的數量，而機器學習算法通常會將所有流量識別為HTTP流量以實現高準確率。在這種情況下，機器學習算法對于少數類流量的識別準確率非常低。然而，在許多情況下這些少數類流量(例如P2P和VoIP流量)卻是人們更加關心的。目前，解決數據分布不均衡問題的方法可

中國海洋大學學報（自然科學版） 2019年8期2019-01-04

基于相位分辨統計技術的局部放電類型分析

判定相位分辨數據分布的不對稱程度以及方向，計算方法如下文所示[3][4]。2 相位分辨數據的統計參量的計算方法2.1 （φ-q）相位分辨數據統計參量的計算方法圖1 （φ-q）相位分辨數據統計分析示意圖局部放電的脈沖周期與電網工頻周期對應，每個周期包含0-360度相位角，局放測量儀將0-360度相位角劃分成一定數量的相位窗數，并在每個相位窗數上記錄當前窗的脈沖幅值，生成（φ-q）相位分辨數據,以相位角φ為橫軸，以局放電荷幅值q為縱軸，可以生成（φ-q）二維圖

中小企業管理與科技 2018年29期2018-11-06

融合批規范化編解碼網絡架構的道路分割

習一個變化的數據分布，模型參數選取不穩定、調優難度大的問題，本文選取VGG16網絡和FCN32網絡模型分別組成道路分割的編解碼架構[18]，在每層卷積計算后加入批規范化計算[19]，學習一個比較穩定的參數數據分布。在KITTI數據集上的道路數據集實驗，結果表明本文設計的編解碼網絡架構對無人車駕駛領域的可行駛區域檢測、分割有著較高的魯棒性。1 網絡模型的批規范化批規范化和卷積神經網絡中的“白化”思想接近，在神經網絡的訓練過程中，深層神經網絡在做非線性變換前的

現代計算機 2018年18期2018-07-18

DoFFT：一種基于分布式數據庫的快速傅里葉變換方法

方面，集群中數據分布[7]也可能影響算法性能。Greenplum將數據分布到各個節點中，當在某個節點上執行UDF時，由于節點的負載等不同，會導致不同的性能。為了使UDF算法執行性能達到最優，本文做數據重分布。文獻[8]根據網絡傳播元組數目，重分布節點元組，從而提高表連接性能。本文是根據當前節點的數據分片大小、負載等因素重分布元組數據，能夠較大地提高FFT的執行效率。1 預備知識1.1 Greenplum分布式數據庫分布式數據庫[9-10]是通過網絡將物理上

計算機與現代化 2018年6期2018-06-28

應用語言學研究中的圖示與穩健統計方法

和最大值提供數據分布尾巴的信息。中位數反映分布的中心。上、下樞距離反映分布的展度(spread)；利用上、下樞構建的上、下圍(upper fence，FU；lower fence，FL)用于診斷異常值(outlier)。中位數以及上、下樞的位置反映數據分布的偏度。換言之，五數概括涵蓋變量的四個主要特征：中心、展度、非對稱性(asymmetry)和異常值(Hintze et al.，1998：181)。箱圖的基本構造如圖1所示。圖1箱圖構造圖1是水平放置的箱

外國語文 2017年6期2018-01-19

基于數據密度感知的非平衡數據模糊聚類方法

方法.方法將數據分布密度特征嵌入模糊聚類初始化過程中，用于定位初始聚類中心點，避免了少數類中心點位置的消失，在此基礎上進一步設計了基于密度的模糊聚類優化更新方法.經數據集分析驗證，本研究方法能夠有效解決非平衡數據分類中少數類消失問題，并且在聚類算法性能上比傳統方法有明顯提高.模糊聚類；分布密度；非平衡數據0 引言模糊聚類方法(fuzzy C-means，FCM)，是一種典型的非監督學習方法，其在傳統聚類方法的基礎上，模糊聚類方法引入隸屬度概念，刻畫了每個

成都大學學報（自然科學版） 2017年4期2018-01-05

基于局部密度的快速離群點檢測算法

OF不能適應數據分布異常情況離群點檢測，INFLO算法雖引入反向k近鄰點集有效地解決了數據分布異常情況的離群點檢測問題，但存在需要對所有數據點不加區分地分析其k近鄰和反向k近鄰點集導致的效率降低問題。針對該問題，提出局部密度離群點檢測算法——LDBO，引入強k近鄰點和弱k近鄰點概念，通過分析鄰近數據點的離群相關性，對數據點區別對待；并提出數據點離群性預判斷策略，盡可能避免不必要的反向k近鄰分析，有效提高數據分布異常情況離群點檢測算法的效率。理論分析和實驗結

計算機應用 2017年10期2017-12-14

典型半監督分類算法的研究分析

類算法可通過數據分布假設進行分類。為此，在對比分析采用不同假設的半監督分類典型算法的基礎上，以最小二乘方法(Least Squares，LS)為基準，研究比較了基于聚類假設的轉導支持向量機(Transductive Support Vector Machine，TSVM)和基于流行假設的正則化最小二乘法(Laplacian Regularized Least Squares Classification，LapRLSC)，并同時利用兩種假設的SemiBoo

計算機技術與發展 2017年10期2017-10-23

SQL執行計劃與直方圖關系研究①

大小、規模、數據分布狀況等的一類信息.比如,表的行數、塊數、平均每行的大小、索引的leaf blocks、索引字段的行數、不同值的大小等,都屬于統計信息.CBO正是根據這些統計信息數據,計算出不同訪問路徑下,不同join方式下,各種執行計劃的成本,最后選擇出成本最小的執行計劃[4].在oracle中直方圖是一種對數據分布質量情況進行描述的工具.它會按照某一列不同值出現數量的多少,以及出現的頻率高低來繪制數據的分布情況,以便能夠指導優化器根據數據的分布做出正

計算機系統應用 2017年10期2017-10-20

云環境下影響數據分布并行應用執行效率的因素分析

云環境下影響數據分布并行應用執行效率的因素分析馬生俊*，陳旺虎，俞茂義，李金溶，郟文博(西北師范大學計算機科學與工程學院，蘭州 730070) (*通信作者電子郵箱1780761723@qq.com)云環境下，類似MapReduce的數據分布并行應用被廣泛運用。針對此類應用執行效率低、成本高的問題，以Hadoop為例，首先，分析該類應用的執行方式，發現數據量、節點數和任務數是影響其效率的主要因素；其次，探討以上因素對應用效率的影響；最后，通過實驗得出在數

計算機應用 2017年7期2017-09-22

基于約簡策略與自適應SVDD的無線傳感網絡離群檢測方法*

然后利用基于數據分布密度準則和數據流時間相關性自適應更新決策模型。針對Intel Berkeley數據集及SensorScope System數據集的仿真實驗表明,RASVDD的離群檢測正確率TPR(True Positive Rate)平均達98%,誤報率FPR(False Positive Rate)平均僅為1%,并且與傳統的SVDD算法相比,RASVDD 決策模型訓練時間減少了20%以上。無線傳感網絡;數據約簡;SVDD;離群檢測;仿真21世紀電子信

傳感技術學報 2017年9期2017-09-22

無線電通信仿真的大數據分布管理

通信仿真的大數據分布管理杜 乾中國電信股份有限公司樂山分公司，四川 樂山 614000隨著中國無線電行業的不斷高速發展，無線電通信仿真的數據分布管理也在不斷提升。高層體系結構俗稱HLA，具體在應用過程中可以有效地建立起支持建模與仿真的互操作性與可用性?；贖LA這種新型仿真體系結構，對無線通信仿真的數據分布管理進行了細致的研究，并以此描繪出一種簡化式的空中交通控制劇本，將其作為無線電通信仿真，設計出無線電通信的路由空間，并提供屬性表及互操作參數表。無線電；

移動信息 2017年3期2017-07-31

基于迭代填充的內存計算框架分區映射算法

擴展區內，在數據分布局部感知后再執行擴展區迭代式的多輪數據分配，根據Reduce端已分配數據量建立適應性的擴展區映射規則，對原生區的數據傾斜進行逐步修正，以此保障數據分配的均衡性。實驗結果表明，在不同源數據分布條件下，算法均提高了作業Shuffle過程分區映射合理性，縮減了寬依賴Stage的同步時間，提高了作業執行效率。內存計算；數據均衡；擴展式分區；迭代式映射0 引言近年來，利用內存的低延遲特性改進并行計算框架性能成為新的研究方向。內存計算框架避免了頻繁

計算機應用 2017年3期2017-05-24

腦卒中伴房顫的全球發生率

連續性患者。數據分布于19個國家的19個腦卒中中心，急性缺血性腦卒中患者在各自地區被檢視。腦卒中伴房顫定義為缺血性腦卒中伴隨任何病史的房顫，或者索引腦卒中的評估中發現房顫。在所有2144名具有近期缺血性腦卒中患者中，腦卒中伴房顫的發生率為28%，排名順序從菲律賓的11%到愛爾蘭的45%。腦卒中伴房顫患者平均年齡75歲，對比于非腦卒中伴房顫為64歲(PPerera KS, Vanassche T, Bosch J, et al. Global survey

中國康復 2017年1期2017-01-12

基于相對密度的加權一分類支持向量機

予權值．位于數據分布邊緣的樣本具有較低的相對密度,而位于數據分布內部的樣本具有較高的密度．對于位于數據分布內部的樣本賦予較大權值,位于數據分布邊緣的樣本賦予較小的權值．由于噪聲通常位于數據分布外部,因此本文的方法可以賦予噪聲較小的權值,從而使算法對于噪聲更加魯棒．人工數據集和UCI標準數據集的實驗結果表明,該法優于用libsvm實現的一分類支持向量機方法．加權一分類支持向量機; 相對密度; 一分類0 引言支持向量機由Vladimir Vapnik等于20世

淮陰師范學院學報（自然科學版） 2016年4期2017-01-10

一種基于給定標準對數據進行正態修正的算法

況可能需要對數據分布進行正態化調整。本文研究的內容是在給定平均值和標準差的前提下，將樣本數據的分布修正為理想正態曲線的一種方法，此方法可適用于數據信息偏離正態分布的各種情況，比如土壤元素、年降水量等?！娟P鍵詞】數據分布給定標準正態修正1 引言如果數據的產生過程受到獨立隨機因素的影響，那么數據的分布規律應當符合正態分布，然而在實際的測量與評價過程中，由于人為因素的影響，最終采集的數據可能偏離了正態分布，這時就需要對數據進行正態修正，以使其恢復本來的樣子。

電子技術與軟件工程 2016年8期2016-07-10

試論大數據之“大”

率近似正確；數據分布；數據清洗；數據價值；例證法Abstract：Big data provides a brand-new angle and method of perceiving the world. Like mathematics and physics， big data analysis is， in principle， a methodology based on observation and empirical induction，

中興通訊技術 2016年2期2016-03-24

金融投資問題

比較直觀的對數據分布作出判斷。模型V對第一問、第二問的數據分布擬合規律做出了理論推導，并為第三問一般形式的問題解決提供了初步方法。4 結論針對問題一，建立了模型I與模型II。模型I的離散型隨機變量模型的結果是：在T=1時的離散型隨機變量模型解得損失數額超過10萬元的可能性為3.1373%，以95%的置信度能保證損失的數額不會超過9萬元；若一個周期內的損失超過10萬元的可能性不大于5%，初始投資額M的最大值為1111.11萬元。模型II的連續型隨機變量模型的

科技視界 2015年30期2015-10-22

云環境下基于隨機間隔的保序加密算法

針對隱藏原始數據分布的問題,提出一種改進型的基于隨機間隔的保序加密算法(OPERI)。算法首先將原始數據域映射至新的數據域中以達到隱藏原始數據分布和改變數據分布概率的目的,其次通過引入隨機間隔對數據進行加密,支持對密文數據的關系運算。安全性分析和實驗結果表明:OPERI算法在已有安全性基礎上能夠抵御統計型攻擊,并能高效實現密文關系運算。保序加密;隱私保護;云計算;統計型攻擊隨著云計算的快速發展,人們越來越關注隱私安全問題。目前解決用戶隱私安全問題的常用方法

太原理工大學學報 2015年6期2015-06-23

固態硬盤混合存儲數據庫的數據分布優化算法

向混合存儲的數據分布優化策略，最理想的情況就是在運行時能夠自適應，根據應用特征自動調節數據分布。本文提出一種面向混合存儲的OLTP數據庫數據分布自適應優化算法，可自動適應應用的特征，并通過觀測判斷各個數據元素的性能，從而在SSD和磁盤之間自動形成理想的數據分布。2 相關工作2．1 閃存和固態硬盤隨著閃存在容量上的迅速增長和成本的降低，以閃存作為存儲介質的新型固態硬盤已經在企業得到實際的應用。SSD最大的優點就是隨機讀寫性能高，較普通磁盤的讀寫性能要高出1個

計算機工程 2015年4期2015-01-02

面向海量新聞數據的HDFS節能存儲策略

致整個集群的數據分布出現不均衡的情況，特別是有新節點加入時，新節點和原有節點上的分布不均，新增節點需要經歷較長時間甚至人工操作，才能與現有節點實現數據均衡分布，這樣在分配MapReduce任務時，新節點可能分配不到可執行的任務，浪費新增節點的計算和存儲能力［9－10］。另一方面，不同文件間的訪問規律存在巨大差異，如果使HDFS集群中所有數據節點都處于活躍狀態，勢必造成能耗的增加，導致大量電能被浪費［11］。在實際應用中，新聞類數據的訪問具備一定訪問規律，可

計算機工程 2015年12期2015-01-01

Log-transformation and its implications for data analysis

新的不依賴于數據分布的方法：如廣義估計方程（GEE）。假設檢驗，離群值，對數正態分布，正態分布，偏度Summary:The log-transformation is widely used in biomedical and psychosocial research to deal with skewed data. This paper highlights serious problems in this classic approach for

上海精神醫學 2014年2期2014-12-09

對數據分布特征測度的分析

示后，我們對數據分布的類型和特點就有了一個大致的了解，但這種了解只是表面上的，還缺少代表性的數量特征值準確地描述出統計數據的分布。對統計數據分布的特征，可以從三個方面進行測度和描述：一是分布的集中趨勢；二是分布的離散程度；三是分布的偏態和測度。這三個方面分別反映了數據分布的測度特征。關鍵詞：數據分布；特征測度；分析中圖分類號：F270 文獻標識碼：A文章編號：1005-913X（2014）08-0192-01一、集中趨勢的測度（一）分類數據：眾數眾數主要用

北方經貿 2014年8期2014-09-21

云中面向圖像并行計算的數據分布策略

的，不合理的數據分布會影響系統整體的任務響應時間。如何設計計算任務的數據分布算法，以提高數據處理效率，并使云中各節點負載均衡，是一個挑戰性的研究課題［2］。隨著科學技術的高速發展，許多大規模工程和科學計算問題都對計算速度提出了越來越高的要求。例如圖像并行處理［3］。它是一種綜合的數字信息處理技術，是大數據量數字圖像在計算機計算領域中的一項需長遠發展的技術，其主要目的是實現圖像處理的實時性和快速性。隨著圖像分辨率的提高，每一景圖像的數據量增加，計算量也相應增

計算機工程與設計 2013年4期2013-09-11