?

科研行為主體信用評分卡技術研究

2022-08-06 10:14劉君亮
科技創新與應用 2022年22期
關鍵詞:科研人員概率信用

劉君亮,毛 陽

(北京交通大學,北京 100044)

信用有廣義、狹義之分。廣義的信用從社會道德層面上表現為自覺遵守社會規則或人與人之間的約定?,F代市場經濟條件下的信用概念是狹義的信用,狹義的信用是指建立在信任基礎上,不用馬上付款或擔保就可獲得資金、物資或服務的能力??蒲行庞檬菑V義社會信用在科研管理領域應用的產物,主要是指從事科研活動人員的職業信用,是對科研人員在從事科研活動時遵守正式承諾、履行約定義務、遵守科研界公認行為準則的能力和表現的一種評價。隨著國內科研投入逐年增加,科研項目和論文的產出也逐年遞增,但同時科研人員學術不端的案例也在逐漸增多,為了保障國家的科研環境和聲譽,科研誠信建設研究急需加強。

國內科研信用研究多采用專家打分法、AHP 和模糊綜合評價法進行信用評價,常用的個人信用評價模型方法研究主要集中在金融信貸領域,在科研人員信用研究方面較少。信用評分卡模型是一種成熟且廣泛應用于金融風險控制領域信用風險評估的模型方法,其原理是將模型變量WOE 編碼方式離散化之后運用Logistic 回歸模型進行的一種二分類變量的廣義線性模型。利用信用評分卡技術建立基于科研人員信用大數據的信用評價模型,從而將科研人員信用信息轉化為科研信用評價依據,可以解決鐵路科研活動中的信息不對稱問題,既可以為鐵路科研項目的審核提供依據,也可以促進科研人員信用水平透明化,有利于對鐵路科研誠信問題進行統一規范與治理,因此深度挖掘科研人員信用信息,開發基于信用大數據的科研人員信用評分卡模型,具有十分重要的理論和現實意義。

1 科研人員信用指標體系

對科研人員信用數據進行建模之前,需要解決科研人員信用量化指標的選取問題,科研人員信用量化指標需要用數值型指標或分類型指標抽象出一個科研人員的科研信用信息全貌,通過查閱國內外文獻和相關政策文件,得到科研人員信用量化指標可分為兩類,一類是科研人員科研資歷信用指標,另一類是科研人員科研歷史信用指標,具體指標見表1。

表1 科研人員信用量化指標

2 數據預處理

在用數據進行建模之前還需對科研人員信用數據進行預處理,使數據滿足建模的要求,數據預處理主要的技術環節如下。

2.1 樣本數據的獲取

從相關科研數據庫獲取科研人員信用指標的相關數據。

2.2 數據清洗

數據清洗是指將獲取的原始數據轉化為可用作模型開發的格式化數據,首先是缺失值處理。缺失值處理通常有兩種處理方法,直接刪除含有缺失值的樣本或者是根據樣本之間的相似性或者相關關系填補缺失值。

缺失值處理完后進行異常值的處理。異常值是指某些樣本明顯偏離大多數樣本數據,比如科研人員的年齡為0 時,通常認為該值為異常值。異常值的檢測一般采用箱線圖。

2.3 探索性數據分析

在建立模型之前,我們通常會對數據進行探索性數據分析,該步驟的目的是了解樣本數據的大概總體情況,即對已有的數據在盡量少的先驗假定下進行探索。常用的探索性數據分析方法有直方圖、散點圖和箱線圖等。

2.4 指標的分箱和編碼

把變量進行分組處理,即分箱或者離散化,之后用WOE(Weight of Evidence)進行編碼,作用在于對指標進行分箱和編碼,不僅可以避免指標無意義的波動給預測帶來的波動,還能避免極端值的影響。WOE 的計算公式為:

其中,yi代表第i 組失信科研人員數量,ys代表所有失信科研人員數量,ni代表第i 組沒有失信科研人員數量,ns代表所有沒有失信科研人員數量,WOE 表示的含義即是“當前分組中失信科研人員占所有失信科研人員的比例”和“當前分組中沒有失信科研人員占所有沒有失信科研人員的比例”的差異。計算得出WOE 后自變量指標可用WOE 值編碼取代。

3 信用模型建立

理想的科研人員信用評價模型應該是可以輸入所有的有關該科研人員信用的各方面維度的特征,并預測出科研人員所屬于的類別,即科研人員是否會失信。Logistic 回歸模型主要用來計算一組自變量與離散型因變量間的關系,應用在個人信用評價方面有比較高的精準度,常用于信用問題的二分類預測。離散型因變量是指取值為0,1,2……等離散值的變量,在個人信用評估的內容中,因變量是取值分別為0 和1 的二元變量,通常用y 表示,當科研人員出現失信行為記為y=1,沒有出現失信行為則記為y=0。

考慮具有m 個獨立向量的向量x=(x1,x2,x3,…,xm),設條件概率P(y=1|x)。

為根據觀測量相對于某事件發生的概率,Logistic模型可以表示為:

在x 條件下,y 不發生的概率(即y=0)的概率為:

所以,科研人員失信與科研人員不失信的概率之比為:

這個比值記為優勢比,實際上可以認為是失信人與非失信人的發生比。對其取自然對數,則得到:

Logistic 回歸模型最終的目的是要求解β1,β2,…,βm這組權值,而β1,β2,…,βm的估計,則需要使用極大似然估計來進行。

4 模型分析

4.1 性能驗證

模型性能的驗證,是信用評分卡模型開發的十分重要的一個環節,常見的技術方法是ROC 曲線。ROC曲線的全稱是受試者工作特征曲線(Receiver Operating Characteristic curve),又稱感受性曲線(sensitivity curve),是隨著檢測閾值變化的檢測概率對假報警概率的關系曲線,設某概率值P 作為閾值,如果小于閾值則判斷為“失信人”,大于閾值則判斷為“非失信人”,計算基于概率值P 的TPR 和FPR,TPR 為真陽性率,是樣本中模型正確判斷為“失信人”的人數占所有實際為“失信人”的人數的比例,FPR 為偽陽性率,是樣本中模型錯誤判斷為“失信人”的人數占所有實際為“非失信人”的人數的比例,接著調整閥值P,得到閾值不一樣時的TPR 和FPR,把TPR 當作縱軸,FPR 為橫軸,得到的ROC 曲線圖如圖1 所示。

圖1 ROC 曲線圖

ROC 曲線朝左上角凸的越多,曲線下面積AUC(Area Under Curve)越大,就代表這個模型效果越好,可以計算ROC 曲線下面積即AUC 來量化分類模型的性能。AUC 的值在0 到1 之間,當分類模型為一個完全隨機模型時ROC 為一條直線,此時AUC=0.5,所以通常具有實用價值的分類模型的AUC 值會大于0.5,優秀模型的AUC 值通常為0.7 到0.9 之間,如果分類模型的AUC 值在0.9 以上,可能是異常變量使得AUC值偏高。

4.2 評分轉換

Logistic 回歸模型的結果是回歸式,其模型輸出結果是科研人員失信與否概率比值的對數值,不易于理解和掌握,實際應用中必須把概率轉換為信用分數,主要方法為對科研人員失信與否概率比值的對數值進行線性變換再加上一個常數,使得最終的信用評分落在一個事先設定好的分數范圍內,分數越高,科研人員的信用越好,轉換公式為:

其中,p 表示科研人員失信概率,α 表示線性變換的系數,通常包括一個對數值,β 表示調整常數,使得最終的信用評分落在目標分數范圍內。

5 應用展望

通過以上方法建立的科研人員信用評分卡模型,可以在以下方面進行廣泛應用。

5.1 科研項目基金審批自動化

隨著科研人員科研信用數據的積累以及大數據模型技術和科研信用制度的融合普及,科研人員信用評分卡模型技術可更加廣泛地在鐵路科研項目和相關科研基金的審批中應用,從科研人員信用的角度為科研項目和基金課題的審批決策提供重要的支持,對于評分低于一定級別的,可以自動拒絕其申請,只有通過信用評分的才能進入人工審核階段,不但有助于事前降低潛在的科研失信風險,還能提高鐵路科研項目和基金課題的審核效率。

5.2 科研信用風險預警精準化

信用評分卡模型技術基于科研人員信用大數據,不僅比起傳統的專家打分和人工審核等主觀審核方法更加客觀,保證了信用評價的公正性,同時評價準確度更加靈敏和精確,提高了鐵路科研信用風險預警的精準度。

5.3 科研人員信用水平透明化

信用評分卡模型得出的科研人員信用評分客觀透明,可以促進科研人員信用水平透明化,提高科研人員信用意識,還能準確識別風險的原因和來源,方便科研管理者采取針對性的預防措施,有利于對鐵路科研誠信問題進行統一規范與治理。

猜你喜歡
科研人員概率信用
科技部等五部門聯合發文開展減輕青年科研人員負擔專項行動
科研人員揭示油桃果實表皮不長毛的奧秘
第6講 “統計與概率”復習精講
科研人員破譯黑豬肉特征風味物質
第6講 “統計與概率”復習精講
概率與統計(一)
概率與統計(二)
我國科研人員揭秘銀杏古樹長壽機制
信用收縮是否結束
信用中國網
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合