?

基于影響域的新型眾包定價算法模型構建

2018-08-15 10:01周春樵肖昌昊劉揚姚安琪黃君揚
軟件工程 2018年5期
關鍵詞:供求關系機器學習

周春樵 肖昌昊 劉揚 姚安琪 黃君揚

摘 要:“眾包”已成為時下新興的一種基于互聯網進行信息檢查和搜集的商業模式,其成功率取決于諸多因素的影響,其中最大的影響因素為任務發布者的出價。針對此問題,本文提出了一種基于“影響域”的新型眾包定價策略,該策略以經濟學中的供求關系模型為建模方法,利用任務與勞動者的地理位置分布規律動態定價,同時,對新數據與原始數據進行相似性分析,通過機器學習模擬任務的完成概率,從而評價定價策略的優劣。本文以“拍照賺錢”自助式服務模式作為研究樣本;在利用影響域定價模型重新定價后,經濟效用較原始方案增長80.65%,效果良好。

關鍵詞:眾包;影響域;供求關系;標準化歐氏距離;機器學習

中圖分類號:TP301 文獻標識碼:A

Abstract:Crowdsourcing has become a new business model nowadays.It not only makes human knowledge and wisdom improved and disseminated infinitely,but also creates amazing social wealth.However,the success rate of crowdsourcing missions depends on a number of factors,among which the most important one is the bid given by mission publishers.In this paper,a new pricing strategy based on domain-of-influence is proposed,which uses the geographical distribution of missions and the employees to price dynamically,then readjusts the size of the affected domain for an iterative calculation until the pricing result is stable.In addition,this paper establishes a mathematical model to simulate the probability of completion of a mission,which is used to test the merits of the pricing strategy based on domain-of-influence.This paper takes the self-service model of Photographing for Money as the study subject and the financial rewards have increased by 80.65% after repricing by means of domain-of-influence compared with the previous pricing method.

Keywords:crowdsourcing;domain-of-influence;supply-demand relationship;standardized Euclidean distance;machine

learning

1 引言(Introduction)

2006年6月份的《連線》雜志中,記者Jeff Howe[1]在《眾包的崛起》一文中首次提出了“眾包”的概念。眾包,指公司或機構把工作任務通過網絡外包給非特定的大眾,是“網絡大眾”與“外包”的合成詞匯。它彌補了公司或機構自身的資源缺陷問題,提高了企業的工作效率,同時給完成任務的網絡大眾帶來一定的經濟收入,可謂雙贏的經營模式。時下,已有學者對眾包做出了詳盡的經濟學解析[2-4],也對任務定價的影響因素做了具體研究[5]。眾包任務的定價策略是該模式中舉足輕重的部分——過低的定價可能會導致任務無法順利完成;過高的定價則為企業帶來沉重的負擔。本文提出的基于影響域的眾包定價策略,通過在每個任務點的周圍劃定了“影響域”,統計該任務點附近的任務密度和勞動力密度,根據供求關系模型[6,7]確定該任務點的定價。其后,計算樣本數據之間的標準化歐氏距離[8],并以此作為機器學習[9,10]的訓練集,模擬新定價下的任務完成概率,計算經濟效用,從而檢驗該定價模型的優劣。本文在建立“拍照賺錢”自助式服務模式數學模型基礎上,對所提供的數據進行模型驗證,收效良好。

2 影響域定價策略(Pricing strategy of domain-of-

influence)

2.1 影響域

“影響域”為每個任務點周圍劃定的一個圓形區域,如圖1所示。假設該地區共有個任務,則每個任務都對應一個不同的定價和影響域半徑。

定價更高的任務會對距離更遠的勞動者產生吸引力,因此任務的影響域半徑應與其定價成正相關。規定和分別為包含其他任務點、勞動者到該任務點地理距離的數值矩陣,并規定影響域半徑滿足:

(1)

(2)

(3)

(4)

2.2 定價原理及方案

圖1圓形區域內的三角形數量反映了“任務密度”,圓點數量則反映了“勞動力密度”。在忽略地區經濟、交通等其他影響因素的情況下,供求關系決定了任務點的合理定價。由實際情況可知:(1)影響域內的各任務之間存在競爭關系。在影響域內的勞動力數量不變的情況下,市場的均衡任務價格會隨任務數量的增加而上升;反之,則會因任務數量的減少而下降。(2)影響域內的勞動力之間亦存在競爭關系,在影響域內任務數量不變的情況下,市場的均衡任務價格隨著勞動力數量的增加而上漲;反之,則會因勞動力數量的減少而下降。

因而,本文定義任務密度,類比市場需求(demand);定義勞動力密度,類比于市場供給(supply)。具體的市場運行機制可分別參考經濟模型:需求變動對均衡的影響、供給變動對均衡的影響。

繼而引入參與定價的重要參數,表示單位勞動力可領取/完成的任務數量,滿足:

(5)

(6)

研究區域內每個任務都對應一個不同的。在該地區計劃投入總額恒定不變的前提下,基于分配的思想為每個任務定價,配比則由每個任務對應的決定:

(7)

(8)

經模型分析,上述分配方案無法保障勞動者完成任務的基本回報,計算出的任務定價極差較大。因此設定基礎價格對上述公式進行修正:

(9)

(10)

其中,基礎價格比例參數,不同值對應定價的經濟效用可能會有所不同,最終可通過比較選取使經濟效用達到最高的值。

2.3 算法流程

影響域定價策略需要通過迭代計算得到穩定的定價。如果已有先前的實踐數據,可以利用各個任務的原定價作為迭代初值;如果缺乏經驗數據,則可以用計劃投入總額除以任務數量得到的平均任務定價作為迭代初值。

利用初始定價確定影響域半徑,繼而劃定每個任務對應的影響域,并統計任務密度和勞動力密度,確定參數,再根據向量為所有任務動態分配價格。重復上述步驟,直至所有任務的定價收斂至恒定值。算法流程見圖3。

3 模型的驗證方案(Model verification scheme)

3.1 模型經濟效用

本文定義了經濟效用U來評價定價方案的優劣:

(11)

其中,為該地區任務的平均完成率。

當企業對外包任務的投入金額越少且回報越高時,經濟效用越高,定價方案更優。如果企業已有其他定價策略,可以通過比較兩種策略的經濟效用,從而選擇較優方案。

3.2 模擬完成率的原理及方案

上述公式中,任務的平均完成率尚為一個未知量。對于已經投入市場檢驗過的定價方案,已完成的任務數量和未完成的任務數量都是已知的,此時:

(12)

而對于利用影響域定價策略計算出的任務價格,由于尚未投入市場實際檢驗,因此與未知,需要對任務完成率進行模擬。

首先,調查已經過市場檢驗的定價方案,把個任務完成情況二值化后存儲在向量中,對應任務的定價存儲在向量中,其他可能會對任務完成率造成影響的個參數存儲在維矩陣中(若無其他影響因素或影響因素無法量化,亦可取0)。其中,任務完成情況的二值化方法為:

(13)

同理,將新方案下的個任務的價格和其他可能對任務完成率造成影響的參數分別存儲在向量和矩陣中。

其次,計算新方案與原方案每個任務之間的相似度。因為標準化歐式距離可以去除各維度數據的量綱和不同維度之間數據的關聯性,因此采用標準化歐氏距離來衡量相似度水平:

(14)

其中,為向量中所有元素和的標準差,為矩陣第列所有元素和的標準差。如果沒有其他影響因素或影響因素無法量化,即時,上述公式可以簡化為:

(15)

由于標準化歐式距離與任務相似程度成負相關,與常規邏輯相反,故定義任務相似度滿足:

(16)

其中,、和為自然數且不同時為0,可使得收斂。因為:

①,且收斂;

②,且收斂。

由收斂級數的性質可知,兩個絕對收斂的正項級數之積仍然絕對收斂,易證式(16)成立。

最后,對相似度歸一化處理得到,并以之為權重,對各元素加權求和得到新方案下各任務的預期完成概率,進而求出預期的任務平均完成率:

(17)

(18)

(19)

3.3 算法流程

在相似度的計算過程中,參數、和的選取需要由算法循環實現。有關模擬完成率的完整算法流程如圖4所示。

初始狀態時,,。將標準化歐式距離代入公式中計算當前參數下的任務近似度。不斷調整、和的大小,當趨于穩定值時跳出循環,利用穩定的對向量中各元素加權求和,即可求得任務平均完成率。

本文在建立了“拍照賺錢”自助式服務模式數學模型基礎上,選取了模型中的數據來支撐本文提出的定價策略。原始數據中包含了835個任務點的數據,以及1878個勞動者的數據,選取其中位于廣東省深圳市南山區的161個任務數據,對其利用影響域定價策略重新定價。不同基礎價格參數α下新定價方案經濟效用的增長率如圖5所示。

由圖5可知,如果選取合適的基礎價格參數α,經濟效用的增長率最大可以達到80.65%。這體現了影響域定價策略的良好效果。

5 結論(Conclusion)

影響域定價策略為線下眾包任務的定價提供了新思路。它以市場供求關系作為研究基礎,將任務和勞動力的地理位置分布作為考慮因素,并按照分配的思想為任務定價。其優點在于,盡可能地使眾包任務市場供求均衡狀態,因此任務發布者和任務執行者處于對等地位,雙方的關系相對和諧穩定。此外,以經濟效用作為定價方案優劣的評判標準,充分滿足了任務發布者的需求;設立基礎價格系數α,切實提高了任務執行者的收益。其缺點在于,目前缺乏大量的實踐經驗,只能通過機器學習大致模擬出任務的完成概率,很難具有說服力。未來將對影響域半徑的選取做進一步調查研究,完善影響域定價策略。

參考文獻(References)

[1] Steve Fleetwood.Do labour supply and demand curves exist[J].Cambridge Journal Of Economics,2014,38(5):1087-1113.

[2] Al-Roomi,M.Cloud computing pricing models:A survey[J].International Journal of Grid and Distributed Computing,2013,6(5):93-106.

[3] Jeff Howe.Crowdsourcing:why the power of the crowd is driving the future of business[M].Beijing:CITIC Press,2009:6-9.

[4] 李桂林,陳曉云.關于聚類分析中相似度的討論[J].計算機工程與應用,2004,40(31):64-82.

[5] 張利斌,鐘復平,涂慧.眾包問題研究綜述[J].科技進步與對策,2012(6):154-160.

[6] 高鴻業.西方經濟學[M].北京:中國人民大學出版社,2011:20-24.

[7] 劉瑞元.加權歐氏距離及其應用[J].數理統計與管理,2002(5):

17-19.

[8] 呂巖威,李平.一種加權主成分距離的聚類分析方法[J].統計研究,2016,33(11):102-108.

[9] 劉曉鋼.眾包中任務發布者出價行為的影響因素研究[D].重慶:重慶大學,2012.

[10] 馮劍紅,李國良,馮建華.眾包技術研究綜述[J].計算機學報,2015(9):1713-1726.

作者簡介:

周春樵(1988-),男,碩士,工程師.研究領域:協同計算,計算機技術.

肖昌昊(1997-),男,本科生.研究領域:動力機械工程,計算機技術.

劉 揚(1996-),男,本科生.研究領域:光學工程,虛擬化技術.

姚安琪(1997-),女,本科生.研究領域:制冷與空調工程,計算機技術.

黃君揚(1996-),男,本科生.研究領域:軟件工程.

猜你喜歡
供求關系機器學習
電力市場營銷的價格策略研究
基于詞典與機器學習的中文微博情感分析
基于供求關系視角淺析我國房產稅改革的影響
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數據分析研究
抽樣調查在供求關系穩定程度中的應用
油價下跌的根本原因和深遠影響
機器學習理論在高中自主學習中的應用
供求關系視閾下對高校圖書館服務轉型的思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合