基于創業者信息挖掘的創業成功傾向分析

2017-06-01 12:20黃燕黃慧穎汪瑞嶸丁志剛

微型電腦應用 2017年5期

關鍵詞：決策樹創業者關聯

黃燕, 黃慧穎, 汪瑞嶸, 丁志剛

(上海計算機軟件技術開發中心,上海 201112)

基于創業者信息挖掘的創業成功傾向分析

黃燕1, 黃慧穎2, 汪瑞嶸3, 丁志剛4

(上海計算機軟件技術開發中心,上海 201112)

在創新創業大環境下，為了幫助創業服務機構更準確地識別具有成功傾向的創業項目，探討了用數據挖掘這種自動化方法對創業者的信息進行分析，從而提供指導與建議。對Apriori算法和ID3決策樹算法進行研究，并根據創業成功預測這一特殊目標，對Aprior算法進行了改進，提出了一種創業成功傾向預測分析模型，為對創業者進行客觀的、可定量信息評估提供了依據。

創業成功; 挖掘; Apriori; 決策樹

0 引言

近年來，隨著全面深化改革、繼續擴大開放和創新驅動發展戰略的實施，我國迎來了世界科技創新格局調整時期，在960萬平方公里土地上掀起了“大眾創業”、“萬眾創新”的新浪潮。在這創新創業大環境下，一批類似創客空間、創業咖啡、創新工場等形式的創新創業服務載體應運而生，旨在通過提供環境支持、技術支撐、政策引導、資源對接等方面的服務，助力創業者成功創業。但面對各種需求不同、層次不齊的創業者，如何挖掘有潛力的、可能成功的創業者，成為創業服務機構十分關注的問題。

對于創業扶持和投資對象的選擇，國內外都有不同的選擇模式。美國愛荷華大學學生創業孵化器主要通過挖掘學校實驗室的技術發明創新，配合概念試驗和市場情報分析技術的可行性和市場成功潛力，以此選拔扶持的創業企業[1]。硅谷主要依靠斯坦福大學提供了智力、技術和人才諸多方面的強大支撐，尤其是全美首屈一指的斯坦福電子工程專業[2]。在國內，有的創業投資機構通過考察項目的成長性、技術含量、管理層的綜合素質等因素，選擇創業項目進行投資[3]；有的通過創業大賽選拔優秀的創業項目；有的主要考評創業者的智力資本和未來價值[4]。以上這些機構，主要憑借自身經驗以及對行業的預判進行創業項目挑選，是一種基于主觀意念的評估方式，而本文將對創業者本身的信息進行定量分析，以此作為創業項目主觀評估的補充。文章將基于應用場景對Apriori算法進行改進，并結合ID3決策樹算法，對創業者樣本信息進行關聯分析和決策樹構建，分析具有哪些特質的創業者容易創業成功或創業失敗。

1 創業成功傾向預測流程及相關算法

1.1 整體流程

本文以某創業者公共實訓基地采集的入駐創業者信息為樣本，經過對數據進行篩選、清洗、轉化等預處理，通過屬性與創業結果的關聯規則分析，建立決策樹預測模型，為新的創業者創業成功概率分析提供參考依據，整個流程如圖1所示。

圖1 創業者成功傾向預測流程圖

由圖1可見，首先數據來源于基地入駐的創業者個人信息、創業團隊信息以及創業的項目信息，通過創業信息采集系統進行數據搜集。由于搜集獲得的數據存在干擾項、信息缺失、屬性取值連續等問題，需要經過清理、整合、轉化等預處理才能進行進一步的分析。預處理后的數據需要進行2個分析步驟：第一步是基于Apriori算法的關聯規則分析，通過關聯規則分析提取與創業成功與否之間存在強關聯關系的屬性，同時能對數據進行進一步的篩選，以提高模型構建的準確性；第二步是根據分析得到的關聯關系以及樣本庫構建決策樹，得到的決策樹即是預測模型。對于新的創業者信息可以通過預測模型迅速得到創業成功與否的判斷，作為指導建議。當然預測模型的優劣與否取決于樣本的質量，在數據量較小的時候，產生的結果會有偏差，需要在建立后不斷用新的可信的樣本數據進行調整完善，以獲得更準確的結果。

1.2 數據采集

在數據采集中，首先結合實訓基地創業者入駐流程、服務模式以及調查跟蹤頻度，搭建系統進行創業者創業數據采集，從入駐、信息變更、注冊企業、成長調查、退出等階段收集各入駐企業/團隊負責人、團隊轉化企業、企業成長發展以及退出等方面信息，經分析與創業成功有關的信息,如表1所示。

表1數據分別為創業者在入駐基地時和入駐后不同階段采集獲得，上表只是通過歸納將數據內容合并在一起。

1.3 數據預處理

通過采集系統獲得了數據樣本，但是采集到的數據往往存在不完整、冗余、離散值等問題，無法直接用于數據挖掘和分析，因此需要對數據進行預處理，以提高后期挖掘和分析的效率和準確度，預處理方式包括以下幾種：

(1) 數據清理

在數據采集時，為了減少用戶主觀填寫造成的不一致，盡可能采用選擇題的方式讓用戶填寫，但收集的數據仍然存在部分屬性值缺失的現象。數據清理的目的是刪除出現多處空屬性的數據。由于空值對關聯分析無意義，且分析是基于一定的存在潛在規律的樣本進行規律挖掘，部分數據的刪除不會影響分析結果，因此清理時刪除屬性缺失3個及以上的記錄，缺失少于屬性的記錄予以完善補充。

表1 創業成功相關主要屬性

(2) 數據整合

被分析數據往往存在不同數據表中，為了防止分析過程中頻繁跨表分析造成運算效率降低以及復雜度增大，將要分析的目標數據通過視圖方式從不同數據表中抽取整合。整合不僅能有效去除冗余內容還能在整合的同時完成數據的清理和轉化。

(3) 數據轉化

數據轉化的過程主要是將連續的數據轉化成離散的數據，字符串形式轉化成有限的離散型的數值。如表1中的負責人年齡屬性，取值為正整數，統計時數據值較分散無法形成有效分析，因此需要進行轉化。同時創業者一般年齡都分布在20-60歲之間，年齡值可轉化成20-30歲、30-40歲、40-50歲、50-60歲、其他5種取值范圍，并用0、1、2、3、4四種數值進行表示，大大簡化了連續型數據帶來的復雜度。數據轉化可以在數據整合的同時進行，除了將連續型的數據進行轉化，還包括將字符型的離散型的數據轉化成對應的整形數字。

(4) 增加創業結果判斷屬性

數據采集時，記錄了創業者的基本信息以及發展情況，但是對于判斷哪些屬于創業成功的創業者并未明示。因此，在數據預處理時，需要對創業成功者進行預定義，并增加字段進行標識。根據數據源內容以及公共實訓基地服務入駐創業者周期為3月-1年的特點，通過創業團隊轉化企業情況、營業額、帶動就業效應、知識產權產生情況等方面綜合評定，評定標準，如表2所示。

表2 創業成功評分標準

表2為對所有信息庫中的創業者進行評分的標準，60分及以上標識為成功創業者，否則為失敗。此定義規則可根據最后輸出結果、創新發展情況及成功創業者特性進行調整與不斷完善。

1.4 基于Apriori算法的關聯規則挖掘

對創業成功因素建模，首先需要分析創業者身上各種特質與創業成功的聯系，誠然通過預處理后的數據可以得到創業者信息與創業成功之間的聯系，并通過決策樹建立創業成功的模型，但預處理后的數據屬性過多，且含有很多低概率出現的數據，因此我們采用關聯規則挖掘算法，過濾那些先關性較低的屬性和相關性小的樣本，以增加決策樹建立的可信性。

Apriori算法是最成熟、最具有影響力的關聯規則挖掘算法之一，其挖掘過程一般包括兩個階段[5]，第一階段為從信息庫中找出所有頻繁項集，即支持度不低于預定義閾值的所有項集；第二階段則利用頻繁項集找出強關聯規則，即滿足既定置信度的頻繁項的關聯關系。它利用頻繁集的子集一定是頻繁集，非頻繁集的超集必定不是頻繁集這一原理，通過迭代方式獲得所有頻繁集。

Apriori算法由頻繁k-1項集進行自連接生成的候選頻繁k項集數量巨大，且在驗證候選頻繁k項集的時候需要對整個數據庫進行掃描[6]，鑒于本文使用關聯規則分析并非找出創業者信息庫中的所有頻繁集和強關聯關系，只需找出和是否創業成功之間的關系，因此對Apriori進行如下改進：

(1) 開始于尋找含有創業結果的2-項頻繁集

由于本次關聯規則查詢的目的是為了查找各條件與創業結果之間的關聯，因此頻繁集中必然包含創業結果這一項，所以1-頻繁集的查找無任何意義。同時查找的2-項候選集必定含有創業結果一項，因此搜索時只需將創業結果項與其他各進行連接，獲得2-項頻繁項集。

(2) 及時刪除不含有頻繁項的事務

由于非頻繁項的超級必定為非頻繁項，因此如果某個事務，在掃描過程中發現不含有任何頻繁項，可以將其刪除，不再進行下一次掃描。

根據本文所求關聯規則的特殊性，對Apriori算法進行了改進，其流程,如圖2所示。

圖2 基于Apriori的關聯規則分析流程圖

算法描述：

(1) 掃描樣本數據庫，將創業結果與各項連接，尋找搜有2-項候選項；

(2) 根據設定的最小支持度，刪除非頻繁項，得到2-項頻繁集；

(3) 判斷頻繁項集，為空，則結束；若不為空，則生成；

(4) 通過K-1項的連接，生成K項候選項(初始K=3)；

(5) 如果K項候選項的某項是非頻繁項的超集，則刪除；

(6) 計算所有候選項的支持度和置信度，刪除非頻繁項，以及不含有頻繁項的事務；

(7)K+1，返回3)，將6)生成的頻繁集作為基礎頻繁集，生成新的頻繁集。

通過此算法，可以找到與創業成功與否存在強關聯的屬性，以作為后續決策樹構建的主要分支。

1.5 ID3決策樹算法

決策樹著眼于從一組無規則、無次序的實例中推理出決策樹表示形式的分類規則[7]，并根據此規則判斷未知類別數據所屬類別，以此達到預測的目的[8]。ID3算法，是最經典的決策樹挖掘算法[9]，構造決策樹的關鍵在于分裂屬性，即在某個節點按照屬性的不同取值進行分支。在構造時，需要選擇盡可能“純”的屬性進行分裂，即讓分裂后在同一區域的數據盡可能得到相同的結果[10]。ID3算法將信息熵(entropy)和信息增益(information gain)作為選擇分裂屬性的標準。

假設S為用類別對樣本庫進行的劃分，則S的熵表示,如式(1)。

(1)

其中Pi表示S中第i個取值出現的概率，它表示為S中各取值的平均信息量。

假設S樣本庫用屬性A進行劃分，則A對S劃分的期望信息,為式(2)。

(2)

其中|S|是S中元素的個數，|Sj|是樣本S中是屬性A取值j時的個數，Entropy(Sj)為屬性A取值j時的條件熵。

屬性A在樣本S上的信息增益,為式(3)。

Gain(A)=Entropy(S)-EntropyA(S)

(3)

在決策樹構造過程中，樹根從Gain(A)值最高的屬性開始分裂，如果對應分支得到的結果純度很高，則不繼續分裂，對應的高純度的結果為葉子節點；如果無法得到純度高的結果，則繼續按照信息增益高的屬性進行分裂，直至無屬性分裂，選擇相對取值多的結果作為葉子節點。在使用決策樹預測新樣本時，從樹的根節點開始按照樣本的值選擇分支，直至到葉子節點，得到最終結果。

2 創業成功傾向預測分析應用

基于對創業成功預測模型搭建的流程介紹以及相關算法的分析，本文選取了100個的經數據預處理的創業者樣本，對負責人年齡、學歷、創業經歷、專業類別、性別、是否海歸這六個類別進行分析建模。我們以按照Apriori算法進行關聯規則分析，設定最小支持度為2%，最小置信度為50%，得到的部分2項頻繁集和3箱頻繁集的置信度,如表3所示。

在A→B時，置信度表示A發生時B發生的概率，計算方式,如式(4)。

Support(A→B)=P(AB)/P(A)

(4)

提升度表示A與B是否正向相關，計算方式見式(5)

Lift(A,B)=Support(A→B)/P(B)

(5)

當置信度越大，表示A發生時B發生的概率越大；提升度>1且值越大時，表示A和B的之間的正向相關性越強，彼此的關聯關系也越強。根據上述理論，得到了學歷、年齡、創業經歷、專業類別、海歸&工科這5個屬性與創業成功與否關系最強烈，我們將根據這幾個屬性構建決策樹。

按照決策樹信息熵的定義，42人創業成功，58人失敗的創業結果的信息熵結果,如式(6)。

(6)

表3 2項、3項部分頻繁集置信度和提升度

各關鍵屬性的條件熵結果,為式(7)～式(11)。

(7)

(8)

(9)

(10)

(11)

按照信息增益理論，“學歷”為決策樹的根節點。以學歷中三個與創業成功與否強關聯的三個取值“20—30歲”、“30—40歲”、“其他”作為新的樹分裂的劃分準則，并計算信息熵、條件熵以及信息增益以得到其子結點，直至到葉子結點。按此方法逐級構造，如圖3所示。

圖3是基于樣本庫以及負責人年齡、學歷、創業經歷、專業類別、性別、是否海歸這些屬性對創業者成功與否預測構建的決策樹，新的創業者樣本可以根據此樹進行成功創業與否的判斷。當然本文只列舉了一小部分考量的成功相關因素，實際考慮的因素更多，如是否已經享受投融資、創業的領域方向、創業團隊的其他人員情況等等，將形成一個更復雜更龐大的決策分析樹。

圖3 創業成功傾向判斷決策樹

3 總結

在雙創大趨勢下，眾多創業服務機構希望通過他們的扶持，幫助創業者成功創業。文本對數據挖掘方法中的關聯規則算法與決策樹算法進行了研究，并將兩種算法結合構建了創業成功傾向預測模型，應用于創業服務機構在對創業者不熟悉情況下的考察分析中，通過科學、客觀的方式和機器學習分析的手段為決策者決策時提供了參考依據。

當然，對創業者是否成功創業的預測，還與創業項目的可行性、市場前景，創業主要負責人的領導能力、表達能力、決策能力，創業團隊主要成員的工作能力等需要主觀評判的因素有關，本文只是對與創業者相關的客觀因素進行了模型搭建，如何更好地結合主觀因素以及外界環境因素，建立更完善的模型是今后研究的方向。

[1] 侯典牧，鄭云．美國大學生技術創業典型模式探析 [J]．經濟視角，2013(12):122-125．

[2] 李向輝，李艷茹.美國硅谷科技創業經驗研究 [J]．江蘇科技信息,2014(2):11-13．

[3] 楊春華，熊勤竹，莫瓊玉，周威.李保嬋創業投資項目評估相關問題研究 [J]．合作經濟與科技，2015(3):66-67．

[4] 汪志華，尹國俊.創業投資項目決策模型文獻綜述 [J]．商場現代化，2014(25):111-112．

[5] 朱惠．關聯規則中Apriori算法的研究與改進[D]．合肥:安徽理工大學，2014．

[6] 丁麗．基于Apriori 算法的用戶行為數據挖掘研究[J]．科技通報，2013，29(12):214-215．

[7] 潘永麗．決策樹分類算法的改進及其應用研究[D]．昆明:云南財經大學，2012．

[8] 黃宇達，范太華．決策樹ID3算法的分析與優化[J] ．計算機工程與設計，2012，33(8):3088-3092．

[9] 李瑞，許旭睿．決策樹ID3算法的分析與優化[J]．大連交通大學學報，2015(2):91-95.

[10] 瞿花斌．數據挖掘的決策樹技術在高校畢業生管理中的應用[D]．濟南:山東大學，2014．

Analysis of Entrepreneurial Success Tendency Based on Entrepreneur's Information Mining

Huang Yan, Huang Huiying, Wang Ruirong, Ding Zhigang

(Shanghai Development Center of Computer Software Technology, Shanghai 201112, China)

Under the environment of innovation and entrepreneurship, in order to help the entrepreneurial service institutions more accurately identify the entrepreneurial projects with success tendency, this article discusses the method of using data mining to analyze the information of entrepreneurs to provide guidance and advice. After researching the Apriori algorithm and ID3 decision tree algorithm, we improve the Apriori algorithm based on the specific objective of entrepreneurial success prediction, and propose an entrepreneurial success tendency analysis prediction model, and it provides a base for an objective and quantitative information evaluation for entrepreneurs.

Entrepreneurial success; Mining; Apriori; Tree prediction

上海大數據科技成果轉化平臺(16DZ1110101)

黃燕(1982-),女，上海計算機軟件技術開發中心，工程師，碩士，研究方向：大數據。黃慧穎(1983-),女，上海計算機軟件技術開發中心，工程師，學士，研究方向：科研管理。汪瑞嶸(1980-),女，上海計算機軟件技術開發中心，工程師，碩士，研究方向：大數據。丁志剛(1962-),男，上海計算機軟件技術開發中心，研究員，學士，研究方向：計算機應用。

1007-757X(2017)05-0008-05

TP311

2016.12.01)