?

智譜AI進化

2024-02-21 02:15何己派
21世紀商業評論 2024年2期
關鍵詞:人工智能模型

何己派

從張鵬辦公室的窗戶向外望,一眼就能看到對面的東升大廈,那是智譜AI初創團隊從清華實驗室出來后,最早的辦公地。

智譜AI成立于2019年,規??焖贁U大。公司每年都要搬一次家,人員從當初的30人左右,增加到現在的400余人。

滾雪球般增長的,還有它的名氣,以及超高的融資額。

智譜AI宣布,2023年累計獲得超25億元融資。其身后的投資機構,包括去年5月成立的社?;鹬嘘P村自主創新專項基金,極少下注同一家公司的美團、螞蟻、騰訊、阿里等機構,也在其中。

智譜AI集結了一幫技術大牛。核心團隊里,CEO張鵬畢業于清華大學計算機系,董事長劉德兵是中國工程院高文院士弟子,總裁王紹蘭為清華創新領軍博士。

這支學院派出身的團隊,瞄準的賽道,是AI大模型。

去年10月底,智譜推出全自研的第三代基座大模型ChatGLM3系列產品,多模態能力逼近GPT-4。由此,它成為國內唯一對標OpenAI全產品線的大模型創業公司。

6月,在硅谷科技媒體The Information的盤點中,智譜AI被視為最有可能成為“中國的OpenAI”的5家企業之一,外界也常以此來形容智譜。

但張鵬不愿意大家僅基于商業邏輯將二者對比,也不想被這個標簽套住。至于技術上的追趕,團隊所有人心里,一直有張動態更新的時間表。

“我們的目標,是盡快追平現有GPT-4的能力?!睆堸i向《21CBR》記者表示。

智譜AI是從清華走出來的創業公司。

上世紀90年代,清華計算機系成立了知識工程研究室,致力于知識工程理論、方法和應用研究,屬于人工智能領域的一個分支。

人工智能本身是門實踐性科學,講究理論和工程落地結合,本世紀初,我們就開始把數據挖掘、機器學習等相關研究,落地為產品,推出AMiner系統,做科研情報挖掘。

之后,實驗室做了一些落地嘗試,直到2019年,智譜AI成立,團隊走出實驗室,來做產業轉化。

我一畢業就留在實驗室工作,公司成立后,連同團隊其他成員一起過來。

整個團隊三十來人,大家共事時間久,有的相處將近10年。無論是團隊磨合,還是應用轉化,從學校到公司的過渡,都非常平滑。剛成立半年時,大家感覺跟在學校里沒有大差別。

大的技術路線,早在公司孵化時,我們就想清楚了。

人工智能未來怎么發展,學術界、產業界當時出現了多種聲音。讓大家焦慮的是,“AI四小龍”已經把上一代人工智能技術落地的路徑,“蹚”得差不多,快碰到天花板了,下一代突破口在哪兒?未來該怎么辦?

我們逐漸理清一個方向:要從感知智能,走向認知智能。自2016年起,團隊定下認知智能的發展框架——數據和知識雙輪驅動,從那時到現在,基本在這一框架下探索,只是各階段側重點不同。

2020年,Open AI發布參數規模達到1750億的GPT-3模型。我們意識到,人工智能的突破,有了新可能。

這之前,GPT-1、GPT-2,參數量不大,本質是延續上一代人工智能的路往前走了一點,還沒到質變的程度。

GPT-3一出來,所有人看到了另一種可能,原來暴力“堆量”,堆到一定程度是會出現拐點的。沒有人想到,預訓練語言模型的參數量被放大以后,會有“智能涌現”,而不只是能力的線性增長。

GPT-3的發布節點,恰逢智譜成立一周年。公司內經過幾輪討論,跟張鈸院士等清華老師,也做了很多探討。

在大框架不變的前提下,預訓練大模型的發展,沿著數據驅動這條路,往前跨了一大步,上了新臺階。

我們果斷圍繞這個方向轉,投入到超大規模預訓練模型的研發中。

市面上主流的幾種預訓練框架,BERT、GPT和T5,都來自國外公司。

早期BERT的效果是超越GPT的,到了GPT-3,情況反轉。

不同的訓練框架,在不同維度上,擅長的能力不同,各自有適合的任務和場景。把它們各自的優點結合起來,泛化出更多能力,是我們自研GLM預訓練架構的出發點。

在許多具有百萬參數甚至更少訓練步驟的基準測試中,GLM在自然語言理解方面,實現了比BERT和T5更好的性能。這給了我們信心。

基于GLM框架,開發百億參數的稠密模型以后,當時GLM還沒完全定型,我們用了一些其他模型架構比如MoE(Mixture of Experts),用“稀疏化”方法,成功訓練出了一個萬億參數模型。

通過稀疏化方式,雖能把模型參數推到很大,但這個“萬億”模型,實際效果沒有想象中那么好。

GPT-3的出現,給了我們啟發:要堅定走研發稠密基座模型的路。

2021年,團隊開始訓練千億參數模型GLM-130B。國內當時做這塊的少,海外可借鑒的有限,OpenAI沒有公開技術細節,大家不知道怎么復現,也不確定門檻有多高。

我們花了大約半年時間做前期籌備,進行調研、設計、實驗和調試,做各種工程實驗。因為準備充分,訓練GLM-130B,實際只花了兩個月。

同百億參數模型的成本相比,訓練一個千億模型,不是簡單的乘以10倍。

最開始融資的時候,我們和投資人聊,需要把大模型的方方面面解釋得非常清楚。2021年,我可能也沒給大家講明白。ChatGPT火起來后,算是給所有人上了一課。

2022年底,投資圈就敏銳地捕捉到了訊號。過完春節,ChatGPT掀起討論熱潮,大家對大模型的態度,跟之前比有180度的大掉頭。熱度最高的時候,我們一天要接待兩三批投資人。

投資人普遍認可智譜的是三點:

一是切入賽道早,對大模型的認知深刻;二是所有核心技術,智譜全自研,底層的邏輯靠自己摸索出來,這使得團隊的經驗積累,深且全面;三是懂國內的To B市場,知道用什么樣的產品去做B端的商業化。

團隊里,工程師、研究員長期一起工作,這是公司最大的特點,產學研一體化。

這讓技術轉換到產品的過程很快,研究團隊和工程師一配合,立馬就能把系統做出來,而后快速上線。

公司成立之初,我們就是帶著技術和客戶入場的,早期做科研情報挖掘等產品,商業化落地做得不錯。

行業大環境變得快,在大方向不變的前提下,公司加快節奏,原本預計3~4個月做的事,會壓縮一半時間。

2023年無論是團隊擴張、融資規模還是商業化落地,智譜都在提速。

智譜的產品矩陣主要劃分為三層。

第一層是包括ChatGLM等在內的基礎模型;第二層是工具平臺供應鏈,提供標準化組件,可以通過產品化來提供服務;再往上是應用層,數字人、科技情報產品等。

迭代頻率上,公司每3~6個月更新一代大模型。最新版本是去年10月推出的第三代基座大模型ChatGLM3。

評測結果顯示,與ChatGLM二代模型相比,在44個中英文公開數據集測試中,ChatGLM3在國內同尺寸模型中排名前列。

ChatGLM3最大的一個亮點,是智譜的模型能力與OpenAI實現了全線對齊,包括基座模型、語言模型、跨模態模型以及代碼解釋器等能力象限。

商業模式方面,To B和To C兩條線都有,更側重B端。C端產品以免費方式推動,主要包括生成式AI助手“智譜清言”,去年8月上線,為首批對外開放的大模型之一。

B端的付費主要是三種,API調用、私有化部署以及介于兩者之間的云端私有化方案,分別對應不同規模企業的需求,非常靈活。

公司重點布局的行業,包括互聯網、金融、教育等,平穩增長。

客戶采用大模型后的效果,得落到具體業務里驗證,這需要時間,但大家有信心。舉一個例子,幫程序員寫代碼的模型產品,平均工作效率至少提升30%。

關于通用大模型和垂直行業大模型,智譜的思考重點,一直是加碼基座大模型。

所謂的行業大模型,不是個獨立的事物,跟通用模型不是平行的關系。一個模型,通用能力不夠強,但專業能力很強,這恐怕不太可能。

這就好比一位行業專家,基礎知識很差甚至完全沒有,是不可想象的。無論哪個行業,專有知識其實都建立在基礎知識之上。

對標OpenAI,我們期望盡快實現技術追趕,團隊有一個動態調整的時間表,當前的目標,是盡快實現追平現有GPT-4的能力。接下來,我們會實現“技術+商業化”落地,兩條腿交替跑步前進。

除了自身保持進步外,智譜還做了很多跟生態相關的事情,積極建設開源生態。

公司很早就意識到,做大模型,需要舉全行業之力,不可能由某一家公司徹底壟斷市場。

有一道物理題:一個金屬圓環加熱以后,它的內徑會變大還是變???

答案是變大。內部力量,會推動整體勢能向外走。

我希望大模型的生態圈也能像圓環一樣,一股勁一把火燒起來,大家協力,把生存空間做大。

猜你喜歡
人工智能模型
適用于BDS-3 PPP的隨機模型
我校新增“人工智能”本科專業
p150Glued在帕金森病模型中的表達及分布
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
2019:人工智能
人工智能與就業
數讀人工智能
3D打印中的模型分割與打包
下一幕,人工智能!
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合