人工智能的無限游戲

2024-03-15 04:13王杰夫

第一財經 2024年3期

王杰夫

當2023年12月新皮層團隊策劃AI特刊時，圍繞生成式AI的創業在經歷了一年的競賽后似乎有了階段性結果—美國形成了OpenAI和Anthropic兩個寡頭，中國則是M i n i Ma x和智譜。那時資本市場甚至有聲音稱，圍繞基礎模型的競爭格局已定，創業游戲已經結束。不過這一根據經驗得出的結論在生成式AI技術浪潮中下得有點過早了。進入202 4年以來的種種跡象表明，游戲遠未結束，無論軟件還是硬件。

在軟件領域，OpenAI推出的Sora暴擊了視頻生成領域。此前，該領域的模型都只能生成10秒左右的視頻，而且幀與幀之間的差異小到容易讓人認為那不過是一張gif格式的圖片，而非富有運動感的視頻。但Sora生成的視頻時長能達到一分鐘，而且視頻中充滿運動和視角變化，幾乎就像用攝像機拍出來的一樣。

Sora發布后，Meta首席AI科學家楊立昆（Yann LeCun）照例在其社交賬號上評論稱，Sora并沒有真的懂物理規律，用專業術語說就是模型內部沒有一個根據真實世界模擬出來的“世界模型”，目前的AI仍不能像人一樣根據眼前的狀況預測下一步如何行動。而生成式技術也不是通用人工智能（AGI）的最終解決方案。

無論生成式AI已經吸引了多少用戶和資本入場，或許楊立昆的說法才是對的。目前已在文、圖、視頻、代碼等多個領域大獲勝利的生成式AI，最終可能并不能兌現和人一樣的智能。不過，Sora帶來的啟示和楊立昆的立場一致，那就是人工智能的游戲并未結束。

Runway、Pika等公司都是2023年視頻生成領域的明星，估值分別達到15億美元和2.5億美元。這兩家公司的模型都基于一種叫“擴散模型”的算法，簡單說就是通過將高清圖像壓縮成像素數量有限的模糊圖像，再反過來將模糊圖像還原成高清圖像，讓神經網絡學習其壓縮和還原（即擴散）規律，從而學會圖像的生成。生成視頻就是在此基礎上生成一連串有關聯的圖像。

而Sora革新了算法。雖然沒有公開具體細節，但OpenAI介紹它是一種將上述擴散模型與GP T所基于的Transformer結合起來的新算法，并透露說，如同GPT將語言切分成名為“token”的最小語素一樣，Sora也將圖像切分成了叫“patch”的像素塊，作用與token類似：這種方法使得Sora可以通過計算不同patch之間的依賴關系來預測下一個像素塊—GPT就是用類似方法計算不同token之間的依賴關系來預測下一個token。Runway和P i k a所使用的擴散模型并不為圖像劃分patch，也不預測patch。

在Sora問世之前，Runway是市場上最厲害的視頻生成公司，其第一代模型Gen-1能生成的視頻長度是15秒，到了第二代模型Gen-2，Runway將數字提升了3秒，達到18秒。此后一年內，這個數字未能進一步成長。而Pika迄今只能生成4秒鐘的視頻。Runway和Pika之所以只能以秒的速度進步，原因在于其算法很難把握每幀視頻之間的關系，一旦視頻的時長增加，圖像間的關系就會失控。Sora的新算法解決了這個問題。

不過Sora就是視頻生成的最終答案嗎？未必。如同楊立昆所說，Sora仍然常常犯“物理性錯誤”，比如視頻里過生日的女士吹了生日蠟燭，緊接著和眾人一起拍手慶祝，然而沒有人發現蠟燭并沒有滅。

新創公司在該領域仍有機會。就在S or a發布后不到半個月，一家叫Genmo的公司就被報道稱將從風險投資公司NEA籌集至少30 0 0萬美元資金，其被看好的原因之一是公司創始人Ajay J ain是那篇奠定圖像生成模型基礎的擴散模型算法的論文作者之一。

而在中國，曾估值不到10億美元的月之暗面（Moonshot）一次性拿到了10億美元融資，其估值升至25億美元，一躍成為國內估值最高的生成式AI初創公司。這家公司被看好的地方與G en mo相似，那就是創始團隊的學術背景。月之暗面創始人楊植麟畢業于清華大學，之后在卡內基梅隆大學讀了計算機博士，發明過X L Ne t與Transformer-XL兩個語言模型，其中關于Transformer-XL的論文是當年該領域引用量最高的論文之一。具有學術背景的創業者，如今被視為能夠取得算法突破的人。

硬件領域的游戲同樣沒有結束。憑借一份業績超出預期的財報，英偉達的市值在2月下旬突破2萬億美元，正式進入與微軟和蘋果同一陣營的“2萬億俱樂部”，將昔日的FA A NG 組合（Facebook、Amazon、Apple、Netflix、Google）中的4家都甩到了身后?？杉幢闳绱?，這個芯片巨頭的位置也沒那么牢靠。

同樣在2 月下旬，一家叫Groq的芯片公司突然冒了出來，它設計的LPU芯片號稱能在“推理”速度上比英偉達GPU芯片快10倍以上。這家公司2016年才成立，其芯片專注于人工智能計算的推理階段—構建一款生成式AI產品的過程中有兩個階段需要大量算力，前一階段被稱作“訓練”，需要上萬枚芯片計算上幾個星期，訓練完成、產品開始服務用戶，就進入了“推理”階段，消耗的算力與服務用戶的數量和頻率正相關。當生成式AI的競爭重心逐漸由比拼模型能力轉移到更高效地服務用戶，市場對推理芯片的需求就會超過訓練芯片。

英偉達兩個市場都想要，它宣稱自己的GPU芯片既能用于訓練，又能用于推理。這話當然沒錯，不過在推理階段，用戶的離散性需求不需要高性能芯片就能解決，繼續使用英偉達芯片實在是大材小用。更何況英偉達的芯片既昂貴又緊俏，目前其型號為A100的芯片單價高達1萬美元，更高端的H10 0芯片甚至被炒到超過4萬美元—這還只是一枚的價格，若要訓練像GPT-5那樣強大的模型，據說需要5萬枚H100芯片。

如此一來，從整個芯片市場細分出來的AI芯片又可以繼續細分。AI芯片的細分成就了英偉達，推理芯片的進一步細分當然也有可能成就新的玩家。Groq發布其推理芯片后，英偉達股價一度下跌4.4%。