?

Sora背后的“王炸”團隊

2024-03-14 12:55馮璐梁鈺誠
環球人物 2024年5期
關鍵詞:鐵軍人工智能模型

馮璐 梁鈺誠

霓虹閃爍的東京街頭,一名紅裙黑靴、戴太陽鏡的時髦女子款款走來。她身后廣告牌出現的位置,潮濕街道的鏡面效果,墨鏡中的光影,還有其臉部的肌理、雀斑,都完全符合真實的世界。

這是近日“橫空出世”的文生視頻模型Sora輸出的一部作品——僅憑幾句描述,它立馬能生成60秒的連貫視頻,大片質感,鏡頭百變,如夢似幻。人山人海的龍年春節、火車窗外的倒影、戴紅頭盔的宇航員在沙漠中冒險……模擬真實場景的超強能力,使得Sora一問世就立即引爆全球,甚至連在人工智能領域一向野心勃勃的特斯拉CEO埃隆·馬斯克也“坐不住”了。他很快在社交媒體上對此評價說:“人類愿賭服輸?!?/p>

時代變革的鐘聲,似乎已經敲響?!癝ora的最大意義,并非只是文生視頻,而是意味著大模型可以認知世界,例如在智能駕駛領域從‘感知升級到‘認知,并且這還不是全部?!碧椭菐齑髷祿邪l首席專家、車車科技董事長張磊對《環球人物》記者說。不少業內人士認為,Sora可以被看作是通往通用人工智能的一座里程碑。

“世界模擬器”

Sora是美國人工智能巨頭OpenAI的新產品。此前,OpenAI旗下已經有自動語音識別系統Whisper、圖像生成模型DALL-E等產品。

正是在以往的技術范式之上,OpenAI做出了新產品Sora。以2021年推出的DALL-E模型為例,其可根據用戶輸入的描述生成圖像。據官方說法,他們利用DALL-E的數據集重描述功能,給訓練Sora用的視頻素材加上了高質量文本描述,以提高輸出視頻的質量。目前的Sora,不僅可以理解用戶在提示中提出的要求,還能理解它們在物理世界中的存在方式。官方稱之為“世界模擬器”。

OpenAI的CEO山姆·奧特曼甚至直接在社交媒體上根據網友評論為大家制作Sora視頻。有人提出想要“一段海上自行車比賽的視頻,讓各種動物作為運動員騎自行車”。奧特曼在回復中發布了視頻,里面有企鵝、海豚和其他水生生物騎自行車。有人向奧特曼要一段“由一名祖母輩的網紅主持的自制團子烹飪課程,背景是一個質樸的鄉村廚房,并配有電影級的燈光”,之后Sora生成了另一段視頻:一位身穿圍裙、面帶微笑的白發女士邀請觀眾進入她的廚房。

Sora生成作品:女子漫步在霓虹閃爍的東京街頭。

在 Sora 官方介紹頁里,無數紙飛機在叢林中翩翩起舞、自由飛翔,如同正在穿梭的候鳥。在日語中,Sora 的引申義是“自由”。這或許意味著,每個人都可以通過Sora自由展示想象空間。

精準貼合文字指令和極致真實是Sora作品給人的第一印象??Х缺锔〕恋暮1I船,符合流體力學;都市內虛空巡游的鯨魚,遵從無形潮汐……這些作品意味著,Sora不是在虛構世界,而是在生成世界。

360創始人周鴻祎在社交媒體上表示,Sora的誕生意味著通用人工智能實現可能從10年縮短至一兩年。通用人工智能是指能在復雜動態環境中,學習并完成多樣任務的人工智能。

Sora并非首個文生視頻大模型。2023年,Pika Labs發布首個產品Pika 1.0,能生成和編輯3D動畫、動漫、卡通和電影,被視為零門檻“視頻生成神器”。Runway、谷歌Lumiere視頻AI生成模型、Stability AI的SVD1.1也相繼問世。

不過,之前的AI 生成視頻時間短,且易卡頓。Sora則彎道超車,單次能生成60秒的連貫視頻?!爸暗念愃飘a品能生成10秒鐘的視頻,這次的Sora是1分鐘,算是比較突出的量變?!敝窃囱芯吭豪硎麻L、北京大學教授黃鐵軍說。

此外,Sora用戶還可以輸入圖片轉成視頻,或更換視頻中的元素,甚至把兩個不相關的視頻自然拼接起來,自主為視頻補幀。這說明Sora能夠模擬物理世界,并有一些預測能力。

據中信證券研報,如果后續持續擴大模型及訓練集的規模,以Sora為基礎的模型可能做到模擬世界,成為真正的“世界模型”?!巴ㄓ萌斯ぶ悄芤獡碛惺澜缒P?,然后基于自己對世界模型的理解描述來行動?!秉S鐵軍說,“Sora內部的這種世界模型的表達,在接近真實的程度方面有較大提高,可以說是走向通用人工智能的重要臺階?!?/p>

黃鐵軍指出,包括OpenAI在內的科研企業或機構,目的都是研究智能越來越強的基礎大模型,運行起來會對各行各業產生影響,智能會成為越來越強的社會要素。

應屆生領銜,“00后”入列

Sora“技驚四座”之后,其背后的團隊也來到了聚光燈中心。

事實上,該研發團隊成立時間還不到一年,成員背景多元,大多行事低調。這支集技術和藝術,博士和本科生,美國人、印度人和華人等為一體的團隊,為Sora這一變革性AI模型的誕生提供了無限可能性?!安荒苡脗鹘y的高學歷或資歷來看這個事情,歷史上很多創新往往是由年輕人以某種偶然方式實現的?!秉S鐵軍對這支團隊評價說。

Sora公布的研發成員名單顯示,帶頭人有兩位——威廉·皮伯斯和蒂姆·布魯克斯。兩人師出同門,均在2019年進入加州大學伯克利分校深造,并于2023年先后博士畢業。這兩位應屆博士生嘔心瀝血近一年時間,“每天睡得很少,高強度工作”,才有了Sora的問世。

皮伯斯青春洋溢,笑容很燦爛,喜歡自稱“比爾”。像大多數博士一樣,他戴眼鏡,穿著清爽適體的衣服。在社交媒體上,這位技術大佬除了發布工作內容,時不時還會對一些公共政策發表意見。皮伯斯轉發過很多美國政要的帖子,如2016年,皮伯斯就轉發了特朗普的一條推文,大致內容是“選舉團是民主的災難”,皮伯斯評論道:“同意?!贝舜蜸ora成為關注焦點后,皮伯斯社交媒體的評論區幾乎被擠爆,粉絲們紛紛發出“恭喜!”“偉大的工作!”“夢想成真了!”等贊嘆。

海上自行車比賽中,動物運動員騎著自行車。圖為通過這些提示詞,Sora生成視頻的截圖。

Sora研發團隊成員皮伯斯(左)與布魯克斯(右)。

皮伯斯是個“學習小天才”,本科就讀于麻省理工學院,主修計算機科學。他參加過多媒體制作軟件開發商奧多比公司的暑期實習,還去過人工智能企業英偉達實習,研究計算機視覺。

盡管年紀尚輕,皮伯斯的業界經驗卻十分豐富。讀博期間,他的研究成果多次入選國際圖形學年會等學術會議。2022年5月,他到社交媒體巨頭Meta實習,和同事合作發表了DiT模型。第二年,該成果被計算機視覺國際大會錄用。也是在同一年,皮伯斯在加州大學伯克利分校的人工智能研究中心完成博士學業。DiT架構正是Sora的核心技術支撐之一。而Sora技術報告引用的關鍵文獻《具有自注意力網絡的可擴展擴散模型》也出自皮伯斯之手。從某種程度上說,皮伯斯為Sora帶來了核心技術基礎。

皮伯斯的博士師兄布魯克斯早畢業了幾個月。他本科就讀于卡內基梅隆大學,主修邏輯與計算,輔修計算機科學,其間在臉書的軟件工程部門實習了約四個月。2017年,布魯克斯本科畢業,先到谷歌研究AI相機,之后到伯克利AI實驗室讀博,主要研究方向是圖片與視頻生成。讀博期間,布魯克斯研制出了AI圖片編輯工具InstructPix2Pix——這是一項通過輸入指令進行快速圖像編輯的技術。這一研究經歷使他在研發Sora時如虎添翼。2023年1月,布魯克斯博士畢業,加入OpenAI,并相繼參與了DALL-E和Sora的工作。

布魯克斯多才多藝。他高中時拍的照片獲過大獎。如今,他是一名專業攝影師,經常走進大自然拍動物。此外,他還在紐約百老匯燈塔劇院登臺演出過,并贏得無伴奏表演節奏口技的國際獎項。他經常分享自己的文藝作品,還發帖稱:“我對AI充滿熱情,幸運的是,這種熱情與我對攝影、電影和音樂的愛好完美融合?!?/p>

在Sora項目中,布魯克斯的研究重點是開發能模擬現實世界的大型生成模型。他的文藝愛好對Sora的開發大有裨益——作為一個生成視覺產品,Sora需要具有藝術和科技跨界背景的人。

Sora研發團隊中這樣的人不在少數,如來自舊金山藝術大學的喬·泰勒,他在頁面設計、藝術指導等方面能力強,時不時還會去伯克利制作手工藝品。與其說是工程師,他更像一名藝術家。進入OpenAI前,他在多家公司負責過頁面設計等工作,這些經驗使他能在研發Sora時進行審美和設計上的賦能。

值得一提的是,團隊里印度裔的阿迪蒂亞·拉梅什以及“00后”威爾·迪普都只有本科學歷。拉梅什就讀于紐約大學,在校期間就已經開始研究生成式模型。他畢業后本想繼續深造,卻意外地在OpenAI的暑期實習中被留下來,成了一名研究員。盡管拉梅什在學歷方面“稍顯遜色”,但在資歷上是元老級的,算是Sora基礎技術的奠基人之一,這讓他有資格在整個團隊中擔任“執行制作人”。拉梅什主導了文字轉圖形模型DALL-E三代的研究,這三代模型的精確度和質量不斷提高。

2023年,拉梅什在一次采訪中表示:“人類能描述現實生活中可能遇到的任何情況,但也可以描述不可思議的情況或不可能發生的場景。我們想看看,如果訓練一個模型,來從文本中生成圖像,是否能夠做到與人類一樣的推斷能力?!崩肥驳南敕ɑ蚨嗷蛏俚赜绊懥薙ora的誕生,促成了Sora模擬現實的能力。他希望AI模型能夠像人一樣推理,這一期望已經在Sora上得到一定實現。

另一位本科生威爾·迪普2003年出生在西雅圖,曾在阿根廷生活過,能說“半流利”的西班牙語。他半年前在一個節目中分享了自己的人生信條:“如果一件事要有人做,且沒有其他人能做到,很好,那就由我來干?!边@位“00后”的確是個實干派。早在高中時期,他就開始研發面向高中師生的即時通訊平臺。該平臺關閉后,迪普又招募團隊研發了一個可視化工具,這家公司后來被社群管理與分析公司康索收購。2022年,迪普從密歇根大學計算機系本科畢業。同年7月,他加入OpenAI,并于2024年1月加入Sora項目組。

值得一提的是,迪普還是一位社交媒體達人,他2018年加入X平臺,至今已發了5400余條推文,甚至曾分析過推文的傳播規律:“最偉大的推文總有一種詩意,開頭勾住你,然后讓你進入一個閱讀的圈,最后加上一個‘啪式的響亮結尾。這感覺就像海明威一樣?!?/p>

備受關注的還有Sora團隊里的華人研究員。他們的公開信息不多,顯得頗為神秘。王宇2010年在南京師范大學附屬中學就讀,2013年考入加州大學伯克利分校,從畢業后到今年1月加入OpenAI前,他有在Meta和Instagram(照片墻)任軟件工程師及工程經理的經歷。研究員靖禮是湖北人,高中時曾獲第四十一屆國際中學生物理學奧林匹克競賽金牌,2014年畢業于北京大學物理系,后在麻省理工學院獲博士學位,在Meta工作兩年后加入OpenAI。此外,作為曦智科技的聯合創始人,靖禮還入選2019年福布斯中國30位30歲以下精英榜。他的社交媒體主頁寫著:“我熱衷于幫助人工智能了解現實世界并創造新的智能?!?h3>中美差距擴大?

盡管Sora團隊有幾名華人,但類似成果并未出自我國。這是否凸顯出中美高科技之間的差距?業內人士稱,差距確實存在,但沒想象中的那么大。

“美國在基礎科學、計算技術、芯片產業等方面全球領先,也匯聚了大量尖端人才投身人工智能領域,形成了較強的競爭壁壘和先發優勢?!睆埨谡f。黃鐵軍也提到,美國頭部企業在經濟和人力資源方面,調度能力和活力較強,大量投資進入也可以讓頭部企業有能力不斷開發新產品。

但他們同時表示,我國人工智能發展也非常迅速?!安徽撌荁AT(百度、阿里巴巴、騰訊)等互聯網巨頭的持續創新,還是商湯科技、科大訊飛等專注人工智能的企業,在語音識別、自然語言處理、具身智能等方面都有重要突破?!睆埨谡f。

盡管起步較晚,但中國在算力、芯片和5G等領域的發展呈快速增長趨勢,為人工智能的大規模計算和數據處理提供了強有力的支持。目前,中國的人工智能專利申請量居世界首位。

“中國的頭部企業其實也做得很好?!秉S鐵軍說,“如果新的技術可能會帶來新的機會以及沖擊其原有產品、應用和服務,那企業自然會投入。中國現在有少數企業在這方面的積累和進展還是很不錯的。只是受到的關注度沒那么高,大家容易只關注‘冠軍,不關注其他角色?!?/p>

談及中國人工智能領域可能存在的問題,黃鐵軍表示,相較美國,我國的資源、經驗可能比較分散,研究機構、企業、大學“各做各的”?!拔覀冊诩夹g上很前沿,但工程和系統上差距明顯。相信不久的將來,國家層面會有部署和行動?!?/p>

張磊也表示:“我國政府近期在產業融合、數據交易、人才培養等人工智能產業方面出臺相關激勵政策,未來將依托廣闊的市場空間和數據優勢,加快人工智能發展,積極參與國際交流與合作,推動我國人工智能技術的創新和應用?!?/p>

人工智能是否會成為一條國際競爭新賽道?“‘賽道這個詞可能說小了,它是整體性、基礎性的?!秉S鐵軍說,人工智能的發展可能會帶來一個智能時代,智能有可能成為一種驅動社會的基礎性能量,會在未來的新時代中充當核心角色?!爸悄軙r代和工業、電力、信息革命的影響可能是一樣的。要從人類命運共同體的角度去考慮,人類智能和機器智能如何在新時代里進行碰撞?!?h3>“未來永遠是開放的”

像任何新事物一樣,Sora的問世也不可避免地引發了一些焦慮。它發布后第二天,主營視頻制作的奧多比公司股價就應聲下跌。網紅博主“野獸先生”在OpenAI創始人推特下留言,“請別讓我無家可歸”。有游戲程序員預言自己“半年下崗”。甚至有投資人判斷,5年內會有團隊用Sora制作出票房超5000萬美元的電影。屆時,好萊塢的經典標志將被改為“SORAWOOD”……張磊指出,這些現象足以說明,Sora對于圖像軟件工具、影視制作、游戲開發等領域都有直接沖擊。

Sora能生成動漫、卡通和電影。

隨著Sora的不斷推廣,越來越多的行業迎來洗牌,但這也意味著機遇。如Sora可以將小說生成動漫,還能快速生成高質量廣告?!凹夹g進步了,這些產業有了創新,服務形式發生變化,如果用戶更喜歡,那不是壞事,是好事。應該擁抱這種新的可能性。人工智能在視聽內容方面潛力巨大。用好它,整個產業會發生翻天覆地的變化。新興產業形態出現,一些舊的、大家不怎么喜聞樂見的產業萎縮。這是很正常的進步過程?!秉S鐵軍說。

此外,Sora生成的作品過于逼真,這讓人擔心其是否會為虛假信息推波助瀾,甚至可能威脅人類社會秩序。對此,黃鐵軍呼吁大家不用過于擔心?!癝ora目前對于真實世界的表達還有很大提升空間。如果實際開放使用,預計生成視頻中會出現大量違反自然規律的東西?!盨ora官網也提到,它目前可能無法勝任過于復雜的環境的生成,可能出現一些物理錯誤,“如一塊餅干被咬了一口,但上面并沒有出現缺口”??傊?,距離作為一個安全的產品走向市場,Sora還有很長一段路要走。

黃鐵軍認為,不必過于放大Sora的風險,“人類一直在不斷掌握新工具,正如火可以用于耕種,也可以用于戰爭。新技術想攔也攔不住。如何把一個新技術用好,降低負面效應,這需要系統思考。我們應有風險意識,盡快考慮相應規制手段”。

美國未來學家庫茲韋爾提出的“奇點理論”,被用來形容機器智能與人類智能兼容,甚至超越人類智能的時刻。Sora很難不讓人聯想到這種時刻的到來?!皺C器可能超越人類甚至擁有意識,這也是一個對于人類智能祛魅的過程。我們創造的人工智能是否會把我們自己控制住,也是可以去討論的話題。但我們不應因此對人工智能技術的未來感到悲觀和抵觸?!秉S鐵軍說。

“未來永遠是開放的?!秉S鐵軍說,我們希望并相信Sora本身和它的年輕團隊都在宣告一個更為開放與值得遐想的未來的靠近,而不是更多可能性的關閉。

猜你喜歡
鐵軍人工智能模型
新昌縣征訂《鐵軍》連續五年超千份
鐵軍頌
鑄成消防鐵軍
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
2019:人工智能
人工智能與就業
數讀人工智能
讀《鐵軍頌》
3D打印中的模型分割與打包
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合