?

全網刷屏的Sora有多“可怕”

2024-03-18 10:13王一鵬

科學大觀園 2024年6期

關鍵詞：邏輯世界模型

王一鵬

2月16日凌晨，在沒有任何預兆和消息透露的情況下，OpenAI 突然發布了自己的首個文生視頻模型：Sora，大幅刷新行業多個指標，重新定義了 AI 文生視頻在現階段的技術極限，顛覆了生成式 AI 在視頻領域的全球市場格局。

Sora 使用 Transformer 架構，建立在 DALL·E 3 和 GPT 模型之上，可以生成長達一分鐘的有運動、多機位視頻。相比業界水平，Sora 將視頻生成的時長一次性提升了 15 倍，直接邁過了市面上所有短視頻的時長要求。

同時，Sora 也帶有世界模型的特質。世界模型不是 AI 視頻生成的必需要素，卻是這個領域較為高端的一個研究方向。所謂世界模型，簡單點說，是要對真實的物理世界進行建模，讓機器像人類一樣，對世界有一個全面而準確的認知。視頻與文字不同，大多數是在描繪一個主體，在一個真實或虛構的物理世界中的動作，因此，世界模型會讓 AI 視頻生成更流暢、更符合邏輯，降低視頻模型的訓練成本，提升訓練效率。同時，世界模型也為生成式 AI 真正進入自動駕駛行業鋪好了路。

此次，Sora 的世界模型，已經能幫助它還原一輛越野車在山區小路上的行駛情況，在視頻中添加逼近真實的傾斜和顛簸感。

但 Sora 的世界模型仍有非常多的問題，比如，一塊餅干被咬過之后，卻沒有留下咬痕。OpenAI 非常實在，把這些問題都寫在了官網上。

目前，Sora 僅開放給了少部分人進行內測，據稱是一些視覺藝術家、設計師和電影制作人。同時，OpenAI 內部仍在進行模型倫理側的對抗性測試，比如錯誤信息、仇恨內容、偏見內容，至于色情暴力，則會在文本輸入時，就被拒絕掉。

對于 Sora，今天的我們，必須注意到幾個顯而易見的推論：

1.OpenAI 一拳打在了所有人的肝上：全球的 AI 視頻生成賽道投資邏輯，乃至相關企業的生存邏輯，在此刻都已經改變了。未來一個季度內，如果該企業的視頻生成能力，仍然停留在 4s，或導致直接出局。

2.AI 已經快速邁過文生文、Chatbot時期，大步進軍視頻生成領域：當下最火的短視頻、短劇，將迎接 AI 的到來；那些卡在瓶頸上的領域，比如自動駕駛、智慧城市，或將迎來突破。

3.不要過度神話 Sora 或其他 AI 視頻生成工具，當下仍有巨量的技術、產品、商業問題等待解決；但也不要低估 AI 技術的進步速度，那個凝固在未來時光中、讓人看不清面貌的 AGI（通用人工智能），正在向我們邁步。

Sora到底牛在哪兒？

就在年前，2024年 1月27 日，虎嗅舉辦了一場關于 AI 視頻生成的開放沙龍，會上有一個有趣的互動：AI 視頻生成多快迎來 Midjourney 時刻？

選項分別是半年內、一年內、一至兩年或更長。

在現場，每個選項都各有擁躉，但 OpenAI 26日公布了準確答案：20 天。

AI 視頻生成真正的難點是在文生視頻，而非圖生視頻、視頻生視頻。個中奧妙在于，文生視頻，需要根據指令，從文字解碼出視頻的時空邏輯，同時保證在這一邏輯下，畫面中所有物體的運動、變化，符合要求，符合現實世界規律。而圖生視頻、視頻生視頻，皆有“照貓畫虎”的意味，因此反倒要簡單一些。這也是為什么，市面上的 AI 視頻生成，始終停留在 2s～4s 的時長范圍內——一旦超過了這個時長，視頻的可控性和質量都將大大下降。

很多視頻生成，更像是個固定人物配上動態背景，畫面很單調，幾乎沒什么動作，這也是因為從文字到視頻，在時空邏輯推理層面的局限。同時，很多企業更關注所謂 AI 視頻生成的產品化、商業化，聚焦于推出一些基于模板，快速用于營銷的視頻生成工具，在世界模型層面有所欠缺，一旦視頻時長增加，模型不能理解真實的物理運動和相互作用邏輯，變得十分無力。

OpenAI 的 Sora ，就是在文生視頻、增加視頻時長、建立世界模型這幾大最主要的難點上，走出了突破性的一步。但這并不代表 Sora 沒有問題，可以以假亂真，當下最違和的問題在于憑空生成：三只小狗在嬉鬧，憑空出現了第四只小狗、第五只小狗；一個人撿起一大塊塑料片，憑空出現一把塑料椅子。

另外一類主要問題，在于 Sora 的世界模型仍然不夠完善。比如一個男人倒著跑跑步機，且跑步動作并不連貫自然?；蛘咭粋€籃球撞在籃筐上，發出符合物理規律的彈跳，然而下一秒就撞破了籃網，發生爆炸。一群考古學家，在沙漠里挖出一個塑料椅子，煞有介事地清理灰塵，而椅子本身則在詭異地飄浮和變形。

AI 視頻生成真正的難點是在文生視頻，而非圖生視頻、視頻生視頻。個中奧妙在于，文生視頻，需要根據指令，從文字解碼出視頻的時空邏輯，同時保證在這一邏輯下，畫面中所有物體的運動、變化，符合要求，符合現實世界規律。

世界模型一直處于一個相當狹窄的研究領域，這概念研究難度大，目標太高，帶有相當的學術色彩，因此一度參與者寥寥。

值得一提的是，Meta 首席人工智能科學家、圖靈獎得主楊立昆（Yann LeCun）本人，盡管在 Meta 的生成式AI落后問題上，正承受著巨大壓力，但其卻是世界模型構想的主要提出者。

楊立昆一向對生成式 AI 的幻覺和一系列反智行為嗤之以鼻，并認為AI只有真正理解物理世界，才具備真正的價值，斷言 GPT 模型活不過5年。他在 2023 年 6 月基于自己的構想，推出了 I-JEPA 模型，用真實世界的背景知識，補充圖像缺失的片段，但這仍然是個技術研究層面的概念。

2023 年 12 月，AI視頻生成的領頭羊之一 Runway，官宣下場通用世界模型，高調發布系列招聘，宣稱要用生成式AI來模擬整個世界，以應對 Pika 的步步緊逼。

這是一個信號，或許在楊立昆看來，局面一度在向著好的方向發展：自己的研究方向得到認同，拖累 Meta 的謠言不攻自破。

Sora革了誰的命？

Sora 發布前，有很多煙幕彈式的訊息更新，比如：OpenAI 組建研究兒童安全的新團隊、OpenAI 正準備推出 GPT-4.5-turbo，但真正的“殺手級更新”被隱藏得很好，這也導致像 Pika、Runway 一樣的明星創業公司，措手不及。何況 OpenAI 的聯合創始人 Andrej Karpathy 本來就是 Pika 的資方之一。

源碼資本副總裁李露霖在虎嗅主辦的沙龍上表示，短視頻是當前硬件基礎設施Mass Market滲透率最高的形態。

有數據顯示，目前國內短視頻用戶的規模在10億以上，有數據稱抖音2022年年收入700億美金以上，快手也在900億元人民幣以上。不過面對這樣一個市場，在 Sora 發布前，所有的視頻生成工具，均沒有達到可付諸商業或工業化生產的水平。

有專家對虎嗅表示，大廠目前對于AI視頻生成的態度模棱兩可。根本問題在于，現在的人工視頻生成效果更好，且成本也能接受，AI 視頻生成，在此前沒有大家想象的那么顛覆，所以整體策略偏向“防御”，而非“進攻”。

這一切，既麻痹了像 Pika、Runway 一樣的創業公司，讓他們以為機會已至、前景夠好；也讓這些公司及其投資人，低估了視頻生成賽道的競爭烈度，以為窗口期仍然足夠長。

所有的 AI 視頻生成公司，在這種麻痹里，都陷入了同質化競爭：過多關注更高畫質、更高成功率、更低成本，而非更長時長以及世界模型。

Pika、Runway、Meta，大體都是如此，在時長不超過 4s 的范圍內，可以做到畫質極度精美，但物體本身的運動幅度極低，且會變形。

國內的字節跳動，反倒是其中的另類。在視頻領域，字節的嗅覺更加敏銳。2023 年 11 月，字節跳動發布 PixelDance，通過上一個視頻片段尾幀，為下一個視頻片段頭幀提供指導的思路，在視頻時長上有所突破，但截止到發稿時間，仍然沒有開放用戶測試。

接下來在資本市場的影響，很可能是隱性的。Pika 創始團隊曾被打上“學霸”“完美”等標簽，并在 2023 年 11 月底完成 5500 萬美元融資，可下一輪的資本將在怎樣的時間點，以什么樣的數額進入？Runway 2023 年 5 月完成 1.41 億美元融資，但主攻世界模型的團隊還在組建中，下一步融資的節奏也存疑。

如果說 Pika、Runway 身上還有布局價值，那么對于國內 AI 出海的企業而言，形勢將變得更加艱難。換句話說，從移動時代遷移至今的、基于場景和產品能力，快速上線一個插件的商業模式，正在海外 AI 市場失效——

因為像 OpenAI 這樣的企業，正屹立在市場上。他們幾乎重現了當年 Oracle 市場領導力，一步快，步步快，降維打擊所有競爭者。對于所有做模式、趕風口的機會主義創始人而言，巨頭若要殺死你，恐怕也只會發生在一夜之間。

◎ 來源|虎嗅網

猜你喜歡

邏輯世界模型

刑事印證證明準確達成的邏輯反思

法律方法(2022年2期)2022-10-20

中學生百科·大語文(2021年11期)2021-12-05

創新的邏輯

紡織科學研究(2021年7期)2021-08-14

重要模型『一線三等角』

中學生數理化·七年級數學人教版(2020年10期)2020-11-26

重尾非線性自回歸模型自加權M-估計的漸近分布

數學物理學報(2020年2期)2020-06-02

女人買買買的神邏輯

37°女人(2017年11期)2017-11-14

我愛你和世界一樣大

中華家教·幼兒版(2016年11期)2016-11-28

3D打印中的模型分割與打包

光學精密工程(2016年6期)2016-11-07

足球周刊(2016年15期)2016-11-02

奇妙有趣的數世界

初中生世界·七年級(2016年9期)2016-10-09

科學大觀園2024年6期

科學大觀園的其它文章: 女科學家在這里; 鸚鵡螺不是螺; 嗑瓜子為什么會上癮; 慢性壓力助長癌癥轉移; 照射一刻鐘紅光可降血糖; 基因編輯豬肉有望上餐桌

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合