?

作為視頻世界模擬器的Sora:通向AGI的重要里程碑

2024-05-03 09:43郭全中張金熠
新聞愛好者 2024年4期
關鍵詞:傳媒業

郭全中 張金熠

【摘要】視頻生成模型Sora表現出驚艷世界的物理世界理解與模仿能力,以視頻世界模擬器的身份成為AGI發展史上的又一里程碑。通過整理Sora的技術突破與技術局限,以Sora為界將AGI發展歷程劃分為經驗積累、能力涌現與全面泛化三個階段,并對各階段特征進行概括梳理?;谏鲜鍪崂?,歸納分析現階段AGI對傳媒業的新機遇與新挑戰,包括生產力再升級、職業認知更新與市場結構重塑,并對AGI未來發展趨勢進行總結,指出AI模型+智能機器人、元宇宙技術集成初顯、AI鴻溝加劇與AI鏡像視角拓展人類認知邊界等趨勢。

【關鍵詞】生成式人工智能;AGI;傳媒業;AI鴻溝;鏡像視角

自2022年底ChatGPT問世以來,AGI(通用人工智能)領域曙光初現,以多模態大模型為技術路徑的生成式AI推動AGI持續量變,如今,視頻生成模型Sora以更逼真、更穩定、更持久的視頻生成效果驚艷世界,Open AI研發人員更稱其為“構建物理世界通用模擬器的一條有前途的途徑”。作為通向AGI的里程碑,Sora以視頻世界模擬器的身份登場,在訓練量足夠大的基礎上產生涌現能力,其中包括對物理規則的初步理解與模仿,盡管尚有不足,卻如孩童般正在快速成長。伴隨能力突破,高速發展的AI也在持續加劇人們對職業前景、產業監管、社會倫理、國家安全乃至物種存亡等方面的憂慮。站在AI發展的重要節點,理解Sora及背后的技術邏輯、厘清AGI的發展歷程,把握其為行業發展帶來的機遇挑戰,對各行各業,尤其是受到嚴重沖擊的傳媒業來說尤為重要。故本文將重點整理Sora的技術突破與技術局限,以Sora為節點梳理AGI發展歷程,并基于此分析現階段AGI對傳媒業的新機遇與新挑戰,以及AGI的未來發展趨勢。

一、何為Sora:作為視頻世界模擬器

2024年2月15日,Open AI在其官網發布了名為《作為世界模擬器的視頻生成模型(Video generation models as world simulators)》,是視頻生成模型Sora與大眾的初次見面。作為一個能夠根據文本指令或靜態圖像生成長達1分鐘視頻的擴散模型,Sora進入了文生視頻領域的技術前沿,但顯然尚未達到世界模擬器的預期水平,故暫且稱之為“視頻世界模擬器”。

(一)Sora的技術突破

與Meta推出的無監督視頻預測模型V-JEPA不同,Sora生成視頻中對物理世界客觀規律的理解與呈現均來自規模效應,是Sora自身根據訓練內容獲得的。盡管Sora與GPT系列、DALL-E系列的底層思路基本一致,均踐行的Scale-Law(規模標度法則),但是前者在數據處理、算法架構與模型性能方面卻呈現出極具創新性的技術突破,進入視頻領域的生成式AI技術前沿。

1.提出Patch(補?。└拍畈?/p>

在數據處理方面,相對于文本、代碼和圖片生成,文生視頻模型不僅需要理解語言,還需要理解圖像及其背后的時空關聯。對此,OpenAI團隊從LLM(大語言模型)中汲取靈感,將視頻中的視覺數據轉化為Patches(補丁,類似LLM的Tokens),從而實現視覺數據的統一表示。這一過程(如圖1所示)借助視頻壓縮網絡將原始視頻從高維度像素空間壓縮至低維潛在空間(Latent space)并輸出為潛在時空表示(Spacetime latent patches)實現,可以稱為視頻的patch化(patchifies)。

Patch的提出與應用為視覺生成模型提供了一種高度可擴展且有效的表示方式,使LLM的成功經驗得以繼承,并為DiT架構的運行打下基礎,從而開辟出視覺大模型的技術實現路徑。Open AI還指出,基于patches的表示方法使Sora能夠訓練不同分辨率、時長和寬高比的視頻和圖像。

2.采用Diffusion Transformer(DiT)架構

在算法架構方面,Sora所采用的DiT架構創造性融合了Diffusion(擴散模型)和Transformer(轉換器模型)的技術架構。前者作為生成模型,包含正向擴散與逆向擴散兩個過程,簡言之,正向的擴散過程通過添加噪聲擾動數據,將圖片逐步變為隨機噪聲,逆向的擴散過程則通過降噪生成新的圖片。[1]此前,Diffusion已廣泛應用于圖像生成、視頻生成工具、3D場景生成等技術領域,主要服務于AI繪畫、封面制作等業務場景,代表模型有Stable Diffusion。后者作為深度學習模型,采用Encoder-Decoder(編碼器-解碼器)架構并引入自注意力機制與多頭注意力機制[2],具有高效性、可拓展性、可解釋性等諸多優勢,在NLP(自然語言處理)領域表現尤為出色,GPT系列均采用Transformer的預訓練模式并具有較好的涌現能力。自2020年Google Brain提出的Vision Transformer(ViT)技術首次將Transformer應用到NLP領域之外的圖像識別場景,Transformer目前也被應用于視覺任務處理,如基于文字生成圖片的Transformer模型DALL-E。

DiT架構和patches及其視頻壓縮網絡共同解決了將視頻從時空維度壓縮至潛在空間并轉化為可輸入Transformer的潛在時空表示的問題,從而突破了算法模型對視頻的時空理解障礙,并通過聯級擴散模型與視頻潛在擴散模型提升了生成視頻的分辨率、可控性以及時間一致性。經驗證,伴隨著訓練計算量的增加,樣本質量顯著提高。[3]

3.提升文生視頻性能

在模型性能上,相比其他文生視頻模型,如Pika、Runway Gen-2,Sora的性能升級主要體現在以下三個方面。一是能夠生成跨越不同持續時間、寬高比和分辨率的視頻和圖像,甚至可以生成一分鐘的高清視頻,從而突破以往文生視頻模型只能執行針對特定類型、較短長度或固定分辨率的視頻生成局限,并提升了視頻生成的可擴展性。二是能夠生成動態視角的視頻,伴隨著視角的移動和旋轉,人物及場景元素在三維空間中仍然保持一致的運動狀態。這意味著基于大規模訓練,Sora獲得了模擬物理世界中某些方面的能力,如動態相機運動、長期一致性和對象持久性,在視頻中則表現為三維一致性與時間連貫性。三是能夠基于文本、圖像、視頻等多種模態提示完成視頻生成任務。語言(即文本指令)理解能力是支撐該性能的關鍵,Open AI借助高度描述性的標題生成器模型訓練以提高視頻生成模型的語言理解能力,在執行任務時,用戶輸入的簡短指令經GPT增強描述性后輸入Sora中,從而使Sora能夠生成高質量且準確遵循用戶指令的視頻。在此基礎上,圖像與視頻提示則為Sora的內容生成提供了視覺錨點,更有利于生成符合用戶意圖的視頻內容。

(二)Sora的技術局限

目前Sora表現出的技術路徑與性能提升令人瞠目,也展現出成為世界模擬器的潛力,但它在基于視頻模態理解與呈現物理世界方面仍有局限。例如生成的視頻內容中局部自洽但整體荒謬(如南轅北轍跑步機),運動主體間缺乏因果聯系(如老奶奶吹氣后蠟燭不滅),缺乏物體臨界態呈現(如玻璃破碎時液體流出但杯體完好)等。上述局限可能來自patch化過程割裂全局觀念,基于概率的模擬器無法精準表達物理定律,以及臨界態觀察數據難以獲取等原因[4],也可能是受到算力需求過大而無法擴大訓練規模的影響。

此外,Sora的局限性還體現在技術團隊與用戶群體之間存在距離,因而作為視頻生成工具,Sora能否滿足用戶需求從而發揮更大價值,還需要Open AI重視與使用群體的對話交流。目前Sora正在向部分提供反饋的內容創作者開放,其中包括視覺藝術家、設計師和電影制作人等。

二、以Sora為界:AGI發展歷程

在21世紀的第二個十年,從ChatGPT“牙牙學語”到Sora試圖“理解世界”,人工智能通用性顯著提升,進入AGI發展快速路。相較于專注NLP的LLM,作為視頻世界模擬器的Sora對物理世界的理解與模仿能力雖較為初階,但一定程度上實現了基于自主學習的AI模型世界模擬能力從0到1的突破,推動AI向AGI再次靠近。以Sora為界,AGI的發展歷程可以分為經驗積累、能力涌現與全面泛化三個階段,且目前處于能力涌現階段。

(一)經驗積累階段:持續深潛的ANI(專用人工智能)

自1950年“圖靈測試”的提出到1956年通用問題求解器研發受阻,21世紀之前的AGI實踐探索囿于認知水平、技術水平、資金水平等多方不足,一直未取得實質性進展。故21世紀初,人工智能研究者轉變思路,開始面向特定領域問題并尋求專用的解決方案,即ANI,并積累了豐富的探索經驗。作為評估AI算法智能水平的理想平臺,競技游戲不僅具有明確的規則和目標,還隱含著人類日常生活所涉及的決策判斷與任務解決,更提供了與人類表現直接比較的途徑,因此不少性能出色的AI模型往往以在競技游戲中擊敗人類對手作為彰顯其能力的方式。如2017年升級后的AI圍棋模型AlphaGo擊敗當時世界排名第一的圍棋選手柯潔,同年AI德撲模型Libratus擊敗一組世界級德州撲克職業選手,2019年AI模型OpenAI Five在Dota 2國際賽事中以2∶0打敗上屆世界冠軍OG戰隊,等等。此外,其他領域的ANI發展也持續推進,如用于生產財報類新聞的智能寫作平臺Wordsmith、能夠生成說唱歌詞的AI模型DopeLearning、能夠個性化分發信息的智能推薦算法、電子設備智能助手Siri/Cortana/小藝,等等。

(二)能力涌現階段:具有涌現能力與AGI潛力的AI模型

自2022年末ChatGPT問世起,基于大規模數據訓練的生成式AI向世人展現出驚人的涌現能力。與以往基于程序設定、智能程度有限的ANI不同,該階段的AI模型首先通過大規模未標注數據的預訓練,再采用微調(fine-tuning)、上下文學習(in-context learning)、零樣本(zero-shot)等方式使其廣泛應用于下游任務,從而獲得初步的自主生成內容能力。值得注意的是,AI模型在內容生成過程中展現出的理解能力,如ChatGPT的自然語言理解和上下文對話能力、Sora的基礎物理規則理解能力等,均來自模型訓練,屬于規模效應帶來的能力涌現。此外,2024年1月Open AI推出的GPT Store涵蓋DALL·E(生成圖像)、寫作、學術研究、編程、教育和生活等多種類型的自定義ChatGPT助手,相當于Open AI版的應用商店,體現出ChatGPT作為NLP領域的ANI已經能夠勝任多模態、多場景、多樣化的下游任務,具備較強的可遷移性,而這正是評估AGI水平的重要指標。

Sora通過統一視覺表示,實現了基于patches的大規模訓練,并涌現出對基礎物理規則的理解能力,同時借助ChatGPT完成對文本提示的精準解讀,以達成用戶需求的準確理解與呈現。在這一過程中,Sora并非面向特定行業或領域的ANI,而是力圖實現對物理世界普遍理解的通用型視頻生成模型。事實上,即便是在對物理世界的二維視覺呈現方面,Sora也遠未達成對基礎物理規則和交互邏輯的準確理解。然而Scale-Law在GPT系列中的出色表現令人對囿于算力局限的Sora抱有期待,伴隨著訓練參數規模的不斷增大,GPT系列也不斷向NLP領域的AGI靠近,Sora的后續發展若能延續GPT系列的成功,也有望向合格的視頻世界模擬器乃至物理世界通用模擬器的方向邁進。

而在物理世界中,AGI發展的另一方向——人形機器人也在向更具AGI潛力的方向發展。在2024年2月舉行的世界移動通信大會(MWC 2024)上,Engineered Arts公司研發的人形機器人Ameca二代亮相,GPT-4加持使其能夠對各種問題做出實時反應,與之匹配的是Ameca靈動的表情、靈活的眼神以及協調的肢體(除雙腿),這令人驚訝之余也不由滑向恐怖谷效應的情感谷底。

(三)全面泛化階段:具有系統認知與整體視野的AGI

當人工智能不再局限于某個特定的任務或領域,具有廣泛的認知能力和自我進化能力并在多樣化任務和復雜環境中表現出人類級別及以上的智能水平時,可以認為其達到了AGI水平,即AGI發展進入全面泛化階段。該階段,AGI是具備感知、理解、學習和推理等基礎思維能力且能夠進行自我學習、自我提升、創造性思考的機器智能,能夠理解包括物理世界和人類社會在內的復雜系統并以整體視野分析問題且做出決策。具體而言,AGI將跳出生成式交互邏輯,基于對復雜系統的整體性認知進行人機互動甚至參與社會運行。受限于數據豐富度、算法架構與算力水平,理想狀態下的AGI尚未出現,Sora通過對三維物理世界的視頻學習初步獲取了創造數字原生世界的能力,標志著AI領域正在向全面泛化階段的AGI靠近。同時,NLP技術、語音識別技術、視覺識別技術等不同領域的ANI發展迅猛且成效顯著,協同推進AGI能力體系建設。在此基礎上,軟硬件公司積極合作,也將加快以類人形態為表征的AGI面世。

三、現階段AGI對傳媒業的機遇與挑戰

當前,AGI作為具有泛化能力的機器智能,與現有行業結合或創造新生行業,對經濟社會的影響是全面且深入的。對傳媒業而言,AGI既以更高效生產工具的身份為行業賦能,又因深刻影響行業操作系統與基礎設施而對行業認知與運行邏輯帶來極大挑戰。

(一)生產力再升級:AGI成為新的生產工具

盡管目前AGI尚不成熟,但以GPT、Sora為代表的在特定領域具備泛化任務處理能力的類AGI正在成為新的生產工具,從而提升行業生產力。在生產力升級過程中,AI技術會對行業現行邏輯與業務慣習產生沖擊,體現為對生產效率的影響兩極化。一方面,能夠快速掌握AI技術的專業人員能夠在AI賦能下實現生產效率的快速提升,例如語音識別、智能翻譯、智能生成圖文視頻、虛擬數字人等AI技術在專業人員的運用下有效提升訪談對話、稿件撰寫、封面制作、游戲美術設計、新聞播報等工作的效率。另一方面,大部分傳媒從業者對新技術的接受、學習與熟練使用需要一定的時間與動力,在這一過程中,往往需要從業者打破舊的業務慣習,結合AI技術進行業務流程再造,過渡階段可能會帶來短期的效率下降。

當前,包括Sora在內的大部分自稱為AGI的AI模型泛化能力尚不穩定,作為新型生產工具,其在有效性與可控性方面還有待提升,與熟練從業者相比,前者現階段的實際生產效率未必更佳。以Sora為例,其視頻生成性能遠高于此前的同類模型,然而其生成的內容時常出現基礎邏輯錯誤,如帶有鸚鵡尾巴的猴子與互相穿過身體的狗狗,這都是高度成熟的影視行業不能容許也不會出現的低級問題。但長期來看,從業者對AGI工具的運用將逐漸熟練,且AGI能力也將趨于穩定可控,AGI將成為傳媒業不可或缺的重要生產工具,在行業各個環節發揮重要作用。對此,傳媒從業者需要積極擁抱AI技術,學習并掌握運用AI的能力,如有效的prompt組合能力與模型微調能力等,從而在AGI真正到來時繼續保持人在生產活動中的主導性地位并運用AGI工具更高效地開展工作。

(二)職業認知更新:立足反身性進行傳媒職業認知的雙重更新

當前,以人工智能技術為核心的智能傳播正在深刻影響信息傳播的傳播模式、生產規律、組織運營乃至職業倫理。以信息傳播活動為業務核心的傳媒業在這一過程中受到全方位、深層次的影響,并在實踐中更新傳媒從業者的職業認知。一是AGI對信息傳播模式的影響?;ヂ摼W時代搜索引擎曾改變人類接收信息的主要方式,而基于NLP技術和強大上下文理解能力的LLM若能在AIGC信息質量、交互性方面有所提升,將促進用戶轉向使用LLM進行信息搜尋的意愿[5],這無形中改變了用戶的信息搜尋習慣。同時,AGI通過信息推薦算法等技術已經改變了傳媒消費群體的信息接收習慣,并影響了不同價值觀的傳遞效果[6]。二是AGI對傳媒業務流程的重塑。以新聞業為例,AGI的融入有效提升了新聞檢索、內容生產、產品分發、用戶反饋收集等新聞業務的效率,并通過模型微調打造專用智能工具,助力新聞生產業務全流程的智能化轉型。Sora的出現更是打破傳統影視創作邏輯,壓縮從文本創意到視頻呈現的業務距離,對現有業務流程帶來巨大影響。三是AGI對傳媒組織結構及運作管理的影響。伴隨著AGI對生產業務的效率升級和流程沖擊,傳媒業的組織架構或將基于AGI進行再次重組,而這意味著傳媒業急需結合AGI創新組織運行與管理的戰略思路與方式方法,從而實現制度層面與實踐層面的動態一致,協同推進傳媒管理智能升級。四是AGI對傳媒職業倫理提出新要求。在AGI為傳媒業提供新型生產工具并深度影響傳媒業務的過程中,新聞真實、信息把關、人文關懷等基本職業倫理也需要在新環境下進行再解讀與再界定。而傳媒從業者需要在對AGI保持審慎態度的同時培養“通用人工智能素養”,即個體對通用人工智能的認識、理解、使用、質疑和評估的能力。[7]

在傳媒業AI震蕩期,人類信息傳播活動在AI影響下具備了新的時代特征,從業者受到AI的強勢沖擊并呈現出適應態勢。在基于事實的認知更新基礎上,傳媒從業者也經由反身性方式不斷更新對自我職業認同與職業認知。作為一種更全面的反思,傳媒從業者的反身性既包括積極運用AI工具進行新型內容生產以獲得對傳媒業務的再認識和對職業價值、職業責任的再錨定,又包括在傳媒實踐中與主體性逐漸增強的AGI互動,建立與新型工具或者說職業助手的關系認知。

(三)市場結構重塑:AI輔助的新型生產群體崛起

AGI對傳媒業的根本性挑戰是技術平權[8]。AGI的前沿推進不斷降低內容生產的技術門檻,在高性能LLM問世后,NLP賦能用戶使用自然語言即可實現文本、圖像、音頻、視頻、3D等多模態內容的創意落地。在視頻化生存時代,視頻生成模型Sora實現文生視頻的性能突破,盡管尚未面向公眾開放,但對非專業用戶視頻生產力的提升將極其顯著。目前,沒接受過繪畫訓練的用戶都能夠借助Midjourney、DALL-E、Stable Diffusion等文生圖AI模型進行AIGC(人工智能生產內容)創作,而社交平臺小紅書、抖音等已經出現不少借助多樣化生成式AI進行賬號運營的內容生產者??梢韵胂?,在文生視頻AI模型公測后,對視頻模態的內容創作領域,尤其是中低端影視行業將會帶來怎樣的沖擊。

正如UGC(用戶生成內容)作為互聯網技術賦權的突出體現曾被認為是變革傳統媒體的重要力量[9],其生產主體發展成一類全職從事內容生產工作的就業群體并崛起為傳媒市場的重要組成,同一數字化轉型浪潮下快遞員、外賣員、網約車司機、直播銷售員等多種基于互聯網技術的數字勞動群體也在持續涌現并形成數字經濟產業,伴隨著AGI的前沿推進與應用落地,包括傳媒行業在內的各行各業也勢將迎來基于AGI的新型生產群體的涌現,并重塑市場結構。對此,傳媒業需要汲取互聯網時代的經驗教訓,在積極擁抱技術創新的同時,加強對AI技術環境下傳媒倫理與規范的持續性思考,形成“發展-治理”螺旋式上升的市場氛圍。

四、AGI的未來發展趨勢

作為視頻世界模擬器的AI模型Sora,與GPT系列相比,學習能力和遷移能力并不理想,但360集團創始人周鴻祎認為,Sora展現的不僅僅是視頻制作的能力,而是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破。站在AI模型開始通過自主學習理解和模仿物理世界的節點,AGI的未來發展呈現出多元趨勢。

(一)AI模型+智能機器人將成為下一階段AGI的發展亮點

一般來說,實現AGI包括兩條重要路徑,即AI模型與智能機器人,目前相關研究都已經取得令人驚嘆的成果。AI模型方面,Open AI連續推出GPT系列、DALL-E、Sora等多模態、跨模態生成式AI模型,不斷證明Scale-Law提升AI性能的有效性。與此同時,奉行非生成式路線的AI模型也有所推進,自2022年圖靈獎得主楊立昆(Yann LeCun)提出可以學習世界模型和常識等重要知識的自我監督模型“聯合預測嵌入架構”(JEPA),JEPA系列也已涵蓋文本、圖像與視頻模態。盡管技術路徑不同,但AI模型的通用性能從NLP領域向圖像、視頻拓展,并試圖理解三維物理世界并模仿,意味著AI模型正在不斷向具有廣泛遷移能力的AGI靠近。智能機器人方面,2024年初斯坦福三人團隊發布成功克隆人類行為和任務能力的移動機器人Mobile ALOHA,其成本僅為3萬美元且單個任務僅需提供50次示教便可將成功率提高至90%。[10]Mobile ALOHA展示出有效利用已有數據集進行高效遷移學習以提高機器人在復雜環境中操作能力的方式,且具有制作低成本、學習效率高、遷移能力強的特點。人形機器人Ameca二代則在模仿人類面部神情與上肢動作方面表現出色,尤其在整體調動面部要素傳遞神態情緒上仿真性極強。而在上述機器人都未涉及的行走能力建設方面,小鵬公司于2023年10月發布的人形機器人PX5不僅能夠適應多種復雜地形,還能同時應對前后左右的沖擊且具有較好的平衡能力,在行走方式上采用“直腿”、大跨步的方式,使其步態更接近人類且更節能。

基于上述技術積累,AGI的下一階段將是把靈魂注入身體,即AI模型與智能機器人的組合,從而推進人工智能領域朝最初的夢想——像人一樣的智慧機器邁進。在GPT-4加持下的人形機器人Ameca二代已經證明這一趨勢的可行性,目前,專注于人形機器人研發的Figure AI公司也表示,將與Open AI合作開發下一代人形機器人AI模型??梢?,AGI的下半場將是具有高級智能的人形機器人之間的較量。

(二)Sora助力元宇宙突破引爆點,元宇宙技術集成體雛形初現

Sora表現出對物理世界的理解與模仿能力令人看到打造世界模型的可行性,其文生視頻能力極大降低了3D場景、人物、動作的創作成本,為元宇宙提供海量的高質量內容,有望助力元宇宙建設突破引爆點。

元宇宙不是某一項或是某幾項技術簡單相加[11],而需要包括區塊鏈技術、交互技術、電子游戲技術、人工智能技術、智能網絡技術和物聯網技術在內的六大支柱技術和更多相關技術支撐實現,目前元宇宙的各項短板基本補齊。在腦機接口技術領域,國內外皆有植入芯片(即腦機接口)后的人類可以通過意念控制光標移動的成功案例,包括馬斯克的Neuralink公司和清華大學科研團隊;在空間計算技術領域,蘋果公司發布空間計算設備Apple Vision Pro,稱“將數字內容無縫融入真實世界,讓用戶處在當下并與他人保持連接”;在人工智能技術領域,Sora實現視覺數據的統一表示并推進AI模型的物理世界理解能力,英偉達公司推出面向個人終端、支持本地運行的AI模型Chat With RTX,AI模型正在拓寬其覆蓋范圍,向世界模擬與私人模型邁進;在智能網絡技術領域,華為發布全系列、全場景的5.5G產品解決方案和通信大模型。以2024年為節點,元宇宙支柱技術發展均有所突破,以“世界模型+token/patch+空間計算+腦機接口”為雛形的元宇宙技術集成體正在聚成。

從落地場景來看,元宇宙將依次經歷云游戲、數字孿生和虛實共生三個階段[12],數字孿生階段的核心技術本質上服務于元宇宙的場景搭建和虛擬主體維護。而AGI技術不僅能為元宇宙提供現實世界的數字孿生,還能基于AI模型為元宇宙中的虛擬主體注入“智慧新生”,即基于人工智能生成的智慧主體,從而突破現實世界的孿生局限,引爆元宇宙世界的智慧生態。此外,作為元宇宙的關鍵底層技術,AGI將在場景搭建、形象生成、私人助理、虛擬交互等元宇宙落地與運行中發揮持續影響,并以通用智能屬性為其他技術領域提供智慧決策。

(三)“AI鴻溝”正在顯化并呈加劇趨勢

伴隨技術性能持續升級與應用落地,Al已成為新基礎設施,而伴隨著AI與人類生活的緊密聯系,技術帶來的社會不平等終將顯化并持續加劇,這種由于AI技術差異造成的社會差異,可稱之為“AI鴻溝”?!癆I鴻溝”的概念引申自“數字鴻溝”,后者一般分為接入溝、使用溝和知識溝三道,故基于上述三個維度對AI鴻溝展開闡述。

首先,AI鴻溝的接入溝體現在國家、社會、個人三個層面:在國家層面,鼓勵創新和冒險的Al基礎好的國家和其他國家之間將出現巨大的鴻溝;在社會層面,各個國家內部的AI資源富有者與AI資源貧窮者之間也將出現差異;在個人層面,體現為人們能否獲取AI技術應用以便開展生產生活方面的差異。其次,AI鴻溝的使用溝關注獲取AI技術應用后的使用差異,由于使用時長、使用目的以及技能掌握程度的不同,人們對AI技術的使用方式與使用效率存在差異,即AI技術的多用性帶來技術使用的差異性。再次,AI鴻溝的知識溝意在回應技術接入和使用上的差異會帶來怎樣的社會后果這一問題,韋路和張明新指出其對知識獲取的影響并強調信息和知識與社會和政治力量間的轉化關系[13],而在AI鴻溝中,知識溝的形成更為明顯,因為AI技術直接影響個人對信息和知識的獲取程度,并基于技術效率快速拉大接入AI技術應用并熟練使用群體與其他群體在知識獲取效率與知識積累程度方面的差距,從而加劇AI鴻溝并阻礙其彌合。

(四)AI為人類認知提供鏡像視角,加速知識邊界拓展

AI是指具備與人類智能相似能力的機器智能,生成式AI模型出現之前,AI始終依據事先指定的模板或者規則完成相應任務,而生成式AI模型基于對人類行為的數據化學習開始具備自主生成能力,盡管較為初級,但拓寬了人類社會的信息生產方式,同時也帶來更強的學習遷移能力??梢哉f,生成式AI模型將映照人類以及現實世界的鏡子從黃銅鏡升級為水銀鏡,人類也終于能夠從AI中看到自己的“影子”。

伴隨著AGI技術的前沿推進,人類將獲得審視自己與認識世界的全新視角,即鏡像視角。從宏觀層面看,Sora等大模型的能力涌現來自對可量化信息的學習與理解,其高度復雜的算法邏輯在靠近人類思維模式的同時可能生成不同于人類認知邏輯的社會知識,從而反作用于人對世界的認知,以模擬世界與現實世界的對照關系,印證或推翻部分現有認知,增加人類社會的認知維度,從而拓展人類知識邊界。從微觀層面看,個人的認知水平是有限的,而借助AGI工具,能夠壓縮個體獲取知識的各項成本,有助于個人知識邊界的拓寬;同時,個人與AI的互動,某種程度上也反映出潛意識或無意識中的自我欲望,而自我欲望的顯化有助于個體豐富與完善自我認知,從而成長為更健全的個體。此外,個體認知的拓展將在集體中積聚,與宏觀層面的認知更新一起,助推全人類知識體系從量變到質變的飛躍。

參考文獻:

[1]Yang L,Zhang Z L,Song Y,et al.Diffusion models:a comprehensive survey of methods and applications[J].ACM Computing Surveys,2023,56(4):1-39.

[2]劉文婷,盧新明.基于計算機視覺的Transformer研究進展[J].計算機工程與應用,2022,58(6):1-16.

[3]Brooks T,Peebles B,Homes C,et al.Video generation models as world simulators[J/OL].(2024-02-15)[2024-03-03]. https://openai.com/research/video-generation-models-as-world-simulators.

[4]顧險峰.Sora物理悖謬的幾何解釋[EB/OL].(2024-02-21)[2024-03-03].https://mp.weixin.qq.com/s/HSZMbiFuNvTmBv26csZFGg.

[5]周濤,李松洮,鄧勝利.用戶信息搜尋轉移意向研究:從搜索引擎到生成式AI[J].圖書情報工作,2024,68(3):49-58.

[6]張守信,張洋.信息推薦算法對青年主流價值認同的影響及治理策略[J].中國編輯,2024(2):1-7.

[7]陳昌鳳,袁雨晴.智能新聞業:生成式人工智能成為基礎設施[J].內蒙古社會科學,2024,45(1):40-48.

[8]郭全中,袁柏林.從GPT看AGI的本質突破:傳媒業新挑戰與未來[J].新聞愛好者,2023(4):30-35.

[9]胡泳,張月朦.互聯網內容走向何方?——從UGC、PGC到業余的專業化[J].新聞記者,2016(8):21-25.

[10]Zipeng Fu,Tony Z.Zhao,Chelsea Finn. Mobile ALOHA:Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation[J/OL].(2024-01-04)[2024-03-03].https://mobile-aloha.github.io/resources/mobile-aloha.pdf.

[11]喻國明,耿曉夢.元宇宙:媒介化社會的未來生態圖景[J].新疆師范大學學報(哲學社會科學版),2022,43(3):110-118+2.

[12]郭全中.元宇宙的緣起、現狀與未來[J].新聞愛好者,2022(1):26-31.

[13]韋路,張明新.第三道數字鴻溝:互聯網上的知識溝[J].新聞與傳播研究,2006(4):43-53+95.

作者簡介:郭全中,中央民族大學新聞與傳播學院教授,互聯網平臺企業發展與治理研究中心主任(北京 100081),江蘇紫金傳媒智庫高級研究員(南京 211199);張金熠,中央民族大學新聞與傳播學院碩士生(北京 100081)。

編校:董方曉

猜你喜歡
傳媒業
試論融合發展語境下文化傳媒業的新路徑
關于我國傳媒業特殊管理股制度試點的幾點思考
歐洲傳媒系統面面觀之瑞士傳媒業圖景下
作為傳播媒介的虛擬現實技術
廣播電視傳媒業在新媒體影響下的經營模式與發展措施
危機事件中微博謠言傳播的特點及控制淺析
傳媒業發展的必然趨勢
自媒體對傳統新聞傳播的解構與重塑
中國傳媒業資本運作現狀及趨勢分析
移動互聯網給傳媒業服務業帶來深刻變化 新時空 新業態 新互聯
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合