文/ 楊嘉瑤
AI主播通過人工智能技術的驅動和支持,實現了直播內容的自動化呈現,融合了最先進的認知智能和感知智能技術,AI主播也正在逐步細分和升級。 2023年3月是AI發展較為密集的一個月,OpenAI在3月初發布引發全球轟動的ChatGPT使用模型,瞬間點燃了互聯網開發者的關注和熱情,此后各種AI智能如雨后春筍般破土而出。
2018年,全球首個AI新聞主播“新小浩”開啟了媒體行業人工智能主播的先河,之后的傳媒行業逐漸步入了AI主播的大時代。 艾媒咨詢數據顯示,2018年以后, 中國虛擬主播企業呈現爆發性增長,企業注冊數逐年增加,2022年新增注冊數達到948家,增速達68%。①
2004年, 央視CCTV-6頻道推出國內首位三維形象虛擬電視節目主持人——小龍, 其面部自然、外形高挑,單獨主持了《光影周刊》欄目②。 2018年5月,AI主播“康曉輝”走進人們視野,其外形與真人主持人高度類似,還與央視記者江凱共同主持節目并在現場進行了實時互動③。 “康曉輝”通過虛擬形象生成技術,生成與眾不同且與人物相像的虛擬形象,在很大程度上降低了制作成本。 “康曉輝”的活靈活現盡管需要真人驅動,但“康曉輝”還是指明了傳媒業的發展方向,主播AI化是大勢所趨。
1.AI主播1.0版本: 國內首個AI主持人——“新小浩”
2018年,第五屆世界互聯網大會上,搜狗推出的中英雙語2D虛擬主持人“新小浩”亮相,身著西裝,十分逼真,其原型是中國新聞主播邱浩,基于“搜狗分身”技術,抓取出真人原型的面部特征、語言特點、神態表情等,再通過高科技合成虛擬形象以及深度學習等技術進行制作。
2.AI主播2.0版本: 站立式AI主播——女主播“新小萌”
2019年3月,全球首個AI女主播“新小萌”也加入到這個特殊主播隊伍中。 它可以在固定位置站著播報新聞,肢體語言也相對豐富,其采用了模型優化和多風格數據的使用,通過這些技術手段實現了表情、肢體動作與語義的匹配,從而讓AI主播的形象更加真實自然。 除此之外,本次技術迭代也讓AI主播定制周期不斷縮減, 從一開始的需要大量數據,錄制非常長的時間,到2.0版本已經減少到利用幾個小時的視頻資料就可以完成一個虛擬形象。
3.AI主播3.0版本:更具3D特性—“新小微”
2020年5月,以新華社記者趙琬微為原型的“新小微”正式上崗,它可以360°任意角度呈現內容,可以走動、轉身,支持多機位/多景深。 表情上更加細膩、多樣化,它可以根據文字產生不同的微表情,還可以根據不同場景、不同新聞報道需要變換精致的發型、服裝和妝容。 其合成采用了驅動面部肌肉掃描還原等技術,其面部妝造走模塊化改變路線。 從坐著播報到站起來播報,從固定位置播報到走動起來的3D形象,AI技術進入主持人行業僅僅兩年多的光景,已經在終端表現上實現了大的突破。
4.AI主播4.0版本:個性化定制—“任小融”
AI主播“任小融”呈現在一個充滿交互設計的H5產品中,任小融的聊天不只有文字,還有實時的虛擬人物播報,用戶仿佛正在與一位健談的主播面對面聊天,在自我介紹和相互打招呼之后,任小融會對用戶行為數據作分析并為用戶推介可能感興趣的新聞關鍵詞,根據用戶的選擇和喜好進行相對應的口播。 其播報內容生成于主創團隊搭建的新聞數據庫,用戶多次點擊同一個關鍵詞,可能會隨機獲得不同的播報內容。 如果任小融為用戶推薦的關鍵詞不符合用戶預期,用戶還可以要求“換一批”,讓任小融再次嘗試,直到更準確地滿足需求,播報對應新聞④, 這正是人民日報新媒體對AI主播運用方向的全新探索。
當前,AI主播作為一種新型的傳播方式, 在主流媒體中蔚然成風,AI主播逐漸成為主流媒體的新寵,從新聞播報、天氣預報到娛樂節目等領域,AI主播都開始逐漸嶄露頭角。
媒體深度融合發展是當前媒體行業的重要趨勢,AI主播雖表面上看是主播的形式出現, 但這背后其實都是AI主播與大數據內容的融合。 AI主播因為其“新”,所以和真人相比有優勢;又因為其“新”,技術上會有局限。 AI主播應用優勢體現在哪? 如何打破發展瓶頸和尋找創新的突破口是現階段我們著重要考慮的問題。
表1 AI主播在我國的發展階段
表2 主流媒體有代表性的AI主播一覽表
1.整合資源獲得一體化發展?;谒惴ê痛髷祿娜斯ぶ悄芗夹g,AI能夠快速地抓取受眾信息,分析受眾需要什么類型的信息并據此推薦。 直播平臺中,AI主播實時收集和分析消費者的購物行為數據,為企業提供有價值的市場信息,幫助企業優化商品結構和營銷策略。 人工智能技術通過整合各類資源,打破原有的媒體形態和業務界限,實現新聞信息內容的全媒介、全渠道、全覆蓋傳播。
2.內容供給改革滿足受眾信息需求。頭部主播李佳琦曾說過:“一天不直播,你的粉絲就可能被另外的九千九百九十九場直播吸引走了。 ”電商直播中的AI主播有效地解決直播痛點,打破了真人主播持續直播的上限, 推進內容供給側結構性改革,實現7*24*365工作,做到直播間的“日不落”,隨時隨地與觀眾互動,滿足各個時間段的受眾的多元購物需求。 相比真人主播,基于視頻生成和大數據分析技術的AI主播在突發事件的新聞報道上獨具快速播報的天然優勢。
3.機制改革助推媒體深度融合。媒體之間的技術追逐,越來越多的AI主播被應用,技術創新為傳統媒體轉型提供新的可能,“AI合成主播”借助科技賦能,實現數字代碼轉換,快速生成新聞視頻并高效傳遞信息, 從而顯著提升工作效率及服務質量,推動節目創新發展, 實現廣播電視行業智能化、網絡化、數字化轉型升級⑤。
高端化、智能化、精簡化的AI技術為生活和工作帶來巨大便利,但其還沒有發展到完全能夠替代真人工作的程度,仍有很大的發展空間。
雖然AI主播現在已經能夠完成很多任務,但是在某些方面,它仍然存在一些技術限制和挑戰。 在工作時需要按照開發人員的指令完成播讀任務,盡管AI專屬詞庫日趨完善,仍會有一些生僻字或多音字可能會導致其發音錯誤。另外,在淘寶的電商直播中,文案話術影響電商直播收益,ChatGPT可以直接生成直播文案,但充滿機器感和距離感的直播話術直接影響消費者購買欲,智能輔播問候新進直播間的消費者,這些都需要提前完成文本輸入。 可見,AI主播技術發展還沒有達到可以獨立完成整個直播流程的程度。
觀看各種AI主播直播視頻,嘴型與音效不匹配問題十分明顯,目前的技術對AI主播的口部算法還不夠深入,文字發音與口型有直接關系,大多數受眾對AI主播的第一反饋都是牙齒模糊、口型對不上的問題。 目前,國內大多數公司用的還是bs技術,通過52個blendshapes進行面部表情捕捉, 但是52個表情基準還是無法傳達類似于真人眉毛的彎曲度、肌肉顫動等微表情細節。
抖音平臺的機器審核邏輯其實是審核音頻中的文字。 自動直播系統通過提前預設的程序和腳本,實現自動化直播帶貨,在實際操作中,如果系統未經授權自動轉播他人的作品就有可能涉及侵權問題,從而引發違規行為。 除文字以外,畫面的重復在平臺審核的范圍內,畫面占比一半超過一定的時間沒有變化,平臺會識別成錄播,從而有封號的可能。 另外,真人直播間的語音輸入通過麥克風,而AI直播間是電腦直接生成, 或者音軌品配上出問題,話術循環播放時頭尾銜接不夠自然流暢就會有被平臺判定違規的可能性。
《AI3.0》一書開篇即提出這樣一個“侯世達的恐懼”:不是擔心人工智能太聰明,而是擔心人工智能太容易取代我們人類所珍視的東西。 目前,我們面臨科林格里奇困境時刻。 2023年10月22號,在科大訊飛技術的重要運用場景科大訊飛學習機中,經典課文《藺相如》一文,居然出現了與主流價值觀不符的內容,引起了網友們的激烈討論。 這一意外出現的原因在于,審核過程還沒結束,相關人員就匆匆忙忙上線試用。
2023年5月4日,首例涉“虛擬數字人”侵權案,認定被告杭州某網絡公司構成著作權侵權及不正當競爭,為原告公司消除影響并賠償經濟損失12萬元。 另有杭州一家網絡公司采用上海魔琺公司發布的Ada數字人視頻作為其課程營銷的重要素材,該網絡公司對視頻進行了處理,在片頭、片尾替換有關標識,并添加了本公司注冊商標于其中一段視頻中,其中的侵權問題難以界定。
AI主播正在改變著人們的信息接收方式,仍有可改進之處,在未來,直播也許會實現全過程、全鏈條智能化,直播平臺也即將跨入新的紀元。
因為技術的限制,所以AI主播和真正的人工智能還存在一定的差距,目前國內的bs技術,還需進一步完善, 打造與真人盡可能相像的AI主播形象。新華社“新小微”在形象方面高度還原了真人發膚,連頭發絲和皮膚上的毛孔都清晰可見,多樣化微表情播報使得立體感和層次感明顯增強,為AI主播在外形方面的發展趨勢點明方向。
我國在AI主播技術方面最具代表性的是科大訊飛公司,專注于人工智能和智能語音,其語音合成系統達到真人說話水平,合成出的聲音具有真實感和人情味,AI主播“康曉輝”的聲音通過科大訊飛旗下的訊飛智聲平臺的AI語音合成技術模擬而成,其語音節奏和發音特點把握得恰到好處。
一是直播間打造一定要真實,真人直播間是什么樣,數字人直播間就打造成什么樣,語音輸入要通過工具轉化成麥克風輸入。 二是視頻素材占比不能超過畫面的50%,如果畫面超過50%,系統就會去識別素材是否循環,會導致被平臺判斷為錄播。 三是不要使用虛擬攝像頭, 一定要用硬件攝像頭,現在的OBS直播用的虛擬攝像頭, 不論是抖音還是快手,或是視頻號都是能識別出來的,無人直播軟件應該把虛擬攝像頭通過技術手段轉成實體攝像頭。四是要設置AI中控,不論是語音還是文字都要可以實現互動。 五是要回復評論和彈幕,啟動關鍵詞觸發,或是接入ChatGPT功能提前設置互動問答。 六是話術要豐富而且不能有敏感詞,通過軟件實現話術隨機的排列組合,建立子文件夾,按順序制作話術。七是AI主播形象一定要真實,除了動作和聲音與真人無異之外,還能像真人主播一樣,做一些比較細致的動作和產品展示。
由于現階段技術并非百分百安全,所以在AI生產的作品發布之前要有嚴格的審核機制,大模型上的內容審核機制應用于全部流程, 做更嚴格的審核。 明確新聞生產中的底線與基本原則,將倫理價值觀融入其中,從制作生產到分發傳播的每一個環節都應當是合乎規定與預設的,做好技術的把關工作是每個媒體人的基本責任。 如何在應用中嵌入新聞生產傳播的基本原則,縮小人文理念與技術理性之間的鴻溝,圈好AI技術在應用層面的范圍,將倫理融入代碼并非易事,但在智能化的未來,這是不得不面對的。
在新技術快速迭代的今天,AI主播對于我們媒體來說是一種全新的體驗。 在未來將會得到大規模的應用,需要著重關注技術產生的風險問題,同時也要相信人主導技術,而不是技術主宰人,在未來的媒體行業中,真人主播和AI主播將共同發揮各自優勢,共同推動行業的發展。
注釋:
①艾媒網:《2023年中國虛擬主播行業研究報告》,https://www.iimedia.cn/c400/92519.html,2023年3月30日。
②楊嘉儀、楊雅:《不止是“傳聲筒”:AI合成主播的特征、 趨勢與進化邏輯》,《教育傳媒研究》2019年第6期。
③知乎:《AI虛擬主播簡史》,https://zhuanlan.zhihu.com/p/67230181,2019年5月28日。
④搜狐:《人民日報AI主播 “上崗”, 有何不一樣》,https://www.sohu.com/a/657858747_570245,2023年3月23日。
⑤潘賢群:《AI虛擬主播在媒體融合中的創新運用》,《中國報業》2023年第3期。