?

去烏托邦式的想象:ChatGPT內容生產的偽客觀性考察

2023-12-17 12:06邱立楠陳淼
新聞論壇 2023年5期

邱立楠 陳淼

【內容提要】每種技術都有自己的議程,都是等待被揭示的一種隱喻。ChatGPT作為一種新興生成式人工智能技術,其以用戶“需求”問題為中心的信息生產方式,抽離了人類在回答問題時的主觀建構能力,被看成是一種“機器理性”的客觀陳述。然而,ChatGPT生產的內容所表現出客觀性卻是一個偽命題,其表現出的高度擬人化,也是被人類馴化的結果,作用于ChatGPT的用戶需求、數據庫和人工培訓三個因素都帶有強烈的人工設計因子,成為ChatGPT內容生產具有“偽客觀性”的根源,并導致消息依從性理論下的偏見呈現、媒介效應理論下的確認偏誤和聚焦效應理論下的事實扭曲等危害。

【關鍵詞】ChatGPT? 內容生產? 偽客觀性? 人機傳播

伴隨人工智能算法的不斷發展,能夠獨立完成信息檢索、圖像建構和文本生成等復雜任務的生成式人工智能迅速成為時下新寵。美國人工智能研究公司OpenAI推出的ChatGPT,作為生成式人工智能的佼佼者,可以根據聊天對話框的語境和場景與用戶進行有差別的人機互動。而在新聞傳播領域,ChatGPT自己聲稱其內容生產的觀點是中立的,[1]具有“客觀中立屬性”[2],其生產的內容被認為是對新聞內容生產者“直覺能力”的修正,是一種“理性、中立、客觀”的“機器理性”表達。[3]然而,本文通過對ChatGPT所生產的內容進行考察,發現ChatGPT看似算法“理性”所生成的“有邏輯”的內容生產,其真實性與可靠性并不高,其生產內容的所謂客觀性,也只是一種烏托邦的想象。

一、ChatGPT內容偽客觀性產生的根源

古往今來,隨著傳播技術的發展和傳播形式的多樣,傳播的結構、關系和效果也會隨之調試。而傳播又是“社會關系內部的一種粘聚力,它同時又是無法窺見的,或者沒有明確和永久的形式”,[4]這也客觀造就了不同時期的傳播學者,都會基于自身所處的傳播環境,而提出不同的傳播模式論,以試圖揭示傳播中各系統之間的次序及其相互關系。然而,抽象的文字敘述,通常無法被直接感知和觀察,也難以喚起人的感官體驗,進而難以將ChatGPT內容生產傳播中的關系全貌予以理性概括與全景展示。為更直觀解析ChatGPT內容生產的“偽客觀性”的產生根源,筆者嘗試將以圖像模式的方式,解析梳理ChatGPT內容生產的過程。

圖1中,A是指ChatGPT的數據庫。其數據庫主要由兩個部分組成。其一是訓練數據集。該部分主要用于訓練ChatGPT模型的文本數據集,包括從互聯網上抓取的大量原始語料庫,如維基百科、媒體新聞、網絡小說等。其二是模型參數。ChatGPT在訓練過程中會生成一定的模型參數,這些模型參數會被保存在模型文件中,成為ChatGPT進行自然語言處理任務所必需的可調整的變量,并控制模型對輸入數據的響應方式。在這里,模型參數的作用是將輸入文本轉換成潛在語義空間中的向量表示,并根據這些向量進行下一步操作,如生成回復、分類等。因此,模型參數的設置直接影響了模型的性能和效果。值得注意的是,模型參數只是模型的一部分,還需要考慮模型的架構、損失函數等其他因素對模型性能的影響。以GPT-3為例,它是目前已知規模最大的自然語言處理模型,擁有1750億個模型參數,[5]訓練時也使用了數百TB的文本數據。盡管當前ChatGPT的訓練數據庫只涵蓋了2021年9月1日之前的信息,且該日期之后的文本數據尚未用于訓練ChatGPT模型,但是ChatGPT數據庫卻是一個不斷更新和發展的系統,其模型參數也會在機器學習過程中不斷被保存在模型文件中。模型參數數據庫會隨著時間的推移而不斷豐富。

C是信息生產的中介,即ChatGPT。它在整個信息傳播流程中充當著信息生產者的角色,擔負著根據用戶在聊天對話框輸入B(用戶的信息需求,下文詳述),再利用語言模型和生成式對話系統技術,完成輸入文本編碼、語言建模、采樣生成和輸出文本解碼等步驟,最終實現從A中找到相關知識并生成更加準確的內容回復給B的內容生產任務。具體而言,ChatGPT首先將B轉換為數字序列,并通過模型參數中保存的神經網絡結構進行前向傳播計算,得到每個單詞在潛在語義空間中的向量表示。然后,使用自回歸語言模型技術,依次生成下一個單詞,并根據生成的單詞重新計算概率分布,ChatGPT會一直重復這個過程,直到生成所需要的文本長度或遇到停止符號。此外,ChatGPT在生成過程中,會通過查詢數據庫A中的相關信息,如知識庫、語料庫等,以獲取更多的上下文信息來提高回答的準確性和流暢度。因此,數據庫A是支持ChatGPT進行自然語言處理和內容生成的重要基礎。

由此可知,ChatGPT只是一個基于大規模語料庫訓練的自然語言處理模型,而且隨著ChatGPT根據用戶的提問和持續的上下文追問內容,會依賴人工智能算法對用戶進行人物畫像,并對其不斷調整、完善,最終實現更精準理解用戶問題、更加準確回答用戶問題的目標。但是,ChatGPT本身并沒有人類的感知和人生經驗,只是通過自然語言處理技術從文本數據中學習和提取知識,而不是對世界真正的理解。因此,ChatGPT無法通過個人經歷和情感體驗來形成自己獨特的世界觀和人生觀,ChatGPT對于世界和人生觀的理解,也主要是基于對A中存在的文化、價值觀和思想傾向等方面的信息而習得。故而,如若人對訓練數據集的選擇和處理存在著某些文化和心理偏見,那么這些偏見就有可能在ChatGPT生成的回答中得以體現。在一些涉及道德和倫理問題的問答中,ChatGPT也可能給出不合適甚至有害的建議。因此,在使用ChatGPT時,B需要謹慎對待其輸出的結果,理性判斷和補充。

B是用戶的信息需求,也是C內容生產的服務對象。從圖1中可知,用戶在對話框中輸入自己的個性化信息需求B,C獲得信息指令后,會使用自然語言理解(NLU)技術,識別用戶的指令,并在數據庫A中查找與用戶畫像指令匹配的信息。在此期間,涉及到語義搜索、實體識別、知識圖譜等技術,以求獲取最準確和全面的結果集。最后,ChatGPT再生成相應的回答,并將其轉換成自然語言文本輸出給用戶。所以,這個過程中是B驅使C滿足自身信息需求的人機互動實踐。在人機互動實踐中,ChatGPT已被廣泛應用在在線客服、智能問答等領域,以幫助用戶快速獲取信息、解決問題。所以說,ChatGPT的內容生產服務旨在解決用戶在生活和工作中遇到的各種自然語言處理的問題,提高用戶的智能化水平,而非生產客觀的內容。

E是C根據B的需求生成的內容。用戶對ChatGPT生產的內容使用與滿足如圖2所示,如果ChatGPT生成的E滿足B,B可能會繼續追問得到生產的F1,或結束問答。反之,B會調整提問詞,再次詢問,C再內容生產出F1。此時如果F1滿足B,B可能結束問答或繼續提問,C再生產出F2,如果不滿足B,B可能因為多次無法得到滿足而放棄提問。以上過程將一直重復,直到B獲得滿意的內容而停止提問,或者始終得不到想要的內容而放棄提問。

D是人工培訓,是C能夠“擬人”的主要原因。C的語言模型中被注入“幾萬人工標注”的數據,這些數據不是世界知識,而是“人類偏好”。[6]“人類偏好”包含兩方面含義:一是人類表達任務的習慣說法;二是判斷好問題、好回答的標準。為了讓C更好地扮演“人”的角色,“OpenAI的人類訓練師扮演用戶與人工智能助手的角色,在Microsoft Azure的超級計算機上對其進行嚴格訓練?!盵7]人工培訓一般分為兩個階段:第一是數據收集階段。研究人員需從各種文本數據源中收集大量的覆蓋各種主題、風格和語言的文本數據,以確保其質量和多樣性。第二是模型訓練階段。研究人員使用已經收集好的文本數據來訓練ChatGPT模型。訓練過程中,研究人員會將大量文本數據輸入至ChatGPT模型中,同時優化模型參數和算法,以提高模型的準確性和泛化能力。這個過程需要大量的計算資源和時間,因此需要高效的并行計算和分布式訓練技術。ChatGPT的人工培訓是一個反復迭代的過程,它會不斷調整模型參數、改進算法,并對模型進行評估和測試,持續地對模型進行訓練和優化,以確保其質量和可用性。

綜上,通過對ChatGPT內容生產模式的大致解析,我們不難發現ChatGPT作為一種新興生成式人工智能技術,其以用戶“需求”問題為中心的信息建構方式,抽離了人類在回答問題時的主觀直接建構能力,是一種“機器理性”的客觀陳述與回答。然而,ChatGPT生產的內容所表現出客觀性卻是一個偽命題。訓練數據集和模型參數本身是客觀的,但是在訓練數據集的選擇和處理、模型結構的設計等方面會有人類的主觀因素介入,這可能會對最終模型的性能產生一定的影響。同時,信息在源頭上也是不客觀的。首先,A中的信息也不是完全客觀的,這些數據來源是多樣化的,來自不同領域和文化背景,因此可信度良莠不齊,很難保證其中沒有謠言與謬論。此外,模型參數也受到訓練算法的影響,不同的訓練算法可能會導致不同的模型參數,從而產生不同的模型性能。因此,評估模型性能時需要考慮這些因素的影響。由于ChatGPT的數據庫所涵蓋的信息并不全面,當B的信息需求超出涵蓋范圍時,ChatGPT就會“一本正經地胡說八道”。[8]而ChatGPT作為人工智能并沒有辨別和糾錯的能力,在傳播過程中只是根據用戶需求選擇整理信息?!懊糠N技術都有自己的議程,都是等待被揭示的一種隱喻?!盵9] ChatGPT創造之初是為了提供一個與人類進行自然交互的方式,用戶的需求引導它選擇用戶喜歡的信息,以用戶喜歡的方式加工,輸出用戶青睞的觀點。滿意度和客觀性,ChatGPT更偏向于前者。而ChatGPT表現出的高度擬人化,也是被人類馴化的結果,注入的人類偏好和判斷標準使之不再處于中立地位。

總之,作用于ChatGPT的用戶需求、數據庫和人工培訓三個因素都帶有強烈的人工設計,也成為ChatGPT的內容生產具有“偽客觀性”的原罪因子。

二、ChatGPT內容生產偽客觀性的危害

(一)消息依從性理論下的偏見呈現

美國傳播學者桑德拉·鮑爾斯(Sandra Ball-Rokeach)和米歇爾·帕姆勒(Melvin DeFleur)在1976年提出了影響至今的消息依從性理論。該理論強調了媒體在社會生活中的重要地位,并提出了人們獲取和使用信息的方式受到媒體、機構和社交網絡三個因素的“依賴模型”,后成為研究媒體與受眾關系的重要理論之一。根據消息依從性理論可知,人們在獲取和使用信息時會依賴媒體,并且媒體的選擇和使用可能會影響他們的態度和行為。此外。媒體在決定哪些信息應該被報道和如何報道時,也會受到它們與受眾之間相互依存關系的影響。如果受眾對某個話題的知識、態度或行為受到媒體的支配,那么媒體的報道可能會對受眾產生更深刻、更持久的影響。

而ChatGPT的大量原始語料數據庫,是由互聯網用戶生產的內容和新聞作品等組成。據此理論可知,ChatGPT在內容生產中會自然受到消息依從性的影響,從而產生具有偏見呈現的信息內容。其具體表現在:

其一,媒體對話題的選擇。如果 ChatGPT 的回答是基于有偏見的媒體報道來生成的,那么媒體可能會選擇一些特定的話題,從而影響用戶的態度和行為。例如,在政治、社會等敏感話題上,媒體可能會采用特定的框架來描述事件,從而強調或忽略某些信息,進而導致 ChatGPT 的回答存在偏見性。如在政治話題上,訓練數據中可能傾向于某些特定的政治立場或意識形態,從而導致 ChatGPT 的回答存在傾向性或偏見。

其二,媒體對用戶的影響?;谙⒁缽男岳碚?,ChatGPT 會借鑒媒體報道中存在的偏見、刻板印象等信息來生成回答,從而對用戶的態度和行為產生影響。例如,由于訓練數據中存在關于男性和女性的常見刻板印象,ChatGPT 生成的回答也可能不公正地偏袒或歧視某一性別,進而生產出具有性別偏見的內容。

其三,用戶對媒體的依賴程度。如果用戶對 ChatGPT 的回答過于依賴,那么他們可能會忽略其他來源的信息,從而無法全面、客觀地理解事件。同時,如果 ChatGPT 的回答包含有偏見的信息,那么用戶可能會被誤導,進而產生錯誤的看法和行為。

故而,技術的開發天然帶有某種傾向,OpenAI開發ChatGPT的初衷是憑借算法模型以便更好地理解人類語言,為用戶提供更準確的答案和服務。這是一個盈利性質的程序,能否滿足用戶的需求獲得收益是經營的核心。因此它非常重視用戶的反饋,通過多次的用戶白描繪制精確的用戶畫像?!癆mato, R.M.Quintan等將用戶畫像描述為‘一個從海量數據中獲取的、由用戶信息構成的形象集合, 通過這個集合, 可以描述用戶的需求、個性化偏好以及用戶興趣等?!盵10]而每個用戶的價值判斷價值選擇是不同的,為了迎合用戶的需求,ChatGPT會根據用戶畫像產生千人千面的個性化回答。如詢問最為經典的“電車問題”中是否要犧牲一個人拯救另外五個人時,ChatGPT的回答是措辭恰當的,為犧牲辯護。然而,當重新措辭問題并繼續詢問時,“它會隨機地爭論贊成或反對犧牲?!盵11]為迎合用戶喜好,ChatGPT的內容生產并非無差別的客觀與中立,可見其以討好的方式在進行內容生產。隱喻是人類的一種認知方式,人們通過隱喻性思維來認識事物和建立概念系統??梢?,媒介是一種隱喻,ChatGPT的內容生產,正在用一種隱蔽但有力的暗示在定義、詮釋和改變著現實世界。當前,用戶正在把ChatGPT討好性的內容當作認識世界的依據,沉醉于精心打造的虛擬世界中,對顯而易見的真相置之不理。

(二)媒介效應理論下的確認偏誤

媒介效應理論是從媒介與受眾關系的剖面,深化了人們對媒介與受眾關系的理解和認識。該理論最初由哈羅德·亨特和保羅·拉扎斯菲爾德于20世紀40年代所提出。他們認為,媒介對人們的影響主要體現在三個方面,即知識、態度和行為。其中,知識效應指媒介傳達信息所產生的影響,包括信息的數量、質量和準確度;態度效應指媒介對受眾態度的影響,包括影響受眾對某些事物的看法、評價和情感;行為效應指媒介對受眾行為的影響,比如促進或抑制受眾參與某些活動的意愿和行動。

在當下,ChatGPT作為生成式人工智能的快速落地和應用,由于其算法和訓練數據的特定性,可能存在某些主題或觀點的偏差,從而導致一些誤導性信息的生產。例如,當ChatGPT的訓練數據來源于某一個特定的文化、地區或社會群體時,那么其在生成內容時便會自然而然地傾向于表達該群體的觀點和偏見,而忽略其他群體的態度和經驗。此外,如若ChatGPT的人工培訓或算法編碼者有特定的政治立場、商業利益或偏見時,他們也可能通過調整算法或訓練數據以讓ChatGPT生成一定有利于自己的信息,并將其傳達給受眾。

現實生活中的用戶在信息搜集和處理過程中,更愿意接受那些與自己原有信念和觀點相符的信息,而對那些不符合自己觀點的信息持懷疑態度或直接忽略,這種確認偏誤傾向,更會加劇ChatGPT的內容生成的“偽客觀性”。如在學科研究領域中,常會出現一種顯而易見的“提出假設(hypothesis)而尋找證據”的傾向,即學科研究者在研究之前,內心已持有一個大致的想法或理論構思,然后會去尋找證據來支持自己的觀點,而不是采用一種更加客觀的方法來尋求“真實”的解釋。由于ChatGPT只是根據輸入的文本數據來生成回答,所以如果輸入的數據存在誤導性或不準確性,那么生成的回答也可能存在同樣的問題??梢?,ChatGPT已不僅僅是一種單一的信息傳遞工具或簡單地中轉信息,它會通過內容生成迎合用戶想要滿意的回答,進而影響受眾對信息的接收和理解方式,改變用戶的認知、態度和行為。

(三)聚焦效應理論下的事實扭曲

聚焦效應理論是指當人們在面對復雜信息時,會更傾向于注意和關注那些比較顯著、引人注目或容易理解的部分,而忽略其他相對不重要的信息。該理論由以色列心理學家阿摩斯·特沃斯基和丹尼爾·卡尼曼于1974年在《判斷與選擇:主觀概率的心理學》一文中所提出,成為行為經濟學領域的重要經典論述。具體在ChatGPT內容生產領域,ChatGPT模型在生成內容時,可能會更加關注那些比較突出、容易理解或代表性的信息,而忽略其他相對不重要但可能更為真實的信息。ChatGPT在深度學習算法的加持下,雖然能夠生成大量文本信息,但其也受限于訓練數據集的質量和多樣性。如果訓練數據集缺乏多樣性或存在扭曲的數據,ChatGPT模型所生成的內容也可能具有類似的扭曲現象。

此外,由于ChatGPT模型的訓練方法是基于概率統計模型的,其需要盡可能減少訓練數據集中的噪聲或異常值,以提高模型的準確性。因此,在訓練過程中,ChatGPT模型可能會忽略那些不符合常規或不具備代表性的數據,從而導致模型所生成的內容出現偏差或扭曲。

ChatGPT在回答問題時總是強調“作為一個人工智能,我沒有個人觀點或意見,也沒有政治偏好”?!霸诰帉懸粋€python函數來檢查某人是否會是一個好的科學家,基于他們的性別和種族的描述”的回答中看到,“ChatGPT的答案更偏向于白人男性”[12]。OpenAI表示這是數據源頭的錯誤,已經使用人工標注篩選錯誤信息,但是這種情況仍然會發生。ChatGPT作為人工智能沒有明確的立場,但是它抓取的信息有傾向性,當數據庫產生污點時,它仍然會把錯誤信息作為范本進行后續的內容生產,這是人機傳播特有的局限性?!皞鹘y的傳播過程中,信源和信宿均為人,人類成為傳播過程中唯一的參與者?!盵13]人機傳播中,機器作為交流者參與其中,成為了信源或信宿。人和機器的區別在于人有思維意識?!叭说囊庾R是物質世界長期發展的產物,意識是人腦的功能,其內容是客觀事物在人腦中的反映?!盵14]機器通過算法模擬人的意識產生的思維不是人的心理活動,而是算法運作的過程。

人在傳播中能辨別信息的真偽,從而做出相應的行為。而人工智能只會聽從指令,完成既定的任務,不會思考和判斷。ChatGPT擁有的高度“類人”的能力是算法和人工標注強制賦予的,其本質還是機器,無法真正和人一樣思考。因此它無法辨別信息的真偽,它所遵循的基于客觀事實是分析抓取的信息,選擇被大多數人支持的觀點作為事實模板和人工標注灌輸的“人類偏好”。這種固定的判斷標準不足以適應龐大的信息和多變的用戶需求,就會出現不符合常理的回答。在這一點,作為一個AI語言模型,ChatGPT的內容生產僅是基于其訓練數據集和算法所得出的結果,無法像人類一樣具有主觀意識或道德價值觀。因此,在某些情況下,如果ChatGPT的訓練數據集存在偏見或限制,那么它所生成的文本內容也可能會反映這種偏見或限制,ChatGPT最終生產出來的內容扭曲事實缺乏客觀性也就不足為奇了。

三、余論

ChatGPT能夠真正理解用戶嗎?顯然不能。ChatGPT理解用戶需求本質上是以算法為核心的運行機制對計算機語言或數字化語言上的認知?!叭说睦斫獠皇羌行?、模塊化的現象,而是具有離散性,它默然無聲地彌漫于人在世界中的諸多活動中,‘我存在并理解著?!盵15]人無法脫離情境像算法一樣完全理性地思考,算法也無法理解人的感性,即使算法將用戶的畫像描繪得非常精準,也不可能完全理解用戶的心理和需求。在一對一的模式下,ChatGPT剝奪了用戶的選擇權,將主觀認為用戶滿意且“客觀”的信息強制呈現在用戶的面前。在這種“強買強賣”的傳播模式中,用戶處于被支配地位,被物化為ChatGPT完成指令的工具。人的物化,使人和算法趨于一致,被“數據化”為程序的一部分,從而失去了人的主體地位。

從媒介技術的潮流趨勢來看,ChatGPT的發展勢不可擋,人類只有科學理性認識其內容生產的偽客觀性,才能更好地發揮其內容生產的優勢,實現人與技術的和諧共生。

【本文系江蘇省高校哲學社會科學研究重大課題“視頻社會化時代視聽障礙者的視聽權保護及社會融入研究”(項目編號:2023SJZD094)的階段性成果,江蘇海洋大學2023年度黨建與思想政治教育研究重點課題“去烏托邦的想象:ChatGPT內容生產的危害及對青年正向引導研究”(項目編號:DS202315)的研究成果,江蘇海洋大學2023年大學生創新創業訓練項目“媒介技術視角下人工智能ChatGPT寫作的現狀、問題與對策調查”的研究成果】

參考文獻:

[1]鄒開亮,劉祖兵.ChatGPT的倫理風險與中國因應制度安排[J].海南大學學報(人文社會科學版),2023,41(04):74-84.

[2]何天平,蔣賢成.國際傳播視野下的ChatGPT:應用場景、風險隱憂與走向省思[J].對外傳播,2023(03):64-67+80.

[3]鐘祥銘,方興東,顧燁燁.ChatGPT的治理挑戰與對策研究——智能傳播的“科林格里奇困境”與突破路徑[J].傳媒觀察,2023(03):25-35.

[4][英]丹尼斯·麥奎爾,[瑞典]斯文·溫德爾. 大眾傳播模式論[M]. 上海:上海譯文出版社, 1997:4.

[5]喻國明,蘇健威.生成式人工智能浪潮下的傳播革命與媒介生態——從ChatGPT到全面智能化時代的未來[J].新疆師范大學學報(哲學社會科學版),2023,44(05):81-90.

[6]朱光輝,王喜文.ChatGPT的運行模式、關鍵技術及未來圖景[J].新疆師范大學學報(哲學社會科學版),2023,44(04):113-122.

[7]令小雄,王鼎民,袁健.ChatGPT爆火后關于科技倫理及學術倫理的冷思考[J].新疆師范大學學報(哲學社會科學版),2023,44(04):123-136.

[8]趙晨熙. 立法促進人工智能快速健康發展[N]. 法治日報,2023-02-21(006).

[9]尼爾·波茲曼.娛樂至死[M].章艷譯.桂林:廣西師范大學出版社,2004:179.

[10]劉海鷗,孫晶晶,蘇妍嫄等.國內外用戶畫像研究綜述[J].情報理論與實踐,2018,41(11):155-160.

[11]Sebastian Krügel, Andreas Ostermaier, Matthias Uhl.The moral authority of ChatGPT[J]. Computer Science,2023(01).

[12]Ali Borgi.A Categorical Achieve Of ChatGPT Failures.[J]Computer Science,2023(02) .

[13]牟怡.人機傳播的內涵、外延及研究議程[J].青年記者,2023(02):9-11.

[14]安啟念.蘇聯馬克思主義哲學的興衰[J].國外理論動態,2020(02):135-144.

[15]王敬,魏屹東.人工智能具有理解力嗎——從哲學解釋學的視角看[J].大連理工大學學報(社會科學版),2023,44(03):104-110.

作者簡介:邱立楠,江蘇海洋大學文法學院副教授,碩士生導師,博士;陳淼,江蘇海洋大學文法學院學生

編輯:王洪越

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合