?

訓練??智能語?模型的數據或在???六年耗盡？

2022-04-20 16:04

海外星云 2022年24期

關鍵詞：低質量高質量人工智能

大型語言模型是目前人工智能研究中最熱門的領域之一，各公司競相發布GPT-3一類的模型，他們可以寫出令人印象深刻的連貫文章，甚至是計算機代碼。

但根據一個人工智能預測團隊的說法，一個嚴峻的問題即將出現：我們未來可能沒有足夠的數據來訓練他們。

大型語言模型是使用維基百科、新聞文章、科學論文和書籍等文本內容進行訓練的。

近年來，相關研究的趨勢是利用越來越多的數據來訓練這些模型，以期望它們更準確、更通用。

問題是，最適合用于訓練語言模型的數據類型可能在不久的將來耗盡。人工智能研究和預測組織Epoch在一篇未經同行評審的論文中指出，數據耗盡最早可能出現于2026年。

這個問題源于這樣一個事實，即隨著研究人員建立更強大、能力更多樣的模型，他們必須找到更多的文本來訓練他們。

“大型語言模型研究人員越來越擔心他們會耗盡這類數據”人工智能公司HuggingFace的研究員泰文·斯考表示。他沒有參與Epoch的工作。

另一個可能導致問題的事實是，語言人工智能研究人員將他們用于訓練模型的數據分為兩類：高質量和低質量。

但論文的第一作者，Epoch研究員巴勃羅·維拉洛博斯指出，這兩種類型之間的界限是十分模糊的。

高質量的文本內容通常是由專業作家撰寫的，因此被認為寫得更好。而被歸為低質量的數據包括社交媒體上的帖子或4chan等網站上的評論，這些低質量文本的數量遠遠超過了那些被認為是高質量的數據。

研究人員通常只使用高質量的數據來訓練模型，因為這是他們希望模型學習和效仿的語言類型。

這種方法已經在GPT-3之類的大型語言模型上實現了一些令人印象深刻的成果。

據南加州大學專門研究數據集質量的教授斯瓦巴·斯瓦揚迪普塔表示，克服這些數據限制的一種方法是重新評估何為“高質量”文本，何為“低質量”文本。

斯瓦揚迪普塔認為，如果數據短缺迫使人工智能研究人員將更多樣化的數據集納入到訓練過程中，這對語言模型而言是一個“積極因素”。

研究人員還可以努力找到延長語言模型訓練數據的使用壽命的方法。目前，由于性能和成本的限制，這些模型只在相同的數據上訓練一次。

但斯瓦揚迪普塔表示，使用相同的數據多次訓練一個模型也可能是可行的。

一些研究人員認為，對于語言模型來說，更大可能并不意味著更好。斯坦福大學的計算機科學教授珀西·梁說，有證據表明，提高模型的效率可以提高他們的能力，而不僅僅是增加他們的規模。

他解釋說：“我們已經看到，在高質量數據上訓練的小模型，其性能足以超過在低質量數據上訓練的大模型?！?/p>

猜你喜歡

低質量高質量人工智能

堅持以高質量發展統攬全局

當代陜西(2022年5期)2022-04-19

高質量項目高質量發展

當代陜西(2021年1期)2021-02-01

牢牢把握高質量發展這個根本要求

當代陜西(2020年20期)2020-11-27

低質量實用新型專利申請授權對經濟秩序的影響

理論與創新(2020年16期)2020-11-03

“三部曲”促數學復習課高質量互動

福建基礎教育研究(2019年3期)2019-05-28

2019：人工智能

商界(2019年12期)2019-01-03

人工智能與就業

IT經理世界(2018年20期)2018-10-24

數讀人工智能

小康(2017年16期)2017-06-07

低質量的婚姻不如高質量的單身，是真的嗎？（一）

婦女生活(2017年5期)2017-05-16

破解學前教育低質量現象

幼兒教育·教育科學版(2016年5期)2016-09-29

海外星云 2022年24期

海外星云的其它文章: 元宇宙服裝已形成產業？Roblox公司在數字服裝上賺取數億美元; 沙特的科幻“線性城市”正在建造但?歌地圖上卻找不到蹤影; ?齡聽障?童親?團體教學活動設計; 于闐熱?克佛寺遺址; 好萊塢?星格溫妮絲· 帕特洛和她的??; 邵洋洋：合成微生物的前沿探索者

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合