大型語言模型是目前人工智能研究中最熱門的領域之一,各公司競相發布GPT-3一類的模型,他們可以寫出令人印象深刻的連貫文章,甚至是計算機代碼。
但根據一個人工智能預測團隊的說法,一個嚴峻的問題即將出現:我們未來可能沒有足夠的數據來訓練他們。
大型語言模型是使用維基百科、新聞文章、科學論文和書籍等文本內容進行訓練的。
近年來,相關研究的趨勢是利用越來越多的數據來訓練這些模型,以期望它們更準確、更通用。
問題是,最適合用于訓練語言模型的數據類型可能在不久的將來耗盡。人工智能研究和預測組織Epoch在一篇未經同行評審的論文中指出,數據耗盡最早可能出現于2026年。
這個問題源于這樣一個事實,即隨著研究人員建立更強大、能力更多樣的模型,他們必須找到更多的文本來訓練他們。
“大型語言模型研究人員越來越擔心他們會耗盡這類數據”人工智能公司HuggingFace的研究員泰文·斯考表示。他沒有參與Epoch的工作。
另一個可能導致問題的事實是,語言人工智能研究人員將他們用于訓練模型的數據分為兩類:高質量和低質量。
但論文的第一作者,Epoch研究員巴勃羅·維拉洛博斯指出,這兩種類型之間的界限是十分模糊的。
高質量的文本內容通常是由專業作家撰寫的,因此被認為寫得更好。而被歸為低質量的數據包括社交媒體上的帖子或4chan等網站上的評論,這些低質量文本的數量遠遠超過了那些被認為是高質量的數據。
研究人員通常只使用高質量的數據來訓練模型,因為這是他們希望模型學習和效仿的語言類型。
這種方法已經在GPT-3之類的大型語言模型上實現了一些令人印象深刻的成果。
據南加州大學專門研究數據集質量的教授斯瓦巴·斯瓦揚迪普塔表示,克服這些數據限制的一種方法是重新評估何為“高質量”文本,何為“低質量”文本。
斯瓦揚迪普塔認為,如果數據短缺迫使人工智能研究人員將更多樣化的數據集納入到訓練過程中,這對語言模型而言是一個“積極因素”。
研究人員還可以努力找到延長語言模型訓練數據的使用壽命的方法。目前,由于性能和成本的限制,這些模型只在相同的數據上訓練一次。
但斯瓦揚迪普塔表示,使用相同的數據多次訓練一個模型也可能是可行的。
一些研究人員認為,對于語言模型來說,更大可能并不意味著更好。斯坦福大學的計算機科學教授珀西·梁說,有證據表明,提高模型的效率可以提高他們的能力,而不僅僅是增加他們的規模。
他解釋說:“我們已經看到,在高質量數據上訓練的小模型,其性能足以超過在低質量數據上訓練的大模型?!?/p>