?

Wordle答題情況的預測與分析

2024-01-10 06:57蔡忠哲曾日威林承鋮李韶偉
臺州學院學報 2023年6期
關鍵詞:中心點答題聚類

蔡忠哲,曾日威,林承鋮,李韶偉

(臺州學院電子與信息工程學院,浙江 臨海 317000)

0 引言

Wordle 是《紐約時報》推出的一款“猜詞”游戲,因具有趣味性和益智性,深受大眾歡迎。Wordle 玩家可通過多次的“試錯”得到線索,從而猜出“謎底”;而Wordle 依照“試錯”的次數可以給玩家評分。本文利用該游戲的運作原理和單詞的屬性解決兩個問題,以實現《紐約時報》可以預測未來某一天Wordle 游戲的答題情況,并對“謎底單詞”進行難度分類。兩個問題具體如下:

問題一:根據2023 年美國數學建模競賽(MCM/ICM)賽題數據,建立合理的預測模型,預測2023 年3月1 日的答題情況,并研究單詞屬性對答題情況的影響。

問題二:建立“謎底”單詞的難度分類模型,并說明分類結果的正確性。

1 模型建立與求解

1.1 ARIMA-LSTM預測模型

因賽題所提供的時序數據中含有線性和非線性成分,預測難度較大,所以我們選用了ARIMA-LSTM預測模型(自回歸滑動平均取值和長短期記憶神經網絡的組合模型:Autoregressive Integrated Moving Average,Long Short-Term Memory)[1-2],以便精確地預測2023 年3 月1 日的答題結果。

1.建立ARIMA 模型(自回歸滑動平均模型,Autoregressive Integrated Moving Average)。建立過程包括:數據的平穩性檢驗、差分化、確定參數、參數顯著性檢驗、模型預測。

(1)平穩性檢驗。依據自相關函數ACF(Autocorrelation Function)和偏自相關函數PACF(Partial Autocorrelation Function)[3]的結果來量化數據的平穩性,定義自相關函數為

自相關數為

其中:ft為當天需要該次數完成游戲的人的比例數,為該段時間內需要該次數完成游戲的人所占比例數的平均值,E表示期望,k為滯后系數。

定義偏自相關函數為

根據原始數據描繪圖形,如圖1 所示。由圖1 可直觀看出,原始數據的平穩性不佳,需要對其進行差分處理。

圖1 原始數據圖形

(2)差分化。根據人們的數據處理經驗,對數據差分的階數不宜過高。本文對數據經過一階差分處理,即可得到“平穩”的數據,因此確定差分階數d= 1。

(3)確定參數。通過對自相關ACF 和偏自相關PACF 進行分析,確定ARIMA 模型的參數p和q,相關的數據圖形如圖2 所示。

圖2 自相關圖與偏自相關圖

從圖2 中的自相關ACF 圖可以看出,數據為3 階拖尾;而從偏自相關PACF 圖可以看出,數據為1階拖尾。因此,可以確定p= 3,q= 1。這樣,模型的3 個參數(p,d,q)已全部確定。

(4)參數顯著性檢驗。通過殘差檢驗來判斷數據是否為白噪聲序列,基于假設檢驗H1和H0,通過構建LB(Ljung-Box)統計量來分析,即

假設H1成立時,模型有效性顯著;而假設H0成立時,殘差序列存在線性關系,模型的顯著性不足。通過實際的數據檢驗可得H1成立,模型有效性顯著。

(5)ARIMA 模型預測。經過上述步驟,模型被確定下來,使用該模型可預測得到各類型人數的比例,即

其中:Yt-j為差分平穩序列;Zt-m表示隨機誤差;p為自回歸系數;q為移動平均數。

經過模型預測,可得到從2022 年1 月1 日至2023 年3 月1 日的答題情況,如圖3 所示。接著,可進一步得到2023 年3 月1 日的預測結果。

圖3 2022 年1 月1 日到2023 年3 月1 日的預測結果

2.構建LSTM 模型(長短期記憶神經網絡,Long Short-Term Memory)。建立過程包括:處理數據、參數設定、訓練與輸出。

(1)處理數據。將原始的序列數據做類似歸一化處理,得到:

其中:yt1為處理后的數據,ytmax、ytmin分別為最大值、最小值。

(2)參數設定。對于LSTM 模型中的參數,包括訓練窗口數、節點數、迭代訓練數等,為保證預測的效果,選用修正線性激活函數ReLU(Rectified Linear Unit)[4]。

(3)訓練與輸出。輸入答題人數進行訓練,使用ARIMA 模型預測答題情況,經反向歸一化后得出預測值。為保證預測的準確性,采用加權平均方法將兩種結果結合起來,得到更為合理的預測值,如表1 所示。

表1 預測結果

1.2 K-means聚類分析模型

K-means 聚類分析[5]可實現高效的分類,要依照難度對“單詞”進行分類。首先,要確定每一個單詞的“難度”。顯然,體現單詞難度的指標有很多,例如單詞生僻程度、單詞中重復字母出現的個數等,為避免人為賦值的主觀性,這里采用所有人通過游戲所需不同次數的概率Pi來構建難度指標。

(1)指標選取。對一個單詞來說,確定簡單模式的人為V,困難模式的人為T,簡單模式下不同次數通過游戲的人為(v1,v2,...,v7),困難模式下不同次數通過游戲的人為(t1,t2,...,t7)。那么,對該單詞來說,第j次通過的概率為

但是,每個單詞在困難模式和簡單模式下耗費不同次數通過游戲的人數是未知的,因此上述公式無法直接求解。對公式進行放縮后得到:

經過變形,上述不等式的兩邊都是可求的,此時Pj可簡化為取兩數的平均值,即

由此下來,每個單詞的難度指標已構建完成。根據選取的指標,計算每個單詞各項難度指標值,得出題目所給單詞的難度特征。

(2)原始數據標準化。建立原始數據與處理后數據的關系式:

其中:X為原始數據;x為處理后的數據。

將處理后的數據集分為4 類,在數據集中隨機選取4 個中心點,坐標為

(3)計算距離。計算得到所有點與中心點的距離:

其中:Dm,i為第m個點到第i個中心點的距離;m為數據點個數;為第m個點第k項指標值。

(4)聚類分組。根據所有的點與各中心點的距離,把所有的點分配給距離其最近的點,形成一個小類群。

(5)中心點的計算。設置每個類群中心點的計算公式,即

其中:xj,i為該類群中第j個點第i項分量;M為該類群中點的個數。

(6)迭代。不斷重復上述步驟,直到迭代收斂,所有的點被分為幾個小類群,也得出了每個類群的中心點。對所給點進行聚類的結果如圖4 所示。

圖4 聚類散點圖

由圖4 可知,聚類結果共分為4 類,各類占比分別為78.552%,16.156%,3.064%,2.228%;將4 類結果分別命名為簡單、中等、較難、非常難。經驗證,該分類結果與實際相符,數據可靠。

(7)輪廓系數計算。為了說明分類模型的聚類效果較好,引入衡量聚類效果優劣的輪廓系數,它是一個可以用來描述聚類后各個類別輪廓清晰程度的指標。

首先,定義內聚度,即求出一個點與所處類群內元素的緊密程度,公式為

其中,Dij為第i個點到第j個點的距離,內聚度越小說明結構越緊密。還需要在每一個類群中計算bi,計算方法同aj,但要取其最小值,即

接著,定義輪廓系數,公式為

輪廓系數的取值在-1~1 之間,輪廓系數越接近1,說明聚類效果越好;反之,效果越差。經過計算,分類結果輪廓系數為0.83,數值接近1,說明分類后輪廓清晰,效果較好。

(8)模型準確性驗證。為了驗證分類模型的準確性,即確定預測分類結果和實際分類結果的差異,引入用于顯示預測情況與真實情況差異的混淆矩陣[6]。首先,根據分類結果構建4×4 的矩陣A(aij)。其中,aij表示實際屬于第i類而被預測為第j類的個數。接著,定義幾個重要的指標:TP(i)表示實際為第i類而被預測為第i類;FP(i)表示實際為其他類而被預測為第i類;TN(i)表示實際不是第i類,預測也不是第i類;FN(i)表示實際為第i類而被預測為其他類。最后,引入精度和正確率指標,計算公式分別為:

其中,M為樣本總數。分別計算出4 類結果的TP(i),FP(i),TN(i),FN(i),如表2 所示。

表2 混淆矩陣的幾個指標

按照式(17-18)分別計算出分類模型的精度和正確率,如表3 所示。由表3 可知,精度和正確率可以說明分類模型的效果,數值越高說明分類模型準確性越強。從表中正確率可以看出,本模型對簡單和中等難度單詞分類的準確性較高,對較難和非常難單詞的分類準確性一般。由于較難和非常難的單詞在所有單詞中占比較低(<5.3%),所以分類結果不會對游戲造成負面影響。

表3 分類模型的準確性和精確度

2 結語

本文首先構建了ARIMA-LSTM 模型來預測Wordle 的答題情況。通過數據分析,確定模型的參數值,再綜合兩個模型的預測值,給出2023 年3 月1 日的預測結果。根據結果,3~6 次嘗試的成功率占比總計達92.33%,說明絕大多數人需要通過3~6 次嘗試才能完成比賽。其次構建了單詞的“難度”指標并進行聚類分析。根據聚類結果,將所有單詞分為簡單、中等、較難、非常難4 類,其中簡單類占比最高;同時成功利用混淆矩陣引申出的精度和正確率,衡量單詞分類結果的準確性。結果表明:大多數被選為“謎底”的單詞是較為簡單的,這也比較符合實際。因為如果選擇的單詞很難,會大大削弱玩家的參與熱情和積極性,不利于游戲推廣。因此,Wordle 游戲可采用本文的模型確定備選謎底單詞的“難度”,避免將難度太高的“單詞”作為“謎底”。

猜你喜歡
中心點答題聚類
邀你來答題
邀你來答題
邀你來答題
邀你來答題
Scratch 3.9更新了什么?
如何設置造型中心點?
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
漢字藝術結構解析(二)中心點處筆畫應緊奏
尋找視覺中心點
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合