?

智慧養老系統中針對海南方言識別技術的設計*

2023-11-12 15:17耿強黃雪琴
數字技術與應用 2023年10期
關鍵詞:海南省方言海南

耿強 黃雪琴

1.??诮洕鷮W院;2.海南經貿職業技術學院

隨著信息技術的發展,生活設備及設施越來越智能化,也為老年人帶來了更加便利、舒適和安全的生活方式。其中語音交互是智慧產品較為普遍的人機交互方式,而方言識別在智慧養老產品中不夠普及,這就給只擅長說方言的老年人設置了一個門檻。本文通過對海南方言和語音交互模型進行簡要分析,探討方言識別在智慧養老產品中出現的困境,并提出解決思路。旨在為老年人提供更加個性化和便捷的養老服務,提高老年人的獲得感和幸福感。

2021 年5 月,國家統計局發表了第七次全國人口普查公報:“60 歲及以上人口為264018766 人,占18.70%,其中65 歲及以上人口為190635280 人,占13.50%。與2010年第六次全國人口普查相比,60 歲及以上人口的比重上升5.44 個百分點,65 歲及以上人口的比重上升4.63 個百分點?!币蚨S著人口老齡化程度的不斷提高,老年人的養老服務及各類保障也將面臨著巨大的壓力。如何有序有效的建設和完善養老服務體系,提高我國老年人的養老質量,提升老年人的幸福感,是我國“十四五”建設的一個重要方向。

目前,我國在智慧養老服務方面持續不斷的探索與更新,越來越多的養老服務產品貼合了老年人的需求。智能產品在養老服務中的廣泛應用,通過語音交互、人臉識別等智能操作,已大大解決老年人操作難、按鍵繁雜、步驟繁瑣等問題。

其中語音交互是目前大部分智能產品應用較多的、同時也是最重要的一種人機交互方式。但同時也存在著一定的難題。我國是一個多民族國家,各民族、各地區都有自己的語言特征,特別是對于老年人,普通話還未成為他們的常用語言。而目前國內大部分的智能產品語音交互是基于普通話的交互,從而導致部分不擅長使用普通話交流的老人無法使用相關智能產品。

當前智能產品的語音交互采用的語言,除了比較普及的普通話,還有應用人群相對較多的閩南語和粵語。而使用人數比較少的語言,例如,針對海南省的各個地方方言,幾乎沒有智慧產品能夠提供語音服務。

1 海南省方言簡介

海南省本地有30 多個民族,主要使用的是12 種不同漢語方言。方言包括了海南話、軍話、客家話、黎語、儋州話、村話、臨高話、回輝話、邁話、海南苗語、蛋家話等[1]。海南話是屬漢藏語系漢語閩南方言,是海南省最主要的語言之一,使用人口約占全省人口的80%,主要集中在??谑?、文昌縣、瓊??h、萬寧縣、定安縣、澄邁縣和屯昌縣等地[2]。剩下的其他方言為海南省使用人數較少的語系,而各方言之間幾乎無任何關聯,不是生活在該地區的本地人基本是聽不懂的。

(1)講臨高話的居民主要居住在海南省北部偏西。而研究表明,臨高話是“屬于漢藏語系侗傣語族壯傣語支的一種語言”[3]。臨高話的很多詞語的語序和普通話的語序是相反的,例如,牛肉、豬肉、雞肉等,臨高話說出來是“肉牛,肉豬,肉雞”;大哥、二哥、三哥等,臨高話的語序是“哥大、哥二、哥三”[4]。并且大部分的句子語序按照普通話的標準來看都是亂序的。

(2)海南軍話有“移民文化的活化石”的美稱,廣泛分布在海南的崖城、東方、儋州、昌江等地[5]。之所以稱為“軍話”,大體與將軍士兵的習慣用語分不開。根據文史資料記載,古代的仕宦、將軍、士兵及家人從大陸進入島內后,長期生活在島內而留下來的語言,屬漢藏語系漢語北方方言西南官話系統。

(3)儋州話屬漢藏語系漢語粵語方言系統,主要分布在儋州、昌江、東方等市縣的沿海一帶地區。有研究表明,儋州話比較接近于古漢語,比較多的生活用語接近古漢語的使用。例如,儋州話的生活用語“幾多”表示“多少”、用“幾時”表示“什么時候”,這用語在古代詩詞中也是常見的用語。

海南省存有眾多方言與各自的民族分布,與歷代的移民開發關系密切。移民大都以語言與遷徙來源為依據各自擇地而居,這就形成了既有共性又有個性的語言和方言的群落[6]。海南省大部分的方言使用人群都不多,在語音交互研究和開發上成本較高,從而導致現有的語音交互產品中,無法使用海南方言進行交流互動。而海南本地有較大一部分老年人是不會講普通話的,使得這些老年人在使用智慧養老產品時,存在一定的障礙與困難。

2 語音交互模式

語音、體態、人臉等方式是目前智慧產品常用的交互手段,是智慧養老產品的主要交互方式。語音交互是一種通過語音輸入和語音輸出進行人機交互的模式,基于語音識別技術將人的語音信息轉換成文本,然后使用自然語言處理技術進行理解和分析,最終生成合適的回應。通過語音合成技術將機器生成的文本轉換為可聽的語音輸出或相應的指令。具體的技術模型如圖1 所示。

圖1 語音交互模式Fig.1 Voice interaction mode

2.1 語音識別

語音識別技術(Automatic Speech Recognition)是一種將人類的語音輸入轉換為文本或命令的技術,它是語音信號到文字內容的過程[7],是人機實現語音交互的重要基礎部分,是確保計算機“聽得見”的步驟。

語音識別流程如圖2 所示,主要是計算機對語音信號進行處理。通過錄音設備進行語音輸入,將聲音的模擬信號轉換為數字信號并進行預處理,識別聲音的開始和結束。去噪、降噪、過濾等處理以提高音頻信號的質量;然后將初步處理后的音頻信號進行識別表征,提取有用的特征;根據音頻信號的特征識別,從聲學模型和字典中搜索最優的音素、單詞和句子;再使用語言模型對識別結果進行校正和優化,根據語言的統計規律和句子結構推測最可能的文本序列,找到最佳匹配的文本序列;最后將最優的文本序列進行錯誤修正、語法糾正,語句分段等操作處理,提高輸出文本的質量。

圖2 ASR 過程Fig.2 ASR Process

2.2 自然語言理解

自然語言理解(Natural Language Understanding)是將人類的自然語言輸入轉換為計算機可以理解和處理的技術。它的目標是使計算機能夠準確地理解人類的意圖、情感和語義,并將其轉化為可操作的信息,是確保計算機“聽得懂”的步驟。

自然語言理解是自然語言處理的第一個階段,旨在使計算機能夠理解人類語言并從中獲取有意義的信息。這個階段首先要對ASR 傳送過來的文本進行分詞和詞性標注;再進行語法分析,根據語法規則,分析語句的語法結構;然后進行語義分析,理解句子的領域、意圖;最后識別邏輯關系、上下文信息等,初步確定用戶的意圖或目的。

2.3 DM 對話管理

對話管理(Dialogue Management)是指在人機對話系統中負責管理和控制對話流程的組件或算法。它的任務是對對話狀態跟蹤、管理對話流程,以使機器能夠以自然、連貫和目標導向的方式與用戶進行對話。這個步驟主要的工作內容是解決“在聽得懂之后如何做”的問題。

對話管理接收NLU 傳輸過來的信息(語義表征),在對應的領域中,根據用戶習慣和系統默認的填充詞,追蹤對話數據,確定對話意圖,輸出對話交互的系統行為與決策。

2.4 自然語言生成

自然語言生成(Natural Language Generation)是指通過計算機系統自動生成符合自然語言規則和語法的文本或對話。這項技術可以將結構化數據、知識、意圖等轉化為人類可理解的自然語言表達。自然語言生成根據DM 傳遞的決策等語義表征信息作為參數,利用模板填充、規則引擎、語言模型和文本規劃等技術,生成自然流暢、有可讀性和理解性的文本。

2.5 語音合成

語音合成(Text to Speech)將文字信息轉換為自然流暢的語音輸出,讓機器能夠以聲音的形式與人進行交互。

語音合成技術先對文本進行分詞、斷句、詞性標注等處理;再將詞或詞組轉為對應的音素;然后根據音素和聲學模型生成語音參數序列;最后根據語音參數序列找到匹配的音庫,合成語音并生成波形。

3 技術難點分析

語音交互在智慧養老產品中應用較廣,例如,生活輔助類的智能音箱、智能燈具、智能窗簾等工具,對老年人進行生活輔助。老年人同樣可通過語音來控制照明開關、空調溫度、各類智能家電等,提高生活的質量和便利。在健康檢測方面,老年人可通過語音提示查詢自己的身體健康指數,如血壓、心率等,可通過智能手環遠程聯系醫護人員或子女,獲取健康咨詢或幫助;在健康輔導方面,語音交互與VR(虛擬現實)結合,為老年人提供身體鍛煉、平衡訓練等活動,幫助老年人提高或保持身體的活力與張力;在社交或娛樂方面,語音交互可幫助老年人進行簡單的語音通話、語音信息和智能音箱互動等娛樂行為,緩解老年人的孤獨感。

對于我國多民族、多語言的特點,再加上海南的方言與普通話在發音上有著差別巨大,語言交互方式會經常遇到“喚不醒”或“聽不懂人話”的場景。所以老年人在使用智慧養老產品時面臨著一定的困境。

3.1 語音識別的準確性不高

海南省各地方言與普通話的發音存在很大的差別,部分老人雖然可以使用普通話進行簡單的對話,但語音,帶著較重的方言口音,例如,將地方方言中的變音、重音和語調等都在普通話的表達中展現出來,這些語音特征對語音識別系統造成困擾,從而影響智慧養老產品在語音識別時的準確率。并且老年人這一群體也存在著聽力下降、言語模糊的特點,這些都會降低語音交互的準確性與流暢性。

這一困境的解決途徑可通過收集用戶的語音數據、糾錯信息和語音系統的自我學習技術,積累和更新更多的語音數據集,包括各種口音、方言和語速等變化。針對老年人口齒不清等特點,加強濾除環境噪聲對語音信號的干擾,并增強語音信號[8],不斷優化和更新語音識別系統,提高語音識別系統對各種語音特征的準確識別能力。

3.2 數據收集與處理難度大

海南省各地方言有著多而雜的特點,且大多數無文字和發音記錄,需要進行方言的轉寫和標注工作,以便將方言語音轉化為可處理的文本數據。然而海南省各地方言在語音語料數據的收集和處理上都存在著較大的難度。

海南省各地方言在發音、詞語、語序和語法等方面都存在著差別,缺乏一定的標準化。這使得在語音數據標注時,需要根據海南省各地方言制定相應的標注規則以確保數據的一致性和準確度。這不但加大了前期的工作量,還給標注工作帶來了較大的復雜度;在語音語料數據采集方面,由于海南省講各類方言的人口相對少且地理分布分散,并且有些講海南省地方方言的年輕人現已常用普通話,慢慢地淡化了方言的特點和屬性,一些地道的詞語反而無法口語表達出來,從而導致能夠收集到有效的語音語料數據的深度和廣度都不夠。這些都限制了海南省地方方言語音語料庫的完整性和語音模型的訓練,無法完成語音引擎的優化,降低語音識別的準確率和可靠性。

針對該問題的解決思路是聘請當地地方方言的研究專家,全過程參與語音識別系統的設計與開發。積極開展海南省地方方言數據收集工作,盡可能收集更多語音數據,在標注過程中利用方言研究專家的專業知識和經驗,提供準確的發音規則和語法語序的特點,確保數據的準確性和一致性,改進系統的性能。同時通過自適應學習技術,讓方言識別系統能夠根據用戶的輸入和反饋,進行調整和優化,提高對方言習慣和發音差異的適應能力。

3.3 對智慧產品的適應能力低

老年人習慣了傳統的按鍵操作方式,對于語音交互的使用存在不適應和抵觸情況。語音交互需要理解喚醒并理解用戶的指令再執行相應的功能。老年人缺乏對語音交互技術的理解和經驗,再加上發音模糊或口齒不清,在語音技術和操作上有一定的困難。導致老年人需要多次重復發出指令才可以進行簡單的交互,或多次嘗試后仍無法正確執行,給老年人帶來挫敗感,從而出現抵觸的情緒。再者老年人聽力能力下降,語音交互是一種線性交流,只能單向獲取信息[9],無按鈕點擊重復播放。當語音設備的語速或環境的原因而導致老年人無法接收完整的信息,老年人只能重新發起語音指令,這增加了老年人的操作負擔而產生不適應性。

這一問題的解決思路首先可通過為老年人提供簡潔、清晰、易于理解的語音關鍵詞,同時可以在產品界面上突出顯示這些關鍵詞,以便老年人記憶和發出正確的語音指令。然后再根據老年人的聽力特點和習慣,對語音交互產品的聲音進行優化,提供清晰、明亮的聲音,避免噪音和干擾,以幫助老年人更好地聽到和理解語音交互的內容。最后可提供多種語音交互學習的方式,幫助老年人學習語音交互的技術。通過多種途徑提高老年人在語音交互操作上的獲得感和滿足感。

4 總結

隨著信息技術的不斷發展,生活設備及設施越來越智能化,針對老年人個性化需求的智慧產品也在不斷的更新與完善。目前,方言在智慧養老產品中出現的語音交互方式的困境是一個普遍性問題。而方言作為地域文化的一個重要組成部分,也是人們日常交流中最重要的語言形式。

智慧養老產品為了拓展市場,提升用戶體驗感,滿足不同區域的用戶需求,能夠較好支持地域方言的語音交互也是企業面臨的一個課題。雖然要實現方言在語音交互中的廣泛應用有一定的難度和挑戰性,但隨著語音識別和自然語音處理技術的不斷發展和創新,將為方言在語音交互中的應用提供技術支持和基礎。同時,還需要政府、企業和各界共同努力,提供政策保障,以促進方言文化的保護和智慧養老產業的融合發展。

引用

[1] 余旭文.基于深度學習的海南方言語音識別[D].???海南大學,2020.

[2] 葉蕓,呂志勇.海南話研究的現狀與展望[J].湖北科技學院學報,2021,41(1):51-57.

[3] 張星,馬英.海南臨高話[J].中央民族學院學報,1983(1):44-66+85.

[4] 李佳飛,王勇.海南“臨高人”的族源及遷徙路徑[N].海南日報,2011-12-12(B10).

[5] 辛慧.海南軍話研究概況[J].寧夏大學學報(人文社會科學版),2018,40(3):28-31.

[6] 劉新中.海南島的語言與方言[J].方言,2001(1):45-52.

[7] 王斌,王育軍,崔建偉,等.智能語音交互技術進展[J].人工智能,2020(5):14-28.

[8] 李婉玲.老人陪護機器人的語音交互技術研究[D].無錫:江南大學,2018.

[9] 賈國忠.面向老年人的智能音箱語音交互設計研究[D].廣州:華南理工大學,2018.

猜你喜歡
海南省方言海南
方嚴的方言
方言
說說方言
留住方言
SINO-EUROPE SYMPOSIUM ON TRADITIONAL CHINESE MEDICINE & HERBAL MEDICINE-MARKET OVERVIEW ®ULATION POLICY
海南的云
59國免簽游海南
為海南停留
海南省腫瘤醫院
是海南省還是海南島?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合