近日,標貝科技推出一項可商業落地的聲音轉換解決方案,可將任何一種聲音的音色,精準遷移至目標聲音的音色,實現聲音的轉換。
據介紹,上述聲音轉換解決方案是基于深度神經網絡學習,應用語音信號處理和語音識別技術,可將原說話人的音色轉換成目標人音色。
目前,該解決方案已達到商業場景落地要求,如有聲閱讀、兒童教育、媒體、泛娛樂等多場景均可使用。
標貝科技語音技術相關負責人表示,聲音轉換和變聲器存在顯著不同,具體表現在4個方面。
一是聲音轉換效果。無論是變聲器軟件還是傳統變聲技術,合成的效果都存在機械味偏重問題,整體聽感不自然。而新聲音轉換方案,依托智能語音技術和深度學習技術,可以高度還原原說話人的語氣和韻律等。
二是交互體驗。傳統的變聲軟件輸出的聲音音色轉換較單調,缺乏個性化的聲音表達。新聲音轉換技術方案能夠很好地解決傳統變聲的問題,可以達到高辨識度、高自然度、高流暢度的變聲效果,同時能夠保留原發音人的語氣、韻律節奏等特征,讓變換后的聲音更有層次,更有個性。
三是應用場景。為了適應不同場景需要,聲音轉換技術有針對性地進行輸出聲音的優化訓練,進而可以更好地滿足用戶差異化的需求。
四是轉換價值。傳統變聲器輸出的效果很不穩定,需要大量人工的調節,整體音質質量只能滿足部分娛樂場景的需求。而新變聲技術,提供一站式轉換,無需人工參與,便可獲得穩定的自然聲音效果。