?

交互音樂中的“聽覺”建構
——基于實時機器聽覺的交互音樂創作探究

2023-12-13 13:46趙藝璇
中央音樂學院學報 2023年4期
關鍵詞:聽覺描述符音樂創作

趙藝璇

一、機器聽覺的應用基礎

機器聽覺(Machine Listening)也可稱作計算機聽覺(Computer Audition),是一個研究機器分析和理解聲音內容的算法和系統的學科。其研究范圍涉及人工智能、心理聲學、認知科學、音樂、聲學等多個跨學科領域,很多研究成果已應用于醫療衛生、公共場所監控、交通運輸業等領域。目前國內對機器聽覺在音樂領域方面的研究主要集中于音樂信息檢索技術(MIR)(1)“音樂信息檢索”(Music Information Retrieval,MIR)是使用計算方法對數字音樂的內容進行理解和分析的技術。該技術在音樂的內容推薦、自動轉錄、自動分類、自動生成等程序中有廣泛的應用,目前研究和應用的范圍仍在不斷擴大。,其研究領域不涉及藝術創作,屬于音樂科學技術的研究范疇,成果已廣泛應用于各大商業音樂平臺,也在音樂人工智能領域發揮著極大的作用。本文側重于機器聽覺在除商業音樂之外的藝術化音樂創作方面的應用和研究,與MIR在具體使用的技術方面有一定的交叉,但其應用方式和使用目的截然不同。機器聽覺對交互音樂的創作思維和映射策略有著重要的影響,這不僅限于技術本身,也關系到技術的使用方法。

(一)機器聽覺的應用類型

早期電子音樂的出現打破了傳統作曲中使用音符系統的創作理念,也賦予了真實樂器更多的可能性,它在創作中以聲音本身為基礎單元,以組織聲音為核心手段,不僅在聲音選擇上拓寬了可使用的聲音材料,也改變了音高、和聲、旋律等傳統音樂要素在創作中的絕對意義。交互音樂的發展離不開電子音樂的興起和演變。對于深受電子音樂影響的交互音樂來說,其創作很大程度上也脫離了傳統的音符系統。因此,對于機器聽覺在交互音樂中的應用要擺脫其在傳統音樂音符系統中的常規使用來討論,需要更多地關注對聲音本身的分析和理解。由于機器聽覺涉及的研究范圍較廣,各個學科之間目前還缺乏聯系。英國薩里大學的王文武教授在其著作《機器聽覺:原理、算法和系統》中綜合各個學科的相關內容把機器聽覺的研究分為四個較寬泛的方面,分別是:1.音頻場景分析、識別和建模;2.音頻信號分離、提取和定位;3.音頻轉錄、挖掘和信息檢索;4.音頻認知、建模和情感計算。(2)Wenwu Wang,Machine Audition:Principles,Algorithms and Systems,Pennsylvania:IGI Global,2010.從這四個方面來看,我們可以得到機器聽覺大致覆蓋的研究范圍,但對適用于人機交互系統的應用細節仍需繼續進行發掘。李偉、李碩《理解數字聲音——基于普通音頻的計算機聽覺綜述》一文中,把計算機聽覺大致分為幾個子問題:1.音頻時頻表示;2.特征提??;3.聲音相似性;4.聲源分離;5.聽覺感知;6.多模式分析。(3)李偉、李碩:《理解數字聲音——基于普通音頻的計算機聽覺綜述》,《復旦學報》(自然科學版),2019年,第3期,第269—313頁。

本文研究的交互音樂系統涉及的問題基本集中于音頻時頻表示和特征提取,在人機即興交互系統中也會涉及聽覺感知。交互音樂本身是一個較為寬泛的音樂類別,對機器聽覺的使用也會隨著音樂類型的演變和技術的發展而不斷拓展。

(二)實時機器聽覺的產生

實時機器聽覺的應用可以追溯至現場電子音樂(Live Electronic Music,LEM)(4)Live Electronic Music也稱作Live Electronics,簡稱LEM,是一種現場音樂形式,現場可以使用包括電子類發聲裝置、電子類音樂樂器、計算機或任何可以生成聲音的科技設備,即興演奏在其表演中占據重要角色。的興起。LEM最初發展的目的是用來回應以聲音為基礎并為固定媒介(5)媒介可以是傳播渠道、手段或工具,本文中的媒介泛指可以傳播聲音、圖像、燈光等信號的工具。(fixed media)而作曲的音樂類型(例如具體音樂、早期電子音樂等)。LEM的定義較為寬泛,尼克·柯林斯(Nick Collins)、瑪格麗特·謝德(Margaret Schedle)和斯科特·威爾遜(Scott Wilson)曾這樣描述LEM:“將這種音樂(電子音樂)進行現場演示的動力一直存在”(6)Collins Nick,Margaret Schedle,Scott Wilson,Electronic Music,Cambridge:Cambridge University Press,2013,pp.180-191.。瓦倫蒂娜·貝爾托拉尼(Valentina Bertolani)和弗里德曼·薩利斯(Friedemann Sallis)表示:“現場電子音樂是一種表演,其中電子元素以某種互動的方式影響表演者或受表演者影響”(7)Bertolani Valentina,Sallis Friedemann,“Live Electronic Music”,in Routledge Encyclopedia of Modernism,Taylor and Francis,2016.。從這些描述中我們可以看出,關于LEM的討論更多關注于表演層面,“現場”(live)是其核心。

LEM的起源可以追溯至電子樂器例如特雷門琴(theremin)的發明和表演。20世紀30年代約翰·凱奇(John Cage)的作品《想象的風景1號》(ImaginaryLandscapeNo. 1)嘗試使用了電子產品進行現場表演。這部作品被認為是LEM作品的雛形。20世紀60年代LEM得到廣泛發展,尤其是卡爾海因茲·施托克豪森(Karlheinz Stockhaus)在WDR(8)WDR (Westdeutscher Rundfunk)是1951年成立于德國科隆的西德電子音樂工作室。(Westdeutscher Rundfunk)工作室完成的《麥克風1》(MikrophonieI),《混合體》(Mixtur)和《麥克風2》(MikrophonieII),從一定意義上真正形成了LEM的音樂形態。隨后很多音樂團體和實驗室也開始關注LEM的發展,包括著名的倫敦自由即興小組AMM(9)倫敦自由即興小組AMM是一個英國自由即興樂隊,于1965年在英國倫敦成立。、羅馬的現場電子音樂(Musica Elettronica Viva)(10)羅馬的現場電子音樂(Musica Elettronica Viva)是一個于1966年在意大利羅馬成立的現場電子音樂即興小組。和美國的聲波藝術聯盟(Sonic Arts Union)(11)美國的聲波藝術聯盟(Sonic Arts Union)是一個活躍于1966年至1976年間的實驗音樂家團體。等都開始將電子產品納入現場表演。20世紀80年代前后,計算機的引入極大地促進了LEM的發展,其中有重要貢獻的包括法國作曲家皮埃爾·布列茲(Pierre Boulez)、意大利作曲家路易吉·諾諾(Luigi Nono)和盧西亞諾·貝里奧(Luciano Berio)等人。20世紀末,聲音裝置、交互式表演環境、現場演奏的電子樂器、實時編碼(live coding)(12)實時編碼(live coding)是一種在現場即興編寫源代碼以創建和使用交互式編程的表演藝術形式,通?;跀底置浇閯摻曇?、圖像、以及燈光系統、即興舞蹈和詩歌等。等使LEM的形態呈現多元化發展,而交互音樂作為一種更注重“互動行為”的LEM類型逐漸形成了自身的新特征。

4X(13)4X是開發于20世紀80年代的數字信息處理系統,它可以對現場真實樂器進行實時處理,包括錄制聲音、放大聲音和改變聲音的頻譜。系統是由朱塞佩·迪朱格諾(Giuseppe di Giugno)在IRCAM(14)IRCAM(the Institute for Research and Coordination in Acoustics/Music)即法國蓬皮杜聲學/音樂研究與協調研究所,由皮埃爾·布列茲1977年創立,是致力于音樂創作和科學研究的國際大型公共研究中心之一。開發的一種數字信息處理系統,對LEM和交互音樂的發展起到至關重要的作用。皮埃爾·布列茲的《回答》(Répons)、菲利普·馬努里(Philippe Manoury)的《朱庇特》(Jupiter)以及羅伯特·羅(Robert Rowe)的《鏡廳》(HallofMirrors)都使用了此系統在演出現場結合真實樂器與電子音樂實時表演。在4X系統得到推廣的同時,許多研究學者已經意識到一臺可以實時工作的機器可以有效結合真實樂器的演奏和計算機的“演奏”。在這之后,硬件設備ISPW(15)ISPW(IRCAM Signal Processing Workstation)是IRCAM和Ariel Corporation在20世紀80年代末開發的硬件數字音頻工作站。以及目前最常用的使用可視化編程語言的交互軟件Max(16)Max,也稱Max/MSP/Jitter,是一種用于音樂和多媒體的可視化編程語言,由Cycling’74公司開發。,其開發都受到了4X系統的影響。Max從編程層面大大簡化了實現步驟,使聲音的感測—映射—回應都可以在一臺計算機上完成。

4X系統和ISPW雖然可以通過模擬信號轉數字信號的方式對現場真實樂器的演奏進行實時處理,但其感測音頻的能力還停留在聲音頻譜表面,更細節的分析和理解能力沒有得到擴展。這是由于一方面偵聽系統在進行模數轉換時技術不夠完善,因此轉換并不是無損的,有很多聲音信號會因此缺失;另一方面,MIDI在后期的出現雖然簡化了編程環境,但同樣也會丟失很多有關音色的詳細信息,因此識別音頻中的詳細內容需要對偵聽系統進行深入研究。

隨著Max、SuperCollider(17)SuperCollider是一種編程語言,由詹姆斯·麥卡特尼(James McCartney)于1996年開發,用于實時音頻合成和算法作曲。等擁有開放、靈活編程環境的平臺相繼出現,音頻工程師研究偵聽級別和算法越來越便利,并且很多創作交互音樂的作曲家也對機器聽覺產生了興趣。如何在偵聽系統中構建偵聽的不同層次,如何基于人類感知到的音樂內容構造計算機的聽覺感知,這些問題開啟了對機器聽覺包括實時機器聽覺的廣泛研究。

二、交互音樂中的實時機器聽覺

“實時機器聽覺”中的“實時”主要是針對交互音樂提出的,“實時”是交互音樂最重要的特點之一。交互音樂系統中的實時機器聽覺是指可以在表演現場實時分析和理解音頻流數據。實時機器聽覺屬于交互音樂系統的感測階段,在此階段系統需要對聲音進行拾取、轉換、分析和理解。實時機器聽覺在這個階段首先會經歷音頻時頻表示,即用一種方式表示拾取的聲音??梢杂脕肀硎疽纛l的方式有很多,通常情況下會通過模擬信號轉數字信號(簡稱A/D)的方式轉換為數字信號,然后再使用快速傅立葉變換(Fast Fourier Transform,簡稱FFT)表示為頻譜信息,具體流程如圖1所示。除此之外,還有許多其他可以表示音頻信息的方式。因為這不是本文研究的重點,故在此不詳細舉例和展開。

在這個基礎上,為了使聲音成為“實時控制器”實現精確的參數映射,我們需要探討真正對交互起到決定性作用的實時機器聽覺部分——音頻特征提取、音頻內容分析。

音頻特征提取指的是從擁有多維度信息的音頻數據中提取特定方面信息的過程。它可以提供多種用途,除了直接控制現場聲音效果參數之外,也可以控制燈光、視頻、圖像等其他類型參數或提供數據進行統計和機器學習等。因此我們在探討實時機器聽覺的作用時離不開音頻特征提取的作用。以下首先對音頻特征進行分類,然后討論音頻特征在交互音樂系統中的具體應用。

(一)音頻特征的分類

描述音頻信息中的不同特征,需要各種“音頻描述符”(audio descriptors)。筆者認為,可以基于對音頻內容不同維度的理解對這些音頻描述符進行劃分。具體可分為三個維度,如圖2所示。

圖1.指定條件下的交互音樂系統流程圖

圖2.音頻特征的三個維度

物理維度的描述符通常由音頻特征提取來獲得,使用較為簡單,而通過整合物理特征、執行不同算法和建模,便可以構建感知和認知維度中的描述符,其構建的結果會逐漸上升至音樂內容分析。這也顯示出三個維度在復雜程度上有一定的等級劃分。三個維度之間由于存在某種關聯或映射關系,因此在技術原理上存在很多交叉。有些感知維度的音頻描述符需要綜合多個物理維度的描述符來構建,例如頻譜質心、頻譜通量和粗糙度等多個頻譜參數可構成音色。有些不同維度的音頻描述符呈對應關系,其中較為復雜的維度以音樂內容的形式進行了高級表達,例如頻率和音高。我們由此得出,物理維度的音頻描述符在使用時相對靈活,可控制的聲音細節更多,但無法分析“音樂類”內容,而感知維度和認知維度被認為更高級、更貼近音樂內容,或者從機器角度被視為更智能、更獨立。當然,它們在某些交互音樂作品中也存在不適用的特點,例如對于噪音或者無具體節奏和具體音高的聲音材料來說,音頻信息的特征需要物理維度的音頻描述符進行描述,對音頻信息進行音樂內容的分析往往難度較大。我們在交互音樂系統的設計中需要以創作理念為前提,技術為輔助,綜合考慮不同維度的特點,選擇適合的音頻描述符。

(二)音頻特征提取

在物理維度和部分感知維度可以進行音頻特征提取的音頻內容多達50余種,其中物理維度的音頻描述符由于只關注聲音的頻譜信息,因此可用來描述任何有關聲音信息的特征細節,除了我們熟知的頻率、振幅、頻譜質心、粗糙度等聲音細節參數可作為音頻特征被提取之外,許多專家仍在探索和擴展更多物理維度的音頻描述符。

目前,音頻特征的具體提取技術以及使用平臺有很多種。例如由米勒·帕克特(Miller Puckette)、西奧多·阿佩爾(Theodore Apel)和戴維·齊卡雷利(David D. Zicarelli)開發的fiddle~和bonk~(18)fiddle~和bonk~是可視化編程語言交互軟件Max中的模塊,可被用于從實時音頻中提取音高、正弦波分量和起始位置。,由特里斯坦·查汗(Tristan Jehan)編寫的analyzer~(19)analyzer~是可視化編程語言交互軟件Max中的模塊,基于FFT原理,可分析感知層面的音高、響度、亮度等音頻特征參數。,由托多爾·托多洛夫(Todor Todoroff)開發的iana~(20)iana~是可視化編程語言交互軟件Max中的模塊,用于分析和提取聲音的頻率分量。等,它們都是在Max平臺中被廣泛使用的可進行實時音頻特征提取的模塊,可以提取包括音高、響度、亮度、噪度、正弦波分量、Bark尺度分解和起始位置等多種音頻特征。除此之外,由米哈伊爾·馬爾特(Mikhail Malt)和伊曼紐爾·喬丹(Emmanuel Jourdan)開發的資源庫Zsa~,包括了一系列專門用于實時音頻特征提取的音頻描述符。該資源庫的開發有助于在一個場景下同時組合使用多個描述符來識別指定的音頻信號特征(21)Mikhail Malt,Emmanuel Jourdan,“Zsa. Descriptors:a Library for Real-Time Descriptors Analysis”,in Sound and Music Computing Conference,Berlin,Germany,2008,pp.134-137.。

(三)音頻內容分析

音頻特征提取普遍適用于物理維度和部分感知維度的音頻描述符。認知維度由于存在復雜的音樂內容信息,涉及樂理、心理學、聽覺認知等跨學科知識,不能簡單地依靠音頻特征提取來完成,因此認知維度的機器聽覺更恰當的解釋應當是音頻內容分析。

音頻內容分析對交互音樂系統的重要性主要體現在自由即興(free improvisation)交互音樂系統。在自由即興交互音樂系統中,計算機的角色更像是一個獨立的“機器演奏者”。它對人類演奏者的回應基于對演奏內容的復雜認知,而不僅僅取決于對低維度音頻特征的提取。即興音樂理念是自由即興交互音樂系統的基礎,它在20世紀60年代中后期由即興爵士樂和當代音樂發展而來,有眾多的代表作曲家和演奏家,以及AMM和MEV這類的即興團體。這些作曲家和演奏家們在即興演奏或即興創作的過程中也嘗試使用電子產品。

在此,不得不提到喬治·路易斯(George Lewis),他是把即興音樂理念引入交互音樂系統并作出重要貢獻的音樂家。喬治·路易斯在1986至1988年之間開發的Voyager系統第一版使用了Formula(22)Formula (Forth Music Language)是一種用于控制合成器的編程語言,可以模擬人類表演的表現力。語言編程。在Voyager中,計算機可以實時分析人類即興演奏者演奏內容的各個方面,并使用分析得到的結果引導計算機即興創作。它的運行程序可以被認為是一組包含64個單獨發聲且同步運行并由MIDI控制的“機器演奏者”。當人類即興演奏者演奏時,演奏的聲音會在系統中連續轉換成MIDI數據,這些數據每5—7秒被重新計算輸入,然后在64個“機器演奏者”中形成新的“行為群組”(behavioural groups),這些“行為群組”會在“15個旋律算法”“150個由微分音描述的音高集合”“音量范圍區間”等多個參數類別中進行選擇,在選擇的同時有可能還會受到上一次“行為群組”的影響。系統每一次實時生成的結果都是一個新的獨特的回應,它有可能會對人類即興演奏者進行模仿、對立、配合或者忽略。喬治·路易斯認為,Voyager是一種非層次結構的互動音樂環境,具有即興創作的特權,在這個系統中,不同參數類別之間不一定須要進行相關計算。(23)George E. Lewis,“Too Many Notes:Computers,Complexity and Culture in ‘Voyager’”,Leonardo Music Journal,10(2),2000,pp.33-39.

隨著自由即興交互音樂系統近些年的快速發展,通過機器聽覺使用一些簡單算法分析音頻內容從而產生的計算機回應已不再能滿足音樂家們的需求。音樂家和研究者已將機器學習大量引入系統研發,通過模仿人類的聽覺認知系統來構建計算機的聽覺認知系統。除Voyager之外,包括彼得·貝爾斯(Peter Beyls)、喬納森·恩佩特(Jonathan Impett)、尼克·柯林斯、雷內·莫根森(René Mogensen)等眾多音樂家都研究了此類交互音樂系統,并且嘗試使用自己的模式和算法建立交互音樂系統。但每個作曲家對于計算機產生的即興演奏或即興創作有不同的研究層面和研究方法。例如,尼克·柯林斯提出了機器聽覺和機器學習結合的系統結構“聽覺學習”(LL:Listening Learning)(24)Collins Nick,“LL:Listening and Learning in an Interactive Improvisation System”,Technical report,University of Sussex,2011.;雷內·莫根森稱計算機在系統中擁有“部分創造力”(partial creativity),他認為使用系統進行的表演和創作可以表現出人類創造力和計算機創造力互相影響的過程。(25)Mogensen René,“Evaluating an Improvising Computer Implementation as a ‘Partial Creativity’ in a Music Performance System”,Journal of Creative Music Systems,2(1),2017,pp.1-18.在此基礎上,更多關于計算機創造力及其與人類創造力的關系等問題也開始得到不同領域研究者的關注。

音頻內容分析在音頻特征提取的基礎上對計算機的回應提出了新的要求。由于即興音樂在概念上完全取決于音樂家或演奏家個人的文化背景和音樂經驗,它們不能夠被準確定義,或者說不能夠被計算機通過使用算法來得到精確的描述。因此在自由即興交互音樂系統中,機器學習變為重要的環節。我們需要在機器的聽覺系統中建立類似人類的學習機制,使之在不斷和人類即興演奏的同時學習人類演奏的音樂內容,分析理解人類演奏的音樂情感,并嘗試預判人類的演奏等等。這些內容或者說這些能力需要人類音樂家和演奏家在演奏中或在建立系統時不斷地去培養和試驗。

音頻描述符種類繁多且擁有不同維度的表達方式,雖應用于交互音樂系統中的感測階段,但不完全取決于感測階段。換句話說,雖然實時機器聽覺需要在感測階段對獲取的音頻內容進行提取和分析,但具體提取和分析的內容實際上取決于互動策略。每首交互音樂作品都有自己獨特的互動策略,對于一部使用實時機器聽覺來創作的交互音樂作品同樣如此。

三、基于實時機器聽覺的交互音樂創作模式

交互音樂作品創作中的科技手段是作曲家和藝術家創作理念的載體,它們有時是實現創作理念的重要工具,有時也可能成為創作理念的一部分??萍己蛣撟骼砟顑烧叩年P系在交互音樂作品中互相影響、密不可分?;趯崟r機器聽覺的交互音樂創作可根據音頻信息的不同維度進行針對性創作,其創作模式具有一定的共性特點。下面筆者將以代表性作品的創作流程為指引,對作品創作環節、實時機器聽覺的應用以及表演現場進行全面梳理,呈現一部交互音樂作品從構思概念到最終表演的完整創作鏈。

(一)創作流程及主要環節

交互音樂作品中媒介與電子部分的關系是實時變化的,除了對聲音本身的考慮之外,還需從互動策略角度考慮人機交互的方式以及現場表演。

本文探討的基于實時機器聽覺的交互音樂創作主要使用聲音數據來實現人機交互,并且由于現場需要實時的音頻數據流,而不是系統已加載完成的音頻數據,因此聲音數據的來源被限制為真實樂器或可以自主發聲的交互控制器。以真實樂器為例,其聲音數據是貫穿整個創作過程的關鍵要素,它首先作為輸入源為系統運轉提供數據,其次作為控制器對回應內容進行實時控制。圖3展示了基于實時機器聽覺的交互音樂創作流程,描述了各個創作環節之間的關聯和影響。其中圖示左邊是基本創作流程,它顯示了真實樂器聲音數據的輸入方向,由于真實樂器的聲音數據來自于樂譜,因此樂譜創作成為作品理念實現的第一個創作環節;交互音樂系統作為作品理念實現的平臺,將基于聲音數據的分析進行系統設計;表演是互動結果的呈現和展示,也代表了作品理念的最終表達。圖示右邊描述了交互音樂系統設計環節的具體內容,交互音樂系統是樂譜創作映射至表演現場的重要中間環節,主要在感測、映射、回應三個階段對聲音或其他數據進行處理,其他媒介也可以在其中使用或不使用感測階段數據介入映射階段,與真實樂器共同影響系統回應的內容。

圖3.創作流程及主要環節圖示

“樂譜創作—交互音樂系統設計—作品表演”是創作過程中的具體實施步驟。與傳統作曲不同,由于交互音樂系統設計環節的增加,僅僅依靠對樂譜的認識并不能評估人類演奏家演奏的最后效果。因此在樂譜的實際創作過程中,需要通過提前構想互動策略來對最終的聲音呈現進行預估,在交互音樂系統設計的過程中,也需要提前對現場表演進行預估。通過不斷地對最終效果進行預判,可以避免后期出現的效果不融合、不匹配等問題。雖然在創作過程中可以提前對下一環節的結果進行預估,但是真正呈現的效果往往會由于系統計算的原因而與想象的結果之間出現誤差。因此,我們需要在多次排練中進行互動策略的試驗,無論是針對機器回應內容的誤差還是表演者現場表演效果的誤差,都需要對交互音樂系統或樂譜進行調整。

總之,基于實時機器聽覺的交互音樂創作是由一系列互相影響的創作環節構成,不同創作環節之間關系緊密,需要共同配合才能完成作品的最終呈現。

(二)實時機器聽覺的應用

與一般的交互音樂作品不同的是,基于實時機器聽覺的交互音樂作品應著重體現其在分析聲音數據方面的特點和優勢。我們在前文中已經介紹了實時機器聽覺的應用原理以及它所包含的不同維度的音頻描述符。在實際創作過程中,把握實時機器聽覺應用的目的以及如何依托作品理念進行應用是需要重點關注的問題。

實時機器聽覺需要通過對聲音數據的分析才能得到應用,聲音數據是貫穿互動策略最核心的要素,但系統中的聲音數據不能僅僅作為一個輸入信號來整體考慮。我們在實時機器聽覺的應用過程中需要充分考慮以及體現聲音數據中不同特征數據的使用價值。具體的應用取決于樂譜創作或無固定樂譜的現場表演,樂譜創作或表演是聲音數據的來源。樂譜中的音樂表達和表演者的音樂表演姿態都對機器回應有直接影響,因此在實時機器聽覺的應用過程中需著重考量樂譜內容及其表演,并對其映射方式及結果提前作出規劃。只有對樂譜或表演中可利用的有效特征進行提取和分析,才能更合理地設計人機互動中的創意和細節。

實時機器聽覺中不同維度的音頻描述符有各自不同的應用價值,且不同維度音頻描述符之間沒有明確、具體的劃分界限。根據羅伯特·羅在其著作《交互音樂系統》(26)Robert Rowe,Interactive Music Systems,Cambridge:MIT Press,1993.中對交互音樂系統分類的方式,我們可以大致判定較低級別音頻描述符的使用屬于樂器模式,其作用主要是為了拓寬樂器的演奏性能,而高級別的音頻描述符由于更接近人類聽覺系統,在應用上偏向于演奏者模式,其作用是為人類演奏家提供近乎平等的“演奏伙伴”。然而,在實際創作過程中,羅伯特·羅的分類方式只能幫助創作者對系統進行大致規劃,具體分類的依據可能會限制和困擾創作者對實時機器聽覺的定位以及音頻描述符的選擇。因此,在實時機器聽覺具體應用的過程中,要注重創作理念而不是具體系統類型,針對最后想要呈現的效果而不是一味地提升音頻描述符的使用級別。以尼克·柯林斯作品《替代品》(Substituet)(27)《替代品》是由尼克·柯林斯于2006年創作的為羽管鍵琴和巴洛克豎笛而作的交互音樂。為例,作品原理是由從一件樂器中提取的聲音數據來控制從另一個樂器中提取的聲音數據,其靈感來源于巴洛克時期的復調作品(28)Nick Collins,Towards Autonomous Agents for live Computer Music:Realtime Machine Listening and Interactive Music Systems [D],Centre for Music and Science,Faculty of Music,University of Cambridge,2006,p.195.。尼克·柯林斯在固定樂譜方面做了很多巧妙的設計,尤其是當其中一位演奏家單獨演奏時,演奏家與開啟的合成音色庫會營造出真實樂器和虛擬樂器互相模仿的“假象”。

實時機器聽覺的應用是幫助作品完成人機互動的首要步驟。對輸入聲音的認知是其應用的基礎。不同類型的音樂或聲音有各自不同的特點,我們需要對音樂內容進行不同層面的分析,對最適合體現作品理念的,在映射階段最有效控制聲音效果的特征數據進行提取和分析,只有合理恰當地應用實時機器聽覺才能體現其應用價值和意義。

(三)表演現場

表演決定了作品理念的最終呈現效果,一個優秀的表演現場需要呈現易于理解的互動方式。透過表演現場的宏觀表現,我們不難發現許多經過系統處理后的聲音信號或其他信號在表演現場可能會出現不融合、互相干擾或表達不清晰等問題。接下來,筆者將從表演現場的角度探討作品整體的呈現效果,涉及不同媒介對數據的處理以及表演形式的構想,指出表演現場中可能出現的問題,并提出一些常規的建議和看法。

關于表演現場的聲音效果,我們在創作環節中已經探討過,互動策略需要在彩排時多次試驗和調整才能盡可能地避免計算數據在聲音效果上產生的誤差,其他媒介同時介入映射階段也是如此。多個媒介的映射需要互相配合,無論使用哪種方式映射,都要始終清晰地展現媒介與其回應效果之間的映射路徑,避免多個媒介在同時映射時導致的回應聲音效果互相干擾和混淆的現象。關于表演現場的表演形式,多媒介表演是一種融合性表演。為了盡可能使表演流暢,且體現不同媒介的參與程度,創作者需要對人類演奏家的表演進行一些思考。比如一位人類演奏家在演奏真實樂器的過程中能否同時操作其他交互控制器?是否有必要為其他媒介的表演增加其他人類演奏家?另外,如果有除聲音外的燈光、視頻、圖像等其他媒介參與回應時,則需考慮舞臺效果是否混亂。我們始終需要牢記,任何媒介的表演都不是單獨呈現的,表演是一個整體,需要存在一定的互動規律才能使創作的核心理念更牢固。

以筆者的作品《卡戎》(Charon)(29)《卡戎》是筆者于2020年為古箏、小提琴和現場電子音樂而作的交互音樂作品。為例,該作品的創作結合了中國樂器(古箏)、西方樂器(小提琴)、電子采樣和電子效果多種不同類型的音色,其交互音樂系統設計致力于創造不同音色之間的交互作用,利用不同音色之間的互動推動作品的發展。在具體交互方案部分,小提琴部分通過實時機器聽覺提取其聲音的起音、音高、速度、包絡等特征數據,然后分別在作品的5個階段使用不同的交互方案實時控制6個電子采樣的運動變化。古箏部分除了通過實時機器聽覺提取其聲音的響度、起音等特征數據實時控制古箏的混響和延時效果之外,同時還使用Myo臂環(30)Myo臂環是一款由加拿大Thalmic Labs推出的可穿戴設備,它可以通過讀取穿戴者小臂的表面肌電信號識別穿戴者的手勢運動。收集演奏家左臂的運動數據,這些運動數據首先通過OSC(31)OSC (Open Sound Control)是一種基于以太網使各種設備(計算機等)之間互相傳輸信息的通訊協議。傳輸至Max平臺,然后在平臺上進行數據處理和機器學習,最后將訓練和處理好的5個動作指令映射出6種聲音效果。古箏演奏家在表演時一方面利用演奏聲音控制古箏電子效果的變化,另一方面通過Myo臂環識別到的左臂動作控制其他電子效果的變化,兩種不同信息類型的映射結果同時進行,共同構成機器的回應內容。

除了互動策略設計對表演現場的影響之外,由于感測聲音數據對作品交互音樂系統的運轉非常重要。如果交互控制器的信號為數字音頻信號,則不受現場表演的聲場環境和拾音方式的影響,但如果交互控制器例如真實樂器的發聲為模擬信號,則對表演現場有較高的要求。首先,拾取聲音的麥克風一般使用心形或超心形指向的麥克風,此類麥克風指向性強,可以隔絕多余的環境噪音和周圍其他樂器的聲音;其次,在多個發聲媒介同時表演的情況下,要注意媒介之間的物理距離,避免收集聲音數據時互相干擾;最后,表演現場的聲場環境需要提前試驗,因為麥克風對聲音數據的收集非常靈敏,任何聲場環境中潛在的噪音都可能會對拾音產生影響,所以在彩排時需要提前對表演環境中的環境噪音設立闕值,既要保證聲音數據有一定的靈敏度,同時也要保證聲音數據的穩定性。

基于實時機器聽覺的交互音樂創作模式具有一般性的特點,但也在具體實踐中存在一定的特殊性。通過對創作過程中一些典型情況的思考,筆者指出了創作的主要內容和需要規避的常見問題,在明確創作重點的基礎上,試圖整合創作的核心思路和基本方向。

四、幾點討論

隨著交互音樂的不斷發展,人機交互的方式呈現出多元化的發展趨勢,基于實時機器聽覺的交互音樂創作隨著科技的進步未來仍有較大的發展空間,但也面臨不可忽視的挑戰。

(一)實時機器聽覺影響下交互音樂創作的開放性和局限性

機器聽覺是在人類聽覺機制的啟發下產生的,雖然在系統構造等基本原理上試圖無限接近人類,但是由于存在與人類完全不同的聽覺理念與邏輯結構,從而賦予了交互音樂創作開放性的特點。機器聽覺中各類音頻描述符可以單獨、靈活地使用,創作者在一部作品中可以使用其中一種或幾種聲音特征進行創作,也可以將多種特征整合為高級特征進行使用和創作,并且機器聽覺只能擁有相對統一、固定的聽覺模式,不像人類一樣可以自由進行建構。換句話說,機器聽覺的模式可以模擬人類,也可以完全不同于人類。因此,在創作過程中我們可以根據自身的創作需求選擇合適的音頻描述符進行創作,或通過建構獨立個性的人工神經網絡模型為創作者提供專屬的“演奏伙伴”。

雖然音頻描述符的多樣性和靈活性為創作者提供了較為寬廣的創作空間,但同時也會給創作帶來一定的局限性。由于音頻描述符的種類繁多,內部結構復雜,擁有復雜創意或需要建構復雜人工神經網絡模型的作品對創作者的編程能力有很高的要求,可能會在技術層面限制和困擾創作者創作理念的實施。另外,特殊的即興演奏系統需要使用一定數量的音樂數據進行機器學習,這在音樂版權方面可能存在爭議。因此,雖然機器聽覺的應用使機器擁有了類似人類的聽覺系統,但實際上不一定會使交互音樂創作更便利,相反有時可能會使創作更復雜。

(二)交互音樂創作中實時機器聽覺的創造力和潛力

在基于實時機器聽覺的交互音樂創作中,實時機器聽覺為互動策略提供了新的互動形式,而由實時機器聽覺激發的機器創造力和潛力則為創作提供了創作思路和創作靈感。如何看待實時機器聽覺引發的創造力和潛力是一個具有爭議性的問題,機器聽覺在模擬人類聽覺系統結構的過程中需要尋找人類潛在的誘發基因,才能解決機器聽覺的真正“思維”結構。但大多數證據表明人類認知系統的復雜性是不能被完美模擬的,優化機器思維結構是一個持久并且可能不會被解決的問題,因此機器可能永遠無法擁有人類所定義的“創造力”和“潛力”。但從另一個角度來看,最佳的音樂創造性輸出應該是一個音樂審美的問題。對于藝術化的音樂創作,機器的創造力和潛力不需要完全等同于人類,且機器聽覺的不完美也許會造就新的音樂審美。也就是說,機器在某方面可能存在未知的“創造力”和“潛力”,而這些“創造力”和“潛力”與人類提出的定義和解釋可能不同。關于實時機器聽覺激發的機器創造力和潛力,作曲家和藝術家更需要關注的是如何給予計算機系統文化屬性和個體屬性,以及計算機的記憶應該以何種方式進行“衰退”(32)此處“衰退”是讓計算機模仿人類的記憶力“衰退”。眾所周知,人類的記憶力會隨時間而衰退,但計算機不會做出此行為,此處用“衰退”一詞是想強調:如果使計算機的記憶模仿人類進行“衰退”(比如,通過計算函數定時刪掉某些之前儲存的數據),這種方式會如何影響交互結果。。這些衰退是否會形成新的音樂審美價值,也是一個需要討論的問題。

總之,利用機器聽覺開發和發掘的機器創造力和潛力對交互音樂創作有不同程度的影響,除了在回應內容上激發創作者的創作之外,還可以引發創作者對交互音樂創作模式、人機思維模式等其他方面更多的思考。

(三)基于實時機器聽覺的交互音樂創作的發展前景

人類與計算機系統的互動是一種變革性的創新,這一方式必然與人類和人類的互動有所區別。本文以聲音特征數據作為研究基礎,以人類在互動中的音樂體驗為研究參考,對基于實時機器聽覺的交互音樂創作展開討論。探索人類與計算機系統互動的本質不僅對交互音樂創作中的人機互動策略有指導意義,也對交互音樂創作中的人機互動理念有推動作用。

基于實時機器聽覺的交互音樂創作研究是一項復雜的跨學科研究,無論是對實時機器聽覺技術的研究、對基于實時機器聽覺的互動策略的研究,還是對實時機器聽覺引發的機器創造力的研究等,都仍需要進行更多理論和實踐方面的探索。促進創作理念和互動策略不斷創新是基于實時機器聽覺的交互音樂創作的發展目標。未來依托音樂人工智能技術的發展,實時機器聽覺的研究會更加注重人機聽覺系統之間的相關性、差異性以及顯著性,而針對此類型交互音樂創作的研究也將在技術的推動下發現更多的發展路徑。

猜你喜歡
聽覺描述符音樂創作
姚晨琴歌四首《云·山·風·松》音樂創作初探
基于結構信息的異源遙感圖像局部特征描述符研究
基于AKAZE的BOLD掩碼描述符的匹配算法的研究
戲曲音樂創作應把握的三重風格——以朱紹玉戲曲音樂創作為例
Linux單線程并發服務器探索
從兩篇音樂創作評論引發的思考
利用CNN的無人機遙感影像特征描述符學習
托布秀爾音樂創作簡析
歌唱心理感覺對歌唱的作用
準確的心理節奏帶來聽覺美感
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合