top of page

【Gamystery】EP21: 聲音的未來:AI語音生成如何為遊戲產業創造新價值?

已更新:2月5日

前情提要

最近,我在開發一款能改善「AI語音生成平台應用於遊戲引擎」插件。預計將於4月上架至Fab平台。


核心功能是優化「使用AI語音生成」後,所衍生出的繁瑣流程。據目前實測能夠下,與舊有的流程相比,能節省70%以上的時間。


如果剛好從事以下工作:

  1. 動畫製作團隊

  2. 遊戲開發團隊

  3. 動畫師

  4. 遊戲開發工程師

  5. 音效設計師

  6. 引擎整合工程師

且想嘗試將AI語音生成加入到開發流程當中的讀者,歡迎參與白名單募集(限50名)。( 詳細內容見表單)


由於自身「先做再說」的性格,在剩下兩個月之際,才開始回想整個開發過程還缺少什麼要素。除了加強尋找宣傳管道外,我發現似乎還缺少一個完整的分析與論述,來證明這個插件的可行性和價值。


於是趁著農曆連假期間,蒐集資料,試著發揮過去僅在網路、書本中學到的商業分析知識。


聲音在遊戲中的地位

曾經隨機在遊戲的聚會上,我隨機詢問了開發團隊成員,前三位團隊夥伴各自的技能是什麼?

十個有九個都是企劃、程式,美術,而音樂總是最排在最後。 甚至, 在有規模的遊戲團隊,音樂製作的重要性和製作程序依然被排在上述三者之後。

最近,我剛好看了Ali Elzoheiry的YouTube影片——《十個從無到有增進遊戲打擊感的技巧》,仔細地帶領開發者,看見效果如何逐一疊加帶來的正向反饋。以自身不專業的主觀感受,音效對最終遊戲反饋的影響達到了三成到兩成,凸顯搭配正確音效環境的重要性。


過去我也關注過不少AI技術,並探討它們如何應用於遊戲中。然而,實際上,能夠成功應用的案例並不多,大部分技術仍停留在啟發靈感階段,距離最終的實際應用還有超過五成的距離。而音樂、配音是我看見,距離遊戲應用最為接近的項目。


主要有三個原因:

  1. 較少、有限的資源

    小型團隊來說,過去較少的資源能分配於此,取技術與資源限制下的"取捨"。

  2. 簡單、標準化的格式

    比起3D模型,.Wav .mp3...等音檔格式,有更一致的標準化,影響從AI產出後,匯入到遊戲引擎的路徑。以"AI生成的模型"為例,先不論模型生成後的品質,在貼圖或是材質的表現上,需要人工再調整、設定,與專家製作的3D模型來說,在跨平台的過程中,完全缺乏競爭優勢。

  3. AI技術成熟

    配音與音效的表現,我認為已經遊戲玩家可接受的情境。可以從其他產業,像是自媒體、有聲書、醫療照護...等等,都有應用的案例。平時我習慣聽外語,搭配字幕來進行遊玩,面對這樣的使用情境下,對於AI產生的外語幾乎毫無分辨能力。


以上種種原因,引起我對於「配音行業整體現況,以及AI 語音生成對遊戲行業帶來影響」感到興趣,以下,分享我認為重要的產業數據及我個人的看法。


產業概況

根據AI語音服務提供商Speechify的2022數據,配音市場大約是一個44億美元的行業,雖然相對於其他行業(例如遊戲行業,年產值約為2000億美元)而言產值較低。(2024年的數據預計也相差不大)。


配音市場涵蓋兩種服務項目:

  1. 配音(Debbing): 指的是將原本的語音完全替換成另一種語言或聲音,並確保角色的嘴型、情緒與語氣匹配。

  2. 畫外音(Voice-over): 主要用於旁白或紀錄片,原音可能仍然可聽見,或聲音與角色嘴型並不需要完全對應。


整個行業服務於娛樂媒體產業為最大占比,行業包括電影、電視、Podcast和在線娛樂視頻,推動2024年佔總市場份額的32.5%以上,主要原因是電影、電視節目和串流平台除了原配音,而北美在配音和畫外音市場佔據主導地位,佔有超過43.5% 的份額,收入達到約18 億美元。主要受益於本地化所產生對多語言內容的需求,讓類型的語言都有一定的需求,也推動整體產額的增加。


真人錄製的製作流程在2024年,佔據58.2%的市場。可以從這點驗證出,AI技術尚無法滿足船傳統商業服務所需的門檻,也意味者真實且相關的語音表現的重要性。


新技術新市場

儘管多份報告指出串流技術帶來的紅利對市場份額的增長有顯著影響。對於AI技術SaaS平台的技術商而言,似乎並不是容易切入的客群(主要是因為品質門檻與收費機制)。原因在於,這些平台大多是傳統影音形式的延伸。


現有最佳的切入點,多著重在在自媒體、有聲書兩大版款,前者有製作量與成本的壓力,後者屬於文字跨足聲音的混合模式。其中有聲書市場,根據預測,到2027年,有聲書市場的價值將達到194億美元(來源)。


AI生成對聲音演藝的影響

以下是我試著遵循《創新者的修練》中提到的理論進行的分析,由於數據與認知經驗能的限制,分析範圍較為有限。部分名詞將借用書中提及的觀念,若想深入了解的可以翻閱書籍。


以下文中所提到的‘AI生成’專指AI生成的配音和音效。


對象

在位者: 聲音演藝公司

新進者: AI Voice 平台


新進者帶來的變化

  1. 類型(結論): 破壞式創新

  2. 特點:『低價』、『便利』、『服務尚有發展空間』、『創造過去不存在的市場』


遊戲市場普遍對於語音的重視度不足,觀察到可能出自於兩個層面:

  1. 資金

    在資源有限的開發團隊中,大多數情況下,「配音」對玩家遊戲體驗的提升有限。其中的增幅,不僅受到遊戲類型影響外、也與需要投入的開發成本有關(為了創造良好的視聽體驗, 多半需要再取得配音的素材後, 依照系統需求拆分、整理取得的素材,才能整合至遊戲引擎中)。

  2. 流程

    如果我們從整個製作流程的角度來看,即使資源充足,配音與劇情、文本高度相關。可想見一款遊戲的劇本勢必經過反覆翻修、測試。除非製作團隊高度掌握的配音合作團隊,否則重覆的溝通、修改也會造成龐大成本的累積。


而AI生成技術為開發團隊帶來了比以往更好的選擇,有望解決一個過去無法解決的難題(如果罐頭音效不視為解方之一)。


資源、流程、價值觀

在位者

配音公司服務各式的載體的創作,遊戲、動漫、電影…等等。流程從前期業務開發、中期的素材錄製、後期的後處理。有規模的公司可以一手包辦。


在資源方面,許多配音公司仍屬於未上市公司,因此可以產生兩個推論1.規模不足 2.不想。根據Wiki資料,可查到多間日本的聲音演藝公司,源自於1950年代左右,廣播興起時持續營運、演變演變至今。就日本地區來說,家族企業可能到制後者的機會高一些,但綜觀根本應該是受限行業規模,難以造就足以上市的企業規模。


為了培養「明星聲優」,公司的整體價值觀服務於「經紀」、「製造」。就如同偶像、演員一樣,如何培育出有實力、知名的聲優成為公司必須解決的一大難題。同時意味者,有需多流程、規劃的設計,目的在解決「培育」、「曝光」的環節。


新進者

建立AI SaaS服務的團隊,與在位者相反,是產品回頭塑價值觀,使其圍繞「軟體」、「平台」的思考方式,不再圍繞「明星」,而是思考如何提供平台的使用者更好( 生動 )、更多( 配音員 )、更便宜(訂閱制)。


AI團隊遵循著矽谷新創的模式,一輪的金額可達數億(ElevenLabs C 輪),這意味著,若要回收這些資金,他們的視野必須超越傳統的狹隘範疇。


新進者屬於何種創新?

在位者

「聲優演藝公司」的各戶群多鎖定在有一定製作成品的大眾作品,作品以非現實的類型為大宗,對於真人類型的作品,需求從配音轉向畫外音,這類需求除非節目有外銷的機會,否則未必存在。


新進者

從各家的廣告或官方影片來看,除了為非現實的角色進行聲音創作,能觀察到官方正在傳遞對於“實景”的節目能提供強大的「製作彈性」。


以下能使用情境,

  1. 個人:在畫面之後,規劃階段畫面與文本同步設計,搭配生成式配音降低成本,避免人配素材常遇到口水、卡詞…等問題。

  2. 團隊:解決影片主聲音、剪輯不同人,在需要重配素材的後製成本。


新進者企圖創造與配音公司不同的客群。這項工具,若在傳統的電視台製作流程中,未必可行,因為專業分工導致權力上分配的問題(企劃團隊、主持人、後製團隊可能接為不同團隊)。


隨著自媒體的興起,製作團隊規模精簡,並改變了大眾的觀看偏好。 跨團隊製作,逐漸走向稀缺、高成本。幕前的人員經常性為團隊核心成員兼擁有者,外加上單一的製作團隊,意味者,「聲音模型」視為團隊資產的論點更可以被接受。


SaaS創造出「能夠改善現行製作流程」的需求, 而且足夠「方便」、「便宜」,與在位者的業務模式沒有直接衝突。在這樣的脈絡下,SaaS滿足書中提及破壞式創新應該具備的特變。


下一期,會深度討論在開發流程中導入,使用AI生成語音會遇到那些困難,以及優化的方式。


如果你喜歡這期的內容可以到粉絲專業按個讚及追蹤,成為我持續續創作的動力。

或是訂閱電子報,即時收到更多與Unreal 相關的技術資訊。



bottom of page