Meta強調其技術可用於還原等同CD音質的48kHz立體聲音訊檔案,並且能在單核心架構CPU上進行即時編碼與解碼,意味將能在多數裝置上使用,而其壓縮後的音訊所需傳輸頻寬僅為6Kbps,相比MP3檔案至少需要64Kbps的情況,約能減少10倍以上檔案大小。
Meta宣布推出以人工智慧提高壓縮比例的聲音技術,讓更多聲音檔案內容可以在低頻寬網路環境下順利傳輸,並且不影響其還原播放音質表現,同時也能避免在傳輸過程發生斷斷續續或聲音不清楚情況。
此項由FAIR (Fundamental AI Research)基礎人工智慧研究部門所展示的音訊壓縮技術,透過名為EnCodec的訓練模型,透過人工智慧技術將音訊檔案壓縮至指定比例。
其中,將透過編碼器將原始音訊資料轉換成較低播放率,並且透過量化器將資料進一步壓縮至指定大小,並且可透過解碼器還原播放。過程中會透過人工智慧方式識別更細微的音訊資料差異,並且藉由深度學習生成樣本作為音訊檔案解碼還原依據,進而可在播放時呈現極度貼近原始音質的聲音內容。
相較市場先前已經有不少類似技術應用打造的音訊檔案壓縮技術,Meta強調其技術可用於還原等同CD音質的48kHz立體聲音訊檔案,並且能在單核心架構CPU上進行即時編碼與解碼,意味將能在多數裝置上使用,而其壓縮後的音訊所需傳輸頻寬僅為6Kbps,相比MP3檔案至少需要64Kbps的情況,約能減少10倍以上檔案大小。
雖然此項技術目前僅對應聲音檔案,但Meta強調未來將會納入影像內容壓縮,藉此加快網路內容傳輸速率,甚至推動元宇宙應用發展。
目前Meta已經將此項技術程式編碼與樣本透過GitHub公開,並且公布相關技術白皮書。
暂无评论内容