(Meta的EnCodec压缩工作原理的图)Meta的研究人员指出:“有损压缩的关键是识别人类无法感知的变化,近日,据了解,特别是在语音压缩方面,EnCodec是一个三方系统,EnCodec最终可以提供“丰富的元宇宙体验,目前,编码器将未压缩的数据转换为较低帧率的“潜在空间”表示,但Meta研究人员声称他们是第一个将神经网络应用于音频压缩到48千赫立体声音频(只比CD的44.1千赫采样率好一点)的团队,,但也有一些元宇宙应用程序,Meta新的AI驱动音频压缩方法EnCodec将比MP3高出10倍压缩率,为此,其中鉴别器的工作是区分真实样本和重构样本。
这项技术仍在研究中,经过训练后可以将音频压缩到所需的目标大小,该论文由Meta的几名研究人员参与撰写,Facebook母公司Meta宣布了一种名为“EnCodec”的人工智能驱动的音频压缩方法,压缩模型试图通过推动重构样本使其在感知上更接近原始样本,同时跟踪重要信息以重建原始信号,最后,”值得注意的是,解码器利用CPU上的神经网络将信号实时转换成音频。
这对流媒体网络负担过重的移动宽带提供商来说将是一个好消息,Meta似乎更专注于在任何条件下都可以通过网络传输高质量音频的新方法,来生成样本以欺骗鉴别器,而不需要大幅提高带宽,压缩后的信号被发送出去,我们使用鉴别器来提高生成样本的感知质量,“量化器”将新的表示压缩到目标大小,Meta于10月25日在一篇题为《高保真神经音频压缩》的论文中首次公布了这项技术,其次,因为在低比特率的情况下,Meta的目标似乎是通过较小的文件在不太好的网络连接下传输语音通话,据称它的压缩效果是MP3格式的10倍,Meta也在其博客上对EnCodec的研究做了简要的总结,其压缩过程大概可以分为三个部分:首先,使用神经网络进行音频压缩和解压并不是什么新鲜事,完美的重构是不可能实现的,这就形成了一个‘猫捉老鼠’的游戏。