歸藏(guizang.ai) Profile picture
关注人工智能、LLM 、 AI 图像视频和设计(Interested in AI, LLM, Stable Diffusion, and design) 歸藏的 AIGC 周刊|公众号:歸藏的AI工具箱

Jun 17, 2023, 7 tweets

Meta 昨天推出了 Voicebox,一个全能语音生成模型,这是一个支持六种语言和多种语音处理功能的模型,功能包括

基于上下文的文本转语音合成
跨语言风格转换
跨语言风格转换
多样化的语音采样

详细的功能介绍和原理在下面🧵:

大致原理

在Voicebox之前,生成式语音AI需要使用精心准备的训练数据为每个任务进行特定的训练。Voicebox采用了一种新的方法,仅通过原始音频和相应的转录来学习。与用于音频生成的自回归模型不同,Voicebox可以修改给定样本的任何部分,而不仅仅是给定音频片段的末尾部分。 twitter.com/i/web/status/1…

基于上下文的文本转语音合成

使用仅为两秒的输入音频样本,Voicebox可以匹配样本的音频风格并用于文本转语音生成。未来的项目可以在此基础上发展,为无法说话的人提供语音,或者允许人们自定义非玩家角色和虚拟助手使用的声音。 twitter.com/i/web/status/1…

跨语言风格转换

给定一段英语、法语、德语、西班牙语、波兰语或葡萄牙语的语音样本和文本段落,Voicebox可以产生该语言的文本朗读。 twitter.com/i/web/status/1…

语音降噪和编辑

Voicebox的上下文学习使其在生成语音以无缝编辑音频录音片段方面表现出色。它可以重新合成被短时噪音破坏的语音部分,或者替换掉错误发音的单词,而无需重新录制整个语音。 twitter.com/i/web/status/1…

多样化的语音采样

通过从多样化的野外数据中学习,Voicebox能够生成更贴近现实世界中人们交流方式的语音,覆盖了上述六种语言。将来,这种能力可以用于生成合成数据,以帮助更好地训练语音助手模型。 twitter.com/i/web/status/1…

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Keep scrolling